RISS 학술연구정보서비스

검색
다국어 입력

http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.

변환된 중국어를 복사하여 사용하시면 됩니다.

예시)
  • 中文 을 입력하시려면 zhongwen을 입력하시고 space를누르시면됩니다.
  • 北京 을 입력하시려면 beijing을 입력하시고 space를 누르시면 됩니다.
닫기
    인기검색어 순위 펼치기

    RISS 인기검색어

      KCI우수등재

      GPU의 효율적인 자원 활용을 위한 동시 멀티태스킹 성능 분석 = Performance Analysis of Concurrent Multitasking for Efficient Resource Utilization of GPUs

      한글로보기

      https://www.riss.kr/link?id=A107582628

      • 0

        상세조회
      • 0

        다운로드
      서지정보 열기
      • 내보내기
      • 내책장담기
      • 공유하기
      • 오류접수

      부가정보

      다국어 초록 (Multilingual Abstract)

      As Graphics Processing Units (GPUs) are widely utilized to accelerate compute-intensive applications, their application has expanded especially in data centers and clouds. However, the existing resource sharing methods within GPU are limited and canno...

      As Graphics Processing Units (GPUs) are widely utilized to accelerate compute-intensive applications, their application has expanded especially in data centers and clouds. However, the existing resource sharing methods within GPU are limited and cannot efficiently handle several requests of concurrent cloud users’ executions on GPU while effectively utilizing the available system resources. In addition, it is challenging to effectively partition resources within GPU without understanding and assimilating application execution patterns. This paper proposes an execution patternbased application classification method and analyzes run-time characteristics: why the performance of an application is saturated at a point regardless of the allocated resources. In addition, we analyze the multitasking performance of the co-allocated applications using smCompactor, a thread block-based scheduling framework. We identify near-best co-allocated application sets, which effectively utilize the available system resources. Based on our results, there was a performance improvement of approximately 28% compared to NVIDIA MPS.

      더보기

      국문 초록 (Abstract)

      계산 집약적인 응용을 가속화하기 위해 GPU(Graphics Processing Unit)가 널리 사용됨에 따라 데이터 센터 및 클라우드에서 GPU는 점점 더 많이 활용되고 있다. 여러 응용들의 동시 실행 요청이 있을 ...

      계산 집약적인 응용을 가속화하기 위해 GPU(Graphics Processing Unit)가 널리 사용됨에 따라 데이터 센터 및 클라우드에서 GPU는 점점 더 많이 활용되고 있다. 여러 응용들의 동시 실행 요청이 있을 때 GPU 자원을 효율적으로 공유하도록 하는 연구는 아직 충분하지 않다. 또한, GPU 내의 자원을 효과적으로 공유하는 것은 응용의 자원 사용 패턴을 인지하지 않고서는 어렵다. 본 논문은 응용의 실행 패턴에 기반한 응용 분류법을 제시하고 자원 할당량 증가에도 성능이 향상되지 않는 이유를 런타임 특성에 따라 설명한다. 또한, 스레드 블록 기반 스케줄링 프레임워크인 smCompactor를 사용하여 분류된 응용을 기반으로 응용 조합의 동시 멀티태스킹 특성을 분석한다. 이를 통해 자원의 효율적인 활용이 가능한 응용의 조합을 파악한다. 응용 실행 특성을 고려하여 GPU상 멀티태스킹 실험을 진행한 결과, 기존 동시 실행 방법인 NVIDIA의 MPS와 비교하여 평균 28% 이상의 성능 향상을 보였다.

      더보기

      참고문헌 (Reference)

      1 Qichen Chen, "smCompactor: A Workloadaware Fine-grained Resource Management Framework for GPGPUs" 2021

      2 Xu, Qiumin, "Warped-slicer: efficient intra-SM slicing through dynamic resource partitioning for GPU multiprogramming" IEEE 2016

      3 Yijie Huangfu, "Warp-Based Load/Store Reordering to Improve GPU Time Predictability" 11 (11): 58-68, 2017

      4 Wang, Zhenning, "Simultaneous multikernel GPU: Multi-tasking throughput processors via fine-grained sharing" IEEE 2016

      5 Che, Shuai, "Rodinia: A benchmark suite for heterogeneous computing" IEEE 2009

      6 Stratton, John A., "Parboil: A revised benchmark suite for scientific and commercial throughput computing" Center for Reliable and High-Performance Computing 2012

      7 "NVIDIA profiler"

      8 "NVIDIA Multi Process Service (MPS)"

      9 "NVIDIA Hyper-Q technology"

      10 "NVIDIA CUDA Sample"

      1 Qichen Chen, "smCompactor: A Workloadaware Fine-grained Resource Management Framework for GPGPUs" 2021

      2 Xu, Qiumin, "Warped-slicer: efficient intra-SM slicing through dynamic resource partitioning for GPU multiprogramming" IEEE 2016

      3 Yijie Huangfu, "Warp-Based Load/Store Reordering to Improve GPU Time Predictability" 11 (11): 58-68, 2017

      4 Wang, Zhenning, "Simultaneous multikernel GPU: Multi-tasking throughput processors via fine-grained sharing" IEEE 2016

      5 Che, Shuai, "Rodinia: A benchmark suite for heterogeneous computing" IEEE 2009

      6 Stratton, John A., "Parboil: A revised benchmark suite for scientific and commercial throughput computing" Center for Reliable and High-Performance Computing 2012

      7 "NVIDIA profiler"

      8 "NVIDIA Multi Process Service (MPS)"

      9 "NVIDIA Hyper-Q technology"

      10 "NVIDIA CUDA Sample"

      11 Ukidave, Yash, "Mystic: Predictive scheduling for gpu based cloud servers using machine learning" IEEE 2016

      12 Zhao, Xia, "HSM: A Hybrid Slowdown Model for Multitasking GPUs" 2020

      13 김광복, "GPU 성능 향상을 위한 지연시간 숨김 기반 워프 스케줄링" 한국컴퓨터정보학회 24 (24): 1-9, 2019

      14 Bao, Yixin, "Deep Learning-based Job Placement in Distributed Machine Learning Clusters" IEEE 2019

      더보기

      분석정보

      View

      상세정보조회

      0

      Usage

      원문다운로드

      0

      대출신청

      0

      복사신청

      0

      EDDS신청

      0

      동일 주제 내 활용도 TOP

      더보기

      주제

      연도별 연구동향

      연도별 활용동향

      연관논문

      연구자 네트워크맵

      공동연구자 (7)

      유사연구자 (20) 활용도상위20명

      인용정보 인용지수 설명보기

      학술지 이력

      학술지 이력
      연월일 이력구분 이력상세 등재구분
      2021 평가예정 계속평가 신청대상 (등재유지)
      2016-01-01 평가 우수등재학술지 선정 (계속평가)
      2015-01-01 평가 등재학술지 유지 (등재유지) KCI등재
      2002-01-01 평가 학술지 통합 (등재유지) KCI등재
      더보기

      학술지 인용정보

      학술지 인용정보
      기준연도 WOS-KCI 통합IF(2년) KCIF(2년) KCIF(3년)
      2016 0.19 0.19 0.19
      KCIF(4년) KCIF(5년) 중심성지수(3년) 즉시성지수
      0.2 0.18 0.373 0.07
      더보기

      이 자료와 함께 이용한 RISS 자료

      나만을 위한 추천자료

      해외이동버튼