RISS 학술연구정보서비스

검색
다국어 입력

http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.

변환된 중국어를 복사하여 사용하시면 됩니다.

예시)
  • 中文 을 입력하시려면 zhongwen을 입력하시고 space를누르시면됩니다.
  • 北京 을 입력하시려면 beijing을 입력하시고 space를 누르시면 됩니다.
닫기
    인기검색어 순위 펼치기

    RISS 인기검색어

      KCI등재

      GPU 성능 향상을 위한 메모리 요청 재배치 기법

      한글로보기

      https://www.riss.kr/link?id=A102598735

      • 0

        상세조회
      • 0

        다운로드
      서지정보 열기
      • 내보내기
      • 내책장담기
      • 공유하기
      • 오류접수

      부가정보

      국문 초록 (Abstract)

      대규모 병렬 처리 구조인 그래픽 처리 장치는 스레드 수준의 병렬성을 활용할 수 있다. 최신 GPU는 CUDA, OpenCL 등을 활용하여 그래픽처리뿐만 아니라 범용 애플리케이션까지 처리가 가능하다. ...

      대규모 병렬 처리 구조인 그래픽 처리 장치는 스레드 수준의 병렬성을 활용할 수 있다. 최신 GPU는 CUDA, OpenCL 등을 활용하여 그래픽처리뿐만 아니라 범용 애플리케이션까지 처리가 가능하다. GPU에서 사용되는 캐쉬는 불규칙한 메모리 접근 패턴을 가진 응용프로그램을 처리하는데 있어서 효율성을 제공하지만, 다수의 스레드들을수행하는 경우에는 캐쉬 크기, 캐쉬 경합으로 인해 성능 문제가 발생할 가능성이 높다. 본 논문에서는 GPU에서 작은 크기의 큐를 사용하여 L1 데이터 캐쉬 메모리 요청을 재배치하는 기법을 제안한다. 제안된 기법은 기존의 GPU 에서 사용되는 캐쉬 관리 기법보다 훨씬 높은 효율성을 보여준다. 실험결과, 제안된 기법은 GPU 캐쉬 성능을 향상시켜 IPC를 평균 4.3% 향상시킴을 알 수 있다.

      더보기

      다국어 초록 (Multilingual Abstract)

      Graphics Processing Units (GPUs) with massive parallel processing architecture are able to leverage thread-level parallelism. Especially, with programming models like CUDA, OpenCL, such architectures become one of the most attractive platforms for han...

      Graphics Processing Units (GPUs) with massive parallel processing architecture are able to leverage thread-level parallelism. Especially, with programming models like CUDA, OpenCL, such architectures become one of the most attractive platforms for handling not only graphics but also general-purpose applications (GPGPUs). In modern GPUs, caches have been introduced to deal with applications with irregular memory access patterns. However, GPU caches exhibit poor efficiency due to constraints in terms of size as well as many performance challenges such as cache contention, resulting from launching a large number of active threads in GPUs. In this paper, we propose a technique that can order memory requests to the L1 data cache in a friendly way than the baseline cache management by using a small number of simple queues. Experimental results show that our technique can improve GPU cache performance over the baseline architecture, thus improving IPC by 4.3% on average.

      더보기

      목차 (Table of Contents)

      • 요약
      • Abstract
      • 1. Introduction
      • 2. Related Work
      • 3. GPU Architecture
      • 요약
      • Abstract
      • 1. Introduction
      • 2. Related Work
      • 3. GPU Architecture
      • 4. Proposed Technique
      • 5. Experiments
      • 5.1 Experimental Methodology
      • 5.2 Results
      • 6. Conclusion
      • 참고문헌
      더보기

      동일학술지(권/호) 다른 논문

      동일학술지 더보기

      더보기

      분석정보

      View

      상세정보조회

      0

      Usage

      원문다운로드

      0

      대출신청

      0

      복사신청

      0

      EDDS신청

      0

      동일 주제 내 활용도 TOP

      더보기

      주제

      연도별 연구동향

      연도별 활용동향

      연관논문

      연구자 네트워크맵

      공동연구자 (7)

      유사연구자 (20) 활용도상위20명

      이 자료와 함께 이용한 RISS 자료

      나만을 위한 추천자료

      해외이동버튼