http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.
변환된 중국어를 복사하여 사용하시면 됩니다.
랜덤워크 기법을 위한 GPU 기반 희소행렬 벡터 곱셈 방안에 대한 성능 평가
유재서 ( Jae-seo Yu ),배홍균 ( Hong-kyun Bae ),강석원 ( Seokwon Kang ),유용승 ( Yongseung Yu ),박영준 ( Yongjun Park ),김상욱 ( Sang-wook Kim ) 한국정보처리학회 2020 한국정보처리학회 학술대회논문집 Vol.27 No.2
랜덤워크 기반 노드 랭킹 방식 중 하나인 RWR(Random Walk with Restart) 기법은 희소행렬 벡터 곱셈 연산과 벡터 간의 합 연산을 반복적으로 수행하며, RWR 의 수행 시간은 희소행렬 벡터 곱셈 연산 방법에 큰 영향을 받는다. 본 논문에서는 CSR5(Compressed Sparse Row 5) 기반 희소행렬 벡터 곱셈 방식과 CSR-vector 기반 희소행렬 곱셈 방식을 채택한 GPU 기반 RWR 기법 간의 비교 실험을 수행한다. 실험을 통해 데이터 셋의 특징에 따른 RWR 의 성능 차이를 분석하고, 적합한 희소행렬 벡터 곱셈 방안 선택에 관한 가이드라인을 제안한다.
추천 시스템에서의 효율적인 행렬 분해 모델을 위한 정밀도 변환 기법
유재서 ( Jae-seo Yu ),고윤용 ( Yun-yong Ko ),배홍균 ( Hong-kyun Bae ),강석원 ( Seokwon Kang ),유용승 ( Yongseung Yu ),박영준 ( Yongjun Park ),김상욱 ( Sang-wook Kim ) 한국정보처리학회 2021 한국정보처리학회 학술대회논문집 Vol.28 No.1
최근 딥러닝 분야에서 모델 학습을 가속화하기 위해, 실수 표현 시 사용하는 비트 수를 줄이는 양자화 연구가 활발히 진행되고 있다. 본 논문은 추천 시스템 모델 중 하나인 행렬 분해 모델(Matrix Factorization, MF)에 대한 양자화 수행 시, 발생할 수 있는 학습 정확도 손실을 방지하기 위한 정밀도 변환 방안을 제시한다. 우리는 실세계 데이터셋을 이용한 실험을 통해, 제안 방안이 적용된 MF 모델은 양자화 기법이 적용되지 않은 모델과 비슷한 추천 정확도를 보이며, 약 30% 개선된 속도로 학습됨을 확인할 수 있었다.
NPU를 위한 효율적인 Fused Convolution 스케줄링 기법
이영현(Younghyun Lee),김혜준(Hyejun Kim),유용승(Yongseung Yu),조명진(Myeongjin Cho),서지원(Jiwon Seo),박영준(Yongjun Park) 대한전자공학회 2023 대한전자공학회 학술대회 Vol.2023 No.11
As the AI industry evolves, neural network processing units (NPUs) are being developed to deliver AI services faster and more efficiently. One of the most important challenges for these NPUs is task scheduling to minimize off-chip memory accesses, which incur significant performance overhead. In particular, convolutional layers can be fused with multiple layers to reduce the memory accesses, but it is difficult to find the optimal schedule due to the too large exploration space. In this paper, we propose an efficient schedule exploration algorithm to optimize the fusion of multiple convolutional layers in NPUs. The proposed algorithm organizes the fusion group exploration space in the form of a grid to explore the optimal schedule. Experimental results show that the fusion schedule explored by the proposed method reduces the latency by 7.7% and reduces the off-chip memory access by 15% compared to the baseline algorithm.