http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.
변환된 중국어를 복사하여 사용하시면 됩니다.
거리 측정방법에 따른 쿼리-바이-싱잉/허밍 시스템의 성능 변화
장세진(Sei-Jin Jang),장달원(Dalwon Jang),이석필(Seok-Pil Lee) 한국방송·미디어공학회 2011 한국방송공학회 학술발표대회 논문집 Vol.2011 No.7
이 논문에서는 쿼리-바이-싱잉/허밍 (Query-by-singing/humming, QbSH) 시스템에서의 거리 함수를 다양화하면서 그 성능 변화를 살펴본다. QbSH는 디지털 음악의 사용이 보편화되면서 음악 검색의 방법으로 많은 연구가 진행되어 왔으며, 많은 경우, dynamic time warping (DTW) 방법으로 사용해서 정합하고 있다. 그러나, DTW에서 사용하는 거리에 대해서는 특별한 관심을 가지지 않았으며, 일반적으로 절대적 차이값이나 그것의 제곱값을 많이 사용해 왔다. 이 논문에서는 여러 가지 거리에 대해서 성능을 측정하였다. 성능측정은 특정한 시스템에서 이루어진 것이기 때문에 일반성을 가지지 않을 수 있으나, DTW에서 사용하는 거리를 기존의 것과 다른 것으로 변화시켜서 성능을 향상시킬 가능성이 있음을 이 논문에서는 밝힌다. 본 논문에서는 10-12초 길이의 1000번의 쿼리 (Query)에 대해서 28시간 정도의 데이터베이스에서 실험한 결과, 논문에서 제안하는 거리가 기존의 절대적 차이값을 사용한 것보다 제1후보 검출 정확도가 10% 가량 상승함을 확인할 수 있었다.
임신철,장세진,이석필,김무영,Lim, Shin-Cheol,Jang, Sei-Jin,Lee, Seok-Pil,Kim, Moo-Young 한국정보통신학회 2011 한국정보통신학회논문지 Vol.15 No.7
본 논문은 음악 추천을 위한 새로운 장르 분류 알고리즘을 제안하였다. 특히, 장르 분류 알고리즘에 사용되는 특정 벡터 중 octave-based spectral contrast (OSC)의 성능 개선을 위해서 심리청각 모델과 악기별 사용 octave 범위에 근거하여 새로운 band-pass filter를 설계하였다. 10개 장르별 음악을 포함하고 있는 GTZAN database에 대해서 10-fold cross validation 실험 결과, 다중 옥타브 밴드 OSC에 대해서 기존 OSC에 비해 2.26% 향상된 인식율을 얻을 수 있었다. 또한, 기존의 mel-frequency cepstral coefficient (MFCC)와 복합 특징 벡터를 구성하여 실험한 결과, 향상된 인식율을 얻을 수 있었다. In this paper, a novel genre classification algorithm is proposed for music recommendation system. Especially, to improve the classification accuracy, the band-pass filter for octave-based spectral contrast (OSC) feature is designed considering the psycho-acoustic model and actual frequency range of musical instruments. The GTZAN database including 10 genres was used for 10-fold cross validation experiments. The proposed multiple-octave based OSC produces better accuracy by 2.26% compared with the conventional OSC. The combined feature vector based on the proposed OSC and mel-frequency cepstral coefficient (MFCC) gives even better accuracy.
Decorrelated Filter Bank를 이용한 음악 장르 분류 시스템
임신철,장세진,이석필,김무영,Lim, Shin-Cheol,Jang, Sei-Jin,Lee, Seok-Pil,Kim, Moo-Young 한국음향학회 2011 韓國音響學會誌 Vol.30 No.2
음원의 디지털화가 진행되면서 음악 데이터베이스가 방대해지고 있다. 따라서, 음악 데이터를 보다 효과적으로 관리하기 위해 음악의 특성에 따라 장르별로 자동 분류해주는 시스템이 필요하다. 기존 장르 분류 시스템은 대부분 Mel-Frequency Cepstral Coefficient (MFCC)를 특징 벡터로 이용하고 있다. 본 논문에서는 Auditory Filter Bank를 이용한 Decorrelated Filter Bank (DFB)와 Octave-based Spectral Contrast (OSC)에 texture window를 적용하여 특징을 추출한 후, Support Vector Machine (SVM)을 이용하여 장르 분류를 시도하였다. 기존의 Marsyas 장르 분류 시스템과 비교한 결과 DFB와 OSC로 복합적인 특징 벡터를 구성하면 더 적은 차수의 특징벡터를 사용함에도 4.2 %의 향상된 분류 성공률을 얻을 수 있었다. Music recordings have been digitalized such that huge size of music database is available to the public. Thus, the automatic classification system of music genres is required to effectively manage the growing music database. Mel-Frequency Cepstral Coefficient (MFCC) is a popular feature vector for genre classification. In this paper, the combined super-vector with Decorrelated Filter Bank (DFB) and Octave-based Spectral Contrast (OSC) using texture windows is processed by Support Vector Machine (SVM) for genre classification. Even with the lower order of the feature vector, the proposed super-vector produces 4.2 % improved classification accuracy compared with the conventional Marsyas system.
크로마 레벨 표현, 동적 시간 왜곡, 꺾인 거리함수에 기반한 멜로디 사이의 유사도 개발
장달원(Jang, Dalwon),박성주(Sung-Ju Park),장세진(Sei-Jin Jang),이석필 (Seok-Pil Lee) 한국방송·미디어공학회 2011 한국방송공학회 학술발표대회 논문집 Vol.2011 No.7
이 논문에서는 쿼리-바이-싱잉/허밍 (Query-by-singing/humming, QbSH) 시스템 또는 커버 노래 인식 (cover song identification) 시스템에서 사용 가능한 멜로디 유사도를 제안한다. QbSH 또는 커버 노래 인식은 디지털 음악의 사용이 보편화되면서 음악 검색의 방법으로 많은 연구가 진행되어 오고 있다. 멜로디 유사도는 이런 시스템을 구현하는데 필수적인 요소이며, 두 개의 음악에서 멜로디가 추출되었다고 가정하고, 추출된 멜로디 사이의 유사한 정도를 수치로 표현한다. QbSh 시스템이나 커버 노래 인식 시스템은 멜로디 유사도에 기반하여 입력 노래와 유사한 노래를 데이터베이스에서 검색하는 작업을 수행한다. 이 논문에서 제안하는 멜로디 유사도 방식은 기존의 많이 연구되던 동적 시간 왜곡 (dynamic time warping, DTW) 방법과 크로마 표현 방법 (chroma representation)을 사용하였다. DTW방법은 비대칭적으로 사용하고 미디 노트 영역에서 표현된 멜로디 특징은 0이상 12 미만의 크로마 레벨로 표현하였다. 기존의 방법에서는 정수값을 많이 사용하였으나 이 논문에서는 실수값을 사용한다. DTW 에 사용하는 거리 함수를 기존에 사용하던 차이의 절대값 대신 꺾인 함수 형태를 사용함으로써 성능을 높였다. QbSH 시스템에서의 실험을 통해서 성능을 검증하였다. 본 논문에서는 10-12초 길이의 1000번의 쿼리(Query)에 대해서 28시간 정도의 데이터베이스에서 실험한 결과, 순위 역의 평균 (Mean reciprocal rank, MRR) 값이 0.713을 보였다.
쿼리-바이-싱잉/허밍 시스템의 매칭 엔진의 강인성 테스트
장달원(Dalwon Jang),장세진(Sei-Jin Jang),이석필(Seok-Pil Lee) 한국방송·미디어공학회 2012 한국방송공학회 학술발표대회 논문집 Vol.2012 No.7
이 논문에서는 실험을 통해서, 기존에 제안하였던 쿼리-바이-싱잉/허밍 (Query-by-singing/humming, QbSH) 시스템의 매칭 엔진의 강인성을 검증하고 그 결과를 제시한다. QbSH 시스템은 디지털 음악의 사용이 보편화되면서 음악 검색의 방법으로 많은 연구가 진행되어 오고 있다. QbSH 시스템은 입력으로부터 멜로디의 특징을 추출하는 부분과 추출된 특징을 매칭하는 부분으로 나눌 수 있는데, 매칭 단계에서 특징이 추출된 두 개의 멜로디 사이의 유사도 또는 거리를 계산하여 가장 유사한 멜로디를 데이터베이스에서 찾게 된다. 이 논문에서는 이 중, 기존에 제안하였던 매칭 엔진 부분의 강인성을 알아보기 위해서 입력으로부터 멜로디의 피치 시퀀스를 추출하는 과정을 간략히 하여 그 결과를 살펴보았다. 즉, 기존에 제안한 매칭 엔진이 특정한 피치 시퀀스 추출 과정에서만 좋은 성능을 보이는 게 아님을 실험을 통해서 살펴보았다. 실험 결과, 피치 시퀀스를 추출하는 과정이 극도로 간략해지더라도, 매칭 엔진을 좋은 성능을 보여주었다.