RISS 학술연구정보서비스

검색
다국어 입력

http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.

변환된 중국어를 복사하여 사용하시면 됩니다.

예시)
  • 中文 을 입력하시려면 zhongwen을 입력하시고 space를누르시면됩니다.
  • 北京 을 입력하시려면 beijing을 입력하시고 space를 누르시면 됩니다.
닫기
    인기검색어 순위 펼치기

    RISS 인기검색어

      검색결과 좁혀 보기

      선택해제
      • 좁혀본 항목 보기순서

        • 원문유무
        • 음성지원유무
        • 원문제공처
          펼치기
        • 등재정보
          펼치기
        • 학술지명
          펼치기
        • 주제분류
          펼치기
        • 발행연도
          펼치기
        • 작성언어

      오늘 본 자료

      • 오늘 본 자료가 없습니다.
      더보기
      • 무료
      • 기관 내 무료
      • 유료
      • KCI등재

        콜퍼스에 기반한 한국어 문장/음성변환 시스템

        김상훈,박준,이영직,Kim, Sang-hun,Park, Jun,Lee, Young-jik 한국음향학회 2001 韓國音響學會誌 Vol.20 No.3

        이 논문에서는 대용량 음성 데이터베이스를 기반으로 하는 한국어 문장/음성변환시스템의 구현에 관해 기술한다. 기존 소량의 음성데이타를 이용하여 운율조절을 통해 합성하는 방식은 여전히 기계음에 가까운 합성음을 생성하고 있다. 이러한 문제점을 해결하기 위해 본 논문에서는 대용량 음성 데이터베이스를 기반으로 하여 운율처리없이 합성단위 선정/연결에 의해 합성음질을 향상시키고자 한다. 대용량 음성 데이터베이스는 다양한 운율변화를 포함하도록 문장단위를 녹음하며 이로부터 복수개의 합성단위를 추출, 구축한다. 합성단위는 음성인식기를 훈련, 자동으로 음소분할하여 생성하며, 래링고그라프 신호를 이용하여 정교한 피치를 추출한다. 끊어 읽기는 휴지길이에 따라 4단계로 설정하고 끊어읽기 추정은 품사열의 통계정보를 이용한다. 합성단위 선정은 운율/스펙트럼 파라미터를 이용하여 비터비 탐색을 수행하게 되며 유클리디언 누적거리가 최소인 합성단위열을 선정/연결하여 합성한다. 또한 이 논문에서는 고품질 음성합성을 위해 특정 서비스 영역에 더욱 자연스러운 합성음을 생성할 수 있는 영역의존 음성합성용 데이터베이스를 제안한다. 구현된 합성시스템은 주관적 평가방법으로 명료도와 자연성을 평가하였고 그 결과 대용량 음성 데이터베이스를 기반으로한 합성방식의 성능이 기존 반음절단위를 사용한 합성방식보다 더 나은 성능을 보임을 알 수 있었다. this paper describes a baseline for an implementation of a corpus-based Korean TTS system. The conventional TTS systems using small-sized speech still generate machine-like synthetic speech. To overcome this problem we introduce the corpus-based TTS system which enables to generate natural synthetic speech without prosodic modifications. The corpus should be composed of a natural prosody of source speech and multiple instances of synthesis units. To make a phone level synthesis unit, we train a speech recognizer with the target speech, and then perform an automatic phoneme segmentation. We also detect the fine pitch period using Laryngo graph signals, which is used for prosodic feature extraction. For break strength allocation, 4 levels of break indices are decided as pause length and also attached to phones to reflect prosodic variations in phrase boundaries. To predict the break strength on texts, we utilize the statistical information of POS (Part-of-Speech) sequences. The best triphone sequences are selected by Viterbi search considering the minimization of accumulative Euclidean distance of concatenating distortion. To get high quality synthesis speech applicable to commercial purpose, we introduce a domain specific database. By adding domain specific database to general domain database, we can greatly improve the quality of synthetic speech on specific domain. From the subjective evaluation, the new Korean corpus-based TTS system shows better naturalness than the conventional demisyllable-based one.

      • KCI등재

        분산형 시스템을 적용한 음성합성에 관한 연구

        김진우,민소연,나덕수,배명진,Kim, Jin-Woo,Min, So-Yeon,Na, Deok-Su,Bae, Myung-Jin 한국음향학회 2010 韓國音響學會誌 Vol.29 No.3

        최근 광대역 무선 통신망의 보급과 소형 저장매체의 대용량화로 인하여 이동형 단말기가 주목 받고 있다. 이로 인해 이동형 단말기에 문자정보를 청취할 수 있도록 문자를 음성으로 변환해 주는 TTS(Text-to-Speech) 기능이 추가되고 있다. 사용자의 요구사항은 고음질의 음성합성이지만 고음질의 음성합성은 많은 계산량이 필요하기 때문에 낮은 성능의 이동형 단말기에 는 적합하지 않다. 본 논문에서 제안하는 분산형 음성합성기 (DTTS)는 고음질 음성합성이 가능한 코퍼스 기반 음성합성 시스템을 서버와 단말기로 나누어 구성한다. 서버 음성합성 시스템은 단말기에서 전송된 텍스트를 데이터베이스 검색 후 음성파형 연결정보를 생성하여 단말기로 전송하고, 단말기 음성합성 시스템은 서버 음성합성 시스템에서 생성된 음성파형 연결정보와 단말기에 존재하는 데이터베이스를 이용하여 간단한 연산으로 고음질 합성음을 생성할 수 있는 시스템이다. 제안하는 분산형 합성기는 단말기에서의 계산량을 줄여 저가의 CPU 사용, 전력소모의 감소, 효율적인 유지보수를 할 수 있도록 하는 장점이 있다. Recently portable terminal is received attention by wireless networks and mass capacity ROM. In this result, TTS(Text to Speech) system is inserted to portable terminal. Nevertheless high quality synthesis is difficult in portable terminal, users need high quality synthesis. In this paper, we proposed Distributed TTS (DTTS) that was composed of server and terminal. The DTTS on corpus based speech synthesis can be high quality synthesis. Synthesis system in server that generate optimized speech concatenation information after database search and transmit terminal. Synthesis system in terminal make high quality speech synthesis as low computation using transmitted speech concatenation information from server. The proposed method that can be reducing complexity, smaller power consumption and efficient maintenance.

      • KCI등재

        장애인을 위한 음성 인터페이스의 UI/UX: 음성 명령어 인식기와 음성 합성기를 대상으로

        홍기형,이희연,김선희,조남현,김지환,정민화 에스케이텔레콤 (주) 2013 Telecommunications Review Vol.23 No.2

        본 논문은 장애인과 함께 사는 사회를 추구하는 QoLT 연구개발과제 가운데 음성인식 및 음성합성 기반 장애인용 음성 인터페이스에 대한 사용자 중심의 사용성 평가를 통하여 장애인용 음성 인터페이스의 UI/UX 문제를 고찰하는 것을 그 목적으로 한다. 장애인용 음성 인터페이스로는 마비말장애인용 음성 명령어 인식기와 시각장애인용 음성합성기를 대상으로 하여 그에 대한 사용성 평가를 중심으로 살펴보았다. 마비말장애인용 음성 명령어 인식기의 경우는 총 2차에 걸쳐 53명이 참여한 사용성 평가를 통하여 UI 적절성 및 기능적 측면을 포함하는 요구사항을 분석하였다. 시각장애인용 음성합성기의 경우는 컴퓨터에 저장된 합성음 파일을 이용하여 기존의 고속합성음과 제안된 합성음을 비교하고 여성 및 남성 합성음의 음색별 선호도 평가를 시행하였다. 본 연구의 결과, 음성 인터페이스 개발 이전과 개발 도중에 사용자 그룹인 마비말장애인과 시각장애인들을 대상으로 사용자의 요구 사항 및 사용성 평가를 시행하여 각각의 프로토타이프 개발에 반영하고, 음성 인터페이스의 보급과 필요성에 관한 긍정적인 사용자의 반응을 이끌어 낼 수 있었다.

      • KCI등재후보

        TTS 시스템을 이용한 감정 합성 모델에 관한 연구

        유은정,신승중 국제차세대융합기술학회 2020 차세대융합기술학회논문지 Vol.4 No.4

        Deep Learning 기술의 발전으로 단순 TTS 넘어서 오디오북의 성능과 유사한 음성 합성 기술이 개발되 고 있다. 그러나 여전히 감정이 절제되어진 낭독형으로, 특정 화자의 음성 합성에만 중점적으로 연구되고 있으며 여전히 많은 훈련 데이터를 필요로 하고 있다. 본 연구에서는 적은 훈련 데이터만을 이용하여 합성된 음성에 감정 을 표현하는 감정 합성 모델을 제기한다. 3가지의 감정이 표현된 음성합성을 위해 음성합성(Speech Synthesis)과 음성변환(Voice Conversion) 두 개의 모델로 시스템을 구성한다. 감정은 다소 복합적인 요소들로 구성이 되어있 고, 사람마다 표현하는 방식이 다를 수 있기 때문에 본 연구 실험결과만으로는 감정이 완벽하게 표현된 음성합성 이라고 볼 수 없다. 그러나 본 연구에서 제시하는 시스템은 아주 적은 훈련 데이터만으로도 합성된 음성을 다양하 게 스타일링(styling)이 가능하게 하여 좀 더 표현력이 있는 음성 합성 가능성을 제기할 수 있다. With the development of deep learning technology, voice synthesis technology similar to the performance of audio books is being developed beyond simple TTS. But it is still focus only on the TTS of a specific speaker in natural voice type and still requires a lot of training data. So this study raises an emotional synthesis model that uses only a small amount of training data to express emotions in a synthesized voice. The system is composed of two models which are Speech Synthesis and Voice Conversion. Emotions are composed of rather complex elements and because each person may express differently, this study alone does not mean that emotions are perfectly expressed. However, the systems presented in this study can raise the possibility of more expressive speech synthesis by styling with a little training data.

      • KCI등재

        x-vector를 이용한 다화자 음성합성 시스템

        조민수,권철홍 국제문화기술진흥원 2021 The Journal of the Convergence on Culture Technolo Vol.7 No.4

        최근 인공지능 스피커 시장이 성장하면서 사용자와 자연스러운 대화가 가능한 음성합성 기술에 대한 수요가 증가하고 있다. 따라서 다양한 음색의 목소리를 생성할 수 있는 다화자 음성합성 시스템이 필요하다. 자연스러운 음 성을 합성하기 위해서는 대용량의 고품질 음성 DB로 학습하는 것이 요구된다. 그러나 많은 화자가 발화한 고품질의 대용량 음성 DB를 수집하는 것은 녹음 시간과 비용 측면에서 매우 어려운 일이다. 따라서 각 화자별로는 소량의 학 습 데이터이지만 매우 많은 화자의 음성 DB를 사용하여 음성합성 시스템을 학습하고, 이로부터 다화자의 음색과 운 율 등을 자연스럽게 표현하는 기술이 필요하다. 본 논문에서는 화자인식 기술에서 사용하는 딥러닝 기반 x-vector 기법을 적용하여 화자 인코더를 구성하고, 화자 인코더를 통해 소량의 데이터로 새로운 화자의 음색을 합성하는 기술 을 제안한다. 다화자 음성합성 시스템에서 텍스트 입력에서 멜-스펙트로그램을 합성하는 모듈은 Tacotron2로, 합성음 을 생성하는 보코더는 로지스틱 혼합 분포가 적용된 WaveNet으로 구성되어 있다. 학습된 화자 임베딩 신경망에서 추출한 x-vector를 Tacotron2에 입력으로 추가하여 원하는 화자의 음색을 표현한다. With the recent growth of the AI speaker market, the demand for speech synthesis technology that enables natural conversation with users is increasing. Therefore, there is a need for a multi-speaker speech synthesis system that can generate voices of various tones. In order to synthesize natural speech, it is required to train with a large-capacity. high-quality speech DB. However, it is very difficult in terms of recording time and cost to collect a high-quality, large-capacity speech database uttered by many speakers. Therefore, it is necessary to train the speech synthesis system using the speech DB of a very large number of speakers with a small amount of training data for each speaker, and a technique for naturally expressing the tone and rhyme of multiple speakers is required. In this paper, we propose a technology for constructing a speaker encoder by applying the deep learning-based x-vector technique used in speaker recognition technology, and synthesizing a new speaker's tone with a small amount of data through the speaker encoder. In the multi-speaker speech synthesis system, the module for synthesizing mel-spectrogram from input text is composed of Tacotron2, and the vocoder generating synthesized speech consists of WaveNet with mixture of logistic distributions applied. The x-vector extracted from the trained speaker embedding neural networks is added to Tacotron2 as an input to express the desired speaker’s tone.

      • 다양한 발성에 따른 다중음성 합성 시스템

        박현영 ( Hyun Young Park ),김명 ( Myoung Kim ),배명진 ( Myoung Jin Bae ) 한국감성과학회 2003 추계학술대회 Vol.2003 No.-

        음성 합성이란 기계적인 장치나 전지회로 또는 컴퓨터 모의를 이용하여 자동으로 음성파형을 생성해 내는 것으로 정의한다. 음성 합성에 대한 연구는 다른 음성에 관련된 기술들보다 가장 먼저 연구된 기술이다. 음성 합성기는 PC의 보급이 확대되고 통신 시장이 컴짐에 따라 그 응용 분야가 점차 확대되어 가고 다양한 방식의 음성 합성 기법에 관한 연구가 이루어지고 있다. 일반적으로 자연스러운 대화를 할 때나 글을 읽을 때의 음성에는 퍼지, 지속시간, 에너지 등의 운율 정보가 포함되어 있다. 따라서, 문장을 합성하는 경우 운율정보를 합성음에 반영하면 보다 명확한 의미 전달과 다양한 발성변환이 가능해 진다. 본 논문에서는 시간영역에서 PSOLA 합성방식에 의한 피치 변경과 지속시간 변경을 이용하여 다양한 발성변환에 따른 다중음성 합성기를 구현하였다.

      • KCI등재

        초음파 도플러 신호를 이용한 음성 합성

        이기승,Lee, Ki-Seung 한국음향학회 2016 韓國音響學會誌 Vol.35 No.2

        In this paper, a method synthesizing speech signal using the 40 kHz ultrasonic signals reflected from the articulatory muscles was introduced and performance was evaluated. When the ultrasound signals are radiated to articulating face, the Doppler effects caused by movements of lips, jaw, and chin observed. The signals that have different frequencies from that of the transmitted signals are found in the received signals. These ADS (Acoustic-Doppler Signals) were used for estimating of the speech parameters in this study. Prior to synthesizing speech signal, a quantitative correlation analysis between ADS and speech signals was carried out on each frequency bin. According to the results, the feasibility of the ADS-based speech synthesis was validated. ADS-to-speech transformation was achieved by the joint Gaussian mixture model-based conversion rules. The experimental results from the 5 subjects showed that filter bank energy and LPC (Linear Predictive Coefficient) cepstrum coefficients are the optimal features for ADS, and speech, respectively. In the subjective evaluation where synthesized speech signals were obtained using the excitation sources extracted from original speech signals, it was confirmed that the ADS-to-speech conversion method yielded 72.2 % average recognition rates. 본 논문에서는 40 kHz 초음파 신호를 입 주변에 쏘고, 되돌아오는 초음파 신호를 이용해 음성신호를 합성하는 방법을 소개하고 성능을 평가하였다. 발성하고 있는 입주변에 초음파를 방사하게 되면, 입술, 턱, 뺨 등의 움직임으로 인한 변위로 도플러 현상이 발생하고, 이에 따라 반사 신호에는 본래의 주파수 성분과는 다른 도플러 주파수가 관찰되는데, 본 논문에서는 이러한 도플러 주파수를 이용하여 음성 파라메터를 추정하도록 하였다. 음성합성에 앞서서 초음파 도플러 신호와 음성 신호 간의 상관관계를 각 주파수 별로 분석하였으며, 이로부터 초음파 도플러 신호를 이용한 음성 신호의 합성 가능성을 살펴보았다. 변환에는 초음파 도플러의 정적, 동적 특성을 함께 반영한 특징 변수를 사용하였으며 결합-혼합 가우시안 기법을 이용하여 음성 파라메터로 변환하였다. 5명의 피 실험자를 이용한 음성 합성 실험에서 필터뱅크 에너지 값을 초음파신호의 특징변수로, LPC(Linear Predictive Coefficient) 켑스트럼 계수를 음성 변수로 사용하는 경우 가장 우수한 변환 성능을 나타내었다. 음성신호에서 추출한 여기신호를 이용하여 합성음을 생성하고, 이를 청취하였을 때 72.2 %의 평균 인식율이 얻어짐을 확인할 수 있었다.

      • KCI등재

        시각장애인용 음성합성기에 대한 사용자 요구분석

        이희연,홍기형 이화여자대학교 특수교육연구소 2012 특수교육 Vol.11 No.2

        본 연구의 목적은 시각장애인용 보조기기인 스크린리더에 사용되는 음성합성기에 대한 사용자의 요구분석 사항을 파악하여 고품질의 합성음을 개발하여 멀티미디어 환경 내에서 시각 장애인들의 지식정보 접근성을 높이고, 스크린리더 등의 전용 프로그램의 기능을 보완 ·강화하여 교육 및 사회 참여의 기회를 확대하여 전반적인 삶의 질을 향상하는데 있다. 컴퓨터와 스크린 리더의 사용에 익숙한 총 다섯 명의 참가자가 본 연구를 위한 핵심집단 면담연구에 참여했으며, 참가자의 요구분석 내용들은 상향식 접근방법(bottom-up approach)을 통하여 분석되었다. 시각장애인들의 음성합성기에 대한 요구분석들을 분석한 결과, (1) 청취 시의 피로도 개선, (2) 합성음의 명료도 개선, (3) 자연스러운 합성음에 대한 요구, (4) 남성 음색의 합성음에 대한 요구, (5) 잡음 발생 최소화, (6) 포네틱(phonetic) 기능에 대한 요구, (7) 정보유형에 따른 차별화된 속도 제공 등의 요구를 파악할 수 있었다. 이러한 결과에 근거하여 다양한 남성 음색의 명료하고 자연스러운 음성합성기를 개발하고, 이에 대한 시각장애인들의 장기간에 걸친 사용성 및 만족도를 평가하는 후속 연구가 요구된다. The purpose of this study was to examine usability and needs for speech synthesizer used in a screen reader which is an assistive technology device for the blind in order to (1) improve web accessibility in multimedia environment, (2) enhance the quality of a screen reader, (3) expand educational and vocational opportunities, and (4) improve the overall quality of life for the blind. Participants were five individuals (three men and two women) who were blind between the ages of thirty five to forty nine years old, and all of them were good at using computers, keyboards, and screen reader programs. After each participant was participated in the nonsense-word dictation task and the sentence listening task presented at two different speeds, they were engaged in a focus group interview to examine their preferences, needs, interests, and other opinions regarding the synthesized speech. The results of this study were analyzed into following categories using a bottom-up approach. Participants’ needs for the speech synthesizer were (1) reduction of fatigue while listening synthesized speech for a long time, (2) improvement of the intelligibility of the synthesized speech, (3) use of natural and comfortable synthesized speech, (4) use of low tone of voice (male voice tone), (5) removal of background noises or high-frequency noises, (6) addition of the phonetic reading function, and (7) differentiated speed of synthesized speech based on the type of information. The first priority of the speech synthesizer users’ was to minimize fatigue level while listening a synthesized speech. Further research needs to be directed to examine usability and needs for the updated speech synthesizer through a long-term usability testing.

      • DCGAN 의 잠재 벡터 보간을 활용한 두 음성 합성 방법

        허찬영,정재희 한국차세대컴퓨팅학회 2023 한국차세대컴퓨팅학회 학술대회 Vol.2023 No.06

        기계 학습 및 딥러닝 기술의 발전은 문학 분야를 비롯한 다양한 예술 분야에서 인공지능이 그림을 그리고 소설을 쓰거나 음악을 작곡, 작사하는 것과 같이 큰 영향력을 끼치고 있다. 이 중 인공지능이 음악을 작곡, 작사하는 음성을 생성하는 분야에서도 이미지 생성에 특화된 GANs(Generative Adversarial Nets) 모델을 사용하여 음성을 생성하는 연구를 적용할 수 있다. 하지만 음성 데이터 자체로 학습하여 음성을 생성하는 데에는 GANs를 사용할 경우 적절한 음성 생성의 결과를 얻지 못한다. 따라서 음성을 이미지로 변환하여 GANs을 학습한 후, 이미지를 생성하여 이를 다시 음성으로 생성하는 방법으로 음성 생성을 할 수 있다. 본 연구에서는 CNN(Convolution Neural Network) 기반의 GANs 모델인 DCGAN(Deep Convolutional Generative Adversarial Network) 모델을 활용하여, 두 개의 생성된 음성 이미지에서 추출된 잠재 벡터 z들의 보간의 정도에 따라 생성된 이미지가 부드럽게 변하는 특징을 적용하여 음성 합성 방법을 제안한다. 두 개의 서로 다른 음성 포맷인 midi 파일과 wav 파일을 각각 이미지로 변환 후 모델을 학습시켰다. 두 포맷 모두 두개의 음성 이미지의 잠재 벡터의 보간 정도에 따라 생성된 이미지가 부드럽게 변환되었고, 각 보간 값의 정도에 따라 생성된 이미지들을 다시 음성으로 변환시켜 적절히 합성된 음성을 확인할 수 있었다.

      • KCI등재

        스펙트럼 형태 불변 실시간 음성 변환 시스템

        김원구(Weon-Goo Kim) 한국지능시스템학회 2005 한국지능시스템학회논문지 Vol.15 No.1

        본 논문에서는 음성의 스펙트럼 형태는 유지하면서 음성을 기계적인 음성으로 변환시키기는 실시간 음성 변환 방법을 제안하였다. 이러한 목적을 위하여 LPC 분석 및 합성 방법을 사용하여 변환된 음성의 스펙트럼은 유지하였고 합성된 음성의 피치는 자유롭게 변경되도록 하였다. 제안된 방법에서는 변환된 음성이 보다 자연스럽게 들리게 하기 위하여 여기 신호 발생기에 이득 정합 방법을 적용하였다. 제안된 방법의 성능을 평가하기 위하여 음성 변환 실험을 수행하였다. 실험 결과에서 원 음성 신호는 원 화자의 신원을 알기가 어려운 기계적인 음성 신호로 바뀌는 것을 알 수 있었고 피치의 심한 변화에도 변환된 음성의 의미는 정확히 전달될 수 있었다. 제안된 시스템은 시스템의 실시간으로 구현될 수 있는지 확인하기 위하여 TI TMS320C6711DSK 보드를 사용하여 구현되었다 In this paper, the spectral shape invariant real-time voice change method is proposed to change one's voice to mechanical voice. For this purpose, LPC analysis and synthesis is used to maintain the spectraum of voice and the pitch of synthesis speech can be changed freely. In the proposed method, gain matching method is applied to excitation signal generator to make the changed voice natural to hear. In order to evaluate the performance of the proposed method, voice change experiments were conducted. Experimental results showed that original speech signal is changed to the mechanical voice signal in which context of the speaker's voice is conveyed correctly in spite of drastic change of pitch. The system is implemented using TI TMS320C6711DSK board to verify the system runs in real time.

      연관 검색어 추천

      이 검색어로 많이 본 자료

      활용도 높은 자료

      해외이동버튼