RISS 학술연구정보서비스

검색
다국어 입력

http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.

변환된 중국어를 복사하여 사용하시면 됩니다.

예시)
  • 中文 을 입력하시려면 zhongwen을 입력하시고 space를누르시면됩니다.
  • 北京 을 입력하시려면 beijing을 입력하시고 space를 누르시면 됩니다.
닫기
    인기검색어 순위 펼치기

    RISS 인기검색어

      KCI등재

      인공지능 기반 한문 번역을 위한 코퍼스 추출 및 정제 과정 = Corpus Extraction and Purification Process for AI-based Chinese Character Translation

      한글로보기

      https://www.riss.kr/link?id=A108743568

      • 0

        상세조회
      • 0

        다운로드
      서지정보 열기
      • 내보내기
      • 내책장담기
      • 공유하기
      • 오류접수

      부가정보

      국문 초록 (Abstract)

      인공지능의 영역이 날로 확대하는 시대에AI를 활용하여 산적한 한문 고전을 번역할 수 있다면 얼마나 좋을지 상상만 해도 즐거운 일이다.인공지능 번역을 상용화한다면 한문 번역에 들...

      인공지능의 영역이 날로 확대하는 시대에AI를 활용하여 산적한 한문 고전을 번역할 수 있다면 얼마나 좋을지 상상만 해도 즐거운 일이다.인공지능 번역을 상용화한다면 한문 번역에 들어가는 인력과 시간을 파격적으로 줄일 수 있기 때문이다.이를 위해 여러 기관에서 인공지능을 활용한 한자 인식과 한문 번역 프로그램을 개발하면서성능을 높이고 있다.인공지능 한문 번역에 관해서는 기술 분야를 중심으로 연구가 집중되어 있고 코퍼스 추출 과정과 정제 과정에 관해서는 보고된 연구가 없다.
      인공지능을 훈련하는 딥러닝(DeepLearning)을 위해서는 자동번역 데이터,즉 한문원문과 번역문을 병렬로 연결한 코퍼스가 만들어져야 한다.코퍼스를 만들기 위해서는 먼저 휴먼 번역을 통해 많은 코퍼스 자료를 추출하고,상세한 지침을 바탕으로 정제 작업을 거쳐 양질의 코퍼스를 만든다.여기에서는 추출된 코퍼스 자료가 어떻게 취사선택 되었는지 그 정제 과정을 확인하고자 하였다.
      코퍼스 정제 과정을 확인한 결과 각종 제목과 항목,명칭 등의 단어나,도량형 단위또는 사람 숫자를 모두 제외하였다.지명,인명,관직,장소,품목,연월일,고유명사가들어간 짧은 문장도 제거하였다.또 문장 첫머리에 나오는 부사,접속사,시제,발어사등 한두 글자로 된 접두어도 삭제하였다.추후 인공지능 기반 한문 번역을 위한 코퍼스 구축에서 이런 내용을 참작하여 추출작업을 한다면 번역 기간과 경비를 크게 단축할 수 있을 것으로 기대한다.

      더보기

      다국어 초록 (Multilingual Abstract)

      It is fun to imagine how good it would be to be able to translate a lot of Chinese classics by using AI in an era where the field of AI is expanding day by day. This is why commercialization of machine translation called artificial intelligence can dr...

      It is fun to imagine how good it would be to be able to translate a lot of Chinese classics by using AI in an era where the field of AI is expanding day by day. This is why commercialization of machine translation called artificial intelligence can drastically reduce the manpower and time spent on classical Chinese translation.
      To this end, various institutions are improving their performance by developing artificial intelligence Chinese character recognition and Chinese character translation programs. AI-based Chinese character translation, research is concentrated in the field of technology, and there are no reported studies on the corpus extraction process and purification process.
      For deep learning, which trains artificial intelligence, automatic translation data, that is, corpus that connects Chinese text and translations in parallel, must be created. In order to make a corpus, a lot of corpus data is extracted through human translation, and a high-quality corpus is made through refining based on detailed guidelines. Here, we tried to confirm the purification process of how the extracted corpus data were selected.
      As a result of checking the corpus purification process, words such as various titles, items, and names, metrological units or number of people were all excluded.
      Short sentences containing place names, human names, government posts, places, products, dates, and proper nouns were also removed because they were not appropriate as corpus. In addition, prefixes consisting of one or two letters, such as adverbs, conjunctions, tense, and pronounciation at the beginning of the sentence, were deleted. In the future, it is expected that the time and expense of translation will be greatly reduced if extraction is carried out in consideration of these contents in the construction of corpus for AI-based Chinese character translation.

      더보기

      분석정보

      View

      상세정보조회

      0

      Usage

      원문다운로드

      0

      대출신청

      0

      복사신청

      0

      EDDS신청

      0

      동일 주제 내 활용도 TOP

      더보기

      주제

      연도별 연구동향

      연도별 활용동향

      연관논문

      연구자 네트워크맵

      공동연구자 (7)

      유사연구자 (20) 활용도상위20명

      이 자료와 함께 이용한 RISS 자료

      나만을 위한 추천자료

      해외이동버튼