RISS 학술연구정보서비스

검색
다국어 입력

http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.

변환된 중국어를 복사하여 사용하시면 됩니다.

예시)
  • 中文 을 입력하시려면 zhongwen을 입력하시고 space를누르시면됩니다.
  • 北京 을 입력하시려면 beijing을 입력하시고 space를 누르시면 됩니다.
닫기
    인기검색어 순위 펼치기

    RISS 인기검색어

      MapReduce 기법을 이용한 전자책 빅데이터 처리 = Big Data Processing with MapReduce for E-book

      한글로보기

      https://www.riss.kr/link?id=T13073626

      • 0

        상세조회
      • 0

        다운로드
      서지정보 열기
      • 내보내기
      • 내책장담기
      • 공유하기
      • 오류접수

      부가정보

      국문 초록 (Abstract)

      컴퓨터의 발달에 힘입어 현재 전자책이 많은 각광을 받고 있으며, 최근에는 스마트폰의 발전 및 보급 확산으로 전자책의 활용에 대한 관심도가 급증하고 있다. 이러한 전자책에서, jpg 또는 pdf 등과 같은 이미지 파일로 된 디지털 도서를 대상으로 할 때, 책의 내용에 대한 단어 검색이 불가능하다. 본 연구에서는 위와 같은 이미지 파일로 된 전자책을 Google의 Tesseract OCR 기술을 이용하여 검색이 가능한 텍스트 파일로 변환하여, 원하는 단어 검색이 가능하도록 하였다. 이러한 단어 검색이 가능한 전자책을 제작하기 위해 XML 기반의 텍스트 파일 포맷인 EPUB을 사용하였다. EPUB은 IDPF (International Digital Publishing Forum)에서 지정한 전자책 국제표준방식으로 대부분의 전자책 기기에서 이용가능하다.
      본 연구에서는 이미지 파일을 텍스트 포맷의 EPUB으로 변환하여 원하는 단어 검색을 가능하게 하는 일을 수행하였다. 그러나 EPUB으로 변환이 필요한 이미지 형태의 전자책은 지속적으로 방대한 양이 생산되고 있다. 이러한 전자책 빅 데이터의 변환 작업을 일반적인 개인용 컴퓨터에서 처리한다면, 그 변환 작업에 많은 시간이 소요되거나 처리가 불가능 할 수도 있다. 따라서 MapReduce 모델을 사용하는 클러스터 시스템을 이용하여, 변환 작업이 가능하게 하고, 그에 따른 처리 시간도 줄이는 방안을 연구하였다.
      본 연구에서는, EPUB으로 변환을 위해, 분산 지원 컴퓨팅 프레임워크인 Hadoop 기반의 전자책 변환 시스템을 개발하였다. 2TB 이하의 이미지 파일을 처리할 때, 15개의 노드 클러스터 시스템을 사용할 경우, 빠르게 변환작업이 완료될 수 있도록 시스템을 설계 및 구현하여, 시스템의 성능을 평가한 결과를 본 논문에 제시하였다. 본 연구에서 소개하는 Hadoop 기반의 전자책 변환 시스템은 만족할 만한 전자책 변환 속도를 보여주는 것을 확인할 수 있다.
      번역하기

      컴퓨터의 발달에 힘입어 현재 전자책이 많은 각광을 받고 있으며, 최근에는 스마트폰의 발전 및 보급 확산으로 전자책의 활용에 대한 관심도가 급증하고 있다. 이러한 전자책에서, jpg 또는 p...

      컴퓨터의 발달에 힘입어 현재 전자책이 많은 각광을 받고 있으며, 최근에는 스마트폰의 발전 및 보급 확산으로 전자책의 활용에 대한 관심도가 급증하고 있다. 이러한 전자책에서, jpg 또는 pdf 등과 같은 이미지 파일로 된 디지털 도서를 대상으로 할 때, 책의 내용에 대한 단어 검색이 불가능하다. 본 연구에서는 위와 같은 이미지 파일로 된 전자책을 Google의 Tesseract OCR 기술을 이용하여 검색이 가능한 텍스트 파일로 변환하여, 원하는 단어 검색이 가능하도록 하였다. 이러한 단어 검색이 가능한 전자책을 제작하기 위해 XML 기반의 텍스트 파일 포맷인 EPUB을 사용하였다. EPUB은 IDPF (International Digital Publishing Forum)에서 지정한 전자책 국제표준방식으로 대부분의 전자책 기기에서 이용가능하다.
      본 연구에서는 이미지 파일을 텍스트 포맷의 EPUB으로 변환하여 원하는 단어 검색을 가능하게 하는 일을 수행하였다. 그러나 EPUB으로 변환이 필요한 이미지 형태의 전자책은 지속적으로 방대한 양이 생산되고 있다. 이러한 전자책 빅 데이터의 변환 작업을 일반적인 개인용 컴퓨터에서 처리한다면, 그 변환 작업에 많은 시간이 소요되거나 처리가 불가능 할 수도 있다. 따라서 MapReduce 모델을 사용하는 클러스터 시스템을 이용하여, 변환 작업이 가능하게 하고, 그에 따른 처리 시간도 줄이는 방안을 연구하였다.
      본 연구에서는, EPUB으로 변환을 위해, 분산 지원 컴퓨팅 프레임워크인 Hadoop 기반의 전자책 변환 시스템을 개발하였다. 2TB 이하의 이미지 파일을 처리할 때, 15개의 노드 클러스터 시스템을 사용할 경우, 빠르게 변환작업이 완료될 수 있도록 시스템을 설계 및 구현하여, 시스템의 성능을 평가한 결과를 본 논문에 제시하였다. 본 연구에서 소개하는 Hadoop 기반의 전자책 변환 시스템은 만족할 만한 전자책 변환 속도를 보여주는 것을 확인할 수 있다.

      더보기

      다국어 초록 (Multilingual Abstract)

      Evolution of IT and computer has made e-books popular day by day. In this paper, we are interested in searching a word in e-books. However, it is impossible to search a word in digitized e-books if they consist of image files such as JPG and PDF. Our solution to this problem is to transform the image file based e-books into text files based e-books to enable searching a word in e-books. We use EPUB, a XML-based text file, which is defined by IDPF(International Digital Publishing Forum). That is, we convert the image file based e-books into EPUB format e-books, so that searching a word in e-books can be done without any problem. The converting job should deal with very big data usually and require a lot of computing power. If we do the conversion in an usual personal computer, it would take a lot of processing time or it might be impossible for us to complete it. We used MapReduce model with a cluster system which enables us to perform the conversion successfully and reduce the processing time. This paper presents our Hadoop-based e-book Conversion System which is a distributed computing framework to transform the image based e-books into EPUB format e-books. Our experimental system consists of up to 15 cluster nodes. This paper evaluates the performance of the experimental system which processes the conversion of up to 2TB(Terra Byte) image files into EPUB files with a 15 nodes cluster system. We analyzed the processing time when the number of nodes in the cluster system was varied. We also analyzed the improvement effect when the dpi of the image file was varied. The performance evaluation confirmed us that the Hadoop-based e-book Conversion System successfully processed the big data for e-book.
      번역하기

      Evolution of IT and computer has made e-books popular day by day. In this paper, we are interested in searching a word in e-books. However, it is impossible to search a word in digitized e-books if they consist of image files such as JPG and PDF. Our ...

      Evolution of IT and computer has made e-books popular day by day. In this paper, we are interested in searching a word in e-books. However, it is impossible to search a word in digitized e-books if they consist of image files such as JPG and PDF. Our solution to this problem is to transform the image file based e-books into text files based e-books to enable searching a word in e-books. We use EPUB, a XML-based text file, which is defined by IDPF(International Digital Publishing Forum). That is, we convert the image file based e-books into EPUB format e-books, so that searching a word in e-books can be done without any problem. The converting job should deal with very big data usually and require a lot of computing power. If we do the conversion in an usual personal computer, it would take a lot of processing time or it might be impossible for us to complete it. We used MapReduce model with a cluster system which enables us to perform the conversion successfully and reduce the processing time. This paper presents our Hadoop-based e-book Conversion System which is a distributed computing framework to transform the image based e-books into EPUB format e-books. Our experimental system consists of up to 15 cluster nodes. This paper evaluates the performance of the experimental system which processes the conversion of up to 2TB(Terra Byte) image files into EPUB files with a 15 nodes cluster system. We analyzed the processing time when the number of nodes in the cluster system was varied. We also analyzed the improvement effect when the dpi of the image file was varied. The performance evaluation confirmed us that the Hadoop-based e-book Conversion System successfully processed the big data for e-book.

      더보기

      목차 (Table of Contents)

      • 제1장 서론 1
      • 제2장 연구 동기 및 공헌 3
      • 제3장 관련 연구 4
      • 제1절 전자책 4
      • 1. 전자책의 정의 4
      • 제1장 서론 1
      • 제2장 연구 동기 및 공헌 3
      • 제3장 관련 연구 4
      • 제1절 전자책 4
      • 1. 전자책의 정의 4
      • 2. 전자책 제작 기술 4
      • 3. EPUB 6
      • 제2절 MapReduce 8
      • 1. 분산 병렬 처리 정의 8
      • 2. MapReduce 정의 9
      • 3. 분산 병렬 모델 10
      • 제3절 OCR 11
      • 1. OCR의 정의 11
      • 2. OCR 솔루션 13
      • 제4절 빅 데이터 14
      • 제4장 시스템 설계 및 구현 17
      • 제1절 개요 17
      • 제2절 전자책 변환 시스템의 구조 18
      • 제3절 전자책 변환 시스템의 흐름도 19
      • 제5장 성능평가 27
      • 제1절 평가요소 27
      • 제2절 실험환경 27
      • 제3절 성능평가 29
      • 1. 데이터 용량 29
      • 2. 이미지 파일의 해상도 30
      • 3. Mapper의 개수 31
      • 4. Reducer의 개수 32
      • 제6장 결론 및 향후 연구방향 34
      • 참고문헌 36
      • Abstract 40
      더보기

      분석정보

      View

      상세정보조회

      0

      Usage

      원문다운로드

      0

      대출신청

      0

      복사신청

      0

      EDDS신청

      0

      동일 주제 내 활용도 TOP

      더보기

      주제

      연도별 연구동향

      연도별 활용동향

      연관논문

      연구자 네트워크맵

      공동연구자 (7)

      유사연구자 (20) 활용도상위20명

      이 자료와 함께 이용한 RISS 자료

      나만을 위한 추천자료

      해외이동버튼