컴퓨터의 발달에 힘입어 현재 전자책이 많은 각광을 받고 있으며, 최근에는 스마트폰의 발전 및 보급 확산으로 전자책의 활용에 대한 관심도가 급증하고 있다. 이러한 전자책에서, jpg 또는 p...
http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.
변환된 중국어를 복사하여 사용하시면 됩니다.
https://www.riss.kr/link?id=T13073626
서울 : 서울시립대학교 일반대학원, 2013
학위논문(석사) -- 서울시립대학교 일반대학원 , 전자전기컴퓨터공학과 유비쿼터스 그리드컴퓨터 , 2013. 2
2013
한국어
서울
ⅳ, 43 p. ; 26cm
지도교수:이용우
0
상세조회0
다운로드국문 초록 (Abstract)
컴퓨터의 발달에 힘입어 현재 전자책이 많은 각광을 받고 있으며, 최근에는 스마트폰의 발전 및 보급 확산으로 전자책의 활용에 대한 관심도가 급증하고 있다. 이러한 전자책에서, jpg 또는 p...
컴퓨터의 발달에 힘입어 현재 전자책이 많은 각광을 받고 있으며, 최근에는 스마트폰의 발전 및 보급 확산으로 전자책의 활용에 대한 관심도가 급증하고 있다. 이러한 전자책에서, jpg 또는 pdf 등과 같은 이미지 파일로 된 디지털 도서를 대상으로 할 때, 책의 내용에 대한 단어 검색이 불가능하다. 본 연구에서는 위와 같은 이미지 파일로 된 전자책을 Google의 Tesseract OCR 기술을 이용하여 검색이 가능한 텍스트 파일로 변환하여, 원하는 단어 검색이 가능하도록 하였다. 이러한 단어 검색이 가능한 전자책을 제작하기 위해 XML 기반의 텍스트 파일 포맷인 EPUB을 사용하였다. EPUB은 IDPF (International Digital Publishing Forum)에서 지정한 전자책 국제표준방식으로 대부분의 전자책 기기에서 이용가능하다.
본 연구에서는 이미지 파일을 텍스트 포맷의 EPUB으로 변환하여 원하는 단어 검색을 가능하게 하는 일을 수행하였다. 그러나 EPUB으로 변환이 필요한 이미지 형태의 전자책은 지속적으로 방대한 양이 생산되고 있다. 이러한 전자책 빅 데이터의 변환 작업을 일반적인 개인용 컴퓨터에서 처리한다면, 그 변환 작업에 많은 시간이 소요되거나 처리가 불가능 할 수도 있다. 따라서 MapReduce 모델을 사용하는 클러스터 시스템을 이용하여, 변환 작업이 가능하게 하고, 그에 따른 처리 시간도 줄이는 방안을 연구하였다.
본 연구에서는, EPUB으로 변환을 위해, 분산 지원 컴퓨팅 프레임워크인 Hadoop 기반의 전자책 변환 시스템을 개발하였다. 2TB 이하의 이미지 파일을 처리할 때, 15개의 노드 클러스터 시스템을 사용할 경우, 빠르게 변환작업이 완료될 수 있도록 시스템을 설계 및 구현하여, 시스템의 성능을 평가한 결과를 본 논문에 제시하였다. 본 연구에서 소개하는 Hadoop 기반의 전자책 변환 시스템은 만족할 만한 전자책 변환 속도를 보여주는 것을 확인할 수 있다.
다국어 초록 (Multilingual Abstract)
Evolution of IT and computer has made e-books popular day by day. In this paper, we are interested in searching a word in e-books. However, it is impossible to search a word in digitized e-books if they consist of image files such as JPG and PDF. Our ...
Evolution of IT and computer has made e-books popular day by day. In this paper, we are interested in searching a word in e-books. However, it is impossible to search a word in digitized e-books if they consist of image files such as JPG and PDF. Our solution to this problem is to transform the image file based e-books into text files based e-books to enable searching a word in e-books. We use EPUB, a XML-based text file, which is defined by IDPF(International Digital Publishing Forum). That is, we convert the image file based e-books into EPUB format e-books, so that searching a word in e-books can be done without any problem. The converting job should deal with very big data usually and require a lot of computing power. If we do the conversion in an usual personal computer, it would take a lot of processing time or it might be impossible for us to complete it. We used MapReduce model with a cluster system which enables us to perform the conversion successfully and reduce the processing time. This paper presents our Hadoop-based e-book Conversion System which is a distributed computing framework to transform the image based e-books into EPUB format e-books. Our experimental system consists of up to 15 cluster nodes. This paper evaluates the performance of the experimental system which processes the conversion of up to 2TB(Terra Byte) image files into EPUB files with a 15 nodes cluster system. We analyzed the processing time when the number of nodes in the cluster system was varied. We also analyzed the improvement effect when the dpi of the image file was varied. The performance evaluation confirmed us that the Hadoop-based e-book Conversion System successfully processed the big data for e-book.
목차 (Table of Contents)