RISS 학술연구정보서비스

검색
다국어 입력

http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.

변환된 중국어를 복사하여 사용하시면 됩니다.

예시)
  • 中文 을 입력하시려면 zhongwen을 입력하시고 space를누르시면됩니다.
  • 北京 을 입력하시려면 beijing을 입력하시고 space를 누르시면 됩니다.
닫기
    인기검색어 순위 펼치기

    RISS 인기검색어

      KCI등재

      온라인 쇼핑몰에서 상품 설명 이미지 내의 키워드인식을 위한 딥러닝 훈련 데이터 자동 생성 방안 = The way to make training data for deep learning model to recognize keywords in product catalog image at E-commerce

      한글로보기

      https://www.riss.kr/link?id=A105235974

      • 0

        상세조회
      • 0

        다운로드
      서지정보 열기
      • 내보내기
      • 내책장담기
      • 공유하기
      • 오류접수

      부가정보

      다국어 초록 (Multilingual Abstract)

      From the 21st century, various high-quality services have come up with the growth of the internet or ‘Information and Communication Technologies’. Especially, the scale of E-commerce industry in which Amazon and E-bay are standing out is exploding...

      From the 21st century, various high-quality services have come up with the growth of the internet or ‘Information and Communication Technologies’. Especially, the scale of E-commerce industry in which Amazon and E-bay are standing out is exploding in a large way. As E-commerce grows, Customers could get what they want to buy easily while comparing various products because more products have been registered at online shopping malls.
      However, a problem has arisen with the growth of E-commerce. As too many products have been registered, it has become difficult for customers to search what they really need in the flood of products.
      When customers search for desired products with a generalized keyword, too many products have come out as a result. On the contrary, few products have been searched if customers type in details of products because concrete product-attributes have been registered rarely.
      In this situation, recognizing texts in images automatically with a machine can be a solution. Because bulk of product details are written in catalogs as image format, most of product information are not searched with text inputs in the current text-based searching system. It means if information in images can be converted to text format, customers can search products with product-details, which make them shop more conveniently.
      There are various existing OCR(Optical Character Recognition) programs which can recognize texts in images. But existing OCR programs are hard to be applied to catalog because they have problems in recognizing texts in certain circumstances, like texts are not big enough or fonts are not consistent.
      Therefore, this research suggests the way to recognize keywords in catalog with the Deep Learning algorithm which is state of the art in image-recognition area from 2010s. Single Shot Multibox Detector(SSD), which is a credited model for object-detection performance, can be used with structures re-designed to take into account the difference of text from object. But there is an issue that SSD model needs a lot of labeled-train data to be trained, because of the characteristic of deep learning algorithms, that it should be trained by supervised-learning. To collect data, we can try labelling location and classification information to texts in catalog manually. But if data are collected manually, many problems would come up. Some keywords would be missed because human can make mistakes while labelling train data. And it becomes too time-consuming to collect train data considering the scale of data needed or costly if a lot of workers are hired to shorten the time. Furthermore, if some specific keywords are needed to be trained, searching images that have the words would be difficult, as well.
      To solve the data issue, this research developed a program which create train data automatically. This program can make images which have various keywords and pictures like catalog and save location-information of keywords at the same time. With this program, not only data can be collected efficiently, but also the performance of SSD model becomes better. The SSD model recorded 81.99% of recognition rate with 20,000 data created by the program.
      Moreover, this research had an efficiency test of SSD model according to data differences to analyze what feature of data exert influence upon the performance of recognizing texts in images. As a result, it is figured out that the number of labeled keywords, the addition of overlapped keyword label, the existence of keywords that is not labeled, the spaces among keywords and the differences of background images are related to the performance of SSD model. This test can lead performance improvement of SSD model or other text-recognizing machine based on deep learning algorithm with high-quality data.
      SSD model which is re-designed to recognize texts in images and the program developed for creating train data are expected to contribute to improvement of searching system in E-co...

      더보기

      국문 초록 (Abstract)

      E-commerce 환경의 발전으로 소비자들은 다양한 상품들을 한 자리에서 폭 넓게 비교할 수 있게 되었다. 하지만 온라인 쇼핑몰에 올라와있는 상당량의 주요 상품 정보들이 이미지 형태이기 때문...

      E-commerce 환경의 발전으로 소비자들은 다양한 상품들을 한 자리에서 폭 넓게 비교할 수 있게 되었다. 하지만 온라인 쇼핑몰에 올라와있는 상당량의 주요 상품 정보들이 이미지 형태이기 때문에 컴퓨터가 인지할 수있는 텍스트 기반 검색 시스템에 반영될 수 없다는 한계가 존재한다. 이러한 한계점은 일반적으로 기존 기계학습 기술 및 OCR(Optical Character Recognition) 기술을 활용해, 이미지 형태로 된 키워드를 인식함으로써 개선할수 있다. 그러나 기존 OCR 기술은 이미지 안에 글자가 아닌 그림이 많고 글자 크기가 작으면 낮은 인식률을보인다는 문제가 있다. 이에 본 연구에서는 기존 기술들의 한계점을 해결하기 위하여, 딥러닝 기반 사물인식 모형 중 하나인 SSD(Single Shot MultiBox Detector)를 개조하여 이미지 형태의 상품 카탈로그 내의 텍스트 인식모형을 설계하였다. 하지만 이를 학습시키기 위한 데이터를 구축하는 데 상당한 시간과 비용이 필요했는데, 이는지도학습의 방법론을 따르는 SSD 모형은 훈련 데이터마다 직접 정답 라벨링을 해줘야 하기 때문이다. 본 연구는 이러한 문제점을 해결하기 위해 ‘훈련 데이터 자동 생성 프로그램’을 함께 개발하였다. 훈련 데이터 자동 생성 프로그램을 통해 수작업으로 데이터를 만드는 것에 비하여 시간과 비용을 대폭 절감할 수 있었으며, 생성된훈련용 데이터를 통해 모형의 인식 성능을 높일 수 있었다. 더 나아가 실험연구를 통해 자동으로 생성된 훈련데이터의 특징별로 인식기 모형의 성능에 얼마나 큰 영향을 끼치는지 알아보고, 성능 향상에 효과적인 데이터의 특징을 분석하였다. 본 연구를 통해서 개발된 상품 카탈로그 내 텍스트 인식모형과 훈련 데이터 자동 생성프로그램은 온라인 쇼핑몰 판매자들의 상품 정보 등록 수고를 줄여줄 수 있으며, 구매자들의 상품 검색 시 결과의 정확성을 향상시키는 데 기여할 수 있을 것으로 기대한다.

      더보기

      참고문헌 (Reference)

      1 홍명덕, "효율적인 상품등록을 위한 워드넷 기반의 오픈마켓 카테고리 검색 시스템" 한국컴퓨터정보학회 17 (17): 17-27, 2012

      2 최성이, "사용자 관심 이슈 분석을 통한 추천시스템 성능 향상 방안" 한국지능정보시스템학회 21 (21): 101-116, 2015

      3 김경재, "데이터 마이닝을 이용한 인터넷 쇼핑몰 상품추천시스템" 한국지능정보시스템학회 11 (11): 191-205, 2005

      4 모영일, "내용기반 이미지 검색에 있어 이미지 속성정보를 활용한 검색 효율성 향상" 한국시뮬레이션학회 18 (18): 39-48, 2009

      5 양종곤, "국가 간 전자상거래 현황 및 한국의 해외 직접판매를 위한 전략적 활성화 방안에 대한 연구" 한국전자무역연구소 14 (14): 23-46, 2016

      6 조승연, "고객 온라인 구매후기를 활용한 추천시스템 개발 및 적용" 한국경영정보학회 17 (17): 95-111, 2015

      7 김기수, "개인화된 추천을 위한 하이브리드 협업필터링 알고리즘 및 인터넷 전자상거래에서의 활용" 한국인터넷전자상거래학회 8 (8): 1-20, 2008

      8 마진, "개념 망을 이용한 키워드 기반의 효율적인 정보 검색 시스템 설계" 한국인터넷정보학회 16 (16): 43-57, 2015

      9 Redmon, J., "You only look once: Unified, real-time object detection" 779-788, 2016

      10 Rosenblatt, F., "The perceptron: A probabilistic model for information storage and organization in the brain" 65 (65): 386-408, 1958

      1 홍명덕, "효율적인 상품등록을 위한 워드넷 기반의 오픈마켓 카테고리 검색 시스템" 한국컴퓨터정보학회 17 (17): 17-27, 2012

      2 최성이, "사용자 관심 이슈 분석을 통한 추천시스템 성능 향상 방안" 한국지능정보시스템학회 21 (21): 101-116, 2015

      3 김경재, "데이터 마이닝을 이용한 인터넷 쇼핑몰 상품추천시스템" 한국지능정보시스템학회 11 (11): 191-205, 2005

      4 모영일, "내용기반 이미지 검색에 있어 이미지 속성정보를 활용한 검색 효율성 향상" 한국시뮬레이션학회 18 (18): 39-48, 2009

      5 양종곤, "국가 간 전자상거래 현황 및 한국의 해외 직접판매를 위한 전략적 활성화 방안에 대한 연구" 한국전자무역연구소 14 (14): 23-46, 2016

      6 조승연, "고객 온라인 구매후기를 활용한 추천시스템 개발 및 적용" 한국경영정보학회 17 (17): 95-111, 2015

      7 김기수, "개인화된 추천을 위한 하이브리드 협업필터링 알고리즘 및 인터넷 전자상거래에서의 활용" 한국인터넷전자상거래학회 8 (8): 1-20, 2008

      8 마진, "개념 망을 이용한 키워드 기반의 효율적인 정보 검색 시스템 설계" 한국인터넷정보학회 16 (16): 43-57, 2015

      9 Redmon, J., "You only look once: Unified, real-time object detection" 779-788, 2016

      10 Rosenblatt, F., "The perceptron: A probabilistic model for information storage and organization in the brain" 65 (65): 386-408, 1958

      11 Everingham, M., "The pascal visual object classes (voc) challenge" 88 (88): 303-338, 2010

      12 Gupta, A., "Synthetic data for text localisation in natural images" 2315-2324, 2016

      13 Liu, W., "SSD: Single shot multibox detector" 2016

      14 Girshick, R., "Rich feature hierarchies for accurate object detection and semantic segmentation" 580-587, 2014

      15 Minsky, M., "Perceptrons" M.I.T. Press 1969

      16 Eikvil, L., "Optical character recognition, Technical Report" Norwegian Computing Center 1993

      17 Singh, S., "Optical character recognition techniques: a survey" 4 (4): 545-550, 2013

      18 Patel, C., "Optical character recognition by open source OCR tool tesseract: A case study" 55 (55): 50-56, 2012

      19 Deselaers, T., "Latent log-linear models for handwritten digit classification" 34 (34): 1105-1117, 2012

      20 Choi, H. Y., "Introduction to deep learning and major issues" 22 (22): 1-15, 2015

      21 Krizhevsky, A., "Imagenet classification with deep convolution neural networks" 25 : 1097-1105, 2013

      22 Kim, H. A., "Free 'ROSE document recognition', image to excel conversion function added, EDAYIL"

      23 Cao, G., "Feature-Fused SSD: Fast Detection for Small Objects"

      24 Ren, S., "Faster R-CNN: Towards real-time object detection with region proposal networks" 91-99, 2015

      25 Girshick, R., "Fast r-cnn" 1440-1448, 2015

      26 Yang, G. M., "E-commerce industry to attract investment attraction 'hot'... The market gets bigger, NEWSIS"

      27 Hwang, C. G., "Design of merchandise retrieval system based on ontology on EC" 6 (6): 213-216, 2005

      28 Kim, J. W., "Deep learning algorithms and applications" 33 (33): 25-31, 2015

      29 Zhang, B. T., "Deep Hypernetwork Models" 33 (33): 11-24, 2015

      30 Fu, C. Y., "DSSD: Deconvolutional Single Shot Detector"

      31 Jung, K. H., "Character recognition in general video using deep learning" 22 (22): 42-54, 2015

      32 김호준, "CNN 모델과 FMM 신경망을 이용한 동적 수신호 인식 기법" 한국지능정보시스템학회 16 (16): 95-108, 2010

      33 LeCun, Y., "Backpropagation applied to handwritten zip code recognition" 1 (1): 541-551, 1989

      34 Yao, C., "A unified framework for multioriented text detection and recognition" 23 (23): 4737-4749, 2014

      더보기

      동일학술지(권/호) 다른 논문

      분석정보

      View

      상세정보조회

      0

      Usage

      원문다운로드

      0

      대출신청

      0

      복사신청

      0

      EDDS신청

      0

      동일 주제 내 활용도 TOP

      더보기

      주제

      연도별 연구동향

      연도별 활용동향

      연관논문

      연구자 네트워크맵

      공동연구자 (7)

      유사연구자 (20) 활용도상위20명

      인용정보 인용지수 설명보기

      학술지 이력

      학술지 이력
      연월일 이력구분 이력상세 등재구분
      2027 평가예정 재인증평가 신청대상 (재인증)
      2021-01-01 평가 등재학술지 유지 (재인증) KCI등재
      2018-01-01 평가 등재학술지 유지 (등재유지) KCI등재
      2015-03-25 학회명변경 영문명 : 미등록 -> Korea Intelligent Information Systems Society KCI등재
      2015-03-17 학술지명변경 외국어명 : 미등록 -> Journal of Intelligence and Information Systems KCI등재
      2015-01-01 평가 등재학술지 유지 (등재유지) KCI등재
      2011-01-01 평가 등재학술지 유지 (등재유지) KCI등재
      2009-01-01 평가 등재학술지 유지 (등재유지) KCI등재
      2008-02-11 학술지명변경 한글명 : 한국지능정보시스템학회 논문지 -> 지능정보연구 KCI등재
      2007-01-01 평가 등재학술지 유지 (등재유지) KCI등재
      2004-01-01 평가 등재학술지 선정 (등재후보2차) KCI등재
      2003-01-01 평가 등재후보 1차 PASS (등재후보1차) KCI등재후보
      2001-07-01 평가 등재후보학술지 선정 (신규평가) KCI등재후보
      더보기

      학술지 인용정보

      학술지 인용정보
      기준연도 WOS-KCI 통합IF(2년) KCIF(2년) KCIF(3년)
      2016 1.51 1.51 1.99
      KCIF(4년) KCIF(5년) 중심성지수(3년) 즉시성지수
      1.78 1.54 2.674 0.38
      더보기

      이 자료와 함께 이용한 RISS 자료

      나만을 위한 추천자료

      해외이동버튼