RISS 학술연구정보서비스

검색
다국어 입력

http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.

변환된 중국어를 복사하여 사용하시면 됩니다.

예시)
  • 中文 을 입력하시려면 zhongwen을 입력하시고 space를누르시면됩니다.
  • 北京 을 입력하시려면 beijing을 입력하시고 space를 누르시면 됩니다.
닫기
    인기검색어 순위 펼치기

    RISS 인기검색어

      검색결과 좁혀 보기

      선택해제
      • 좁혀본 항목 보기순서

        • 원문유무
        • 원문제공처
          펼치기
        • 등재정보
        • 학술지명
          펼치기
        • 주제분류
          펼치기
        • 발행연도
          펼치기
        • 작성언어
        • 저자
          펼치기

      오늘 본 자료

      • 오늘 본 자료가 없습니다.
      더보기
      • 무료
      • 기관 내 무료
      • 유료
      • KCI등재

        대용량 문서 집합에서 유사 문서 탐색을 위한 효과적인 전처리 시스템의 설계

        박선영(Sun-Young Park),김지훈(Jihun Kim),김선영(SeonYeong Kim),김형준(HyungJoon Kim),조환규(Hwan-Gue Cho) 한국정보과학회 2010 정보과학회 컴퓨팅의 실제 논문지 Vol.16 No.5

        최근 문서 표절이 사회적 이슈가 되면서 문서간 유사도를 검사하는 시스템의 필요성이 대두되었다. 이에 따라 문서 유사도 검사 시스템에서의 중요한 요소인 검사 속도와 정확도를 충족시키기 위한 연구가 진행되고 있다. 본 논문에서는 유사 문서 탐색 시스템에서의 성능을 향상시키기 위해 전역 사전이라는 모델을 사용한 전처리 방법을 제시한다. 전역 사전이란 탐색 대상 문서군에서 사용된 모든 단어의 정보를 포함한 것으로, 유사한 문서가 어느 문서인지 빠르게 파악하는 데에 사용한다. 시스템에서 이 모델을 적용하는 방법에 대해 기술하고, 실험을 통해 각 방법의 전처리 성능을 분석하여 최적화된 문서 전처리 방법을 찾아낸다. 결과적으로 검사 대상 문서가 20,000건 이상인 경우에도 검사 대상 문서의 개수를 50개 이하로 획기적으로 줄여서 전체 시스템의 성능을 크게 향상시킬 수 있다는 것을 알 수 있었다. Since the paper plagiarism has become one of important social issues, it is necessary to develop system for measuring the similarity between papers. The speed and accuracy of the system are very important features. So many researchers are studying the features. In this paper, we propose a preprocessing method using 'Global Dictionary' model to enhance performance of the system. The global dictionary includes information of all words in the document repository. The system uses the model to find similar papers with low computing time. Finally our experiment showed that a set of more than 20,000 documents could be reduced to about 50 documents drastically by our filtering techniques, which proves the excellence of our system.

      • KCI우수등재

        자연어처리 기계학습 기법을 이용한 공시문서의 자동분류: Confidential treatment를 가진 8-K 문서를 중심으로

        이경란,강창묵 한국전자거래학회 2023 한국전자거래학회지 Vol.28 No.2

        Mandatory SEC filings provide crucial information to investors and other stakeholders, offering detailed financial statements and insights into a company's financial condition and material events. These filings also serve as valuable research data for firms and industries. This study investigates the application of machine learning techniques, specifically natural language processing, to automate the classification of disclosure documents. The primary focus is on developing a model for effectively filtering Form 8-Ks that request Confidential treatment (CT), enabling firms to redact proprietary information from mandatory filing forms. The paper compares the performance of a decision tree-based model (XGBoost) with two artificial neural network-based models, EmbedMixed and BERT. The results indicate that the XGBoost model outperforms the others, achieving a balanced trade-off between recall and precision of approximately 80-90%. The proposed model significantly enhances the efficiency of classifying CTs and holds potential for application to other types of SEC filing documents. 기업에 대한 방대한 정보를 제공하는 공시자료는 기업간 거래 및 투자 결정에 있어 필수적인 정보 원천이며 기업 및 산업에 대한 중요 연구자료이다. 본 논문에서는 기계학습에 기반한 자연어처리 기법을 활용하여 공시자료의 분류를 자동화하는 방법에 대해 다룬다. 특히 비밀처리(confidential treatment, CT)를 가지는 미국 수시공시 회계문서 8-K 양식의 자동판별을 위한 자연어처리(natural language processing, NLP) 기계학습 모델을 제안한다. CT란 경쟁우위의 저하를 유발할 수 있는 배타적 정보를 공시자료에서 비공개 하도록 허용하는 제도를 말한다. 문서의 분류를 위해 의사결정나무 기반의 XGBoost 모형과 인공신경망 기반의 EmbedMixed, BERT 모형을 비교하였다. 그 결과 가장 우수한 성능을 보인 모형은 XGBoost 모형으로 재현율과 정밀도가 80%~90% 사이에서 서로 상쇄하는 수준을 보였다. 본 모델을 통해 비밀처리 문서 탐색의 효율성을 크게 높일 수 있으며 다른 유형의 공시문서 분류에도 유사한 접근법을 적용해 볼 수 있을 것으로 기대한다.

      • 단어 벡터 기반의 구조화된 문서 특징을 이용한 단일 문서요약 성능 평가

        진훈,김성국 한국지능정보시스템학회 2012 한국지능정보시스템학회 학술대회논문집 Vol.2012 No.12

        일반적으로 논문의 초록은 나머지 전문 내용을 고려하여 저자가 직접 작성한 요약문으로서 해당 문서의 내용적 특징과 함께 키워드를 효과적으로 축약하여 나타낸다. 그러므로 초록을 제외한 전문 내용에 대해 기계적으로 수행한 요약문을 초록문과 최대한 유사하게 생성하는 것이 문서요약의 성능에 있어 효과적이다. 우리는 생물학-의학 분야의 과학 문헌들을 대상으로 문서의 구조적 특성을 고려하여 특징들을 추출한 후 초록문과의 유사도를 비교하였다. 실험을 위해 초록을 제외한 나머지 본문을 하나의 문서로 보고 초록문과 유사도를 측정하였고 섹션 별로 나뉘어진 개별 문서들의 집합으로 보고 각각의 문서들에 대해 초록문과의 유사도의 성능 변화를 측정하고 평가하였다. 이때 초록의 경우 단어벡터 별 가중치를 부여하기 위해 NLP 기법의 하나인 태깅(tagging) 작업을 통해 생성되는 단어와 구의 발생빈도를 중첩시켜 측정하였다. 실험을 통해 단일 문서 내에서 하나의 초록과 하나의 본문 간의 일대일 비교가 아니라 일대다 관계의 비교문제로 치환하여 유사도를 측정했을 때 성능이 증가하는 것을 확인할 수 있었다. 그리고 초록에 발생하는 단어를 기반으로 본문에 등장하는 단어들의 섹션 별 발생 비와 수를 측정함으로써 초록과의 유사성을 비교 분석하였다. 실험 결과를 통해 일정한 형식을 가진 단일 문서 비교에 있어 문서적 특성을 고려함으로써 다중 문서들 간의 비교 기법을 적용할 경우 유사성이 향상되는 것을 확인하였다. 또한 단어벡터 기반의 분석과정 시에 문서의 내용적 특성을 고려하여 추가적 가중치를 부여했을 때 역시 유사성이 증가하는 것을 확인하였다. 그럼에도 불구하고 문서요약을 위해 실제 초록에 등장하는 단어들에 대해 각 섹션 별 발생 횟수나 빈도비를 계산하였을 때 내용적 측면에서 유사도가 높지 않은 것으로 나타났다.

      • KCI등재

        문서 처리 자동화를 위한 인보이스 이미지의 구조 인식 방법

        이동석,권순각 한국산업정보학회 2023 한국산업정보학회논문지 Vol.28 No.2

        본 논문은 인보이스 문서 이미지에 문서 처리 자동화를 적용하기 위한 문서 구조 인식 방법과 문서 구조 인식 결과를 토대로 스프레드문서 형태로 출력하는 방법을 제안한다. 딥러닝 OCR 엔진을 통해 문서 내 단어 블록들과 해당 블록들의 문자 인식 결과를 얻는다. 단어 블록의 위치 정보들을 통해 같은 행과 같은 열에 존재하는 단어 블록들을 검출한다. 단어 블록들의 배치 정보를 통해 문서 영역을 분할한다. 문서의 구역 정보를 통해 얻어진 문서 구조를 토대로 스프레드시트의 알맞은 위치에 문자 인식 결과를 입력한다. 실험 결과 제안된 방법을 통한 항목 배치는 평균 92.30%의 정확도를 보인다.

      • KCI등재

        초등학교 특수학급 교사의 공문서 처리 현황 및 개선방안

        윤치현,김호연 한국특수교육학회 2010 특수교육학연구 Vol.44 No.4

        본 연구의 목적은 초등학교 특수학급에서 접수ㆍ처리하는 공문서의 양과 종류를 비교하고 공문서로 인한 특수교사의 업무부담 인식 정도와 개선 방안을 제시하여 업무경감에 도움을 주고자 하는데 있다. 전국 16개 시ㆍ도 공립초등학교 문서 수발 현황을 내용 분석하고, 서울특별시와 경기도 초등학교 특수학급에서 근무하고 있는 특수교사를 대상으로 공문서에 대한 업무 부담 인식을 조사 연구하여 분석하였다. 결과에 따르면 특수교사는 일반초등교원에 비해 15배나 많은 공문서를 처리하고 있으며, 특히 일반 여타 업무보다 공문서 처리에 대해서 업무 부담을 크게 느끼고 있는 것으로 나타났다. 이에 대한 개선방안으로는 공문 수 감축과 더불어 처리 시간이 촉박하게 요구되는 감사 자료의 감축이 우선적으로 이루어져야 하며, 전자결재시스템의 완전 도입 및 단순 통계성 결과보고를 위한 자료 집계 시스템의 도입이 필요한 것으로 나타났다. 그리고 무엇보다 기본적인 교육환경을 정비하여 열악한 근무여건을 개선하는 것이 우선되어야 할 것으로 나타났다. The purpose of this study was to assist the special education teachers by bringing out the issues on recognition extent of work load related to official document. In this study, these researchers analysed document delivery status of nationwide 16 municipal, provincial public elementary schools with content analysis, and analyzed special education teachers' recognition on their work load. The questionnaire was conducted for the special education teachers working at the special classes at elementary school in Seoul and Gyeonggi do. The results from the analysis were as below. First, the content analysis showed that the official documents handled in the special classes were 15 cases monthly, much more than 1.03 cases that handled in the general elementary schools. Second, those special education teachers appeared to feel burden in dealing with official documents particularly among general tasks which include operation of special classes, guidance for teaching classes, guidance for childhood living. Third, They also responded that the reduction of official documents volume along with reduction of urgent audit data requiring very short dealing time, should preferentially carried out. And the full introduction of electronic approval system and data collecting system for the report of simple statistical results should be preferentially introduced. Lastly, it's about the working condition of the special education teachers. It's important to improve the work condition of the special education teachers by checking their work load, but the hardening of the basis by maintaining the most basic educational environment is the first thing to be done above all.

      • 유사어 벡터 확장을 통한 XML태그의 유사성 검사

        이정원,이혜수,이기호,Lee, Jung-Won,Lee, Hye-Soo,Lee, Ki-Ho 한국정보과학회 2002 정보과학회논문지 : 소프트웨어 및 응용 Vol.29 No.9

        XML(extensible Markup Language)문서가 웹 문서의 표준으로 자리 매김 할 수 있는 가장 큰 성공요인은 사용자가 문서 타입을 기술할 수 있는 유연성(flexibility)이다. 그러나 XML의 유연성으로 야기되는 문제점은 동일한 의미를 표현하기 위해 XML문서 작성자마다 서로 다른 태그명과 구조를 사용한다는 점이다. 즉 서로 다른 태그 집합, 요소(element), 속성(attribute)에 대한 서로 다른 이름 또는 다른 문서 구조로 인해 다른 태그로 표현된 문서는 서로 다른 부류의 문서로 간주되기 쉽다. 따라서 본 논문은 XML태그에 내재된 의미 정보(semantic information)와 구조 정보(structured information)를 추출하여 의미적으로 최대한 유사한 동의어로 확장하고, XML문서의 확장된 태그간의 의미적 유사도를 비교 분석할 수 있는 개념 기반의 태그 패턴 매처(Tag Pattern Matcher)를 설계 구현하였다. 두 XML문서의 태그간의 의미적 유사도에 가중치를 부여하여 기존의 비구조적인(semi-structured) 문서를 위한 벡터 스페이스 모델(vector space model)을 확장함으로써 두 XML문서가 유사한지를 파악할 수 있다. The success of XML(eXtensible Markup Language) is primarily based on its flexibility : everybody can define the structure of XML documents that represent information in the form he or she desires. XML is so flexible that XML documents cannot be automatically provided with an underlying semantics. Different tag sets, different names for elements or attributes, or different document structures in general mislead the task of classifying and clustering XML documents precisely. In this paper, we design and implement a system that allows checking the semantic-based similarity between XML tags. First, this system extracts the underlying semantics of tags and then expands the synonym set of tags using an WordNet thesaurus and user-defined word library which supports the abbreviation forms and compound words for XML tags. Seconds, considering the relative importance of XML tags in the XML documents, we extend a conventional vector space model which is the most generally used for document model in Information Retrieval field. Using this method, we have been able to check the similarity between XML tags which are represented different tags.

      • KCI등재

        구문의미분석을 이용한 유사문서 판별기

        강원석(Won-Seog Kang),황도삼(Do-Sam Hwang),Jung H Kim 한국콘텐츠학회 2014 한국콘텐츠학회논문지 Vol.14 No.3

        문서 저작권에 대한 관심과 중요성이 높아짐에 따라 문서 복제나 표절의 검출에 대한 필요성이 증대되고 있다. 이와 같은 이유로 많은 연구가 이루어지고 있으나 자연어 처리기술의 한계가 있어 문서의 심층적 표절 검출에 어려움이 있다.본 논문은 자연어 분석의 기술을 적용한 유사문서 판별기를 설계,구현한다. 이 시스템은 형태소 분석의 기술과 함께 구문의미 분석의 기술, 저빈도 및 관용표현 가중치을 이용하여 유사문서를 판별한다. 본 시스템의 성능을 실험하기 위하여 휴먼 판별과 기존 시스템, 그리고 휴먼 판별과 제안한 시스템의 판별과의 상관계수를 분석하였다. 실험결과, 구문의미 분석을 활용한 시스템의 개선점을 발견할 수 있었다. 앞으로 문서 유형을 정의하고 각 유형에 맞는 판별 기법을 개발할 필요가 있다. Owing to importance of document copyright the need to detectd ocument duplication and plagiarism is increasing. Many studies have so ught to meet such need, but there are difficulties indocument duplication detection due to technological limitations with the processing of natural language. This thesis designs and implements a discriminator of similar documents with natural language processing technique. This system discriminates similar documents using morphological analysis, syntactic analysis, and weight on low frequency and idiom. To evaluate the system, we analyze the correlation between human discrimination and term-based discrimination, and between human discrimination and proposed discrimination. This analysis shows that the proposed discrimination needs improving. Future research should work to define the document type and improve the processing technique appropriate for each type.

      • KCI우수등재

        전자문서를 이용한 소송절차에 대한 고찰 -「민사소송 등에서의 전자문서 이용 등에 관한 법률」의 시행에 즈음하여-

        오민석 ( Min Seok Oh ) 법조협회 2010 法曹 Vol.59 No.6

        정보화, 전자화의 급속한 발전과 확산에 따라 기업이나 관공서 등에서 각종 업무를 처리하는 경우는 물론이고 일상생활에서도 전자문서의 이용이 일반화되었고, 인터넷을 통한 정보 교환이 수시로 이루어지고 있다. 이러한 변화를 반영하여 세계 각국은 소송절차에서 전자문서를 이용할 수 있도록 법령과 제도를 정비하고 있다. 우리나라도 2010년 3월 「민사소송 등에서의 전자문서 이용 등에 관한 법률」을 제정함으로써 본격적인 전자소송 시대에 돌입하게 되었다. 전자소송의 도입에 따라 당사자의 편의가 증진되고 소송이 보다 신속하고 투명하게 진행될 수 있을 것이다. 이 글에서는 전자소송의 입법추진 배경과 그 경과, 외국의 전자소송 도입현황을 살펴본 후, 「민사소송 등에서의 전자문서 이용 등에 관한 법률」이 정하고 있는 전자문서의 개념과 법률의 적용범위, 전자문서를 이용한 소송절차에 관하여 검토하였다. 전자소송의 시행으로 법정에 구비되어 있는 전자장비를 이용한 입체적이고 생동감 있는 구술변론이 보다 활성화될 것으로 기대된다.

      • KCI등재

        경로정보의 중복을 제거한 XML 문서의 저장 및 질의처리 기법

        이혜자,정병수,김대호,이영구,Lee Hiye-Ja,Jeong Byeong-Soo,Kim Dae-Ho,Lee Young-Koo 한국정보처리학회 2005 정보처리학회논문지D Vol.12 No.5

        본 논문에서는 대용량 XML 문서를 저장하고 그로부터 원하는 정보를 효율적으로 찾기 위한 방법으로, 경로정보의 중복을 제거하면서 역 인덱스를 함께 이용한 방법을 제안한다. XML 문서는 트리구조에 기반한 노드로 분해되어, 노드 타입에 따라, 루트에서 각 노드까지의 경로정보와 함께 관계형 테이블에 저장된다. 경로정보를 이용한 기존의 U 질의 기법들에서는 모든 엘리먼트 노드들에 대해 경로정보를 저장함에 따라 정보의 양이 증가하여 질의 처리의 성능을 저하시키는 요인이 되고 있다. 제안 방법에서는 경로정보 중 가장 긴 단말 엘리먼트 노드까지의 경로인 단말 엘리먼트 경로(leaf element path)만 저장하고 내부 엘리먼트 노드까지의 경로인 내부 엘리먼트 경로들(internal element paths)은 저장하지 않는다. 단말 엘리먼트 경로만을 대상으로 하여 역 인덱스를 구성함에 따라, 기존의 역 인덱스 이용 기법에 비해 키워드별 포스팅 리스트(posting lists)의 수를 줄이게 된다. 제안 방법에서는 U 문서의 저장과 질의를 위하여 XML 문서에 대한 스키마 정보가 없어도 되며, 관계형 데이터베이스의 어떤 확장도 요구하지 않는다. 실험을 통해 제안 방법은 실험 범위 내에서 기존 기법들에 비해 좋은 성능을 보인다. This Paper Proposes an approach that removes the redundancy of Path information and uses an inverted index, as an efficient way to store a large volume of XML documents and to retrieve wanted information from there. An XML document is decomposed into nodes based on its tree structure, and stored in relational tables according to the node type, with path information from the root to each node. The existing methods using path information store data for all element paths, which cause retrieval performance to be decreased with increased data volume. Our approach stores only data for leaf element path excluding internal element paths. As the inverted index is made by the leaf element path only, the number of posting lists by key words become smaller than those of the existing methods. For the storage and retrieval of U data, our approach doesn't require the XML schema information of XML documents and any extension of relational database. We demonstrate the better performance of on approach than the existing approaches within the scope of our experiment.

      • KCI등재

        영상 대 영상 매칭을 이용한 한글 문서 영상에서의 단어 검색

        박상철,손화정,김수형,Park Sang Cheol,Son Hwa Jeong,Kim Soo Hyung 한국정보처리학회 2005 정보처리학회논문지B Vol.12 No.3

        본 논문에서는 두 단계 이미지 매칭을 이용하여 한글 문서영상에서 사용자 검색어를 빠르고 정확하게 검색할 수 있는 시스템을 제안한다. 본 시스템은 문자 분리, 검색어 영상 생성, 특징 추출 그리고 이미지 매칭 과정으로 구성된다. 매칭 과정에서 차원이 다른 두 가지 특징 벡터를 이용한다. 8쪽 분량의 문서 영상을 한국정보과학회 웹사이트에서 다운로드하였고, 그 문서로부터 1600개의 한글단어 영상을 획득하여 실험데이터로 사용하였다 그 결과 제안한 시스템은 기존에 제안된 영상-기반 한글 단어 검색 시스템보다 성능이 크게 향상되었음을 알 수 있었다. In this paper, we propose an accurate and fast keyword spotting system for searching user-specified keyword in Hangul document images by using two-level image-to-image matching. The system is composed of character segmentation, creating a query image, feature extraction, and matching procedure. Two different feature vectors are used in the matching procedure. An experiment using 1600 Hangul word images from 8 document images, downloaded from the website of Korea Information Science Society, demonstrates that the proposed system is superior to conventional image-based document retrieval systems.

      연관 검색어 추천

      이 검색어로 많이 본 자료

      활용도 높은 자료

      해외이동버튼