RISS 학술연구정보서비스

검색
다국어 입력

http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.

변환된 중국어를 복사하여 사용하시면 됩니다.

예시)
  • 中文 을 입력하시려면 zhongwen을 입력하시고 space를누르시면됩니다.
  • 北京 을 입력하시려면 beijing을 입력하시고 space를 누르시면 됩니다.
닫기
    인기검색어 순위 펼치기

    RISS 인기검색어

      검색결과 좁혀 보기

      선택해제
      • 좁혀본 항목 보기순서

        • 원문유무
        • 음성지원유무
        • 원문제공처
          펼치기
        • 등재정보
          펼치기
        • 학술지명
          펼치기
        • 주제분류
          펼치기
        • 발행연도
          펼치기
        • 작성언어

      오늘 본 자료

      • 오늘 본 자료가 없습니다.
      더보기
      • 무료
      • 기관 내 무료
      • 유료
      • KCI등재

        Significance Test of N-grams Using Bi-grams and χ 2-test

        Yong-hun Lee,Ji-Hye Kim 한국영어학학회 2020 영어학연구 Vol.26 No.1

        N-grams (or lexical bundles) are important linguistic units both in linguistics and in English teaching, but there have been no or few studies which test the significance of the n-grams. This paper proposes an algorithm which can test the significance of the n-grams. The algorithm proceeds as follows. For any n-gram sequence, we first construct an n×n table. Each cell (fij) in the table is filled with the bi-gram frequencies of wiwj. The table goes through a χ2-test, and statistical significance is calculated. In order to check the validity of our algorithm, we apply the algorithm to two corpora. One is the USA component of International Corpus of English (ICE-USA), and the other is the Korean component of the TOEFL11 corpus (TOEFL11-Korean). From two corpora, we extract 3-grams, 4-grams, and 5-grams respectively. Then, we apply the algorithm to each sequence of n-gram and conduct a significance test. We find that 1.0~2.5% of n-grams are statistically significant in the ICE-USA corpus and that 1.4~7.5% are statistically significant in the TOEFL11-Korean corpus. We also observe the tendency that Korean learners tend to overuse a small inventory of n-grams repeatedly.

      • KCI등재

        N-gram을 활용한 중국 법률 텍스트의 정형 표현 분석 – 중국 민법전을 중심으로

        최승혁,강병규 중국어문학회 2023 中國語文學誌 Vol.- No.84

        본 연구는 고정된 형태의 단어 조합인 정형 표현(formulaic expression)이 어휘와 같이 하나의 언어 단위로 인식할 수 있다는 점에 착안하여 AntConc의 N-gram, Cluster 기능을 활용해 중국 민법전의 N-gram 유형과 연어 관계를 고찰하였다. N-gram 유형은 자유 결합과 표현 문형으로 나누어 살펴보았다. 2-gram은 자유 결합의 비중이 높게 나타났고, 3-gram부터는 공기나 결합 관계에 제약에 있는 연어(collocation) 형태가 보이기 시작했다. 4-gram은 하나의 덩어리(chunk)로써 단독으로 쓸 수 있는 표현 문형이 다수 출현했다. 5-gram, 6-gram에서는 표현 문형이 절대적으로 큰 비중을 나타냈으며, 자유 결합은 거의 나타나지 않았다. 연어 관계는 명사성 연어 관계, 동사성 연어 관계로 나누어 고빈도 연어 관계를 분석하였다. 명사성 연어 관계에서는 일반 텍스트에서 관찰되지 않는 법률 관련 명사구가 많이 출현했다. 동사성 연어 관계에서는 3-gram 유형의 자유 결합에서 나타난 연어의 구체적인 실례를 살펴볼 수 있었다. 이 밖에도 법률 텍스트의 정형 표현을 기계번역에 학습시켜 특화할 때 얻을 수 있는 효과와 활용 방안에 있어서, 번역의 일관성 제고와 의미의 모호성 감소에 대한 효과, 번역 교육과 포스트에디팅에서의 활용 가치를 살펴보았다. 비록 분석 대상인 민법전의 코퍼스 규모가 크지 않은 한계가 있지만, N-gram을 활용해 중국 민법전의 정형 표현을 분석하고 중한 법률 도메인 특화 기계번역에의 활용 가능성을 고찰하였다는 점에서 의미가 크다. This study investigates the N-gram patterns and collocational relationships within the Chinese Civil Code, using the N-gram and Cluster features of AntConc, based on the perception of formulaic expressions as fixed combinations of words that can be recognized as single linguistic units alongside vocabulary. The study examines N-gram patterns in terms of free combinations and syntactic structures. 2-grams predominantly exhibit a high prevalence of free combinations, while from 3-grams onward, collocational constraints within lexical or syntactic relationships begin to emerge. 4-grams frequently manifest as self-contained units that can stand alone as expressions. In the case of 5-grams and 6-grams, expression patterns dominate significantly, with minimal occurrences of free combinations. To analyze high-frequency collocations, collocational relationships can be categorized as either noun-based or verb-based. The noun-based collocational relationships contain many legal-related noun phrases that are not commonly seen in general texts. Verb-based collocational relationships examine specific instances of collocations that originate from the free combinations of 3-gram patterns. This study also investigates the possible effects and applications of training machine translation with formulaic expressions in legal texts. This study investigates the enhancement of translation consistency, reduction of semantic ambiguity, and the value of utilization in translation education and post-editing. Although the corpus drawn from the Chinese Civil Code was relatively modest in scale, this research still made a significant contribution by analyzing formulaic expressions using N-grams and exploring possibilities for domain-specific machine translation within the realm of Chinese legal discourse.

      • KCI등재

        헬스케어 분야 빅데이터 분석을 위한 개체명 사전구축에 새로운 역 N-Gram 적용 연구

        이경현,백락준,김우수,KyungHyun Lee,RackJune Baek,WooSu Kim 국제문화기술진흥원 2024 문화기술의 융합 Vol.10 No.3

        본 연구에서는 헬스케어 분야에 특화된 개체명 사전을 구축하기 위해 기존 N-Gram 방식의 한계를 극복하고 성능을 향상하게 시키기 위해 새로운 역 N-Gram 방식을 제안하였다. 제안된 역 N-Gram 방식은 헬스케어 관련 빅데이터의 복잡한 언어적 특성을 더 정밀하게 분석하고 처리할 수 있다. 제안된 방식의 효율성 검증을 위해 매년 1월에 개최되는 소비자 가전 전시회(Consumer Electronics Show: CES) 기간 동안 발표된 헬스케어 및 디지털 헬스케어 관련 빅데이터를 수집하기 위하여 뉴스를 대상으로 2010년 1월 1일부터 31일, 그리고 2024년 1월 1일부터 31일까지 언급된 2,185건의 뉴스 제목 및 요약문을 파이썬 프로그래밍언어로 새로운 역 N-Gram 방식을 구현하여 전처리한 결과, 헬스케어 분야에서의 자연어 처리를 위한 사전이 안정적으로 구축되었음을 확인할 수 있었다. This study proposes a novel reverse N-Gram approach to overcome the limitations of traditional N-Gram methods and enhance performance in building an entity dictionary specialized for the healthcare sector. The proposed reverse N-Gram technique allows for more precise analysis and processing of the complex linguistic features of healthcare-related big data. To verify the efficiency of the proposed method, big data on healthcare and digital health announced during the Consumer Electronics Show (CES) held each January was collected. Using the Python programming language, 2,185 news titles and summaries mentioned from January 1 to 31 in 2010 and from January 1 to 31 in 2024 were preprocessed with the new reverse N-Gram method. This resulted in the stable construction of a dictionary for natural language processing in the healthcare field.

      • KCI등재

        n­그램 분석을 활용한 원효의 『대승기신론별기』와 법장의 『대승기신론의기』의 비교 연구

        강준모 동아시아불교문화학회 2025 동아시아불교문화 Vol.- No.67

        본 논문의 목적은 『대승기신론별기』가 『대승기신론의기』의 영향을 받았다는 견해를 검증하는 『별기』의 문구를 찾는 것이다. 이를 위하여 『대승기신론소』, 『별기』, 그리고 『의기』를 비교하여 『별기』와 『의기』에서만 등장하는 내용을 찾아보았다. 논문에서는 이를 실행하기 위하여 전산언어학에서의 문자열 분석 방법 중 하나인 n-그램 분석을 도입하였고, 다음과 같은 과정을 거쳤다. 첫째, 『별기』와 『의기』에 등장하는 공통 n-그램을 추출하고, 『소』에서도 등장하는 n-그램을 배제하여 『별기』와 『의기』에만 등장하는 공통 n-그램을 도출하였다. 둘째, n-그램에 텍스트 내에서의 위치 정보를 부여하여 위치 기반 n-그램으로 전환하였다. 셋째, 『별기』와 『의기』의 n-그램 주위 문자열을 비교하여 공통 n-그램 중에서 내용이 일치하지 않는 것을 배제하였다. 넷째, 『별기』의 공통 n-그램 주위의 내용을『소』와 비교하여 『소』와 중복되는 내용을 포함한 것을 배제하였다. 이 과정을 통하여 『별기』와 『의기』에 공통으로 등장하지만『소』 에서는 등장하지 않는 문자열을 찾을 수 있었다. 이를 분석한 결과, 『별기』와 『의기』에서 공통적으로 나타나지만 『소』에서는 나타나지 않는 내용이 있다는 것을 확인하였다. 또한 해당 내용들은 기존에 상정하던 『별기』→『소』→『의기』의 저술 순서로는 설명하기 어려운 점이 있었다. 연구의 의의는 두 가지이다. 첫째, 『소』, 『별기』, 『의기』의 관계를 재검토하게 하는 텍스트 내적 근거를 찾았다는 것이다. 둘째, n-그램 분석이라는 전산언어학적 방법론을 한문 텍스트 연구에 응용하여, 텍스트의 공통 내용을 효과적으로 탐색할 수 있는 연구 방법을 구축하였다는 점이다. This study examines the differences between Wonhyo’s Daeseung Gisillon Byeolgi (大乘起信論別記) and Fazang’s Dasheng Qixinlun Yiji (大乘起信論義記) to assess whether Byeolgi may not have been authored by Wonhyo. To that end, I analyzed Gisillon So (起信論疏), Byeolgi, and Yiji using n-gram analysis, a computational linguistics method for corpus analysis. The process involved extracting n-grams shared by Byeolgi and Yiji but absent in So, thereby isolating n-grams unique to Byeolgi and Yiji. Next, positional data was assigned to these n-grams to create positional n-grams for further scrutiny. The surrounding contexts of these shared n-grams in Byeolgi and Yiji were then compared, and any n-grams with differing contextual usage were excluded. Finally, the refined n-grams in Byeolgi were checked against So once again, and any overlapping content was removed. The findings reveal textual elements common to Byeolgi and Yiji but absent in So. This result challenges the traditionally accepted sequence of authorship (Byeolgi → So → Yiji), opposing the assumption that Byeolgi was fully composed by Wonhyo.

      • KCI등재

        남북한 고등학교 영어교과서 4-gram 연어 비교 분석

        김정렬 한국콘텐츠학회 2020 한국콘텐츠학회논문지 Vol.20 No.7

        N-gram analysis casts a new look at the n-word cluster in use different from the previously known idioms. It analyzes a corpus of English textbooks for frequently occurring n consecutive words mechanically using a concordance software, which is different from the previously known idioms. The current paper aims at extracting and comparing 4-gram words clusters between South Korean high school English textbooks and its North Korean counterpart. The classification criteria includes number of tokens and types between the two across oral and written languages in the textbooks. The criteria also use the grammatical categories and functional categories to classify and compare the 4-gram words clusters. The grammatical categories include noun phrases, verb phrases, prepositional phrases, partial clauses and others. The functional categories include deictic function, text organizers, stance and others. The findings are: South Korean high school English textbook contains more tokens and types in both oral and written languages. Verb phrase and partial clause 4-grams are grammatically most frequently encountered categories across both South and North Korean high school English textbooks. Stance is most dominant functional category in both South and North Korean English textbooks. 본 연구는 4-gram 연어분석으로 남북한 고등학교 영어교과서를 비교분석하고자 하는 것이 목적이다. N-gram 분석은 그동안 우리가 알고 있는 관습적인 관용어와는 달리 코퍼스를 구성하여 기계적인 방법으로 물리적으로 함께 공기하는 빈도가 높은 낱말군을 객관적인 방법으로 추출하여 분석하는 것이다. 본 연구의 목적은 AntConc의 N-gram 분석 도구로 4-gram 연어를 남북한 영어교과서 코퍼스에서 찾아서 비교 분석해보는 것이다. 분석의 대상은 북한의 2013 교육개혁에 따른 북한 고등중학교 영어교과서와 남한의 2015교육과정에 따른 고등학교 영어교과서로 구성된 코퍼스에서 구어와 문어의 token과 type을 구분하여 분석 비교한다. 이를 분석대상으로 하여 코퍼스의 4-gram 연어를 문법범주와 기능범주로 나눈 준거를 통해서 분석하였다. 문법범주는 크게 명사구, 동사구, 전치사구, 부분절 그리고 기타로 나누어 범주화하고 기능범주는 지칭, 텍스트의 조직, 입장과 기타로 나누었다. 분석한 결과 4-gram 연어에 나타난 구어와 문어 모두 남한의 영어교과서가 북한의 영어교과서 보다 token과 type의 수가 상대적으로 많았다. 그리고 문법범주에는 남북한 모두 영어교과서에 동사구와 부분절 형태의 4-gram 연어가 가장 많았으며 기능범주에는 남북한 모두 영어교과서에 입장 기능과 관련된 4-gram 연어가 가장 많았다.

      • KCI등재

        한시 텍스트마이닝 기법의 적용과 한계

        이병찬 어문연구학회 2024 어문연구 Vol.121 No.-

        이 논문은 漢詩를 대상으로 텍스트 마이닝 기법의 적용 방법을 고찰하고 그 한계를 검토한 연구이다. 특히, 본 연구에서는 n-gram과 BERT 모델을 중심으로 한 텍스트 마이닝 기법을 비교 분석하였다. n-gram 기법은 단어 간의 연관성을 바탕으로 문서의 특징을 파악할 수 있다. 그러나 이 기법은 단어 내면의 문맥을 충분히 반영하지 못한다는 단점이 있어, 텍스트의 심층적 해석에 있어 제한적일 수 있다. 반면, BERT 모델은 텍스트의 모든 단어를 양방향으로 분석하여 문맥을 고려한 의미 해석을 가능하게 하는 자연어 처리 모델이다. 단순히 단어의 빈도를 기반으로 하는 것이 아니라, 단어의 위치와 주변 단어들과의 관계를 통해 더 정교한 의미 분석을 수행할 수 있다. 본 연구는 이러한 두 가지 텍스트 마이닝 기법을 한시 텍스트 분석에 적용하여 그 효용성과 한계를 검토하였다. 연구 결과, n-gram과 BERT 모델은 각기 다른 특성과 성능을 보이며, 한시와 같은 전통 문학 텍스트의 분석에 있어 상호 보완적인 접근이 필요함을 확인하였다. n-gram 분석은 간단한 패턴 인식과 텍스트의 전반적인 구조 파악에 유용하며, BERT 모델은 더 깊이 있는 문맥 분석과 의미 해석에 강점이 있다. 본 연구는 n-gram 분석의 사례를 통하여 한시 텍스트에서 자주 나타나는 공통적인 단어와 어구를 분석하고, 이를 바탕으로 한 온톨로지 구축만이 그 시인의 문학적 경향성과 작품의 주제 의식을 더욱 명확히 파악하여 한시의 문학적 가치를 심층적으로 조명할 수 있음을 밝혔다. 또한 BERT 모델을 활용한 김창협 한시의 코사인 유사도 분석은 기계적 분석이 유용하며 가능성이 있음을 보여주었다. 다만 현재 기술의 한계상 연구자 누구나 접근한 도구가 개발된 것도 아니고 원하는 수준이라고 보기 어려운 부분도 존재한다. 한문학 연구자의 눈에 누구나 찾을 수 있는 결과라고 볼 수 있다. 하지만 순전히 기계학습의 결과이며 수십만 수의 漢詩에 적용하면, 유용한 결과를 얻을 것이다. 하지만 대량의 자원과 기술적인 완성도가 필요한 문제가 남아있다. 본 논문은 텍스트 마이닝 기법을 활용하여 한시의 문학적 의미와 구조에 쉽게 접근할 수 있는 새로운 연구 방법론의 가능성을 제시하고자 하였다. 본 연구 결과의 기초 위에 다양한 텍스트 분석 모델의 적용과 그 결과에 대한 비교가 이루어진다면, 이를 통해 더욱 정교한 문학적 해석이 가능해질 것이다. This study explores the application of text mining techniques to classical Chinese poetry (漢詩) and assesses their limitations. The research specifically compares and analyzes the strengths and weaknesses of text mining methods based on n-gram and BERT models. This study applies both text mining techniques to the analysis of classical Chinese poetry to evaluate their utility and limitations. The results highlight distinct characteristics and performances of the n-gram and BERT models, emphasizing the need for a complementary approach when analyzing traditional literary texts. While n-gram analysis is effective for identifying simple patterns and understanding the overall structure of the text, the BERT model excels in deeper contextual analysis and semantic interpretation. Through n-gram analysis, this research demonstrates the potential to gain a clearer understanding of a poet’s literary tendencies and thematic intentions by analyzing frequently occurring words and phrases in classical Chinese poetry. Additionally, the construction of ontologies based on these analyses can offer deeper insights into the literary value of the texts. Furthermore, cosine similarity analysis of Kim Chang-hyeop's classical Chinese poetry using the BERT model shows that machine-driven analysis holds promise. However, due to current technological limitations, the tools accessible to researchers are still in their developmental stages and not yet fully optimized. While the results may be readily interpretable by scholars of classical literature, large-scale machine learning applications in classical Chinese poetry require significant computational resources and further technical refinement. This paper proposes a new research methodology for accessing the literary meaning and structure of classical Chinese poetry through text mining techniques. The study suggests that further application and comparison of various text analysis models could lead to more refined and sophisticated literary interpretations.

      • KCI등재

        한국어 확장된 어휘 단위의 층위 연구

        최준(Jun Choi) 어문연구학회 2016 어문연구 Vol.87 No.-

        이 연구에서는 말뭉치언어학의 관점에서 논의될 수있는 한국어의 확장된 어휘 단위의 하위 층위들을 종합적인 관점에서 조망하는 것을 주된목적으로 한다. 이와 함께 한국어 확장된 어휘 단위의 하위 범주들이 언어학의 논의 내에서 갖는 개별적 의의와 범주 상호간의 의의를 논의하고자한다.전통적인 관점에서 단어 단위를 넘어서는 언어 표현에 대한 논의는 의미적 비합성성의 원리를 충족하는특이한 구 단위로서의 관용표현을 주요 대상으로 삼았으며, 대체로 그러한 특이한 구 단위는 문법 규칙의 제약을 받지 않는 예외적 단어로 취급되었다. 이와 달리 말뭉치 언어학에서는 언어 자료에서 나타나는 빈도를기반으로 하여 빈번하게 함께 사용되는 언어 단위들을 논의 대상으로 삼고, 언어 사용에서 중요한 지위를 갖는 표현으로서의의의를 부여한다. 이러한 확장된 어휘 단위는 구체적인어형, 추상적 문법 범주, 의미적 맥락등과 같이 다양한 층위의 요소들이 구성요소를 이루고 있으며, 그에 따라 유관하지만 이질적인 별개의 범주로서 말뭉치 언어학의 연구 대상이 되고 있다. 확장된 어휘 단위는 그것을 추출하는 방법론적특성에 따라 크게 두 갈래로 나눌 수 있는데, 하나는 공기 분석의 방법론을 통해 주로 두 개의 구성성분 사이의 관계에 초점을 두며, 연어, 의미적 선호, 연접범주, 의미적 운율 등을 포함한다. 다른 하나는 N-GRAM 분석법을 통해 둘이상의 구성성분으로 이루어진 단어 연쇄(n-gram)를 주요 대상으로 삼으며, 하나 이상의 자유 슬롯을 포함하는 피프레임(phrase frame, p-frame), 스킵그램(skip-gram) 등으로 확장되기도 한다. 말뭉치 언어학은 그 동안 특정 어형이나 단어의 개별적인 사용 양상을 기술하는 데 장점이 있는 것으로인식되어왔고, 이것은 곧그 이상의추상적 차원에 대한 기술에 있어서 한계를 갖는 것으로인식되기도 했다.그러나 공기분석에서 보다 구체적인 속성을 갖는 구성성분 간의 관계에 해당하는 연어에서부터, 보다 추상적인 속성을 갖는 구성성분 사이의 관계에 초점을 두는 의미적 운율에 이르기까지 연구 대상을 포괄할 수 있으며, 그에 따라 단어에 대한 기술을 넘어, 문법 범주와 의사소통적 맥락과의 연결될 수 있는 접점을 제시할 수있다. 또한, 구성성분의 수를 보다 확장하는 엔그램(N-GRAM) 분석법을 도입함으로써, 보다 긴 언어 단위의형성에 확장된 어휘 단위가 기여하는 양상을 확인할 수 있다는 것을 알 수 있다. 이와 함께 전체 언어 사용에서 확장된 어휘 단위가 얼마나 기여하는지를 일관된 기준으로 평가할 수 있음을 알 수 있다.말뭉치 자체의 오류, 컴퓨터를 활용한 자연 언어 처리에서 유연성 적용의 한계 등으로 인한 말뭉치 언어학의 방법론적 한계는 언어 분석 결과에 대한 의심을 갖게 하기도 하지만, 보다 세련된 분석 방법론에 대한끊임없는 추구는 언어 사용의 설명력을 강화하는 데 기여할 수 있다는 기대를 갖게 한다. The purpose of this study is twofold. First, it investigates a hierachy towhich a Korean speaker/writer makes use of Extended LexicalUnits(ELUs), that is, what its distribution is, by taking a corpus-drivenapproach. Second, it examines the significance of ELUs’ each subcategoriesand their interface. A main subdivision can be made between twoextraction methods: co-occurrence analysis and N-GRAM analysis.Co-occurrence analysis can make four lower subcategories of some ELUs,which are collocation of the lexical level, semantic reference of the semanticlevel, colligation of the grammatical level, and semantic prosody of thepragmatic level. It is able to be operated between a more concretedimension and a more abstract dimension. N-GRAM is a methodologicalterm which allows for the extraction of recurrent continuous sequences oftwo or more words, that is, n-gram. Phrase-frame(p-frame) is a specialcategory of being extracted recurrent sequences by N-GRAM analysis,which consist of sequences containing one or more free slots. As theincrease in number of ELUs’ constituents increase, collocation of lexicallevel is related with n-gram, and semantic reference of semantic level isrelated with p-frame.Corpus linguistics has been recognized as having advantage to be able todescribe various usage of certain word-form or word, and the same time, it has been recognized as having limits to describe more abstract dimensions.The variable subcategories of ELUs, however, can cover all the dimensionsfrom the lexial to the contextual. Indeed, by adapting N-GRAM analysismethodology, we can identify how ELUs contribute to constitute longerlinguistic units, and how many it contribute to whole language use.

      • KCI등재

        논증적 글쓰기 과제의 자동 채점을 위한 N-gram 자질의 활용 가능성 탐색

        김승주 한국작문학회 2019 작문연구 Vol.0 No.41

        The purpose of this study is to develop the scoring feature for the automatic scoring of demonstrative writing tasks and to examine the possibility of automatic scoring by using them. In this paper, we propose a method for extracting high-frequency N-grams from Sejong Corpus, designing features related to Appropriateness of expressions, diversity of expression, complexity of expressions, respectively. As a result of Pearson correlation analysis between the features and the total writing scores, the Pearson correlation coefficient between total scores and ‘3-gram frequency’, ‘3-gram type’ and ‘3~5-gram type’ were over 0.6. As a result of regression analysis, R2 of ‘3-gram frequency’ and ‘3-gram ratio’ were 54.8% of total score. These results are consistent with previous research that scoring features related to the surface of argumentative writing can predict or measure the overall writing ability at a significant level. 이 연구의 목적은 정형화된 연결어구와 관련하여 논증적 글쓰기 과제의 자동 채점을 위한 채점 자질을 구안하고 이를 통한 자동 채점의 가능성을 검토하는 것이다. 이에 본 연구는 세종 문어 코퍼스를 확보하여 상위 빈도 N-gram을 추출하고 표현의 적절성, 표현의 다양성, 표현의 복잡성과 관련된 자질을 설계하였으며 이후 수집된 학생 글 359편을 토대로 자동 채점의 가능성을 탐색하였다. 먼저 설계된 자질과 글 점수 간의 Pearson 상관분석을 실시한 결과, ‘3-gram 빈도’, ‘3-gram 유형’, ‘3~5-gram 유형’과 총점 간 상관이 .6 이상으로 나타났으며, 이후 자질과 총점 간 회귀분석을 실시한 결과 ‘3-gram 빈도’와 ‘3-gram 비율’이 총점에 대해 54.8%의 설명력을 갖는 것으로 나타났다. 이러한 결과는 논증적 글쓰기의 표층과 관련한 채점 자질이 학생의 논증 구성 능력을 포함하여 전체적인 글쓰기 능력을 상당한 수준에서 예측 또는 측정할 수 있다는 선행연구와 일치한다.

      • KCI등재

        함수 단위 N-gram 비교를 통한 Spectre 공격 바이너리 식별 방법

        김문선(Moon-Sun Kim),양희동(Hee-Dong Yang),김광준(Kwang-Jun Kim),이만희(Man-Hee Lee) 한국정보보호학회 2020 정보보호학회논문지 Vol.30 No.6

        시그니처 기반 악성코드 탐지는 제로데이 취약점을 이용하거나 변형된 악성코드를 탐지하지 못하는 한계가 있다. 이를 극복하기 위해 N-gram을 이용하여 악성코드를 분류하는 연구들이 활발히 수행되고 있다. 기존 연구들은 높은 정확도로 악성코드를 분류할 수 있지만, Spectre와 같이 짧은 코드로 동작하는 악성코드는 식별하기 어렵다. 따라서 본 논문에서는 Spectre 공격 바이너리를 효과적으로 식별할 수 있도록 함수 단위 N-gram 비교 알고리즘을 제안한다. 본 알고리즘의 유효성을 판단하기 위해 165개의 정상 바이너리와 25개의 악성 바이너리에서 추출한 N-gram 데이터셋을 Random Forest 모델로 학습했다. 모델 성능 실험 결과, 25개의 Spectre 악성 함수의 바이너리를 99.99% 정확도로 식별했으며, f1-score는 92%로 나타났다. Signature-based malicious code detection methods share a common limitation; it is very hard to detect modified malicious codes or new malware utilizing zero-day vulnerabilities. To overcome this limitation, many studies are actively carried out to classify malicious codes using N-gram. Although they can detect malicious codes with high accuracy, it is difficult to identify malicious codes that uses very short codes such as Spectre. We propose a function level N-gram comparison algorithm to effectively identify the Spectre binary. To test the validity of this algorithm, we built N-gram data sets from 165 normal binaries and 25 malignant binaries. When we used Random Forest models, the model performance experiments identified Spectre malicious functions with 99.99% accuracy and its f1-score was 92%.

      • KCI등재

        토픽 표현의 N-그램 변화에 따른 토픽 모델 평가: 응집도와 다양성을 중심으로

        박현정,이태민,임희석 한국인터넷정보학회 2025 인터넷정보학회논문지 Vol.26 No.1

        토픽 모델은 대규모 텍스트 데이터에 내재한 주제들을 탐색하기 위해 다양한 도메인에서 활발하게 적용되는 텍스트 마이닝 기법이다. 그런데 토픽 모델의 높은 수용도에 비해 이들에 대한 성능 비교 연구는 전반적으로 매우 부족한 상황이다. 토픽 모델들에 대한포괄적인 성능 비교를 위해, 본 연구는 유니그램 외에도 1~N-그램 토픽 표현에 주목한다. 기존 연구들은 대부분 유니그램 토픽 표현을 사용했지만, 1~N-그램 토픽 표현은 토픽 이해도를 높여주는 장점이 있기 때문이다. 그런데 기존의 파이썬 범용 라이브러리로 1~N-그램 토픽 표현에 대한 토픽 응집도를 구하기는 어렵다. 따라서, 본 연구는 일차적으로 이에 대한 원인을 규명하고 해결 방안을 도출및 구현한다. 다음으로, 전통적인 BOW기반과 최신 딥러닝 기반 주요 토픽 모델들의 한글 온라인 기사와 KCI 논문 데이터에 대한 유니그램 및 1~3-그램 토픽 표현 모델링을 수행하고 응집도와 다양성을 비교 분석한다. 결과적으로, BERTopic과 준-지도 BERTopic이 NMF 나 LDA에 비해 응집도와 다양성 측면에서 유니그램과 1~3-그램 전반적으로 더욱 우수한 편이고, BERTopic과 준-지도 BERTopic의 1~3- 그램 토픽 표현에 대한 응집도는 LDA나 NMF에 비해 토픽 수가 많고, 윈도우 사이즈는 길고, 주어진 텍스트가 길 때 증가하는 경향이있는 것 등 효과적인 토픽 모델링을 위한 다각적인 시사점들을 제시한다. Topic models are text mining techniques actively applied in various domains to explore the underlying themes in large-scale text data. However, despite their high popularity, there is a significant lack of performance comparison studies on these models. To provide a comprehensive performance comparison of topic models, this study focuses on 1~N-gram topic representations in addition to unigrams. While most existing studies use unigram topic representations, 1~N-gram topic representations have the advantage of enhancing topic interpretability. However, it is challenging to calculate topic coherence for 1~N-gram topic representations using existing general-purpose Python libraries. Therefore, we first identify the causes of this difficulty, proposing and implementing solutions. Next, we model unigram and 1~3-gram topic representations of major traditional BOW-based and recent deep learning-based topic models on Korean online articles and KCI paper data, comparing and analyzing their coherence and diversity. As a result, we provide multifaceted insights for effective topic modeling: BERTopic and semi-supervised BERTopic generally outperform NMF and LDA in terms of coherence and diversity, both for unigrams and 1~3-grams. The coherence of BERTopic and semi-supervised BERTopic for 1~3-gram topic representations tends to increase with a larger number of topics, longer window sizes, and longer given texts compared to LDA or NMF, etc.

      연관 검색어 추천

      이 검색어로 많이 본 자료

      활용도 높은 자료

      해외이동버튼