RISS 학술연구정보서비스

검색
다국어 입력

http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.

변환된 중국어를 복사하여 사용하시면 됩니다.

예시)
  • 中文 을 입력하시려면 zhongwen을 입력하시고 space를누르시면됩니다.
  • 北京 을 입력하시려면 beijing을 입력하시고 space를 누르시면 됩니다.
닫기
    인기검색어 순위 펼치기

    RISS 인기검색어

      검색결과 좁혀 보기

      선택해제
      • 좁혀본 항목 보기순서

        • 원문유무
        • 음성지원유무
        • 원문제공처
          펼치기
        • 등재정보
          펼치기
        • 학술지명
          펼치기
        • 주제분류
          펼치기
        • 발행연도
          펼치기
        • 작성언어
        • 저자
          펼치기

      오늘 본 자료

      • 오늘 본 자료가 없습니다.
      더보기
      • 무료
      • 기관 내 무료
      • 유료
      • KCI등재

        Significance Test of N-grams Using Bi-grams and χ 2-test

        Yong-hun Lee,Ji-Hye Kim 한국영어학학회 2020 영어학연구 Vol.26 No.1

        N-grams (or lexical bundles) are important linguistic units both in linguistics and in English teaching, but there have been no or few studies which test the significance of the n-grams. This paper proposes an algorithm which can test the significance of the n-grams. The algorithm proceeds as follows. For any n-gram sequence, we first construct an n×n table. Each cell (fij) in the table is filled with the bi-gram frequencies of wiwj. The table goes through a χ2-test, and statistical significance is calculated. In order to check the validity of our algorithm, we apply the algorithm to two corpora. One is the USA component of International Corpus of English (ICE-USA), and the other is the Korean component of the TOEFL11 corpus (TOEFL11-Korean). From two corpora, we extract 3-grams, 4-grams, and 5-grams respectively. Then, we apply the algorithm to each sequence of n-gram and conduct a significance test. We find that 1.0~2.5% of n-grams are statistically significant in the ICE-USA corpus and that 1.4~7.5% are statistically significant in the TOEFL11-Korean corpus. We also observe the tendency that Korean learners tend to overuse a small inventory of n-grams repeatedly.

      • KCI등재

        N-gram을 활용한 중국 법률 텍스트의 정형 표현 분석 – 중국 민법전을 중심으로

        최승혁,강병규 중국어문학회 2023 中國語文學誌 Vol.- No.84

        본 연구는 고정된 형태의 단어 조합인 정형 표현(formulaic expression)이 어휘와 같이 하나의 언어 단위로 인식할 수 있다는 점에 착안하여 AntConc의 N-gram, Cluster 기능을 활용해 중국 민법전의 N-gram 유형과 연어 관계를 고찰하였다. N-gram 유형은 자유 결합과 표현 문형으로 나누어 살펴보았다. 2-gram은 자유 결합의 비중이 높게 나타났고, 3-gram부터는 공기나 결합 관계에 제약에 있는 연어(collocation) 형태가 보이기 시작했다. 4-gram은 하나의 덩어리(chunk)로써 단독으로 쓸 수 있는 표현 문형이 다수 출현했다. 5-gram, 6-gram에서는 표현 문형이 절대적으로 큰 비중을 나타냈으며, 자유 결합은 거의 나타나지 않았다. 연어 관계는 명사성 연어 관계, 동사성 연어 관계로 나누어 고빈도 연어 관계를 분석하였다. 명사성 연어 관계에서는 일반 텍스트에서 관찰되지 않는 법률 관련 명사구가 많이 출현했다. 동사성 연어 관계에서는 3-gram 유형의 자유 결합에서 나타난 연어의 구체적인 실례를 살펴볼 수 있었다. 이 밖에도 법률 텍스트의 정형 표현을 기계번역에 학습시켜 특화할 때 얻을 수 있는 효과와 활용 방안에 있어서, 번역의 일관성 제고와 의미의 모호성 감소에 대한 효과, 번역 교육과 포스트에디팅에서의 활용 가치를 살펴보았다. 비록 분석 대상인 민법전의 코퍼스 규모가 크지 않은 한계가 있지만, N-gram을 활용해 중국 민법전의 정형 표현을 분석하고 중한 법률 도메인 특화 기계번역에의 활용 가능성을 고찰하였다는 점에서 의미가 크다. This study investigates the N-gram patterns and collocational relationships within the Chinese Civil Code, using the N-gram and Cluster features of AntConc, based on the perception of formulaic expressions as fixed combinations of words that can be recognized as single linguistic units alongside vocabulary. The study examines N-gram patterns in terms of free combinations and syntactic structures. 2-grams predominantly exhibit a high prevalence of free combinations, while from 3-grams onward, collocational constraints within lexical or syntactic relationships begin to emerge. 4-grams frequently manifest as self-contained units that can stand alone as expressions. In the case of 5-grams and 6-grams, expression patterns dominate significantly, with minimal occurrences of free combinations. To analyze high-frequency collocations, collocational relationships can be categorized as either noun-based or verb-based. The noun-based collocational relationships contain many legal-related noun phrases that are not commonly seen in general texts. Verb-based collocational relationships examine specific instances of collocations that originate from the free combinations of 3-gram patterns. This study also investigates the possible effects and applications of training machine translation with formulaic expressions in legal texts. This study investigates the enhancement of translation consistency, reduction of semantic ambiguity, and the value of utilization in translation education and post-editing. Although the corpus drawn from the Chinese Civil Code was relatively modest in scale, this research still made a significant contribution by analyzing formulaic expressions using N-grams and exploring possibilities for domain-specific machine translation within the realm of Chinese legal discourse.

      • KCI등재후보

        음성인식을 위한 의사(疑似) N-gram 언어모델에 관한 연구

        오세진,황철준,김범국,정호열,정현열 한국융합신호처리학회 2001 융합신호처리학회 논문지 (JISPS) Vol.2 No.3

        본 논문에서는 대어휘 음성인식에서 널리 사용되고 있는 N-gram 언어모델을 중규모 어휘의 음성인식에서도 사용할 수 있는 의사(疑似) N-gram 언어모델을 제안한다. 제안방법은 ARPA 표준형식 N-gram 언어모델의 구조를 가지면서 각 단어의 확률을 임의로 부여하는 비교적 간단한 방법으로 1-gram은 모든 단어의 출현확률을 1로 설정하고, 2-gram은 허용할 수 있는 단어시작기호 <s>와 WORD 및 WORD와 단어종료기호 </s>의 접속확률만을 1로 설정하며, 3-gram은 단어 시작기호 <s>와 WORD, 단어종료기호 </s> 만의 접속을 허용하며 접속확률을 1로 설정한다. 제안방법의 유효성을 확인하기 위해 사전실험으로서 국어공학센터(KLE) 단어음성에 대해 오프라인으로 평가한 견과, 남성 3인의 452 단어에 대해 평균 97.7%의 단어인식률을 구하였다. 또한 사전실험결과를 바탕으로 1,500단어의 중규모 어휘의 증권명을 대상으로 온라인 인식실험을 수행한 결과, 남성 20명이 발성한 20단어에 대해 평균 92.5%의 단어인식률을 얻어 제안방법의 유효성을 확인하였다. In this paper, we propose the pseudo n-gram language models for speech recognition with middle size vocabulary compared to large vocabulary speech recognition using the statistical n-gram language models. The proposed method is that it is very simple method, which has the standard structure of ARPA and set the word probability arbitrary. The first, the 1-gram sets the word occurrence probability 1 (log likelihood is 0.0). The second, the 2-gram also sets the word occurrence probability 1, which can only connect the word start symbol <s> and WORD, WORD and the word end symbol </s>. Finally, the 3-gram also sets the ward occurrence probability 1, which can only connect the word start symbol <s>, WORD and the word end symbol </s>. To verify the effectiveness of the proposed method, the word recognition experiments are carried out. The preliminary experimental results (off-line) show that the word accuracy has average 97.7% for 452 words uttered by 3 male speakers. The on-line word recognition results show that the word accuracy has average 92.5% for 20 words uttered by 20 male speakers about stock name of 1,500 words. Through experiments, we have verified the effectiveness of the pseudo n-gram language modes for speech recognition.

      • KCI등재

        남북한 고등학교 영어교과서 4-gram 연어 비교 분석

        김정렬 한국콘텐츠학회 2020 한국콘텐츠학회논문지 Vol.20 No.7

        N-gram analysis casts a new look at the n-word cluster in use different from the previously known idioms. It analyzes a corpus of English textbooks for frequently occurring n consecutive words mechanically using a concordance software, which is different from the previously known idioms. The current paper aims at extracting and comparing 4-gram words clusters between South Korean high school English textbooks and its North Korean counterpart. The classification criteria includes number of tokens and types between the two across oral and written languages in the textbooks. The criteria also use the grammatical categories and functional categories to classify and compare the 4-gram words clusters. The grammatical categories include noun phrases, verb phrases, prepositional phrases, partial clauses and others. The functional categories include deictic function, text organizers, stance and others. The findings are: South Korean high school English textbook contains more tokens and types in both oral and written languages. Verb phrase and partial clause 4-grams are grammatically most frequently encountered categories across both South and North Korean high school English textbooks. Stance is most dominant functional category in both South and North Korean English textbooks. 본 연구는 4-gram 연어분석으로 남북한 고등학교 영어교과서를 비교분석하고자 하는 것이 목적이다. N-gram 분석은 그동안 우리가 알고 있는 관습적인 관용어와는 달리 코퍼스를 구성하여 기계적인 방법으로 물리적으로 함께 공기하는 빈도가 높은 낱말군을 객관적인 방법으로 추출하여 분석하는 것이다. 본 연구의 목적은 AntConc의 N-gram 분석 도구로 4-gram 연어를 남북한 영어교과서 코퍼스에서 찾아서 비교 분석해보는 것이다. 분석의 대상은 북한의 2013 교육개혁에 따른 북한 고등중학교 영어교과서와 남한의 2015교육과정에 따른 고등학교 영어교과서로 구성된 코퍼스에서 구어와 문어의 token과 type을 구분하여 분석 비교한다. 이를 분석대상으로 하여 코퍼스의 4-gram 연어를 문법범주와 기능범주로 나눈 준거를 통해서 분석하였다. 문법범주는 크게 명사구, 동사구, 전치사구, 부분절 그리고 기타로 나누어 범주화하고 기능범주는 지칭, 텍스트의 조직, 입장과 기타로 나누었다. 분석한 결과 4-gram 연어에 나타난 구어와 문어 모두 남한의 영어교과서가 북한의 영어교과서 보다 token과 type의 수가 상대적으로 많았다. 그리고 문법범주에는 남북한 모두 영어교과서에 동사구와 부분절 형태의 4-gram 연어가 가장 많았으며 기능범주에는 남북한 모두 영어교과서에 입장 기능과 관련된 4-gram 연어가 가장 많았다.

      • KCI등재

        한국어 확장된 어휘 단위의 층위 연구

        최준(Jun Choi) 어문연구학회 2016 어문연구 Vol.87 No.-

        이 연구에서는 말뭉치언어학의 관점에서 논의될 수있는 한국어의 확장된 어휘 단위의 하위 층위들을 종합적인 관점에서 조망하는 것을 주된목적으로 한다. 이와 함께 한국어 확장된 어휘 단위의 하위 범주들이 언어학의 논의 내에서 갖는 개별적 의의와 범주 상호간의 의의를 논의하고자한다.전통적인 관점에서 단어 단위를 넘어서는 언어 표현에 대한 논의는 의미적 비합성성의 원리를 충족하는특이한 구 단위로서의 관용표현을 주요 대상으로 삼았으며, 대체로 그러한 특이한 구 단위는 문법 규칙의 제약을 받지 않는 예외적 단어로 취급되었다. 이와 달리 말뭉치 언어학에서는 언어 자료에서 나타나는 빈도를기반으로 하여 빈번하게 함께 사용되는 언어 단위들을 논의 대상으로 삼고, 언어 사용에서 중요한 지위를 갖는 표현으로서의의의를 부여한다. 이러한 확장된 어휘 단위는 구체적인어형, 추상적 문법 범주, 의미적 맥락등과 같이 다양한 층위의 요소들이 구성요소를 이루고 있으며, 그에 따라 유관하지만 이질적인 별개의 범주로서 말뭉치 언어학의 연구 대상이 되고 있다. 확장된 어휘 단위는 그것을 추출하는 방법론적특성에 따라 크게 두 갈래로 나눌 수 있는데, 하나는 공기 분석의 방법론을 통해 주로 두 개의 구성성분 사이의 관계에 초점을 두며, 연어, 의미적 선호, 연접범주, 의미적 운율 등을 포함한다. 다른 하나는 N-GRAM 분석법을 통해 둘이상의 구성성분으로 이루어진 단어 연쇄(n-gram)를 주요 대상으로 삼으며, 하나 이상의 자유 슬롯을 포함하는 피프레임(phrase frame, p-frame), 스킵그램(skip-gram) 등으로 확장되기도 한다. 말뭉치 언어학은 그 동안 특정 어형이나 단어의 개별적인 사용 양상을 기술하는 데 장점이 있는 것으로인식되어왔고, 이것은 곧그 이상의추상적 차원에 대한 기술에 있어서 한계를 갖는 것으로인식되기도 했다.그러나 공기분석에서 보다 구체적인 속성을 갖는 구성성분 간의 관계에 해당하는 연어에서부터, 보다 추상적인 속성을 갖는 구성성분 사이의 관계에 초점을 두는 의미적 운율에 이르기까지 연구 대상을 포괄할 수 있으며, 그에 따라 단어에 대한 기술을 넘어, 문법 범주와 의사소통적 맥락과의 연결될 수 있는 접점을 제시할 수있다. 또한, 구성성분의 수를 보다 확장하는 엔그램(N-GRAM) 분석법을 도입함으로써, 보다 긴 언어 단위의형성에 확장된 어휘 단위가 기여하는 양상을 확인할 수 있다는 것을 알 수 있다. 이와 함께 전체 언어 사용에서 확장된 어휘 단위가 얼마나 기여하는지를 일관된 기준으로 평가할 수 있음을 알 수 있다.말뭉치 자체의 오류, 컴퓨터를 활용한 자연 언어 처리에서 유연성 적용의 한계 등으로 인한 말뭉치 언어학의 방법론적 한계는 언어 분석 결과에 대한 의심을 갖게 하기도 하지만, 보다 세련된 분석 방법론에 대한끊임없는 추구는 언어 사용의 설명력을 강화하는 데 기여할 수 있다는 기대를 갖게 한다. The purpose of this study is twofold. First, it investigates a hierachy towhich a Korean speaker/writer makes use of Extended LexicalUnits(ELUs), that is, what its distribution is, by taking a corpus-drivenapproach. Second, it examines the significance of ELUs’ each subcategoriesand their interface. A main subdivision can be made between twoextraction methods: co-occurrence analysis and N-GRAM analysis.Co-occurrence analysis can make four lower subcategories of some ELUs,which are collocation of the lexical level, semantic reference of the semanticlevel, colligation of the grammatical level, and semantic prosody of thepragmatic level. It is able to be operated between a more concretedimension and a more abstract dimension. N-GRAM is a methodologicalterm which allows for the extraction of recurrent continuous sequences oftwo or more words, that is, n-gram. Phrase-frame(p-frame) is a specialcategory of being extracted recurrent sequences by N-GRAM analysis,which consist of sequences containing one or more free slots. As theincrease in number of ELUs’ constituents increase, collocation of lexicallevel is related with n-gram, and semantic reference of semantic level isrelated with p-frame.Corpus linguistics has been recognized as having advantage to be able todescribe various usage of certain word-form or word, and the same time, it has been recognized as having limits to describe more abstract dimensions.The variable subcategories of ELUs, however, can cover all the dimensionsfrom the lexial to the contextual. Indeed, by adapting N-GRAM analysismethodology, we can identify how ELUs contribute to constitute longerlinguistic units, and how many it contribute to whole language use.

      • KCI등재

        토픽 모델링과 N-gram을 활용한 한국 현대시 연구 동향 분석 -2010년~2023년 WOS 및 SCOPUS DB를 중심으로-

        강은진 ( Kang Eun-jin ),이용재 ( Lee Yong-jae ) 한국어문학국제학술포럼 2023 Journal of Korean Culture Vol.61 No.-

        이 연구는 2010년부터 2023년까지 SCI급 저널에 게재된 한국 현대시 분야의 학술논문의 연구 동향을 토픽 모델링과 N-gram 방식으로 분석하였다. 토픽 모델링을 통해 한국 현대시 연구 분야의 핵심 주제군을 도출하고, 이 결과를 N-gram 분석을 통해 키워드들이 문서 내에서 연속적으로 사용되는 패턴 각 키워드들의 연결망을 파악하고자 하였다. 이와 같은 분석 과정을 통해 총3개의 최적 토픽 그룹을 추출하였으며 각 토픽 그룹들에 속한 키워드들의 사용 패턴과 관계망을 도출할 수 있었다. 토픽1은 전쟁, 분단, 지역성, 현대성에 관련된 주제어들이 도출되었으며 토픽2에는 일본, 식민, 탈식민, 번역과 관련된 주제어들이 포함되었다. 마지막으로 토픽3은 문화, 정치, 민중, 증언과 같은 다양한 주제어들이 도출되었다. 이러한 토픽들을 N-gram으로 분석하여 각 키워드들이 맺는 관계망과 패턴을 시각적으로 도식화하여 한국 현대시 연구의 국제 동향을 파악할 수 있는 기초 자료를 축적할 수 있었다. 이를 통해 가장 최신의 한국 현대시에 관한 국제 연구가 한국의 역사를 기반으로 한 식민지배, 전쟁, 분단 등을 중요 인식 토대를 형성하고 있음을 알 수 있었다. 또한 이 연구를 통해 한국 작가 및 시인에 대한 관심도가 높은 반면 구체적으로 연구되는 한국 시인은 제한적이라는 사실도 드러났다. The purpose of this study was to analyze and identify the latest trends in international research on modern Korean poetry in a quantitative and scientific way. To this end, we analyzed and selected meaningful data from academic papers on modern Korean poetry published in SCI-level academic journals. We mainly focused on topic modeling and N-gram analysis based on the title, abstract, author, and publisher of the document. We obtained quite significant results, but there were also limitations due to the mechanical analysis method. During the preprocessing process, we mechanically refined the data, but it was difficult to completely exclude the possibility that some of the keywords or tokens extracted from the N-gram analysis would hinder the consistency of the analysis. In addition, at the stage of selecting the analysis target, there were quite a few cases where the search result data deviated from the subject, so we had to examine and remove them one by one. Since the analysis target was limited to SCI-level academic journal papers published after 2010, the size of the confirmed data was reduced as expected after this selection process. However, the purpose of this study was to identify the latest research trends, so we did not expand the search target period and performed the analysis. In the future, if we expand the analysis target and collect more abundant data, we will be able to identify research trends by country and language, and we will be able to obtain detailed analysis results based on the connection between specific universities and researchers and specific keywords. Through topic modeling, three research topics on modern Korean poetry were extracted: topic 1 can be compressed into war and division, regionality, and aesthetics; topic 2 can be categorized into colonialism, decolonization, historicity, and connectivity; and topic 3 is about culture, politics, testimony, and resistance. These results show that research on modern Korean poetry is closely related to Korean history and pays attention to the relationship with neighboring countries and Western countries such as the United States. It also reflects the high interest in Korean poets. However, it was found that the actual active poets are limited to a limited range, such as Yun Dong-ju, Kim So-wol, and Kim Su-young. This can be said to be a result that provides a reference point for the direction of international academic activities related to the study of modern Korean poetry. After topic modeling analysis, we used N-gram analysis to see how the main keywords are related to other words in the research paper. The important results extracted from the network of keywords belonging to topic 1 show that research on modern Korean poetry is being dealt with in the context of the connection with East Asian literature, the relationship with other cultures based on regionality, and the problem of diaspora or immigrants derived from the experience of war. In addition, it was confirmed that the keyword group of Korean modern literature writers or poets is mentioned together with feminism or feminist. The results of N-gram analysis for the keywords of topic 2 show that research on modern Korean poetry is still being dealt with in the category of Japan-Korea relations and colonial literature. This perspective shows that modern Korean poetry is being highlighted in the context of comparing Japanese literature and Korean literature, clarifying colonial and postcolonial characteristics, and defining modernity and modernity. In addition, the keywords of topic 3 are mentioned in a series of contexts such as culture, politics, testimony, and resistance. It was confirmed that they are forming a network of words related to people's resistance and testimony, and language, such as the situation of division between North and South Korea, minjung literature, generational characteristics, environment, and memory. Some of these keywords form groups with Kim So-wol and Kim Su-young, indicating that they find the popular archetype of modern Korean poetry in these two poets. The results of the analysis of topic 3 show that the research topics on modern Korean poetry are becoming broader, but at the same time, it shows the limitation that international research on modern Korean poetry has not yet been expanded to Korean poetry after 2000.

      • KCI등재

        논증적 글쓰기 과제의 자동 채점을 위한 N-gram 자질의 활용 가능성 탐색

        김승주 한국작문학회 2019 작문연구 Vol.0 No.41

        The purpose of this study is to develop the scoring feature for the automatic scoring of demonstrative writing tasks and to examine the possibility of automatic scoring by using them. In this paper, we propose a method for extracting high-frequency N-grams from Sejong Corpus, designing features related to Appropriateness of expressions, diversity of expression, complexity of expressions, respectively. As a result of Pearson correlation analysis between the features and the total writing scores, the Pearson correlation coefficient between total scores and ‘3-gram frequency’, ‘3-gram type’ and ‘3~5-gram type’ were over 0.6. As a result of regression analysis, R2 of ‘3-gram frequency’ and ‘3-gram ratio’ were 54.8% of total score. These results are consistent with previous research that scoring features related to the surface of argumentative writing can predict or measure the overall writing ability at a significant level. 이 연구의 목적은 정형화된 연결어구와 관련하여 논증적 글쓰기 과제의 자동 채점을 위한 채점 자질을 구안하고 이를 통한 자동 채점의 가능성을 검토하는 것이다. 이에 본 연구는 세종 문어 코퍼스를 확보하여 상위 빈도 N-gram을 추출하고 표현의 적절성, 표현의 다양성, 표현의 복잡성과 관련된 자질을 설계하였으며 이후 수집된 학생 글 359편을 토대로 자동 채점의 가능성을 탐색하였다. 먼저 설계된 자질과 글 점수 간의 Pearson 상관분석을 실시한 결과, ‘3-gram 빈도’, ‘3-gram 유형’, ‘3~5-gram 유형’과 총점 간 상관이 .6 이상으로 나타났으며, 이후 자질과 총점 간 회귀분석을 실시한 결과 ‘3-gram 빈도’와 ‘3-gram 비율’이 총점에 대해 54.8%의 설명력을 갖는 것으로 나타났다. 이러한 결과는 논증적 글쓰기의 표층과 관련한 채점 자질이 학생의 논증 구성 능력을 포함하여 전체적인 글쓰기 능력을 상당한 수준에서 예측 또는 측정할 수 있다는 선행연구와 일치한다.

      • KCI등재

        함수 단위 N-gram 비교를 통한 Spectre 공격 바이너리 식별 방법

        김문선(Moon-Sun Kim),양희동(Hee-Dong Yang),김광준(Kwang-Jun Kim),이만희(Man-Hee Lee) 한국정보보호학회 2020 정보보호학회논문지 Vol.30 No.6

        시그니처 기반 악성코드 탐지는 제로데이 취약점을 이용하거나 변형된 악성코드를 탐지하지 못하는 한계가 있다. 이를 극복하기 위해 N-gram을 이용하여 악성코드를 분류하는 연구들이 활발히 수행되고 있다. 기존 연구들은 높은 정확도로 악성코드를 분류할 수 있지만, Spectre와 같이 짧은 코드로 동작하는 악성코드는 식별하기 어렵다. 따라서 본 논문에서는 Spectre 공격 바이너리를 효과적으로 식별할 수 있도록 함수 단위 N-gram 비교 알고리즘을 제안한다. 본 알고리즘의 유효성을 판단하기 위해 165개의 정상 바이너리와 25개의 악성 바이너리에서 추출한 N-gram 데이터셋을 Random Forest 모델로 학습했다. 모델 성능 실험 결과, 25개의 Spectre 악성 함수의 바이너리를 99.99% 정확도로 식별했으며, f1-score는 92%로 나타났다. Signature-based malicious code detection methods share a common limitation; it is very hard to detect modified malicious codes or new malware utilizing zero-day vulnerabilities. To overcome this limitation, many studies are actively carried out to classify malicious codes using N-gram. Although they can detect malicious codes with high accuracy, it is difficult to identify malicious codes that uses very short codes such as Spectre. We propose a function level N-gram comparison algorithm to effectively identify the Spectre binary. To test the validity of this algorithm, we built N-gram data sets from 165 normal binaries and 25 malignant binaries. When we used Random Forest models, the model performance experiments identified Spectre malicious functions with 99.99% accuracy and its f1-score was 92%.

      • KCI우수등재

        V-그램: 명령어 기본 블록과 딥러닝 기반의 악성코드 탐지

        정성민,김현석,김영재,윤명근 한국정보과학회 2019 정보과학회논문지 Vol.46 No.7

        With the rapid increase in number of malwares, automatic detection based on machine learning becomes more important. Since the opcode sequence extracted from a malicious executable file is useful feature for malware detection, it is widely used as input data for machine learning through byte-based n-gram processing techniques. This study proposed a V-gram, a new data preprocessing technique for deep learning, which improves existing n-gram methods in terms of processing speed and storage space. V-gram can prevent unnecessary generation of meaningless input data from opcode sequences. It was verified that the V-gram is superior to the conventional n-gram method in terms of processing speed, storage space, and detection accuracy, through experiments conducted by collecting more than 64,000 normal and malicious code files. 악성코드가 급증하여 기계 학습 기반의 자동 탐지 연구가 중요해지고 있다. 악성코드 실행파일로부터 추출되는 opcode 시퀀스는 악성코드 탐지에 좋은 특징이기 때문에 바이트 기반의 n-그램 처리 기법을 거쳐 기계 학습의 입력 데이터로서 폭넓게 사용되고 있다. 본 논문에서는 처리 속도와 저장 공간 측면에서 기존 n-그램 방식을 크게 향상시키는 기본 블록 단위의 딥러닝 입력 데이터 가공 기법인 V-그램을 새롭게 제안한다. V-그램은 opcode 시퀀스로부터 의미 없는 입력 데이터의 불필요한 생성을 막을 수 있다. 본 논문에서는 64,000개 이상의 실제 정상 및 악성코드 파일을 수집하여 진행한 실험을 통해서, V- 그램이 처리 속도와 저장 공간, 그리고 탐지 정확도 측면에서 모두 기존의 n-그램 기법보다 우수하다는 것을 검증하였다.

      • KCI등재

        N-gram을 활용한 COVID-19 전·중·후 여가 키워드 변화 분석: 2018~2023년 뉴스 기사를 중심으로

        이명하,장윤호,김미량 한국융합과학회 2023 한국융합과학회지 Vol.12 No.10

        연구목적 본 연구의 목적은 COVID-19 전·중·후에 발간된 뉴스 기사의 키워드 변화를 분석하고 이를바탕으로 ‘여가’에 대한 인식과 패턴의 변화에 대해 살펴보고자 하였다. 연구방법 연구목적을 달성하기 ‘빅카인즈’에서 여가 키워드로 뉴스 기사를 수집하였고 수집된 데이터는 텍스톰(TEXTOM)을 활용하여 빈도분석과 워드클라우드, N-gram분석을 실시하였다. 결과 첫째, 빈도분석 결과를 살펴보면, COVID-19 전에는 서울, 관계자, 주민, 시간, 일자리 순으로 나타났고 COVID-19 중에는 서울, 코로나, 관계자, 온라인, 일자리 순으로 나타났으며, COVID-19 후 서울, 관계자, 참여자, 시민, 일자리 순으로 나타났다. 둘째, N-gram 분석 결과 COVID-19 전에는 경로당+노인, 문화+여가, 장애인+복지관순으로 나타났다. COVID-19 중에는 서울+코로나, 코로나+온라인, 소상공인+코로나 순으로 나타났으며, COVID-19 후에는 한강+서울, 수변+서울, 경로당+노인 순으로 나타났다. 결론 첫째, COVID-19 전과 후의 키워드가 유사하게 나타났다. 이는 COVID-19 중 여가의 변화가 일어났지만, 점차 회복하고 있는 것으로 판단할 수 있다. 둘째, COVID-19 전·중·후 동시 출연 단어로 문화+여가와경로당+노인이 높은 빈도를 나타낸다. 이는 다양한 연령대에서 ‘여가’에 대한 관심과 참여가 멈추지않을 정도로 높은 중요도를 가지고 활동이 이루어지고 있으므로 보여준다. 따라서 긍정적인 효과를도출할 수 있는 ‘여가’와 관련된 지원 사업의 확장과 각 대상에 따른 맞춤형 지원 등의 필요성이 강조된다. Purpose The purpose of this study was to analyze keyword changes in news articles published before, during, and after COVID-19, and to explore how perceptions and patterns of "leisure" have changed. Methods To achieve the research objective, we collected news articles from 'Big Cains' with the keyword 'leisure', and the collected data was subjected to frequency analysis, word cloud, and N-gram analysis using TEXTOM. Result First, the frequency analysis showed that before COVID-19, Seoul, officials, residents, time, and jobs; during COVID-19, Seoul, Corona, officials, online, and jobs; and after COVID-19, Seoul, officials, participants, citizens, and jobs. Second, the N-gram analysis showed that before COVID-19, Elderly+Senior Citizen Center., Culture+Leisure, and Disabled+Welfare Center. During COVID-19, Seoul+Corona, Corona+Online, and Small Business+Corona, and after COVID-19, Han River+Seoul, waterside +Seoul, and Elderly+Senior Citizen Center. Conclusion First, we see that the keywords are similar before and after COVID-19. This suggests that leisure has changed during COVID-19, but is gradually recovering. Second, the co-occurring words before, during, and after COVID-19 show a high frequency of culture+leisure and senior+citizen. This shows that interest in and participation in leisure activities continue to be highly valued by various age groups. This highlights the need for expansion of support projects related to leisure and customized support for each target group to produce positive effects.

      연관 검색어 추천

      이 검색어로 많이 본 자료

      활용도 높은 자료

      해외이동버튼