RISS 학술연구정보서비스

다국어 입력

http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.

변환된 중국어를 복사하여 사용하시면 됩니다.

  • 中文 을 입력하시려면 zhongwen을 입력하시고 space를누르시면됩니다.
  • 北京 을 입력하시려면 beijing을 입력하시고 space를 누르시면 됩니다.
    인기검색어 순위 펼치기

    RISS 인기검색어

      검색결과 좁혀 보기


      오늘 본 자료

      • 오늘 본 자료가 없습니다.
      • 무료
      • 기관 내 무료
      • 유료
      • KCI등재

        다중서열정렬을 이용한 변형 문자열 집합의 유사도 계산 기법

        김성환(Sung-Hwan Kim),조환규(Hwan-Gue Cho) 한국정보과학회 2013 정보과학회논문지 : 소프트웨어 및 응용 Vol.40 No.1

        인터넷 상에서 언어는 사용자에 의해 지속적으로 변형된다. 한 문자열로부터 변형된 문자열의 일부 사례가 주어졌을 때, 한 문자열이 같은 문자열로부터 파생된 것인지를 판별하는 문제는 효율적인 근사 문자열 탐색 및 데이터 수집을 위한 중요한 문제이다. 본 논문에서는 주어진 문자열 집합 내에 한 문자열로부터 파생된 변형 문자열들이 있는 경우 이들을 다중 서열 정렬을 통하여 대표 문자열을 정의하고, 이를 이용하여 문자열과 문자열 집합 간의 유사도 계산 방법을 제안하였다. 제안 기법은 문자열 집합의 크기에 관계없이 상수 시간 내에 동작한다. 실험 결과 주어진 문자열 집합의 크기가 100 이상인 경우 기존 기법에 비해 효율적으로 동작하며, 269개 이상의 문자열 집합에 대하여 기존 기법에 비해 2배 이상 빠르게 동작함을 보였다. 또한 실험을 통하여 일부 매개변수 조합이 민감도와 특이도 측면에서 전수 조사를 수행하는 것보다도 우수한 분류 성능을 보이는 것을 확인하였다. In the Internet environment, words are continuously being deformed by users. Given a sample of deformed strings derived from one string, determining whether a string is the same sort of the given strings or not is an important problem for efficient approximate string search and data mining. In this paper, we define a representative string of a string set whose elements are derived from one string. Then we present a similarity calculation method between a string and a set of strings. Our proposed method runs in a constant time regardless of the size of given string set. As experiment results, we show that our proposed method outperforms the existing method when the size of the set of given strings is larger than 100, and runs as faster by a factor of 2 when 269 strings are given. And we demonstrate empirically that some combinations of parameters achieve better classification performance than even an exhaustive search in terms of sensitivity and specificity.

      • KCI등재

        PAM 행렬 모델을 이용한 음소 간 유사도 자동 계산 기법

        김성환(Sung-Hwan Kim),조환규(Hwan-Gue Cho) 한국콘텐츠학회 2012 한국콘텐츠학회논문지 Vol.12 No.3

        두 문자열 간의 유사도를 계산하는 문제는 정보 검색, 오타 교정, 스팸 필터링 등 다양한 분야에 응용될 수 있다. 동적 계획법 기반의 유사도 계산 방법을 통하여 한글 문자열의 유사도 계산을 위해서는 우선 음소간의 유사도에 대한 정의가 필요하다. 그러나 기존의 방법들은 수동적 설정에 의한 유사도 점수를 사용하고 있다는 한계점이 있다. 본 논문에서는 PAM(Point Accepted Mutation) 행렬과 유사한 확률 모델을 이용하여 변형 단어 집합으로부터 음소 간의 유사도를 자동적으로 계산하는 기법을 제안한다. 제안 기법은 주어진 변형 단어의 집합 내 유사한 단어 쌍을 찾아 문자열 정렬(Text Alignment)을 수행함으로써 음소변형 규칙을 도출하고, 이로부터 각 음소 쌍의 상호 변형 빈도에 따른 유사도 점수를 계산한다. 실험 결과 특이도(Specificity) 77.2?80.4% 수준에서 불일치 여부에 따른 단순 점수 부여 방식에 비해서는 10.4?14.1%, 수동으로 음소 간 유사도를 직접 설정하는 방식에 비해서는 8.1?11.8%의 민감도(Sensitivity) 향상이 있음을 확인하였다. Determining the similarity between two strings can be applied various area such as information retrieval, spell checker and spam filtering. Similarity calculation between Korean strings based on dynamic programming methods firstly requires a definition of the similarity between phonemes. However, existing methods have a limitation that they use manually set similarity scores. In this paper, we propose a method to automatically calculate inter-phoneme similarity from a given set of variant words using a PAM-like probabilistic model. Our proposed method first finds the pairs of similar words from a given word set, and derives derivation rules from text alignment results among the similar word pairs. Then, similarity scores are calculated from the frequencies of variations between different phonemes. As an experimental result, we show an improvement of 10.1%?14.1% and 8.1%?11.8% in terms of sensitivity compared with the simple match-mismatch scoring scheme and the manually set inter-phoneme similarity scheme, respectively, with a specificity of 77.2%?80.4%.

      • KCI등재

        제한된 한글 입력환경을 위한 음소기반 근사 문자열 검색 시스템

        윤태진(Taijin Yoon),조환규(Hwan-Gue Cho),정우근(WooKeun Chung) 한국정보과학회 2010 정보과학회논문지 : 소프트웨어 및 응용 Vol.37 No.10

        모바일 기기가 발전함에 따라 입력 수단에 대한 연구는 중요한 이슈이다. 키패드, 쿼티키패드, 터치, 음성인식 등 다양한 입력장치가 사용되고 있으나 아직 데스크톱 입력장치에 비해 편의성이 떨어져서 입력 시의 오타나 탈자 등의 오류가 포함되는 경우가 많다. 이러한 입력 오류는 문자 메시지 등 사람과의 의사소통에는 문제를 일으키지 않으나 사전, 주소록 등의 데이터베이스 검색에는 치명적인 오류로서 원하는 검색 결과를 얻지 못하게 된다. 특히 한글의 경우 자음과 모음의 조합을 통해 글자를 생성하는 특성상 1만자가 넘는 글자의 조합이 가능하여 영문에 비하여 오류의 빈도가 높다. 기존의 검색 시스템은 Suffix Tree등을 이용하여 입력 오류를 처리하지만 다양한 오류에 대응하기에는 한계가 있다. 본 논문에서는 오자, 탈자 등의 입력 오류를 허용하면서 빠른 검색이 가능한 근사 한글 단어 검색 시스템을 제안하고자 한다. 이 시스템은 기존의 알파벳에 적용된 근사 문자열 검색(Approximate String Searching)을 한글에 효과적으로 적용할 수 있는 여러 가지 알고리즘과 기법이 포함되어 있다. 그리고 제안된 시스템을 이용한 변형 욕설 필터링 시스템의 개발에 대해 이야기하고자 한다. 이 시스템은 유저의 각종 변형 욕설 입력에 대해 90% 이상의 필터링 성능을 보였다. Advancing of mobile device is remarkable, so the research on mobile input device is getting more important issue. There are lots of input devices such as keypad, QWERTY keypad, touch and speech recognizer, but they are not as convenient as typical keyboard-based desktop input devices so input strings usually contain many typing errors. These input errors are not trouble with communication among person, but it has very critical problem with searching in database, such as dictionary and address book, we can not obtain correct results. Especially, Hangeul has more than 10,000 different characters because one Hangeul character is made by combination of consonants and vowels, frequency of error is higher than English. Generally, suffix tree is the most widely used data structure to deal with errors of query, but it is not enough for variety errors. In this paper, we propose fast approximate Korean word searching system, which allows variety typing errors. This system includes several algorithms for applying general approximate string searching to Hangeul. And we present profanity filters by using proposed system. This system filters over than 90% of coined profanities.

      • KCI등재

        Snort 기반 탐지 규칙의 유사성 분석 프로그램 개발 및 활용

        조호성,오성일,이인복,박희진,나중채 한국차세대컴퓨팅학회 2015 한국차세대컴퓨팅학회 논문지 Vol.11 No.1

        네트워크를 이용한 공격이 점점 다양해지고 정밀해지면서 침입 탐지 시스템에서 사용하는 탐지규칙도 많아지고 복 잡해지고 있다. 하지만 탐지규칙을 효율적으로 통합하고 관리하기가 어려워 중복되거나 유사한 탐지규칙의 수가 급 속히 늘어나고 있으며, 이는 침입 탐지 시스템의 효율성을 크게 저하하는 원인이 되고 있다. 본 논문에서는 탐지규 칙의 유사도를 측정하는 프로그램을 개발하고 이를 이용하여 대표적인 침입탐지 시스템인 Snort에서 사용되는 탐 지규칙의 유사성을 분석한다. 유사도 측정 프로그램은 최장 공통부분 문자열 알고리즘과 서열 정렬 알고리즘을 사용 하여 중복되거나 유사한 탐지규칙을 찾는다. 분석 결과, Snort의 탐지규칙 5,843개에서 중복되거나 비슷한 탐지규 칙 1,377개를 찾았고 이들을 유사성에 따라 분류하였다. 또한, 탐지규칙 세 개를 개별적으로 분석하고 개선안을 제 시하였다. Network attacks become more and more diverse and precise, and thus detection rules also become numerous and complicated in network intrusion detection systems. Since, however, the detection rules are difficult to unify and manage efficiently, duplicate or similar rules are increasing. Moreover, these rules reduce the performance of the intrusion detection systems. In this paper, we develop a program for evaluating the similarity of detection rules and analyze, using the program, the similarity of detection rules used in Snort, a representative intrusion detection system. The program finds duplicate or similar rules based on a longest common subsequence algorithm and a sequence alignment algorithm. In our analysis, we found 1,377 duplicate or similar detection rules among 5,843 rules of Snort and classified the duplicate or similar rules according to their similarities. Furthermore, we analyze three rules individually and propose improvements on them.

      연관 검색어 추천

      이 검색어로 많이 본 자료

      활용도 높은 자료
