RISS 학술연구정보서비스

검색
다국어 입력

http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.

변환된 중국어를 복사하여 사용하시면 됩니다.

예시)
  • 中文 을 입력하시려면 zhongwen을 입력하시고 space를누르시면됩니다.
  • 北京 을 입력하시려면 beijing을 입력하시고 space를 누르시면 됩니다.
닫기
    인기검색어 순위 펼치기

    RISS 인기검색어

      검색결과 좁혀 보기

      선택해제

      오늘 본 자료

      • 오늘 본 자료가 없습니다.
      더보기
      • 무형대용어복원과 상호참조해결 정보의 상호 검증방안 연구

        최지선 연세대학교 대학원 2020 국내석사

        RANK : 247599

        본 연구의 목적은 무형대용어복원과 상호참조해결 말뭉치의 주석 층위 간 연관성을 이용하여 주석 결과에 대한 상호 검증 방안을 고안하는 것이다. 이를 통해 다 층위 주석 말뭉치 구축 시 서로 다른 층위 주석 정보를 활용한 구축과 검증 가능성에 대해 밝히고자 하였다. 이를 위해 말뭉치 품질 개선을 위한 평가 및 검증 방법론을 살펴보고 선행연구를 통해 상호참조해결과 무형대용어복원 층위의 주석 간 중심어 일치 연관성을 도출하였다. 두 층위 중심어 일치 원리를 이용하여 무형대용어복원과 상호참조해결 말뭉치 주석 일치율과 일치 사항을 분석하고 상호참조해결 층위에서는 엔티티 내부 멘션들의 의미 불일치 오류를, 무형대용어복원 층위에서는 선행어의 우선 순위 복원 오류 판단할 수 있는 방안을 고안하였다. 그 후 해당 오류 사항을 검증할 수 있는 각 주석 층위 정보를 조합한 주석 정보 검증 형식을 설계하였다. 본 연구는 다른 주석 층위 간 정보를 활용한 검증 방법을 통해 기존 정량적, 정성적 언어자원 평가의 한계점을 보완할 수 있는 가능성을 모색한 데 의의가 있다. The purpose of this research is to design a mutual verification method about annotation results, using the correlation of annotation layers. With this design method, when the corpus for multi-layers annotation sets, the research proves the possibility of construction and verification using different layer annotation information. The evaluation and verification methodology was examined to improve the corpus quality, and keyword matching correlations of the annotation layers between coreference resolution and zero anaphora resolution was derived through prior studies. By using the principle of matching two layers of keywords, the research proves the matching rate of the corpus annotation and matching points about the coreference resolution and the zero anaphora resolution. In terms of the layers of the coreference resolution, it focused on finding the error of meaning mismatch in the internal mentions of an entity and the method of how to judge priority ranking error resolution of antecedents on the layer of the zero anaphora resolution. After that, the annotation information verification format was then designed, combining information at each level of annotation to verify the errors. This research is worth to find the possibility of supplementing the limitations of previous quantitative and qualitative language resource evaluation through verification methods using information between different annotation layers.

      • 용어 대응 기반 질의문과 판례 연결 방안 연구 : 텍스트 마이닝 기법을 활용하여

        강예지 연세대학교 대학원 2020 국내석사

        RANK : 247599

        As professional data is available and searchable online, more and more people in need of legal help are preparing their own lawsuits by inquiring on portal sites or searching for legal cases similar to their own cases. However, if a lay user without legal expertise retrieves legal information, there is a problem that differences in the use of terminology do not produce accurate results in the search process. In addition, the current legal case search system on the Supreme Court case site is a keyword-based search system, so there is a limit to providing customized information. Therefore, in order for ordinary people to successfully retrieve legal information, legal information must be able to be retrieved even after using generic terms, and the user must be able to derive as much customized information as possible. Using text mining techniques, this paper proposed a method for effectively connecting legal cases related to a user's query based on a query using general terminology by users without legal expertise. As a way to connect questions and cases, first we collected user questions, answers and cases, and we used clustering techniques for answer data, and LDA-based topical modeling techniques for case data. Each data was clustered into the relevant documents to analyze the subject matter of the document. The answer was used as a medium to connect the questions and cases to the same topics. As a result, some questions and cases were not able to be connected due to the limitations of LDA modeling, but the rest of the expert answer categories and cases were well connected by subject, confirming that the questions and cases were successfully derived. These connection results can be provided as a list of query and case categories on the system in terms of search system development, making it easier for users to obtain customized information. 온라인상에 전문 자료가 공개되고 검색이 가능해짐에 따라, 법률적 도움이 필요한 사람들이 포털 사이트에 질의하거나 본인의 사건과 비슷한 사건의 판례를 검색하여 스스로 소송을 준비하는 경우가 늘어나게 되었다. 그러나 법률적 전문 지식이 없는 일반 사용자가 법률 정보를 검색할 경우 용어 사용의 차이로 검색 과정에서 정확한 결과를 도출하지 못하는 문제가 있다. 또한 현재 대법원 판례 사이트의 판례 검색 시스템은 키워드 기반 검색 시스템으로 사용자 맞춤형 정보를 제공하는 데 한계가 있다. 따라서 일반 사람들이 성공적으로 법률 정보를 검색하기 위해 일반 용어를 사용하고도 법률 정보가 검색될 수 있어야 하며, 사용자에게 최대한 맞춤형 정보가 도출될 수 있도록 해야 한다. 이에 본 논문은 텍스트 마이닝 기법을 이용하여 법률적 전문 지식이 없는 사용자가 일반 용어를 사용한 질의문을 바탕으로 사용자의 질의문과 연관 관계에 있는 판례를 효과적으로 연계하기 위한 방법을 제시하였다. 질의문과 판례를 연결하는 방법으로는 먼저 사용자 질의문·답변과 판례를 수집한 후 답변 데이터에 클러스터링 기법을, 판례 데이터에 LDA기반 토픽 모델링 기법을 사용하여 각 데이터를 키워드와 관련된 문서로 군집화하여 문서의 주제를 분석하였다. 이는 답변과 판례를 일치하는 주제끼리 연결시켜 주어 답변을 매개로 질의문과 판례를 연결하도록 하였다. 그 결과, LDA 모델링의 한계로 일부 질의문과 판례가 연결이 불가능하였으나, 이를 제외한 나머지 전문가 답변 범주와 판례 상위어는 주제별로 잘 연결되어 질의문과 판례가 성공적으로 도출됨을 확인하였다. 이러한 연결 결과는 검색 시스템 개발 측면에서 시스템상에 질의문과 판례 범주 목록으로 제공될 수 있으며, 사용자는 한층 더 쉽게 맞춤형 정보를 얻을 수 있을 것이다.

      • 사전 훈련 언어 모델을 활용한 관용표현 분류 연구

        박서윤 연세대학교 대학원 2021 국내석사

        RANK : 247599

        본 논문은 사전 훈련된 언어 모델을 통해 관용표현과 일반표현에 대한 분류를 수행함으로써, 두 표현 간 중의성을 해소 및 중의성 해소에 어떤 요소들이 기여하는지 고찰하는 것을 목적으로 한다. 관용표현은 일반표현과 중의성을 가지며, 관용표현 구성 요소들의 문자적 의미에서는 도출될 수 없는 제 3의 의미를 가지는 표현이다. 따라서 이해와 사용에 있어 언어적 직관이 매우 크게 작용하게 된다. 자연어 처리를 위한 딥러닝 기반 언어 모델에는 언어적 직관이 결여되어 있으며, 때문에 관용표현에 대한 사전 지식 없이 이를 처리하고자 할 경우 문제가 발생한다. 본 논문은 이에 대한 문제의식을 가지고 다양한 자연어 처리 모델을 통해 관용표현과 일반표현을 분류하는 태스크를 수행함으로써, 분류에 있어 충분한 양의 사전 학습과 문맥을 반영한 임베딩, 그리고 다양한 텍스트에 대한 사전 훈련이 필수적임을 확인하였다. 실험은 사전 학습 임베딩 및 사전 훈련(pre-trained) 모델을 미세 조정(fine-tuning)하는 방법으로 수행되었다. 미세 조정을 위하여 ‘관용표현 레이블링 말뭉치’를 구축하였다. 관용표현 레이블링 말뭉치는 일반표현인지 관용표현인지를 레이블링한 말뭉치로, 중의성을 가지는 ‘체언+격 조사+용언’ 형 관용표현 15개를 선정하여 표현 당 500 예문에 대해 0(일반표현), 1(관용표현)로 레이블을 표시하였다. 실험에 사용된 자연어 처리 모델은 분산 표상(distributed representation) 임베딩 모델인 WordVec과 fastText, 그리고 문맥 표상(contextualized representation) 임베딩 모델인 ELMo와 BERT, GPT-2이다. 분산 표상 임베딩 모델 실험에서는 Word2Vec과 fastText에 각각 사전 학습된 임베딩을 주입하였고, 이를 Baseline 모델과 비교하여 관용표현 분류에 있어 일정 규모 이상의 사전 학습 임베딩이 필요함을 확인하였다. 문맥 표상 임베딩 모델 실험의 경우, 전반적으로 문맥 표상 임베딩 모델이 분산 표상 임베딩 모델보다 월등한 성능을 보이는 점, 그리고 GPT-2가 ELMo나 BERT에 비해 성능이 저하되는 것을 관찰함으로써 관용표현의 중의성 해소에 있어 문맥을 반영한 임베딩이 필수적임을 확인하였다. 또한 BERT의 경우 문어체 텍스트로만 학습된 경우보다 문어체, 구어체 텍스트로 학습된 경우 더 높은 분류 성능을 보여, 언어적 직관이 반영된 현상을 자연어 처리하고자 할 때 보다 다양한 텍스트에 대한 학습이 중요함을 확인하였다. This study aims to find how could pre-trained language model classify idioms, which have figurative meanings but have same surface forms with literal expressions. Through our experiments enough pre-trained embeddings are key to satisfy minimal performance and contextualized representation performs better for distinguishing between idoms and literal forms. Idiom has same surface form as literal expression does and for this reason has ambiguity with literal expression. However, unlike literal expression's meaning could be inferred by sum of words from surface forms, idiom's meaning could not be inferred by simple sum of words. At this point, language sense of mother tongue roles quite strong for using idioms and understanding them. Natural language processing models also have any language sense, therefore a sort of problems would occur when people try to process idioms by using plain NLP models. Consequently we take pre-trained language models and fine-tuning techniques into account to process. For fine-tuning we created ‘Korean Idiom Labeling Corpus’ which we labeled examples into '1'(idiom) and '0'(literal). Corpus contains 7500 sentences which are examples of fifteen 'Noun+Josa+Verb' forms whether literal meanings or idiomatic meanings. During experiment, we used Word2Vec and fastText were embedded with pre-trained embeddings. Those 2 models can be sorted as 'distributed representation models'. Also we used contextualized representation models i.e. ELMo, BERT and GPT-2, which were already pre-trained with enormous sizes of korean corpora. As a result, experiments of distributed models shows that enough pre-trained embeddings could contribute a performance of classification. On the other hand, experiments of contextualized models reports that contextualized representation shows better performance than distributed representation did and also trained with various texts could increase classification performances.

      • 한국어 추론 벤치마크 데이터 구축 방법론 연구

        한지윤 연세대학교 대학원 2021 국내박사

        RANK : 247599

        This exploratory study aims to examine methodologies for constructing benchmark data that evaluates Korean inferencing capabilities in language models. Following a comprehensive analysis on the pre-existing language benchmarking data, a diagnostic dataset was developed for evaluating Korean language inferences. I specifically chose to focus on the Natural Language Inference (NLI) task, which involves defining the semantic relationship between premises and hypotheses, among other various ways to evaluate the inferencing ability of the Korean language. A diagnostic dataset compatible with the Korean language was selected based on the proposal by Glue(Wang et al., 2018), for evaluating inference abilities of language models in depth. The first step was to sample and analyze the KLUE-NLI, a Korean natural language inference benchmark built with the same convention as SNLI and MNLI. Both SNLI and MNLI are two of the most widely used NLI datasets in the English language. An analysis on the linguistic strategies used to create hypotheses was conducted on 4,059 statements sampled from the KLUE-NLI training dataset and the verification dataset. The linguistic strategies were categorized into deletion, substitution (hypernymy, synonymy, antonymy), negation, insertion (sentence components, semantic operators), coordination (sentence components, word order), passive voice, modification, number and time, and expressions associated with place/location, then the strategies were classified by the level of strategic difficulty. In addition to this analysis, I reviewed a list of previous studies and identified the following diagnostic items that include a linguistic inferencing phenomena and inferences in the general commonsense. The identified diagnostic items are lexical semantics (hypernymy, synonymy, antonymy, morphological negation, redundancy, quantification), predicate-argument structure (relative clauses, coordination, active/passive voice, topic-comment structure, word order scrambling), logic (proposition logic structure, quantification, monotonic function, intervals/numerical expressions, temporal expressions) and knowledge & common sense (world knowledge, common sense). Using this list of diagnostic items,I refined the previously mentioned training and verification data sampled and extracted from the KLUE-NLI. Consequently, two annotated KLUE-NLI-H and KLUE-NLI-S datasets are presented. Annotations that can be used to evaluate the list of diagnostic items. The KLUE-NLI-H dataset has a large proportion of its data corresponding to a high level of difficulty. Whereas KLUE-NLI-S dataset has an average level of difficulty. After applying this dataset for diagnosis to the most commonly used pre-learning language models (KLUE-RoBERTa, KLUE-BERT, KcBERT, KoELECTRA), I evaluate each of the language model's function and features. Overall, pre-learning language models built based on a transformer architecture demonstrated robust performance in word order scrambling and word omission within sentences. The performance of lexical semantics, such as hypernymy, synonymy, and antonymy, were often determined by the characteristics of the training data used by the pre-learning language model. It was also noted that pre-learning language models evidently did not achieve high-performance in quantification, monotone, and knowledge & common sense. Through this evaluation of diagnostic items, it is evident that the type of inferences that can be resolved depends on the characteristics of the pre-learning language models. 본 연구는 언어 모델의 한국어 추론 성능을 평가하기 위한 벤치마크 데이터 구축 방법론을 탐구하는 데 그 목적이 있다. 이를 위하여 기존에 존재하는 언어 벤치마크 데이터를 분석하고, 그를 토대로 한국어 추론 능력을 세부적으로 평가하기 위한 진단용 평가 데이터 셋을 제안한다. 한국어 추론 능력을 평가할 수 있는 여러 유형의 평가용 데이터 중 전제 문장과 가설 문장 사이의 함의 관계를 파악하는 자연어 추론(NLI, Natural Language Inference) 과제에 집중하여 한국어의 추론 능력을 평가할 수 있는 방법을 탐구하였다. 심층적으로 언어 모델의 추론 능력을 평가할 수 있는 항목을 제시한 GLUE(Wang et al., 2018)를 기본 뼈대로 하여 한국어에 적합한 평가 항목을 제시하였다. 이를 위해 영어권에서 가장 일반적으로 알려진 자연어 추론 평가 벤치마크인 SNLI(Stanford Natural Language Inference, Bowman et al.(2015a)) 및 MNLI(Multi Natural Language Inference, Williams et al. (2018))와 동일한 컨벤션으로 구축한 한국어 자연어 추론 벤치마크인 KLUE-NLI(박성준 외 2021)의 데이터를 표본 추출하여 분석하였다. KLUE-NLI의 공개된 학습용, 검증용 데이터 중 4,059문장을 표본 추출하여 작업자들이 가설을 작성하기 위하여 취한 전략을 분석하였다. 전략은 삭제, 교체(유의어, 상하위어, 반의어), 부정, 삽입(문장성분, 의미 연산자), 조정(문장성분, 어순), 피동, 변용, 수 및 시간, 장소 관련 표현으로 분류하여 난이도를 산정하였다. 이러한 분석에 더하여 선행 연구의 목록을 검토하여 언어학적인 추론 능력 및 일반 상식에 기반하는 내용까지 포괄하는 평가 항목을 제안하였다. 어휘 의미론(상하위어, 유의어, 반의어, 형태부정, 잉여성, 양화사), 술어-논항구조(관계절, 접속, 능동/피동 교체, 주제-논평 구조, 어순 뒤섞기), 논리학(명제 구조, 양화, 단조성, 간격/숫자, 시간), 지식 및 일반 상식(세계 지식, 일반 상식)이 이 논문에서 제시하는 평가 항목이다. 이 평가 항목을 토대로 표본 추출한 데이터를 재가공하여 평가 항목을 진단할 수 있는 주석이 되어 있는 데이터인 KLUE-NLI-H와, KLUE-NLI-S를 제안하였다. KLUE-NLI-H는 이 중 고난이도에 해당하는 데이터의 비율이 높은 데이터셋이고, KLUE-NLI-S는 고난이도에 해당하는 데이터의 비율이 상대적으로 낮은 진단용 데이터셋이다. 이 진단용 데이터셋을 현재 가장 보편적으로 사용되는 사전 학습 모델인 KLUE-RoBERTa, KLUE-BERT, KcBERT, KoELECTRA에 적용해 각 모델의 성능과 특성을 진단해 보았다. 전반적으로 트랜스포머(Transformer) 구조를 기반으로 하는 사전 학습 모델은 어떤 모델이라도 문장 내에서 어휘의 순서 변경 또는 일부 어휘의 생략에는 강건한(robust)한 성능을 보여주며, 상하위어, 유의어, 반의어 등의 어휘 함의의 경우 사전 학습 모델이 학습한 학습용 데이터의 특성에 따라 성능이 결정되는 경향이 있음을 밝혔다. 또한 아직까지 사전 학습 모델이 양화 현상이나 단조성, 세계 지식과 일반 상식에는 뚜렷하게 높은 성능을 보이지 않음을 확인했다. 평가 항목을 통한 진단을 통해서, 모델별로 세부적인 추론 능력에 차이를 보인다는 것을 입증한 것이다.

      • 한국어 문법적 연어 추출 방법론 연구

        이진 연세대학교 대학원 2022 국내박사

        RANK : 247599

        ABSTRACT A Study on the Extraction Methodology of Grammatical Collocations in Korean Lee, Jin Graduate Program in Language and Information The Graduate School Yonsei University This study aims to extract Korean grammatical collocations by applying a extraction methodology of grammatical collocation suitable for Korean. Grammar items targeted for grammar education in Korean refers to a gram- matical unit consisting of a combination of single vocabularies that are useful language units in terms of communication. These items can be seen as at the boundary between vocabulary and grammar and among others, for grammatical collocations, learning in the form of chunks is essential because the whole composition of it has a stronger unitary as one unit compared with lexical collocations. However, discussions on collocations so far have mostly focused on lexical collocations and accordingly the studies on grammatical collocations are still lacking. The studies on the criteria or the methodology for extracting collocations have also not been studied much. There is also a problem in applying the lexical associations measures developed in consideration of the characteristics of English or European languages, which is mainly conducted in foreign studies, to Korean without any verification. Therefore, it is necessary to discuss on lexical associations measures most suitable for Korean. In this study, two to four gram lexical chains were extracted by utilizing the N-gram technique for the 21st century Sejong plan Sejong shape analysis corpus (hereafter referred to as the Sejong corpus) and the degree of lexical combination of each lexical chain was measured by applying 12 measurement methods such as cooccurrence frequency, pointwise mutual inꠓformation, t-test, chi-squared test, log likelihood ratio, Dice coefficient, z-test, odds ratio, minimum sensitivity, relative risk ratio among lexical associations meas-- 231 - ures commonly used at home and abroad. For the candidate list of grammatical collocations derived in this way, the inappropriate lexical chains as gram- matical collocations were removed by applying the methodology that reflects characteristics of Korean grammatical collocations such as entropy and average distance. As a result of applying 12 types of lexical associations measures to two to four gram lexical chains extracted from the Sejong corpus, cooccurrence frequency was not significantly affected by the length of N-gram and change of register and demonstrates high recall in the upper n% section. In the case of the t-test, however, it turned out that the recall significantly decreased in both octopus and four grams of spoken language. The t-test was the lexical associations measures most affected by the length of N-grams. Although mutual information demonstrates a low recall, while showing a tendency to overestimate lexical chains of the low frequency, it resulted similar to the cooccurrence frequency with the highest recall in both written and spoken language, as recall significantly increased when mutual information MI2 and MI3 were applied bi-gram. Besides that, Dice coefficient and Minimum sensitivity rarely used in domestic researches showed high recall. Conversely, they demonstrated the lowest recall in Relative Risk and Odds Ratio. However, Dice coefficient displayed a tendency to decrease in recall as the length of the N-gram increases, and it seems to be affected by the length of the N-gram along with the t-test. The list of grammatical candidates was extracted by utilizing the cooccurrence frequency showing the most stable result among the various lexical associations measures. Moreover, inappropriate lexical chains as grammatical collocations were removed by utilizing the entropy. By selecting the entropy of the lexical elements with high collocation and utilizing the entropy of adjacent words, the partial lexical chains of grammatical collocations such as '- (으)ㄹ 수-' were removed. Finally, the lexical chains with a large average distance were eliminated by measuring the average distance and variance between the components of the Grammatical Collocations and by measuring the degree of intervention of other elements among the components of the gram- matical collocation. These methods were applied by quantifying the characteristics of Grammatical Collocations, and these discussions will be helpful in de-- 232 - termining Grammatical Collocations based on the characteristics of Korean. The disadvantages caused by extracting grammatical collocations with a mechanical methodology can be compensated for by reflecting the characteristics of grammatical collocations. In the studies on the extraction of the collocations so far, it is impossible to qualitatively investigate the entire extracted lexical chain. Therefore, there was no choice but to select and study only high-frequency items or only the specific compositions of collocations such as 'word + verb'. In this study, it could be possible to remove a large number of items inappropriate as gram- matical collocations by using the linguistic characteristics of grammatical collocations and accordingly, the list of candidates of grammatical collocations could be reduced to a level to be analyzed in a qualitative way, which is by approximately 17,000 out of about 2 million lexical chains of two to four grams, the initial candidates list of grammatical collocations. It is meaningful that the candidate list of grammatical collocations is constructed by selecting items with a strong degree of combination between grammatical elements in consideration of the characteristics of grammatical collocations rather than simply high-frequency items. It is expected that the list of grammatical collocations obtained through this study will be used as an objective data to study grammatical collocations. 본 연구는 한국어에 적합한 한국어 문법적 연어 추출 방법론을 적용하여 한국어 문 법적 연어를 추출하는 데 목적이 있다. 한국어교육에서 문법 교육의 대상으로 삼고 있는 문법항목은 의사소통 측면에서 유용한 언어 사용 단위인 단일 어휘들의 결합으 로 이루어진 문법 단위를 말한다. 이러한 항목들은 어휘와 문법의 경계에 있다고 볼 수 있는데 그중에서도 문법적 연어는 어휘적 연어에 비해 구성 전체가 하나의 단위로 인식되는 단위성이 강하기 때문에 덩어리 형태의 학습이 필수적이다. 그러나 지금까 지의 연어에 대한 논의들은 대체로 어휘적 연어에 집중되어 문법적 연어에 대한 연구 는 부족한 편이다. 연어를 추출하는 기준이나 방법론에 관한 논의 역시 많은 연구가 이루어지지 않고 있다. 주로 국외 연구에서 이루어지는 영어나 유럽어의 특성을 고려 하여 개발된 어휘 간 결합도 측정 방법(lexical association measures)을 아무런 검 증 없이 한국어에 적용하는 것도 문제가 있다. 그러므로 어휘 간 결합도 측정 방법들 중에서 한국어에 가장 적합한 측정 방법이 무엇인지에 대한 논의가 필요하다. 본 연구는 21세기 세종계획 세종 형태 분석 말뭉치(이하 세종 말뭉치)를 대상으로 N-그램(N-gram)을 활용하여 2~4그램 어휘적 연쇄를 추출하였고 국내외에서 일반적 으로 쓰이는 어휘 간 결합도 측정 방법 중 공기빈도, 상호정보(mutual information, MI), t-검정(t-test), 카이제곱검정(chi-squared test), 로그우도비(log likelihood ratio), 다이스계수(Dice coefficient), z-검정(z-test), 승산비(odds ratio), 최소민감도 (minimum sensitivity), 상대위험비(relative risk ratio) 등 12가지 측정 방법을 적용 하여 각 어휘적 연쇄의 어휘 간 결합도를 측정해 보았다. 12가지 어휘 간 결합도 측정 방법으로 계산된 측정치를 기준으로 내림차순한 후에 목록을 12개의 n% 구간으로 구분하여 구간별로 정확률(precision)과 재현율(recall) 을 계산하였다. 다음으로 레지스터(register)와 N-그램 길이의 관계없이 일관되게 상 위 n% 구간에서 안정된 재현율을 보인 공기빈도를 활용하여 재현율 90%에 도달하는 n% 구간까지의 문법적 연어를 1차 문법적 연어 후보 목록으로 선정하였다. 이렇게 선별한 1차 문법적 연어 후보 목록을 엔트로피와 평균거리 등 한국어 문법적 연어의 특성을 반영한 방법론을 적용하여 문법적 연어로서 부적합한 어휘적 연쇄들을 제거하 였다. 먼저 문법적 연어의 구성요소인 어휘적 요소의 엔트로피를 구하여 연어성이 높- ix - 은 어휘적 요소를 추출하고 이 어휘적 요소를 포함하는 어휘적 연쇄를 추출하여 2차 문법적 연어 후보 목록을 선별하였다. 다음으로 어휘적 연쇄의 인접 단어 엔트로피를 구하여 ‘-(으)ㄹ 수’와 같은 문법적 연어의 부분 어휘적 연쇄를 제거하였다. 마지막으 로 문법적 요소의 구성요소 사이의 평균거리와 분산을 측정하여 구성요소들 사이에 다른 요소의 개입 정도를 수치로 측정한 후 평균거리가 먼 어휘적 연쇄를 제거했다. 이러한 방법들은 문법적 연어가 가진 특성을 수치화하여 적용한 것인데 이러한 논의 들이 한국어의 특성에 기반하여 문법적 연어를 판별하는 데 도움이 될 것이다. 정량 적 방법론으로 문법적 연어를 추출해 냄으로써 생기는 단점들을 문법적 연어의 특성 을 반영함으로써 보완할 수 있을 것이다. 각 어휘 간 결합도 측정 방법은 문어에 비해 구어에서 재현율에 떨어지는 경향을 보였는데 이는 어휘 간 결합도 측정 방법이 말뭉치의 크기와 평가 기준으로 삼는 연 어 목록에 크게 영향을 받기 때문인 것으로 보인다. 구어에서 문어보다 재현율이 낮 게 측정된 것은 평가 기준으로 삼았던 한국어 교육용 문법적 연어가 구어보다는 문어 를 중심으로 구성되었기 때문인 것으로 보이며 세종 구어 말뭉치의 규모가 세종 문어 말뭉치보다 10배 이상 작은 것도 하나의 원인이 된 것으로 보인다. 세종 말뭉치에서 추출한 2~4그램 어휘적 연쇄에 12가지의 어휘 간 결합도 측정 방 법을 적용해 본 결과 공기빈도는 N-그램의 길이와 레지스터(register)에 크게 영향을 받지 않고 상위 n% 구간에서 높은 재현율을 보였다. 반면에 t-검정의 경우 문어와 구어 4그램에서 모두 재현율이 크게 떨어지는 것으로 나타났다. 특히 t-검정은 4그램 에서 다른 어휘 간 결합 측정 방법들보다 일관되게 재현율이 낮았던 상호정보보다도 낮은 재현율을 보였다. 기존 논의에서 t-검정은 고빈도 항목에 대해 과평가하는 경향 이 있는 것으로 나타났는데 본 연구에서 4그램, 특히 구어 4그램의 경우 어휘적 연쇄 의 구성요소의 빈도가 낮을 뿐 아니라 어휘적 연쇄 자체의 빈도도 낮기 때문에 이러 한 점들이 t-검정이 문법적 연어를 판별하는 데 부정적인 영향을 미친 것으로 보인 다. 상호정보는 저빈도의 어휘적 연쇄를 과평가되는 경향을 보이면서 낮은 재현율을 보 였으나 상호정보 제곱(MI2 )과 상호정보 세제곱(MI3 )을 2그램에 적용했을 때는 재현율 이 크게 상승하면서 문어와 구어 모두에서 가장 재현율이 높았던 공기빈도와 비슷한 수준의 결과를 보여 주었다. 경험을 기반으로 한(Heuristic) 방법론이기는 하지만 영 어나 유럽어를 대상으로 한 국외 연구에서 유의미한 결과를 보여 주었는데 한국어 문 법적 연어 추출에서도 좋은 성능을 보였다. 그외에 국내 연구에서는 잘 사용되지 않 았던 다이스계수와 최소민감도는 대체로 높은 재현율을 보였지만 승산비와 상대위험 비는 상호정보와 비슷한 수준의 낮은 재현율을 보였다. 그러나 다이스계수는 N-그램 이 길이가 길어질수록 재현율이 다소 떨어지는 경향을 보였다.- x - 본 연구는 국내외 연구에서 연어 추출에 일반적으로 활용되는 12가지의 어휘 간 결합도 측정 방법을 한국어 문법적 연어 후보 목록을 추출하는 데 적용하였다. 동일 한 한국어 언어 자료에 대해서 12가지의 어휘 간 결합도 측정 방법을 적용하였고 그 결과를 평가하여 레지스터와 N-그램 길이의 따라 각 측정 방법의 연어 판별 성능을 비교했다는 점에서 의의가 있다. 또한 언어적 특성을 적용하여 문법적 연어를 판별하 는 방법론을 제시하였고 ‘체언+용언’과 같은 일부 연어 구성이나 고빈도 연어만을 대 상으로 한 연구가 아닌 세종 말뭉치에서 추출한 전체 2~4그램을 대상으로 연구를 진 행했다. 문법적 연어의 언어적 특성을 활용해서 문법적 연어로 부적합한 항목들을 대 거 제거할 수 있었고 이를 통해 정성적인 수준까지 분석이 가능하도록 문법적 연어 후보 목록을 줄일 수 있었다. 단순히 고빈도 항목이 아닌 문법적 연어의 특성을 고려 하여 통계적으로 어휘 간 결합도가 강한 항목들을 추출하였다. 그러나 본 연구에서 평가 기준 문법적 연어 목록으로 활용한 한국어 교육용 문법적 연어의 한계로 인해서 구어와 문어에서의 어휘 간 결합도 측정 방법의 차이를 제대로 비교할 수 없었다. 그러므로 향후 평가 기준 문법적 연어 목록을 효과적으로 구축할 수 있는 방법에 대한 연구가 필요하다. 기존 인간 주석자들이 수작업으로 연어 여부 를 판별하여 구축한 평가 기준 문법적 연어 목록은 시간과 노력이 많이 필요하기 때 문에 국외 연어 추출 연구에서 적용하고 있는 무작위 표본 평가(random sample evaluation, RSE) 혹은 사전이나 wordnet 등을 활용한 방법들을 적극적으로 검토해 볼 필요가 있다. 또한 어휘 간 결합도 측정 방법론을 평가하는 방법론도 다양하게 적 용해 보고 평가 결과를 비교해 보는 것이 필요할 것이다. 이 역시 기존 영어나 유럽 어에서 일반적으로 적용되고 있는 방법들이 한국어에도 적합한지를 판단해 보는 동시 에 한국어에 맞는 새로운 방법론도 연구해 볼 필요가 있다. 또한 12가지의 어휘 간 결합도 측정 방법 외에 영어나 유럽어를 대상으로 유의미 한 결과를 보인 어휘 간 결합도 측정 방법을 적용해 보고 개별 어휘 간 결합도 측정 방법을 융합함으로써 한국어 문법적 연어 판별의 성능을 높이는 방법론도 개발할 필 요가 있다.

      • 성별에 따른 어휘 사용 양상의 말뭉치 기반 연구

        김예영 연세대학교 대학원 2023 국내석사

        RANK : 247599

        본 논문은 국립국어원의 일상대화 말뭉치 2020을 바탕으로 성별에 따른 어휘 사용 양상을 살펴봄으로써, 선행연구에서 확인된 특정 어휘 부류의 성별에 따른 차이가 말뭉치상으로도 나타나는지 확인하는 것을 목적으로 한다. 선행연구에서 성별에 따라 다르게 쓰이는 것으로 주목한 항목을 크게 세 가지인 감정 어휘, 정도부사, 색채어를 중심으로 말뭉치에서 그 빈도를 살펴보았는데, 세 항목은 모두 남성과 여성이 중시하는 가치가 다르기 때문에 차이가 나타나는 것으로 확인된 만큼 말뭉치에서 또한 이러한 결과가 나타나는지 확인함으로써 유대관계를 중시하는 여성 언어의 특징이나 자기 주장 강화를 중시하는 남성 언어의 특징 등을 확인할 수 있을 것이라고 기대하였다. 이를 확인하기 위해 어휘의 가짓수 및 빈도를 중심으로 살펴보았으며, 그에 그치지 않고 어휘 사용양상에서도 차이가 나타나는지 살펴보기 위해 카이제곱 검정을 실시하여 남녀 언어의 동질성 정도를 판단하였다. 유의수준 a를 만족할 경우 성별에 따른 차이가 크게 나타나지 않는 것으로 판단하였고, 그 반대의 경우에는 성별에 따른 차이가 크게 나타나는 것으로 판단하였다. 감정 표현의 적극성은 감정 어휘의 빈도 및 가짓수 면에서 확인해볼 수 있었다. 일부 감정 및 연령에 따라 다른 양상을 보이기도 하지만 전반적으로 여성이 남성에 비해 더 다양한 감정 어휘를 사용하고 있었으며, 더 높은 빈도를 보이고 있었기 때문이다. 부사와의 공기관계를 통해 감정을 보다 적극적으로 드러내는 양상 또한 살펴보았으며 대부분 여성이 남성에 비해 더욱 강조를 위한 부사를 사용하고 있는 것을 확인할 수 있었다. 정도부사는 연구 결과 여성이 남성에 비해 더 빈번하게 정도부사를 사용하는 것을 확인할 수 있었다. 하지만 모든 정도부사에서 여성이 남성에 비해 더 많은 빈도를 보인 것은 아니었고, ‘아무리’와 같이 자신의 주장을 강화하는 용법으로 쓸 수 있는 정도부사에서는 남성이 여성에 비해 더 많이 사용하고 있는 것을 확인할 수 있었다. 따라서 개별 어휘에 따라 다른 양상을 보이기도 하지만 전체적으로 여성이 정도부사군의 사용 빈도가 높다는 경향을 확인하였다. 색채어는 그 가짓수와 용례를 중심으로 살펴보았다. 빈도 조사 결과 여성이 남성에 비해 더 다양한 색채어를 사용하고 있음을 알 수 있었으며, 빈도 면에서도 여성이 더 많이 나타남을 알 수 있었다. 남성은 단순히 색을 직접적으로 표현하는 어휘 중심으로 색을 묘사하고 있었으며, 여성은 그에 그치지 않고 질감이나 색이 칠해진 형태 등을 뜻으로 내포하고 있는 어휘 또한 묘사에 활용하고 있었다. 색채어가 사용된 말뭉치 용례를 살펴본 결과 색채어 뿐 아니라 대상을 묘사함에 있어서 여성과 남성이 다르게 묘사하는 경향을 확인할 수 있었는데, 묘사하고자 하는 대상이 서로 달랐다는 점에서 그저 가능성으로만 제시하고자 한다. 본 연구에서는 위와 같이 말뭉치를 대상으로 선행연구에서 확인된 성별에 따른 차이 지점을 살펴보았으며, 빈도의 차이를 통해 성별에 따른 언어 양상을 어느 정도 살펴볼 수 있었다. 살펴본 세 어휘군 모두에서 여성이 남성에 비해 더 많은 빈도와 가짓수를 보이고 있었으며, 이를 통해 여성이 생산한 발화에서 감정 표현의 적극성, 정도부사의 빈번한 사용, 색채 묘사의 다양성 등의 특성이 드러남을 확인하였다. The purpose of this paper is to check whether the difference in vocabulary usage according to gender, identified in previous studies, is also findable in the corpus, which is in this study the daily conversation corpus 2020 of the National Institute of Korean Language The study focuses on frequencies of three items, namely emotion, intensifier, and color words. All three items, according to previous studies, were found to differ due to the value which each gender mainly focuses on- the relationship or information. To confirm this, the degree of homogeneity of male and female languages was determined by conducting a chi-square test to see if there was a difference in word usage. The active emotional expression could be confirmed in terms of the frequency and number of emotional vocabulary usage. Although it differs depending on some emotion and age, women were using more diverse emotional vocabulary than men, and showed higher frequency. In the pattern of expressing emotions more actively through the adverb, it was confirmed that women were using adverbs for more emphasis than men, although they show different patterns depending on their emotions As a result of the study, it was confirmed that women use intensifiers more frequently than men. However, not all intensifiers showed more frequency than men. The word which can be used as a way to strengthen their arguments showed that men were using more than women. Therefore, although it shows different patterns depending on individual vocabulary, it was confirmed that women generally tend to use the intensifier. Color words were examined focusing on their numbers and uses. As a result of the frequency survey, it was found that women used color words more variously and more frequently than men. Men were describing color based on basic color words and women were not only using basic color words but also the words which contain additional meanings. As a result of examining the corpus cases in which color words were used, it was possible to confirm the tendency of women and men to describe objects differently as well as colored words, but I would like to suggest it only as a possibility in that the objects to be described were different. In this study, the word differences in gender identified in previous studies were examined for the corpus as above, and language patterns according to gender could be examined to some extent through differences in frequency. In all three items, women showed more frequency and number than men, which is a result of proving the activism of emotional expression, the higher frequency of intensifier, and the diversity of color description mentioned in previous studies.

      • 한국어 추상 의미 표상(AMR) 및 의미 파싱 연구

        최현수 연세대학교 대학원 2020 국내석사

        RANK : 247599

        본 연구는 문장 단위의 의미 표상 방법을 모색하고 새로운 의미 자원의 가능성을 탐색하고자 최근 여러 언어권에서 연구되고 있는 의미 표상 프레임워크인 추상 의미 표상(AMR; Abstract Meaning Representation)를 한국어에 적용하는 방안에 대해 논 의한다. AMR은 문장의 심층 의미를 표상하는 체계로, 문장이 뜻하는 사건과 개체, 개 념 간의 관계를 그래프 구조로 표현하는 체계다. 본 연구에서는 한국어 AMR 주석 지침을 마련하고 이를 말뭉치 구축에 적용하여 1,253 문장 규모의 말뭉치를 주석하였다. 한국어 AMR 말뭉치는 ETRI에서 공개한 ExoBrain 언어 분석 말뭉치 v4.0의 일부(뉴스, 위키, 웹 텍스트 등)와 한국어 기초 사전 예문 일부 등으로 구성되어 있으며, 3,408개의 개체명 주석과 3,993개의 사건 표상, 18,797개의 의미 관계 주석을 포함하고 있다. AMR은 텍스트의 심층 의미를 분석하는 체계로 기계 독해, 자동 요약, 문장 생성 등 다양한 자연어 처리 기술에 응용될 수 있다. 본고에서는 한국어 의미 표상 체계 연구를 활성화하고 활용 가능성을 모색하고자 구축된 말뭉치를 의미 파싱에 적용하여 첫 Baseline 성능을 제시하고자 하였다. 본 연구에서는 Zhang et al. (2019)의 모델에 한국어 AMR을 적용하여 SMATCH F1 0.44의 성능을 확인하였다. 연구 과정에서 도출된 쟁점은 다음 두 가지다. 첫째로 현행 지침이 미흡하거나 주석 의존 자원이 충분히 준비되지 않아 적절한 의미 표상을 작성할 수 없는 문제다. 둘째로 구축된 말뭉치의 규모가 작아 AMR 파싱에서의 일반화 성능이 확보되지 못하 는 문제다. 본고에서는 두 가지 문제에 대해 기존 언어 자원을 가공하여 다단어 표현 표상을 위한 프레임 확장 방안을 보이고, 형태, 의존 구문, 개체명, 의미역 분석 결과 를 바탕으로 AMR 말뭉치를 자동 증강하는 방안에 대해 기초적인 논의를 제시한다.

      • 조별 토론 형식을 활용한 국어 문법 교수 방안 연구 : 중학교 교과서를 중심으로

        정은영 연세대학교 교육대학원 2019 국내석사

        RANK : 247599

        This study aims at proposing the class model which enables learners to take interest in and participate actively in middle school Korean grammar education. To diversify a method of teaching Korean grammar, it proposed the method of giving Korean grammar class by using the form of team-by-team discussion to enable learners to learn deeply through the mutual feedback between a teacher and learners in such a way that learners seek, arrange and publish basic concepts also in Korean grammar education by grafting a general method of discussion onto it. I confirmed that only the contents and activities presented in each textbook were not sufficient in learners learning important concepts of grammar. I think that a teacher can also arrange and complement the defects through additional learning materials, but that it is an efficient method to condition learners to investigate, arrange and publish through their active activities by themselves. A teacher is made to lead his or her learners to give mutual feedback through their critical thinking through a formal process of discussion, and he or she can motivate them to learn through their scores from team-by-team activities. Finally, grammar class by using the form of discussion based on the activities was proposed to attempt a change into true learners-centered education. This paper proposes that the class of using the form of discussion based on the activities, which is slightly different from not only the existing grammar class but also general discussion class, should deal with the domains of grammar that learners have difficulty in and are not interested in, exemplified by the grammar contents in middle school third grade Korean textbook from the present 2009 curriculum and middle school first grade Korean textbook from the present 2015 curriculum. I explored the direction in which Korean grammar class is given in 2009 curriculum and 2015 revised curriculum, concentratively analyzed middle school first grade textbook from 2015 revised curriculum and middle school third grade textbook from 2009 curriculum and arranged the grammatical subjects which can be taught by using the form of discussion. And I explored how each textbook described their grammatical concepts and features. I explored generally conducted form and concept of discussion and the field situation where grammar was taught as the theoretical background of the argument, grafted general form of Public Forum Debate onto them to use them in a classroom, designed the ways and features of classes with the form of class discussion as a method of grammar class by using the form of discussion based on the activities and presented basic rules or cautions concretely. Finally, I presented class guidance plans and activity scenarios as exemplified plans for class field about in what way actual classes can be given, and could heighten the effect through the methods for the feedback and evaluation of the class. This paper started from the agony about somewhat more interesting, effective classes in grammatical education. It has had only the above-mentioned forms of discussion to present various methods of grammatical class. In case that the purpose of discussion is defined as logical persuasion or problem solving, this study will be questioned. In such a case, the scope of grammatical education which can be used as a way of discussion cannot but be extremely limited, and the middle school learners who do not have a definite concept of grammar cannot help having difficulty in using it. To enable learners to lay the definite foundation for the concept of grammar and actively participate in classes to the purpose of considering the efficiency in grammatical education and interesting learners, this argument presented it by grafting the form of discussion onto it. This paper has two ways of proceeding: first, explaining a grammatical concept and proceeding in the form of discussion on the dimension of checking and arranging the knowledge, and investigating and studying a concept in advance as prerequisite learning by using Flipped Learning, arranging it by oneself and proceeding by using the form of discussion, both of which have sufficient educational values. Giving classes by using the form of discussion enables learners to cultivate not only critical thinking, logicality, cooperation, ability to publish and so on but also general knowledge about a vocabulary through the task like Korean dictionary consulting by using various media including smart phone during classes. Namely, preparing, arranging and publishing the grammatical class of using the form of discussion based on the activities, and having one arrange the contents after it enable one to evaluate both the process and the result. 본 연구의 목적은 중학교 국어 문법 교육에 있어서 학습자가 흥미를 느끼며 능동적으로 참여할 수 있는 수업모형을 제안하는 데 있다. 국어 문법 교수법의 다양화를 위해 일반적인 토론의 방법을 접목하여 국어 문법 교육에서도 학습자가 기본 개념을 찾아 정리하고 발표하면서 교수자와 학습자 간에 상호 피드백을 통한 심화학습을 할 수 있도록 조별 토론 형식을 활용한 국어 문법 수업의 방법을 제안하였다. 중요한 문법 개념을 학습함에 각 교과서에서 제시된 내용과 활동만으로는 충분치 않음을 확인하고, 부족한 부분은 교수자가 추가학습 자료를 통해 정리하여 보완할 수도 있지만, 학습자가 스스로 능동적인 활동을 통해 조사하고 정리하여 발표하는 활동을 하도록 여건을 조성해 나가는 것이 효율적인 방법이라 생각한다. 토론 형식적인 과정을 통해 교수자는 학습자들 간에 비판적 사고를 통한 상호 피드백을 유도하게 하며, 팀별 활동의 점수를 통해 학습의 동기부여를 제공할 수 있다. 결국 조별 활동에 기반을 둔 토론 형식을 활용한 문법 수업의 제안은 진정한 학습자 중심의 교육으로의 변화를 꾀함에 있다. 이 논문에서는 현 2009 교육과정의 중학교 3학년 교과서와 현 2015 교육과정의 중학교 1학년 국어 교과서 문법 내용을 예시로 학습자들이 어렵고 흥미를 느끼지 못하는 문법의 영역을 조별 활동에 기반을 둔 토론 형식을 활용한 수업으로, 기존의 문법 수업뿐 아니라 일반적인 토론 수업과도 조금 다른 방법의 수업으로 제안한다. 2009 교육과정과 2015 개정 교육과정에서의 국어 문법 수업의 방향을 알아보고, 2015 개정 교육과정 중학교 1학년 교과서와 2009 교육과정 중학교 3학년 교과서를 중심으로 분석하여 토론 형식을 활용하여 수업할 수 있는 문법 주제를 정리하였다. 그리고 각 교과서에서 그 주제의 문법 개념과 특징을 어떻게 기술하고 있는지에 대해 살펴보았다. 논의의 이론적 배경으로는 일반적으로 행해지는 토론 형식과 개념 및 현장에서의 문법 교육의 상황에 대해 알아보고 일반적인 퍼블릭 포럼 디베이트(Public Forum Debate) 형식을 접목하여 교실에서 활용할 수 있도록 학급 토론 형식을 조별 활동에 기반을 둔 토론 형식을 활용한 문법 수업의 방식으로 수업의 방법과 특징을 설계하여 기본 규칙이나 유의점을 구체적으로 제시했다. 마지막으로 실제 수업이 어떤 방식으로 이루어질 수 있을지에 대한 수업 현장 예시안으로 수업 지도안과 활동 시나리오를 제시하고, 수업의 피드백과 평가에 대한 방법을 통해 효과를 제고할 수 있도록 하였다. 이 논문은 문법 교육에서 좀 더 재미있고 효과적인 수업에 대한 고민에서 출발하였다. 다양한 문법 수업의 방법을 제시하고자 상기 토론 형식만 가지고 왔다. 토론의 목적을 논리적인 설득, 또는 문제 해결로 한정 지을 경우에는 본 연구에 대해 의문을 제기할 수 있을 것이다. 그러한 경우 토론의 방법으로 활용할 수 있는 문법 교육의 범위가 지극히 제한적일 수밖에 없고, 문법의 개념이 명확히 자리 잡지 못한 중학교 학습자들에게 활용하기는 힘들 수밖에 없다. 본 논의에서는 문법 교육에서의 효율성을 고려하고 학습자로 하여금 흥미유발을 하고자 하는 목적에 충실하게, 문법의 개념을 확실히 다지고, 능동적으로 수업에 참여할 수 있도록 토론 형식을 접목하여 제시하였다. 이 논문은 먼저 문법적 개념 설명 후, 그 지식을 확인하고 정리하는 차원의 토론 형식으로 진행하거나, 플립 러닝을 활용하여 선행학습으로 미리 개념을 조사하여 공부한 후 스스로 정리하여 토론 형식을 이용하여 진행하는 것으로, 모두 교육적 가치가 충분히 있다. 토론 형식을 활용하여 수업함에 비판적 사고, 논리성, 협동심, 발표 능력 등을 기를 수 있음은 물론이고, 부가적으로 수업 중에 스마트폰과 같은 다양한 매체를 활용하여 국어사전 찾기 과제 등을 통해 어휘에 대한 전반전인 지식도 함께 함양할 수 있다. 즉, 조별 활동의 기반을 둔 토론 형식을 활용한 문법 수업을 준비하고 정리해서 발표하고, 수업 후에 내용을 정리하게 함으로써 과정과 결과를 함께 평가할 수 있다.

      • 러시아어권 한국어 학습자의 연결어미 오류 분석 연구 : 한국어 학습자 말뭉치를 중심으로

        이현수 연세대학교 교육대학원 2023 국내석사

        RANK : 247599

        본 연구에서는 러시아어권 한국어 학습자들의 모어 사용 양상을 바탕으로 러시아어 접속사에 대응하는 한국어 연결어미의 오류 양상과 모어 간섭 현상을 연구하였다. 연구 자료는 러시아어 국가 말뭉치와 국립국어원 한국어 학습자 말뭉치 나눔터에서 제공하는 러시아어권 학습자의 오류 주석 말뭉치를 활용하였다. 먼저 러시아어 국가 말뭉치에서 고빈도 접속사를 선정한 뒤 각 접속사의 개별적 특성과 이에 대응하는 한국어 표현을 문헌 연구를 통해 분석하였다. 그리고 총 17가지의 연결어미를 선정하여 오류 분석을 실시하였다. 그 중 가장 많은 연결어미 오류에서 간섭 현상을 확인할 수 있었던 러시아어 접속사는 и이며 그 외에도 а, чтобы, хотя 등의 접속사로부터 간섭을 받아 오류가 다수 발생한 것으로 나타났다. 러시아어권 학습자의 연결어미 오류 양상으로는 대치 오류가 가장 많았으며 오형태, 첨가, 누락, 혼합 오류의 순으로 오류가 다수 존재하였다. 앞서 접속사의 대응 표현으로 선정된 연결어미 중에서는 ‘-(으)ㄹ지, -(으)ㄴ/는지’, ‘-(으)려면’, ‘-(으)니’ 등의 순서로 오류율이 높게 나타났다. 일부 오류 표본에서는 발음이나 통사적 층위의 오류가 존재하는 것으로 나타났다. 발음의 경우 러시아어와 한국어의 음운 체계의 차이로 인해 초급, 중급 학습자들이 오류를 범하는 것으로 나타났다. 통사적 층위에서는 연결어미를 사동 표현의 구성요소로 학습하기 때문에 오류가 발생하였다.

      • 한국어 은유의 가치의미론적 특성 연구 : 체면 위협성을 중심으로

        김영상 연세대학교 대학원 2023 국내박사

        RANK : 247599

        본 연구는 인지언어학과 화용론의 관점에서 한국어 은유의 가치의미론적 특성에 영향을 미치는 요인들을 분석했다. 이를 위해 은유의 가치의미론적 특성과 관련된 요인들을 ‘체화된(embodied) 특성’, ‘도덕성’, ‘문화 상대주의적 특성’으로 분류한 후에, 일상 대화 자료들을 통해 각각의 요인들이 일으키는 체면 위협 양상을 분석했다. 이를 위해 제1장에서는 연구의 필요성 및 목적을 포함한 연구 전반에 대한 내용을 개괄했다. 특별히 본 연구가 필요한 이유와 관련하여 기존의 논의들만으로는 은유의 가치의미론적 특성에 영향을 미치는 요인들을 정확히 판단할 수 없다는 점이 강조됐다. 가령, ‘소’ 은유 표현의 경우에 문화적으로는 ‘성실함’이라는 긍정적인 의미를 가지지만, 존재의 대연쇄(the great thing of chain) 이론의 관점에서는 사람에 비해 비도덕적인 동물군으로 분류된다. ‘신상’ 은유 표현은 ‘새로움’이라는 긍정적인 지향성을 가지는 반면에 존재의 대연쇄 이론에 따르면 도덕성이 전무한 사물의 지위에 위치한다. 즉, 기존의 논의들만으로는 은유 표현의 가치의미론적 특성을 정확히 판단하기가 어려운 것이 사실이다. 이에 본 연구에서는 의미론뿐만이 아니라, 화용론의 관점에서 대화 상황에 나타난 한국어 은유의 가치의미론적 특성을 분석했다. 추가적으로 은유와 관련된 선행 연구들을 인지언어학, 가치의미론의 관점에서 살펴봤으며, ‘체면 및 공손’ 관련 선행 연구들을 상호문화적 관점에서 정리했다. 제2장에서는 연구 목적과 관련된 이론적 토대를 개념적 은유의 정의와 이론적 특성을 체화된 특성, 문화상대주의적 특성, 가치의미론적 특성 등의 세 가지 측면에서 살펴봤다. 이 가운데 본 연구의 분석 결과를 설명하기 위한 중심적인 분류 기준이라고 할 수 있는 ‘지향적 은유’, ‘존재론적 은유’, ‘환유’의 가치의미론적 특성에 대한 논의가 이루어졌다. 다음으로 집단주의적 관점에서 바라본 체면 및 관계주의 문화에 대한 논의도 있었다. 이를 문화상대주의적 관점에서 바라보기 위해 집단주의와 반대되는 특성을 가지는 개인주의 문화에 대한 논의도 함께 이루어졌다. 제3장에서는 본 연구의 분석 대상 및 방법에 대해서 설명했다. 본 연구의 분석은 대화 자료와 설문 조사를 기반으로 이루어졌다. 그리고 대화 자료 분석은 용례 분석 및 통계 분석을 통해 수행됐으며, 설문 조사는 한국인 대학생 · 대학원생 모국어 화자들과 중국 및 영어권(미국) 학습자들을 대상으로 이루어졌다. 특별히 대화 자료 분석과 관련하여 분석 대상으로 선정된 은유의 범위와 체면 위협성의 판단 기준에 대한 자세한 설명이 포함됐다. 먼저 은유의 식별에는 Pragglejaz Group(2007)에 의해 제시된 은유식별절차(Metaphor Identification Procedure, MIP)를 적용하는 것이 가장 적합할 것으로 판단했다. 다음으로 체면 위협성의 판단은 은유 표현이 포함된 화행의 긍정성 및 부정성을 기반으로 이루어졌다. 제4장에서는 대화 자료 및 설문 조사에 의한 분석 결과에 대해서 논의했다. 먼저 대화 자료를 통한 분석 결과는 체화된 특성을 가진 지향적 은유와 도덕성에 따라 분류된 존재론적 은유에 대한 분석 결과를 체면 위협 표현과 공손 전략을 위한 표현으로 나눠서 기술했다. 분석 결과에 따르면, 한국어 은유 표현의 가치의미론적인 특성은 대체로 [좋음은 위, 좋음은 새로움], [나쁨은 아래, 나쁨은 오래됨] 등의 보편적인 지향성을 따라 결정되는 경향이 있었다. 그리고 존재의 대연쇄 이론을 따라 사람보다 아래 단계에 위치한 사물 및 동물 은유 표현에는 체면 위협성이 포함된 반면에, 위 단계에 위치한 신 · 천사 은유 표현에는 공손성이 포함된 경우가 많았다. 또한 발화를 수행한 화자와 청자 사이의 ‘권력 거리’, ‘사회적 거리’가 한국어 은유의 체면 위협성에 미치는 영향을 상호문화적 관점에서 분석하기도 했다. 분석 결과에 따르면, 한국인 모국어 화자, 중국어권 학습자, 영어권 학습자들은 공통적으로 청자가 가진 권력이 클수록, 친밀도가 떨어질수록 체면 위협성이 포함된 은유 표현을 발화하는 것에 부담을 느꼈다. 5장 결론에서는 분석 결과를 기반으로 서론에서 제시한 연구 문제들에 대해 논의하고 이를 기반으로 한국어 교육 방안을 간략하게 제시했다. 이와 더불어 연구 제한점과 향후에 이를 보완할 수 있는 방안을 마련함으로써, 본 연구를 확정해 나갈 수 있는 방안을 제안했다. 그럼에도 불구하고 한국어 은유에 내재된 가치의미론적 특성 및 체화된 특성은 대체로 기존 연구들에 의해 제시된 보편성에 근거한 편이었다. 그러나 이러한 보편성에도 불구하고, 한국어 은유의 의미를 해석하는 데 있어서 타문화권의 학습자들이 어려움을 겪는 것으로 나타나 한국어 학습자들의 화용적 실패(pragmatic failure)를 최소화하기 위한 방안이 체계적으로 마련되어야 할 것으로 보인다.

      연관 검색어 추천

      이 검색어로 많이 본 자료

      활용도 높은 자료

      해외이동버튼