본 연구는 자연어 처리 분야에서 비교적 많이 연구되지 않은 맥락 의존적 혐오 표현에 주목하여, 이를 평가하기 위한 데이터 세트를 구축하고 생성형 언어 모델의 성능을 검증했다. 데이터...
http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.
변환된 중국어를 복사하여 사용하시면 됩니다.
https://www.riss.kr/link?id=A109559300
2025
Korean
KCI등재
학술저널
251-277(27쪽)
0
상세조회0
다운로드국문 초록 (Abstract)
본 연구는 자연어 처리 분야에서 비교적 많이 연구되지 않은 맥락 의존적 혐오 표현에 주목하여, 이를 평가하기 위한 데이터 세트를 구축하고 생성형 언어 모델의 성능을 검증했다. 데이터...
본 연구는 자연어 처리 분야에서 비교적 많이 연구되지 않은 맥락 의존적 혐오 표현에 주목하여, 이를 평가하기 위한 데이터 세트를 구축하고 생성형 언어 모델의 성능을 검증했다. 데이터는 한국의 대표적 온라인 커뮤니티 디시인사이드에서 수집되었으며, 맥락-댓글 총 2,005쌍으로 구성된 데이터 세트 KOCOH(KOrean COntext-Dependent Hate speech)가 구축되었다. 데이터의 유형은 실제 맥락과 맥락 의존적 혐오 표현, 만들어진 맥락과 맥락 의존적 비혐오 표현, 실제 맥락과 맥락 의존적 비혐오 표현의 세 가지로 구분되었다. 여섯 개의 최신 생성형 언어 모델(GPT-4o, GPT-4o-mini, Claude-3.5-sonnet, Claude-3.5-haiku, Bllossom, Ko-Gemma-2)에 대한 성능 평가 결과, F1 점수는 평균 60.73%로, 성능이 아직 만족스러운 수준에 도달하지 못했음을 확인했다. 특히, 언어 모델들은 고차원적 맥락이나 은어를 포함한 혐오 표현 탐지에 어려움을 겪었다. 본 연구는 한국어로 된 최초의 맥락 의존적 혐오 표현 데이터 세트를 구축했으며, 생성형 언어 모델의 한계를 실증하고 향후 지침이 될 수 있는 분석 결과를 제시했다.
다국어 초록 (Multilingual Abstract)
In this study, we focus on context-dependent hate speech, an area relatively unexplored in natural language processing, and construct a dataset to evaluate it while verifying the performance of generative language models. KOCOH (KOrean COntext-depende...
In this study, we focus on context-dependent hate speech, an area relatively unexplored in natural language processing, and construct a dataset to evaluate it while verifying the performance of generative language models. KOCOH (KOrean COntext-dependent Hate speech) was developed using data collected from Dcinside, a prominent online community in Korea, and consists of 2,005 context-comment pairs. These pairs were categorized into three types: hateful comments with real contexts, non-hateful comments with created contexts, and non-hateful comments with real contexts. Six generative language models (GPT-4o, GPT-4o-mini, Claude-3.5-sonnet, Claude-3.5-haiku, Bllossom, Ko-Gemma-2) achieved an average F1 score of 60.73%, revealing limited performance. The models struggled particularly with detecting hate speech requiring higher-level contextual understanding or slang. This study presents the first context-dependent hate speech dataset in Korean, demonstrates the limitations of existing generative models, and suggests analytical insights to guide future work.
종결어미 ‘-다’의 유형별 의미 기능과 문말 상승 억양의 역할
환자중심형 의료커뮤니케이션을 위한 방안(3) -의사의 공감적 의사소통을 중심으로-