RISS 학술연구정보서비스

검색
다국어 입력

http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.

변환된 중국어를 복사하여 사용하시면 됩니다.

예시)
  • 中文 을 입력하시려면 zhongwen을 입력하시고 space를누르시면됩니다.
  • 北京 을 입력하시려면 beijing을 입력하시고 space를 누르시면 됩니다.
닫기
    인기검색어 순위 펼치기

    RISS 인기검색어

      KCI등재

      KOCOH: 맥락 의존적 혐오 표현 탐지를 위한 데이터 세트 = KOCOH: A Dataset for Detecting Context-Dependent Hate Speech

      한글로보기

      https://www.riss.kr/link?id=A109559300

      • 0

        상세조회
      • 0

        다운로드
      서지정보 열기
      • 내보내기
      • 내책장담기
      • 공유하기
      • 오류접수

      부가정보

      국문 초록 (Abstract)

      본 연구는 자연어 처리 분야에서 비교적 많이 연구되지 않은 맥락 의존적 혐오 표현에 주목하여, 이를 평가하기 위한 데이터 세트를 구축하고 생성형 언어 모델의 성능을 검증했다. 데이터는 한국의 대표적 온라인 커뮤니티 디시인사이드에서 수집되었으며, 맥락-댓글 총 2,005쌍으로 구성된 데이터 세트 KOCOH(KOrean COntext-Dependent Hate speech)가 구축되었다. 데이터의 유형은 실제 맥락과 맥락 의존적 혐오 표현, 만들어진 맥락과 맥락 의존적 비혐오 표현, 실제 맥락과 맥락 의존적 비혐오 표현의 세 가지로 구분되었다. 여섯 개의 최신 생성형 언어 모델(GPT-4o, GPT-4o-mini, Claude-3.5-sonnet, Claude-3.5-haiku, Bllossom, Ko-Gemma-2)에 대한 성능 평가 결과, F1 점수는 평균 60.73%로, 성능이 아직 만족스러운 수준에 도달하지 못했음을 확인했다. 특히, 언어 모델들은 고차원적 맥락이나 은어를 포함한 혐오 표현 탐지에 어려움을 겪었다. 본 연구는 한국어로 된 최초의 맥락 의존적 혐오 표현 데이터 세트를 구축했으며, 생성형 언어 모델의 한계를 실증하고 향후 지침이 될 수 있는 분석 결과를 제시했다.
      번역하기

      본 연구는 자연어 처리 분야에서 비교적 많이 연구되지 않은 맥락 의존적 혐오 표현에 주목하여, 이를 평가하기 위한 데이터 세트를 구축하고 생성형 언어 모델의 성능을 검증했다. 데이터...

      본 연구는 자연어 처리 분야에서 비교적 많이 연구되지 않은 맥락 의존적 혐오 표현에 주목하여, 이를 평가하기 위한 데이터 세트를 구축하고 생성형 언어 모델의 성능을 검증했다. 데이터는 한국의 대표적 온라인 커뮤니티 디시인사이드에서 수집되었으며, 맥락-댓글 총 2,005쌍으로 구성된 데이터 세트 KOCOH(KOrean COntext-Dependent Hate speech)가 구축되었다. 데이터의 유형은 실제 맥락과 맥락 의존적 혐오 표현, 만들어진 맥락과 맥락 의존적 비혐오 표현, 실제 맥락과 맥락 의존적 비혐오 표현의 세 가지로 구분되었다. 여섯 개의 최신 생성형 언어 모델(GPT-4o, GPT-4o-mini, Claude-3.5-sonnet, Claude-3.5-haiku, Bllossom, Ko-Gemma-2)에 대한 성능 평가 결과, F1 점수는 평균 60.73%로, 성능이 아직 만족스러운 수준에 도달하지 못했음을 확인했다. 특히, 언어 모델들은 고차원적 맥락이나 은어를 포함한 혐오 표현 탐지에 어려움을 겪었다. 본 연구는 한국어로 된 최초의 맥락 의존적 혐오 표현 데이터 세트를 구축했으며, 생성형 언어 모델의 한계를 실증하고 향후 지침이 될 수 있는 분석 결과를 제시했다.

      더보기

      다국어 초록 (Multilingual Abstract)

      In this study, we focus on context-dependent hate speech, an area relatively unexplored in natural language processing, and construct a dataset to evaluate it while verifying the performance of generative language models. KOCOH (KOrean COntext-dependent Hate speech) was developed using data collected from Dcinside, a prominent online community in Korea, and consists of 2,005 context-comment pairs. These pairs were categorized into three types: hateful comments with real contexts, non-hateful comments with created contexts, and non-hateful comments with real contexts. Six generative language models (GPT-4o, GPT-4o-mini, Claude-3.5-sonnet, Claude-3.5-haiku, Bllossom, Ko-Gemma-2) achieved an average F1 score of 60.73%, revealing limited performance. The models struggled particularly with detecting hate speech requiring higher-level contextual understanding or slang. This study presents the first context-dependent hate speech dataset in Korean, demonstrates the limitations of existing generative models, and suggests analytical insights to guide future work.
      번역하기

      In this study, we focus on context-dependent hate speech, an area relatively unexplored in natural language processing, and construct a dataset to evaluate it while verifying the performance of generative language models. KOCOH (KOrean COntext-depende...

      In this study, we focus on context-dependent hate speech, an area relatively unexplored in natural language processing, and construct a dataset to evaluate it while verifying the performance of generative language models. KOCOH (KOrean COntext-dependent Hate speech) was developed using data collected from Dcinside, a prominent online community in Korea, and consists of 2,005 context-comment pairs. These pairs were categorized into three types: hateful comments with real contexts, non-hateful comments with created contexts, and non-hateful comments with real contexts. Six generative language models (GPT-4o, GPT-4o-mini, Claude-3.5-sonnet, Claude-3.5-haiku, Bllossom, Ko-Gemma-2) achieved an average F1 score of 60.73%, revealing limited performance. The models struggled particularly with detecting hate speech requiring higher-level contextual understanding or slang. This study presents the first context-dependent hate speech dataset in Korean, demonstrates the limitations of existing generative models, and suggests analytical insights to guide future work.

      더보기

      분석정보

      View

      상세정보조회

      0

      Usage

      원문다운로드

      0

      대출신청

      0

      복사신청

      0

      EDDS신청

      0

      동일 주제 내 활용도 TOP

      더보기

      주제

      연도별 연구동향

      연도별 활용동향

      연관논문

      연구자 네트워크맵

      공동연구자 (7)

      유사연구자 (20) 활용도상위20명

      이 자료와 함께 이용한 RISS 자료

      나만을 위한 추천자료

      해외이동버튼