RISS 학술연구정보서비스

검색
다국어 입력

http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.

변환된 중국어를 복사하여 사용하시면 됩니다.

예시)
  • 中文 을 입력하시려면 zhongwen을 입력하시고 space를누르시면됩니다.
  • 北京 을 입력하시려면 beijing을 입력하시고 space를 누르시면 됩니다.
닫기
    인기검색어 순위 펼치기

    RISS 인기검색어

      KCI등재

      GPT-4를 활용한 과학탐구역량 자동채점의 특성 분석 = Characteristics of GPT-4 automated scoring of scientific inquiry competency

      한글로보기

      https://www.riss.kr/link?id=A109128170

      • 0

        상세조회
      • 0

        다운로드
      서지정보 열기
      • 내보내기
      • 내책장담기
      • 공유하기
      • 오류접수

      부가정보

      국문 초록 (Abstract)

      이 연구는 GPT-4기반 자동채점시스템을 활용한 과학탐구역량 채점자료가 인간전문가의 채점자료와어떻게 다른지를 비교․분석한 것이다. 이를 위해 연구진이 개발한 GPT-4기반 자동채점시스템을 활용하여 초등학생 과학탐구활동보고서 322개를 평가하였으며, 산출된 채점자료의 내적 구조가 인간 채점자료의 내적 구조와 유사한지, 과학탐구역량에 대한 이론적 가정을 지지하는지를 검토하였다. 주요 연구결과는 다음과 같다. 첫째, GPT-4를 활용한 채점은 인간 채점과 비교하여 관대하였으며, 특히 난이도가 높은 채점항목에 대해서 더 관대한 경향을 보였다. 둘째, 채점의 일관성과 채점항목 간 내적일치도는 인간 채점보다 높은 경향을 보였다. 셋째, 다국면 채점자 모형 분석 결과, GPT-4 채점 자료를 인간 채점 자료와 통합하는 경우, 채점항목의 난이도에서 변동이 크게 나타났으며, 인간채점자의 내적적합도와 외적적합도를 상당히 손상시키는 것으로 나타나, GPT-4 채점 결과와 인간채점 결과의 비교가능성이 지지되지 않았다. 연구 결과를 바탕으로, GPT-4를 활용한 자동채점의 한계, 가능성과 과제를논의하였다.
      번역하기

      이 연구는 GPT-4기반 자동채점시스템을 활용한 과학탐구역량 채점자료가 인간전문가의 채점자료와어떻게 다른지를 비교․분석한 것이다. 이를 위해 연구진이 개발한 GPT-4기반 자동채점시스...

      이 연구는 GPT-4기반 자동채점시스템을 활용한 과학탐구역량 채점자료가 인간전문가의 채점자료와어떻게 다른지를 비교․분석한 것이다. 이를 위해 연구진이 개발한 GPT-4기반 자동채점시스템을 활용하여 초등학생 과학탐구활동보고서 322개를 평가하였으며, 산출된 채점자료의 내적 구조가 인간 채점자료의 내적 구조와 유사한지, 과학탐구역량에 대한 이론적 가정을 지지하는지를 검토하였다. 주요 연구결과는 다음과 같다. 첫째, GPT-4를 활용한 채점은 인간 채점과 비교하여 관대하였으며, 특히 난이도가 높은 채점항목에 대해서 더 관대한 경향을 보였다. 둘째, 채점의 일관성과 채점항목 간 내적일치도는 인간 채점보다 높은 경향을 보였다. 셋째, 다국면 채점자 모형 분석 결과, GPT-4 채점 자료를 인간 채점 자료와 통합하는 경우, 채점항목의 난이도에서 변동이 크게 나타났으며, 인간채점자의 내적적합도와 외적적합도를 상당히 손상시키는 것으로 나타나, GPT-4 채점 결과와 인간채점 결과의 비교가능성이 지지되지 않았다. 연구 결과를 바탕으로, GPT-4를 활용한 자동채점의 한계, 가능성과 과제를논의하였다.

      더보기

      다국어 초록 (Multilingual Abstract)

      This study aims to examine the effectiveness of GPT-4 in automated scoring system compared to human experts when assessing students’ scientific inquiry reports. A total of 322 elementary students’ science inquiry reports were evaluated using a GPT-4-based automated scoring system as well as by a group of human experts. The two sets of scoring data were compared to examine whether the internal structure of the GPT-scoring data resembled that of human scoring, and whether it aligned with theoretical expectations of scientific inquiry skills. The key findings are as follows: First, GPT-4’s scoring was generally more lenient, particularly with more challenging criteria. Second, GPT-4 demonstrated higher consistency in scoring and internal consistency among items than human scoring. Third, the many-faceted Rasch model showed significant discrepancies in item difficulty when integrating GPT-4 scoring data with human scoring data, adversely affecting the internal and external fit of human raters, which suggests that the comparability between GPT-4 and human scoring outcomes is limited. Based on these findings, the limitations, possibilities, and challenges of using GPT-4 for automated scoring are discussed
      번역하기

      This study aims to examine the effectiveness of GPT-4 in automated scoring system compared to human experts when assessing students’ scientific inquiry reports. A total of 322 elementary students’ science inquiry reports were e...

      This study aims to examine the effectiveness of GPT-4 in automated scoring system compared to human experts when assessing students’ scientific inquiry reports. A total of 322 elementary students’ science inquiry reports were evaluated using a GPT-4-based automated scoring system as well as by a group of human experts. The two sets of scoring data were compared to examine whether the internal structure of the GPT-scoring data resembled that of human scoring, and whether it aligned with theoretical expectations of scientific inquiry skills. The key findings are as follows: First, GPT-4’s scoring was generally more lenient, particularly with more challenging criteria. Second, GPT-4 demonstrated higher consistency in scoring and internal consistency among items than human scoring. Third, the many-faceted Rasch model showed significant discrepancies in item difficulty when integrating GPT-4 scoring data with human scoring data, adversely affecting the internal and external fit of human raters, which suggests that the comparability between GPT-4 and human scoring outcomes is limited. Based on these findings, the limitations, possibilities, and challenges of using GPT-4 for automated scoring are discussed

      더보기

      분석정보

      View

      상세정보조회

      0

      Usage

      원문다운로드

      0

      대출신청

      0

      복사신청

      0

      EDDS신청

      0

      동일 주제 내 활용도 TOP

      더보기

      주제

      연도별 연구동향

      연도별 활용동향

      연관논문

      연구자 네트워크맵

      공동연구자 (7)

      유사연구자 (20) 활용도상위20명

      이 자료와 함께 이용한 RISS 자료

      나만을 위한 추천자료

      해외이동버튼