RISS 학술연구정보서비스

검색
다국어 입력

http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.

변환된 중국어를 복사하여 사용하시면 됩니다.

예시)
  • 中文 을 입력하시려면 zhongwen을 입력하시고 space를누르시면됩니다.
  • 北京 을 입력하시려면 beijing을 입력하시고 space를 누르시면 됩니다.
닫기
    인기검색어 순위 펼치기

    RISS 인기검색어

      KCI등재

      GPT-4를 활용한 과학탐구역량 자동채점의 특성 분석 = Characteristics of GPT-4 automated scoring of scientific inquiry competency

      한글로보기

      https://www.riss.kr/link?id=A109128170

      • 0

        상세조회
      • 0

        다운로드
      서지정보 열기
      • 내보내기
      • 내책장담기
      • 공유하기
      • 오류접수

      부가정보

      다국어 초록 (Multilingual Abstract) kakao i 다국어 번역

      This study aims to examine the effectiveness of GPT-4 in automated scoring system compared to human experts when assessing students’ scientific inquiry reports. A total of 322 elementary students’ science inquiry reports were evaluated using a GPT-4-based automated scoring system as well as by a group of human experts. The two sets of scoring data were compared to examine whether the internal structure of the GPT-scoring data resembled that of human scoring, and whether it aligned with theoretical expectations of scientific inquiry skills. The key findings are as follows: First, GPT-4’s scoring was generally more lenient, particularly with more challenging criteria. Second, GPT-4 demonstrated higher consistency in scoring and internal consistency among items than human scoring. Third, the many-faceted Rasch model showed significant discrepancies in item difficulty when integrating GPT-4 scoring data with human scoring data, adversely affecting the internal and external fit of human raters, which suggests that the comparability between GPT-4 and human scoring outcomes is limited. Based on these findings, the limitations, possibilities, and challenges of using GPT-4 for automated scoring are discussed
      번역하기

      This study aims to examine the effectiveness of GPT-4 in automated scoring system compared to human experts when assessing students’ scientific inquiry reports. A total of 322 elementary students’ science inquiry reports were evaluated using a GPT...

      This study aims to examine the effectiveness of GPT-4 in automated scoring system compared to human experts when assessing students’ scientific inquiry reports. A total of 322 elementary students’ science inquiry reports were evaluated using a GPT-4-based automated scoring system as well as by a group of human experts. The two sets of scoring data were compared to examine whether the internal structure of the GPT-scoring data resembled that of human scoring, and whether it aligned with theoretical expectations of scientific inquiry skills. The key findings are as follows: First, GPT-4’s scoring was generally more lenient, particularly with more challenging criteria. Second, GPT-4 demonstrated higher consistency in scoring and internal consistency among items than human scoring. Third, the many-faceted Rasch model showed significant discrepancies in item difficulty when integrating GPT-4 scoring data with human scoring data, adversely affecting the internal and external fit of human raters, which suggests that the comparability between GPT-4 and human scoring outcomes is limited. Based on these findings, the limitations, possibilities, and challenges of using GPT-4 for automated scoring are discussed

      더보기

      참고문헌 (Reference)

      1 이용상 ; 신동광 ; 김현정, "한국어 쓰기 평가를 위한 자동채점의 가능성 탐색" 86 : 171-191, 2022

      2 노은희, "한국어 서답형 문항 자동채점 프로그램 개발 및 실용성 검증" 한국교육과정평가원 2014

      3 이용상 ; 최윤석 ; 이승현, "한국어 논서술답안 자동채점 프로그램 PASTA-Ⅰ 개발" 36 (36): 711-730, 2023

      4 하민수 ; 이경건 ; 신세인 ; 이준기 ; 최성철 ; 주재걸 ; 김남형 ; 이현주 ; 이종호 ; 이주림 ; 조용장 ; 강경필 ; 박지선, "학습지원 도구로서의 서술형 평가 그리고 인공지능의 활용 : WA3I 프로젝트 사례" 13 (13): 271-282, 2019

      5 김덕영 ; 박종원, "학생의 열린 과학 탐구 보고서 작성을 돕기 위한 점검표 개발" 36 (36): 1075-1083, 2015

      6 함은혜 ; 유예림, "텍스트 마이닝 기법을 활용한 대학생 세계이해 논술형 평가 답안의 수행 수준별 특성 분석" 35 (35): 687-717, 2022

      7 박찬솔 ; 손정우, "탐구적 과학 글쓰기를 통한 데이터 기반 과학 탐구학습이 초등학생의 과학과핵심역량에 미치는 영향" 59 (59): 245-258, 2020

      8 Hyunjung Kim ; 김성기, "탐구보고서에 기반한 화학교사의 과학 역량 평가 실태 분석" 65 (65): 209-218, 2021

      9 함은혜 ; 이유경 ; 박소영 ; 박혜진 ; 이성혜, "초등학생 과학 탐구과제 수행 특성 분석 및 채점기준개발" 42 (42): 239-252, 2022

      10 이만형 ; 유선아, "전문가의 형태소 분류를 활용한 과학 자동 채점" 40 (40): 321-336, 2020

      1 이용상 ; 신동광 ; 김현정, "한국어 쓰기 평가를 위한 자동채점의 가능성 탐색" 86 : 171-191, 2022

      2 노은희, "한국어 서답형 문항 자동채점 프로그램 개발 및 실용성 검증" 한국교육과정평가원 2014

      3 이용상 ; 최윤석 ; 이승현, "한국어 논서술답안 자동채점 프로그램 PASTA-Ⅰ 개발" 36 (36): 711-730, 2023

      4 하민수 ; 이경건 ; 신세인 ; 이준기 ; 최성철 ; 주재걸 ; 김남형 ; 이현주 ; 이종호 ; 이주림 ; 조용장 ; 강경필 ; 박지선, "학습지원 도구로서의 서술형 평가 그리고 인공지능의 활용 : WA3I 프로젝트 사례" 13 (13): 271-282, 2019

      5 김덕영 ; 박종원, "학생의 열린 과학 탐구 보고서 작성을 돕기 위한 점검표 개발" 36 (36): 1075-1083, 2015

      6 함은혜 ; 유예림, "텍스트 마이닝 기법을 활용한 대학생 세계이해 논술형 평가 답안의 수행 수준별 특성 분석" 35 (35): 687-717, 2022

      7 박찬솔 ; 손정우, "탐구적 과학 글쓰기를 통한 데이터 기반 과학 탐구학습이 초등학생의 과학과핵심역량에 미치는 영향" 59 (59): 245-258, 2020

      8 Hyunjung Kim ; 김성기, "탐구보고서에 기반한 화학교사의 과학 역량 평가 실태 분석" 65 (65): 209-218, 2021

      9 함은혜 ; 이유경 ; 박소영 ; 박혜진 ; 이성혜, "초등학생 과학 탐구과제 수행 특성 분석 및 채점기준개발" 42 (42): 239-252, 2022

      10 이만형 ; 유선아, "전문가의 형태소 분류를 활용한 과학 자동 채점" 40 (40): 321-336, 2020

      11 백순근, "수행평가의 원리" 교육과학사 2000

      12 박혜영, "수업-평가 연계 강화를 통한 서․논술형 평가내실화 방안" 한국교육과정평가원 2019

      13 진경애, "서답형 문항 자동채점 프로그램 도입 방안 연구(I)" 한국교육과정평가원 2006

      14 박혜영, "미래사회 대비 교육과정, 교수학습, 교육평가 비전 연구(Ⅲ): 초중등학교의 교육평가 방향을 중심으로" 한국교육과정평가원 2018

      15 한진영 ; 이민정, "문제중심학습과 챗 GPT : 프롬프트와 문제해결력에 대한 탐색" 26 : 111-145, 2024

      16 관계부처 합동, "디지털 인재양성 종합방안" 2022

      17 교육부, "디지털 기반 교육혁신 방안" 2023

      18 노은희, "대규모 평가를 위한 서답형 문항 자동채점 방안 연구" 한국교육과정평가원 2012

      19 백유진, "논술문 채점에 나타난 국어 교사의 채점 편향의 특성 분석 : 텍스트 특징에 따른 채점편향 분석을 중심으로" 76 : 67-101, 2020

      20 지은림, "논술고사의 신뢰성에 영향을 미치는 채점자 특성 분석" 21 (21): 97-113, 2008

      21 이만형 ; 유선아, "기계 학습을 활용한 논증 수준 자동 채점 및 논증 패턴 분석" 41 (41): 203-220, 2021

      22 Guo. W., "The effects of rating designs on rater classification accuracy and rater measurement precision in large-scale mixed-format assessments" 47 (47): 91-105, 2023

      23 Raykov, T., "Thanks coefficient alpha, we still need you!" 79 (79): 200-210, 2019

      24 Robitzsch, A, "TAM: Test Analysis Modules [R package]"

      25 Sijtsma, K., "On the use, the misuse, and the very limited usefulness of cronbach’s alpha" 74 (74): 107-120, 2009

      26 Linacre, J. M., "Facets computer program for many-facet Rasch measurement, version 3.81.2"

      27 Li, Z., "Effects of different prompts on the quality of GPT-4 responses to dementia care questions"

      28 박소영 ; 이병윤 ; 홍유정, "ChatGPT를 활용한 AI 글쓰기 의사소통 역량 평가 도구 개발에 대한 연구 : 기술전문가와의 상호소통을 중심으로" 16 (16): 1-11, 2024

      29 박소영 ; 이병윤 ; 함은혜 ; 이유경 ; 이성혜, "ChatGPT-4의 과학적 탐구 역량 평가 가능성 탐색 : 인간평가자와의 비교를 중심으로" 61 (61): 299-332, 2023

      30 Andrich, D., "A course in Rasch measurement theory: measuring in the educational, social, and health sciences" Springer 2019

      31 교육부, "2024년 주요정책 추진 계획" 2024

      32 민병곤, "2023년 국민의 글쓰기 능력 진단 체계 개발" 국립국어원 2023

      33 교육부, "2022 개정 초․중등학교 및 특수교육 교육과정 확정․발표"

      34 교육부, "2015 개정 교육과정"

      더보기

      분석정보

      View

      상세정보조회

      0

      Usage

      원문다운로드

      0

      대출신청

      0

      복사신청

      0

      EDDS신청

      0

      동일 주제 내 활용도 TOP

      더보기

      주제

      연도별 연구동향

      연도별 활용동향

      연관논문

      연구자 네트워크맵

      공동연구자 (7)

      유사연구자 (20) 활용도상위20명

      이 자료와 함께 이용한 RISS 자료

      나만을 위한 추천자료

      해외이동버튼