RISS 학술연구정보서비스

검색
다국어 입력

http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.

변환된 중국어를 복사하여 사용하시면 됩니다.

예시)
  • 中文 을 입력하시려면 zhongwen을 입력하시고 space를누르시면됩니다.
  • 北京 을 입력하시려면 beijing을 입력하시고 space를 누르시면 됩니다.
닫기
    인기검색어 순위 펼치기

    RISS 인기검색어

      검색결과 좁혀 보기

      선택해제
      • 좁혀본 항목 보기순서

        • 원문유무
        • 음성지원유무
        • 원문제공처
          펼치기
        • 등재정보
        • 학술지명
          펼치기
        • 주제분류
        • 발행연도
          펼치기
        • 작성언어

      오늘 본 자료

      • 오늘 본 자료가 없습니다.
      더보기
      • 무료
      • 기관 내 무료
      • 유료
      • KCI등재

        대규모 평가 서답형 문항 채점을 위한 문장 수준 자동채점 프로그램의 정확성 분석

        송미영,노은희,성경희 한국교육과정평가원 2016 교육과정평가연구 Vol.19 No.1

        본 연구는 문장 수준의 답안 작성을 요구하는 서답형 문항의 답안을 자동채점 프로그램으로 정확히 채점할 수 있는지 점검하고자 한다. 2014년 국가수준 학업성취도 평가의 국어․사회․과학 교과 서답형 6문항을 대상으로 문장 수준 자동채점 프로그램을 시범 적용하고, 교과전문가가 부여한 점수와 비교하여 채점 결과의 정확성을 분석함으로써 자동채점의 인간채점 대체 가능성을 검증하였다. 자동채점 결과의 정확성에 대한 통계량 모두 자동채점 과정에 채점자가 개입하는 경우가 개입하지 않는 경우보다 더 높은 수치를 보였는데, 인간채점 점수와 자동채점 점수간 완전일치도는 96~99%, 카파계수는 0.76~0.99, 상관계수는 0.82~0.99, 정확률은 90~99%로서 전반적으로 문장 수준 자동채점 프로그램의 정확성은 매우 높았다. 한편, 기존 프로토타입을 보강한 채점 프로그램의 정확성 변화를 살펴보면, 채점자가 미개입하는 경우 인간채점과의 완전일치도, 카파계수, 상관계수, 정확률 평균은 기존 프로토타입 대비 각각 87%에서 96%로, 0.73에서 0.86로, 0.86에서 0.89로, 74%에서 83%로 높아졌다. 또한 자동채점과 인간채점 점수 간의 불일치 답안을 중심으로 교과별ㆍ문항별 채점 결과를 질적 분석한 결과, 학생 답안 유형 수, 채점기준의 조건과 점수 범주 등의 문항 특성에 따라 정확성이 다르게 나타남을 확인하였다. 이러한 분석결과를 바탕으로 문장 수준 자동채점 프로그램을 적용한 대규모 평가 서답형 문항의 채점 설계를 제안하였다. In order to effectively manage the scoring of constructed-response (CR) items for Korean large-scale assessments, this study aims to implement the automatic scoring (AS) system for sentence-level responses based on the prototype designed in 2014 and to score CR items for the National Assessment of Educational Achievement (NAEA) 2014 using the AS system. We scored answers to six CR items of Korean language, social studies, and science in the NAEA 2014 using the AS system for sentence-level responses. The scores from the AS system were highly consistent with the scores by human scoring showing 96.1 to 99.7% of the exact agreement and 0.82 to 0.99 of correlation coefficients between the scores from two scoring methods. The exact agreements for the AS system this year were higher than those for the prototype. This result means that the performance of the AS system has been improved. The AS program for Korean CR items is designed a human-machine collaborative and stepwise scoring method to guarantee the accuracy of scoring. This study provides evidence that automated scoring might be a reliable and efficient and could serve as a useful complement to human scoring for a large-scale assessment.

      • KCI등재

        국가수준 학업성취도 평가 서답형 문항에 대한 자동채점의 실용성 분석

        이상하,노은희,성경희 한국교육과정평가원 2015 교육과정평가연구 Vol.18 No.1

        서답형 문항은 선택형 문항에 비하여 고차원적인 사고를 측정하기 용이하다는 교육적인 장점이 있음에도 불구하고, 채점에 소요되는 시간과 비용으로 인해 대규모 지필평가에서는 선택형 문항의 비중이 오히려 높은 편이다. 대규모 교육평가의 제한된 예산 범위 내에서 서답형 문항의 다양성과 비중을 확대하기 위해서는 컴퓨터 기반 평가와 자동채점을 적극적으로 도입할 필요가 있다. 이 연구의 목적은 단어 · 구 수준의 한국어 서답형 답안을 처리할 수 있는 자동채점 프로그램을 활용하여 지필평가의 서답형 문항을 채점하는 방법의 실용성을 분석하는 것이다. 이를 위하여 2014년 국가수준 학업성취도 평가의 사회 교과에 응시한 중학교 3학년 표집학생 7,442명의 서답형 답안을 합숙채점과 자동채점의 두 가지 방법으로 채점하였다. 서답형 문항에 대한 자동채점의 실용성 평가는 채점 비용의 효율성과 채점 결과의 정확성 측면에서 기존의 합숙채점과 비교하는 방법으로 이루어졌다. 자동채점은 합숙채점에 비하여 채점 비용의 60% 이상을 절감할 수 있고, 자동채점에 최적화된 채점 방식을 사용할 경우 채점 비용의 80% 이상을 절감할 수 있는 것으로 분석되었다. 또한, 합숙채점 최종점수와 자동채점 점수 간의 상관계수는 0.97~1, 완전일치도는 97.76%~99.99%, 근사일치도는 98.15%~100%, 카파계수는 0.94~1, 일차가중카파계수와 이차가중카파계수는 0.96~1인 것으로 나타났다. 이와 같은 상관계수와 일치도 수준은 자동채점과 채점 전문가의 점수가 매우 유사하다는 것을 의미한다. 결론적으로, 이 연구는 채점 비용의 효율성과 채점 결과의 정확성 측면에서 지필평가의 서답형 답안에 대한 자동채점의 실용성을 확인하였다. 또한, 단어 · 구 수준 한국어 자동채점 프로그램이 인간 채점자의 일부 또는 전부를 대체하거나 인간 채점자의 채점 오류를 관리할 수 있는 수준까지 도달했다는 것을 확인하였다. This study aims to evaluate the costs and accuracy of automated scoring for short-answer questions of National Assessment of Educational Achievement (NAEA). To contrast automated and human scoring, both scoring methods were used to grade 14 short-answer questions of the NAEA Social Studies subtest that was taken by 7,442 ninth-grade students in 2014. We analyzed the effects of automated scoring on the costs and accuracy of scoring short-answer questions. We found that more than 60% of the human scoring costs can be saved by only using the automated scoring program. In addition, more than 80% of the human scoring costs can be saved if the current scoring method of NAEA becomes optimized for automated scoring. Correlation coefficients between human and machine scores for 14 questions ranged from 0.97 to 1, exact agreement ranged from 97.76% to 99.9%, and kappa coefficients ranged from 0.94 to 1. Exact and adjacent agreement for 5 questions ranged from 98.15% to 100%, and linear kappa coefficients and quadratic kappa coefficients ranged from 0.96 to 1. Moreover, results showed that correlations and agreement rates between human and machine scores are as high as the ones between human scores. We concluded that automated scoring can reduce the costs of scoring short-answer NAEA questions without sacrificing the accuracy of scoring. It is suggested that the automated scoring system can be used to replace one or two human raters when scoring the short answer NAEA questions, to monitor human scoring, or to train human raters.

      • KCI등재

        한국어 서답형 문항 자동채점 결과 비교 분석 : 국가수준 학업성취도 평가 국어, 사회, 과학 문항을 중심으로

        노은희,성경희 한국교육과정평가원 2014 교육과정평가연구 Vol.17 No.2

        본 연구는 2013년 개발된 한국어 서답형 문항 자동채점 프로그램을 활용하여 2012년 학업성취도 평가의 초 · 중 · 고 국어, 초 · 중 사회/과학의 총 38문항 각 3,010개 답안을 대상으로 교과 간 문항 및 답안 유형의 차이, 교과 간 자동채점 결과의 차이를 분석하였다. 우선, 2009~2012년 학업성취도 평가 서답형 답안의 유형별 비율은 단어 · 구 답안이 74.7%로 가장 높았고, 문장 답안이 12%, 다문장 답안이 10.9%, 기타 답안이 2.4%를 차지하였다. 교과별로 살펴보면, 단어 · 구 답안(P1~P3)의 경우 사회 교과가 86.5%로 가장 높았으며, 문장 답안(P4~P6)은 국어 교과가 17.0%로 가장 높았다. 기타 답안(그래프, 선긋기 등)의 경우 과학 교과가 6.6%로 상대적으로 비율이 높았으며, 국어, 사회 교과에서는 거의 출제되지 않았다. 즉, 국어 교과에서는 술어형 단어나 구, 문장 형태의 답안을, 사회 교과에서는 내용함축적 개념어 형태의 답안을 요구하는 문항이 자주 출제되었다. 다음으로 자동채점 결과, 단어 · 구 수준 서답형 문항의 Kappa계수는 최소 .95 이상으로 채점 신뢰도가 매우 높게 나타났으나, 답안의 길이가 증가하고 복잡해질수록 인간채점과 자동채점 간 일치도가 떨어지는 것으로 나타났다. 채점 비율 측면에서는 국어 문항이 평균 99.73%로 가장 높았으나, 채점 신뢰도 측면에서는 사회 문항이 가장 높은 신뢰도(Kappa계수 평균 1.00)를 보여주었다. 요컨대 국어, 사회, 과학의 교과별 사용 용어 및 용례, 문항 출제 형식은 서로 다른 특징을 보이며, 이는 채점 결과에도 영향을 미쳤다. 이를 볼 때, 교과별로 지식베이스를 구축하고 이와 연계되어 차별화된 자연언어처리 및 개념 분석 기술이 정교화된다면, 현재의 단어 · 구 수준 자동채점 프로그램의 채점 정확성 및 효율성을 상당한 정도로 높일 수 있을 것으로 기대된다. The purpose of this study is to analyze the differences of scoring results and answer types among subjects in the 2012 NAEA(National Assessments of Educational Achievement) using the KASS(Korean Automatic Scoring System) developed in 2013. The subjects are Korean(17 items), Social Studies(13 items), Science(8 items) and the numbers of answer are 3,010 of each subject. First, in supply-type items of 2009~2012 NAEA, the rates of answer types are composed of short-answer 74.7%, a sentence 12%, multi-sentence 10.9%, and the others 2.4%. Considering each subject, the social studies showed the highest rate(86.5%) in case of short-answer(P1~P3) while the Korean revealed the highest rate(17%) in case of sentence-level answers(P4~P6) compared to the other subjects. That is to say, questions asking predicate words, phrase and sentence-level answers have mostly been on the Korean test. However, questions asking content-focused concept words have been on the social studies test. Second, the result of scoring indicate that Kappa coefficients of short-answer items were high above .95, but the longer and more complicated length of answers was, the less correlation coefficient between human scorer and KASS was. Moreover, the Korean showed the highest rate(99.73% on average) in terms of scoring rates, but the social studies showed the highest value(Kappa coefficient 1.00 on average) in terms of scoring reliability. To sum up, terminology and its usage as well as questions forms of each subject have different features, which finally affects the scoring results. Therefore, if knowledge-based system according to each subject was constructed and differentiated natural language processing technology was sophisticated, accuracy and efficiency of the automatic scoring program could considerably improve.

      • KCI등재

        기초학력 진단평가 서답형 문항의 자동채점 가능성 탐색

        김명화,노은희,심재호 한국교육과정평가원 2013 교육과정평가연구 Vol.16 No.1

        본 연구의 목적은 초등학교 3학년 기초학습 진단평가의 서답형 문항을 대상으로, 2012년에 한국교육과정평가원에서 개발한 한국어 단어 · 구 수준 서답형 자동채점 프로그램을 적용하여 자동채점 가능성을 탐색하려는 것이다. 이를 위해 읽기, 쓰기 서답형 문항 중 11문항을 선정하고 각 506∼929명의 답안 자료를 대상으로 자동채점 프로그램을 적용하여 자동채점 단계별 정답 수, 오답 수, 미채점 수, 채점 비율을 계산하였다. 이와 함께 각 문항별로 Kappa계수와 상관계수를 계산하여 제시하였다. 한국어 서답형 자동채점 프로그램을 활용하여 채점한 결과 초3 기초학습 진단평가의 단어 · 구 수준의 단답형 문항은 대부분 자동채점이 가능한 것으로 나타났다. 즉, 초3 기초학습 진단평가의 단어 · 구 수준의 한국어 서답형 문항에 대한 자동채점 프로그램의 채점 비율과 채점자와의 일치도는 적정한 수준이었고, 일부 채점 오류가 있었으나 그 비율은 적은 편이었다. 채점 오류 중 가장 많은 것은 철자 오류이고, 나머지는 유사어를 인지하지 못하거나 다른 기호나 용어가 포함되어 있는 경우가 대부분이었다. 초3 기초학습 진단평가에 자동채점 프로그램을 적용할 경우, 담임교사들이 직접 채점하므로 맞춤형 교수학습이 가능하도록 학생별 정 · 오답 처리 결과를 피드백할 수 있는 기능을 추가하고, 교사들이 자동채점 프로그램을 쉽게 활용할 수 있도록 편의성이 높은 인터페이스를 추가로 개발할 것을 제안하였다. The purpose of this study is to explore possibility of automatic scoring supply‐type items of the Grade 3 National Diagnostic Assessment of Basic Competency (NDABC) to reduce scoring burden, to improve scoring efficacy and scoring reliability. This study presented scoring rates, scoring errors, and Kappa(correlation) coefficients of scores between human scoring and automatic scoring in order to ensure scoring reliability. We also analyzed the sources of scoring errors, where the automatic scoring program fails. We used automatic scoring program developed by the Korea Institute for Curriculum and Evaluation (KICE). The results showed that the scoring rate was very high(91.5∼100%), and that the Kappa coefficients depend on items. The numbers of scoring error were 1∼42. The sources of scoring errors were caused by spelling errors, the non-recognition of analogous terms and symbols. This study presented two suggestions as following. First an automatic scoring program for NDABC should be supplemented to give feedback and information about wrong answer to teachers and students. Second the program should focus on providing convenient interface for teachers.

      • KCI등재

        국가수준 학업성취도 평가 국어 서답형 문항의 자동채점 결과 분석

        노은희 ( Eun Hee Noh ) 국어교육학회 2014 國語敎育學硏究 Vol.49 No.2

        이 연구는 2013년 개발된 한국어 서답형 문항 자동채점 프로그램 KASS(Korean Automatic Scoring System)을 활용하여 2012년 학업성취도 평가의 초.중.고 국어 총 17문항 각 3,010개 답안을 대상으로 자동채점 결과를 분석하여 향후 국어 서답형 문항의 자동채점 가능성을 탐색하였다. 자동채점 결과, P1~P3에 해당하는 단어ㆍ구 수준 서답형 문항의 Kappa계수는 최소 0.97 이상이며 절반 이상의 문항이 1.00으로 채점 신뢰도가 매우 높게 나타났다. 또한 인간채점과 채점 불일치율도 0~0.5% 사이로 매우 낮게 나타났다. 다만, 요구하는 답안이 길고 복잡해질수록 인간채점과 자동채점 결과의 일치도가 떨어지고 불일치율이 증가한다는 점은 확인할 수 있다. 한국어 처리 기술 및 지식베이스의 여건이 충분하지 않은 상황에서, 자동채점이 용이한 단답형 문항부터 자동채점 시스템을 구축하는 본 연구는 출발점으로서의 의미가 크다. 현재 대규모 평가의 서답형 문항에서 다수를 차지하고 있는 단답형 문항을 우선 처리할 수 있을 뿐 아니라, 이를 바탕으로 좀 더 장기적으로 내용 기반의 서답형 문항에 대한 자동채점 연구도 지속적으로 발전시킬 수 있는 기반을 마련할 수 있기 때문이다. The purpose of this study is to improve the automatic scoring program of Korean supply-type items and to increase application of the program for effectiveness of scoring and reliable scoring. For the trial application of the automatic scoring program, I scored 17 supply-type Korean items of the 2012 NAEA(National Assessments of Educational Achievement). The numbers of answer were 3,010 of each Korean item. The results of the 2012 NAEA items demonstrated that the scoring rate was quite high, 97~100%, and Kappa coefficients were high (at over .97). The rate of scoring errors was 0~0.5%. The error rate of most items was very small (under 1%). The sources of scoring errors were either spelling errors or the non-recognition of analogous terms, and symbols. The ability to use automatic scoring program in operational scoring environments, such as the NAEA, reduces the time and cost associated with having multiple human scorers score answers of supply-type items. Therefore, an automatic scoring would appear to be a favorable solution with respect of both the introduction of more supply-type items on high-stakes standardized tests and on the lower stakes classroom-instruction environment.

      • KCI등재

        한국어 문장 수준 서답형 문항 자동채점 적용 가능성 탐색

        노은희(Noh Eun hee),성경희(Sung Kyung hee),임은영(Lim Eun Young) 한국교육평가학회 2015 교육평가연구 Vol.28 No.2

        본 연구의 목적은 한국어 문장 수준 서답형 문항 자동채점 프로그램의 성능을 검증하여 대규모 평가에서의 적용 가능성을 탐색하기 위한 것이다. 2013년 학업성취도 평가 국어 9문항, 사회 2문항의 각 1000개 답안을 대상으로 시범 적용한 결과, 채점 정확성과 효율성을 중시하는 고부담 대규모 평가에 적정한 것으로 나타났다. 먼저, 채점 처리 과정의 간결성(simplicity) 측면에서, 1차로 답안을 군집화한 결과 답안 유형 수가 3.1%~37.5%로 감소한다. 이를 바탕으로 고빈도 답안을 채점하면 평균 55.9%의 답안이 채점되어 군집화가 답안 유형 수를 줄이고 동시에 기계학습에 필요한 충분한 수의 답안을 확보하게 함으로써 자동채점의 효율성에 기여한다. 다음으로 채점 결과의 정확성(accuracy) 분석을 위해, 기준점수와 자동채점 점수 간 상관관계와 일치도를 살펴본 결과 적정하게 우수한 것으로 나타났다. 두 점수 간의 평균제곱근편차는 0~0.55, 표준화된 평균제곱근편차는 0~0.2로나타나 자동채점 점수가 기준점수와 크게 다르지 않았다. 또한 두 점수 간 완전일치도는 91.5~100%, 카파계수는 0.8~1.00, 상관계수는 0.82~1.00으로 나타나, 대체로 모든 문항에 대한 계수가 0.8 이상으로 높은 수준의 일치도를 보여주었다. The purpose of this research is to explore the possibility of using an automatic scoring system for sentence-level responses in large scale to enhance the efficiency of scoring constructed response items for large scale assessment. In order to enhance the simplicity of the scoring process, the answers were grouped based on similarity of meaning, and the grouped answers were scored with the automatic scoring program. These scored answers were used for machine-learning, to update the similarity in meaning for the next grouping of answers. This process is intended to decrease the number of grouped answers and to accumulate scoring results. Upon implementing the program using 11 social studies constructed response items in the Korean language from the NAEA 2013, the types of answers for each question diminished by 3.1%-37% for the initial grouping stage, and an average of 55.9% of the answers were scored at the first stage of grouping. Grouping answers by similarity in meaning enhanced simplicity of scoring while also contributing to improved accuracy. Next, in order to examine the program 's scoring accuracy, we calculated the exact agreement, correlation coefficients, and kappa coefficients between the criterion scores and the scores from the automatic scoring program for the sentence level, and it was revealed that the exact agreement between the two scores was 91.5-100%, the correlation coefficient was 0.82-1.00 and the Kappa coefficient was 0.8-1.00, which is fairly remarkable.

      • KCI등재

        채점 자질 설계를 통한 지도 학습 기반 작문 자동 채점의 타당도 확보 방안 탐색

        김승주 청람어문교육학회 2019 청람어문교육 Vol.0 No.69

        The purpose of the study is to focusing on the feature engineering stage which is a part of the procedure for Automated Writing Scoring(AWS) and searching for the feature engineering method to secure the validity of AWS. For this purpose, the present status of the AWS and the whole process of designing the scoring model is examined to discuss the role of scoring features in the AWS. Next, validity problems of AWS which are derived from the inadequate feature engineering is discussed and the feature engineering in AWS is reconceptualized. Finally, the method of feature engineering is explored and presented in three dimensions, which are 1) feature engineering based on Evidence-Centered-Design(ECD) 2) feature engineering using writing theory 3) feature engineering using computational linguistics’ textual feature. 본 연구의 목적은 자동 채점을 위한 단계적 절차의 일부인 자질 설계 단계에 주목하여 자동 채점의 타당성을 확보하기 위한 자질 설계 방안을 탐색하는 것이다. 이에 먼저 작문 자동 채점 시스템의 현황과 자동 채점 모델 설계의 전 과정 속에서 채점 자질의 역할을 살펴보았으며, 다음으로는 채점 자질 설계의 문제로부터 기인한 작문 자동 채점의 타당성 논의로부터 작문 자동 채점에서의 채점 자질 설계를 재개념화하였다. 또한 마지막으로 채점 자질 설계 방안을 1)증거 중심 설계에 기반한 자질 설계, 2)작문 이론을 활용한 자질 설계, 3)전산 언어학의 텍스트 자질을 활용한 자질 설계 등의 세 가지 차원으로 제시하였다. 이러한 논의는 작문 자동 채점과 관련한 기초적인 연구를 촉진하고 관련 담론을 형성하는 데에 기여할 수 있다는 점에서 의의가 있다.

      • KCI등재

        독립적 쓰기과제 에세이 자동채점 점수의 신뢰도 및 타당도: 일반형, 혼합형, 및 과제별 채점모델을 중심으로

        이용원(Lee YongWon) 한국외국어대학교 영미연구소 2016 영미연구 Vol.36 No.-

        The current study aims to examine the reliability and validity of automated essay scores from substantively different types of scoring models for e-rater?? in the context of scoring TOEFL independent writing tasks. Six different variants of generic and hybrid models were created based on transformed writing data from three different samples of TOEFL?? CBT prompts. These generic models (along with prompt-specific models) were used to score a total of 61,089 essays written for seven TOEFL?? CBT prompts. The results of data analysis showed that (a) similar levels of score agreement were achieved between automated and human scorer pairs and two human rater pairs, although the automated scoring increased rating consistency across scorers (or scoring models) significantly, and (b) the human rater scores turned out to be somewhat better indicators of test-takers’ overall ESL language proficiency than the automated scores, particularly when TOEFL CBT section scores were used as validity criteria. The implications of the findings are discussed in relation to the future use of automated essay scoring in the context of scoring ESL/EFL learners’ essays. 본 연구는, 토플시험의 독립적 쓰기 과제(independent writing task)의 채점을 염두에 두고 영작문 자동채점시스템인 이레이터(e-rater??)를 사용해 일반형(generic), 혼합형(hybrid), 과제별(prompt-specific) 모형을 포함한 여러 자동화 채점모델을 만들어 보고, 이러한 채점모델들을 적용해 산출된 영어 쓰기 점수의 점수신뢰도와 타당도를 검증해 보는 데 그 목적이 있다. 이를 위해 컴퓨터기반 토플시험(TOEFL CBT) 쓰기과 제 은행에서 총 3개의 서로 다른 과제표본을 추출하고 아울러 이 쓰기과제들을 위해 쓰여진 토플 에세이의 변환점수를 사용해서 총 6 개의 일반형 및 혼합형 이레이터 자동채점모델들을 만들었다. 이런 과정을 통해 만들어진 총 6개의 일반형 및 혼합형 채점모형과 과제당 1개씩 별도로 만들어진 채점모델을 총 7개의 토플 쓰기과제들을 위해 작성된 61, 089개의 토플 에세이들을 채점하는 데 사용하였다. 데이터 분석 결과, (a) 비록 에세이 자동채점은 채점자(채점모델) 간 점수 일관성을 증대시키는 효과가 나타났지만 실제 자동채점기 대 인간 채점자 간 점수 일치도와 두 인간채점자 간 점수 일치도는 유사한 수준을 보였고, (b) 인간채점자 점수가 자동채점 점수보다는 수험자의 전반적인 영어숙달도의 좀 더 나은 지표로서 사용될 수 있음이 밝혀졌다. 아울러 본 논문에서는 앞으로 자동채점 기술이 영어를 제2언어 혹은 외국어로 배우는 학습자의 영어 에세이를 채점하는 데 사용될 때 본 연구의 분석결과가 어떤 함의를 가지게 되는지도 논의된다.

      • KCI등재

        교실 단위 작문 평가에서 활용 가능한 작문 자동 채점 프로그램의 설계 방안에 대한 연구 - 인지공학적 설계 접근과 채점자의 인지 부하 요인을 고려하여 -

        김승주 ( Kim¸ Seung Ju ) 청람어문교육학회 2021 청람어문교육 Vol.- No.83

        그간 국외에서 개발된 글 단위 작문 자동 채점 프로그램은 교실 단위 작문 평가 상황에서 활용이 제한적이라 알려져 있다. 그 이유는 기본적으로 기존 작문 자동 채점 프로그램의 설계 방식에 기인한다. 이에 본 연구에서는 이를 개선하기 위한 대안으로서 인지공학적 설계 방식에 따라 작문 자동 채점 프로그램을 개발할 것을 제안하고자 하였다. 이에 인지공학적 설계 접근에 따라 채점자의 인지 과정, 그리고 채점 과정에서 채점자인지 부하와 관련한 선행 연구를 살펴본 결과 (1)텍스트 이해 과정, (2)텍스트 평가 과정, (3)평가 결과 정교화 과정 등의 채점 세부 과정별 인지 부하 요소를 탐색하였으며, 이를 바탕으로 채점자의 인지 부하를 경감하기 위해 필요한 프로그램의 주요 기능으로서 (1)주요 내용 요소에 대한 텍스트 자동 분석 및 표시 기능, (2)주요 표현 요소에 대한 텍스트 자동 분석 및 표시 기능, (3)관련 채점 기준 노출 기능, (4)채점 근거 저장 기능, (5)비슷한 수준의 글 검색 기능 등을 제안하였다. 또한 구체적으로 채점 프로그램의 UI/UX 설계 사례를 제안하였다. It is known that the Automated Writing Evaluation(AWE) system developed overseas has limited use in the classroom-based writing assessment situation. The reason is primarily due to the design method of the existing AWE systems. Therefore, in this study, as an alternative to improve this, it was proposed to develop an AWE system according to a cognitive engineering design method. Accordingly, according to the cognitive engineering design approach, the cognitive load factors for each detailed scoring process were extracted by exploring the prior studies on the scorer's cognitive process and the scorer's cognitive load during the scoring process. Also, based on this, the main functions of the program necessary to reduce the cognitive load of the scorer are (1) automatic text analysis and display function for main content elements, (2) automatic text analysis and display function for main expression elements, (3) ) related grading standards exposure function, (4) scoring basis storage function, and (5) similar level text search function were proposed. Finally, a specific design example of the scoring program was proposed.

      • KCI등재

        서답형 평가문항 자동채점 프로그램 활용 가능성 탐색

        박정(Chung Park) 한국교육평가학회 2009 교육평가연구 Vol.22 No.3

        선택형 평가문항이 학생의 사고능력을 제한한다는 비판과 함께 시작된 대규모 평가 상황에서의 서답형 평가문항의 사용은 측정학적인 문제 외에도 현실적인 문제점들을 발생시킨다.이러한 문제점을 해결하기 위하여 자동채점 프로그램들이 개발되고 있다.본 연구는 우리나라에서 서답형 평가문항 자동채점 프로그램의 활용가능성을 탐색하기 위하여 현재 개발되고 있는 자동채점 프로그램 채점 결과와 인간채점자들의 채점결과를 비교분석하였다.연구결과,자동채점프로그램의 채점결과와 인간채점자들의 채점결과의 상관정도가 어느 정도 높았으며,일반화 가능도 이론의 적용 결과,채점결과에 채점자 효과는 크지 않은 것으로 나타났다.뿐만 아니라 다국면 라쉬모형 적용 결과 자동채점과 인간채점자들의 엄격성 정도도 비슷한 것으로 나타났다.그러나 문항에 따라 자동채점이 인간채점자와 다른 결과를 보이는 것도 있어 자동채점 프로그램 개발시 유의해야 함을 보여주고 있다.이러한 연구 결과는 향후 자동채점 프로그램의 활용 가능성을 열어주고 있다. Using Constructive-response items in a large-scale assessment cause costly practical issues as well as psychometric issues. In order to solve such problems, research has been developed to explore the possibility of incorporating automated scoring system for constructive-response items in other countries. Therefore, this study is to validate developing an automated scoring system in Korea and to explore potential applications of automated scoring systems.To do this,this study investigates the extent to which the rating produced by the automated scoring system compares to those produced by human raters. Correlation analyses reveal a relatively high correspondence between human and automated scoring system ratings. But, for some items, the results of correlation between automated scoring system and human raters were solow. It suggests that the cause of differences between the system of automated scoring and human rating examine to develop an automated scoring system. Also, the result showed that the effect of rater was a trifling on the consistent scoring and the measures of human raters and the automated scoring system were similar. The results of the study imply that we are able to get the plausibility of utilizing automated scoring system for reliable assessment of constructive-response items in a large-scale assessment as well as for immediate feedback to student's responses.

      연관 검색어 추천

      이 검색어로 많이 본 자료

      활용도 높은 자료

      해외이동버튼