      • 수행평가 도구의 성별에 따른 차별기능문항 추출 및 추출방법 비교

        송미영 이화여자대학교 2001 국내박사

        RANK : 248703

        교육이 진행되는 과정에서 계속적이고 종합적으로 평가활동이 일어나며, 그 도구로 검사가 활용된다. 검사를 구성하고 있는 선택형 문항이나 수행평가 과제에 응답한 피험자의 반응으로부터 직접 관찰이 불가능한 피험자의 능력을 정확하고 타당하며 공정하게 추정해야 한다. 최근 들어 각광을 받고 있는 수행평가에는 전통적인 선택형 검사보다 검사의 구인 이외의 요소가 개입될 가능성도 적지 않으며, 일반적으로 수행평가는 적은 수의 과제로 구성되어 있기 때문에, 만약 부적절한 구인이 측정 결과에 영향을 미칠 경우에는 선택형 검사보다 더 문제가 심각할 수 있다. 검사도구의 공정성을 진단하는 측정학적 접근은 검사의 구성 단위인 문항이 하위 집단에 따라 차별적으로 기능하는지를 통계적 방법으로 조사하는 것이다. 이 연구에서는 다분 차별기능문항을 추출하기 위한 네 가지 방법들을 실제 자료에 적용하여 초등학교 수학과 수행평가 도구에서 성별에 따라 차별적으로 기능하는 과제를 추출하고, 각 추출 방법에 의한 추출 결과를 서로 비교하였다. 또한 두 가지 이상의 방법에서 차별기능문항으로 추출된 수행 과제의 내용과 특성을 분석하여 어떤 요소가 차별기능을 야기하는지를 분석하였다. 이 연구에서 분석한 자료는 6차 초등학교 6학년 수학과 교육과정 중 방정식, 비와 비례배분, 경우의 수 등 관계 영역과 관련된 수학적 문제해결력을 측정하는 6개의 수행평가 과제, 그리고 이와 동일한 내용영역에 대한 20개의 선다형 문항에 남학생 135명, 여학생 103명, 총 238명의 학생이 응답한 자료이었다. 차별기능문항을 추출하는 데 적용한 방법은 일반화된 Mantel-Haenszel 방법, 로지스틱 판별분석 방법, 다집단 일반적 부분점수 모형 방법, 다국면 Rasch 모형 방법이었으며, 이 때 남학생 집단과 여학생 집단의 능력 수준을 조건화 하는 대응변수로 사용한 피험자 능력 측정치는, 수행평가 도구에 의한 측정치와, 수행평가 도구 및 선다형 검사에 의한 측정치이었다. 일반화된 Mantel-Haenszel 방법에 의하면, 수행평가 점수를 대응변수로 사용한 경우는 분석적 채점 결과와 총괄적 채점 결과에서 차별기능문항으로 추출된 과제가 없었으며, 수행평가와 선다형 검사의 전체총점을 대응변수로 사용한 경우는 분석적 채점 결과에서 3개의 채점요소, 총괄적 채점 결과에서 1개의 과제(도보여행)가 차별기능문항으로 추출되었다. 로지스틱 판별분석 방법에 의하면, 수행평가 점수를 대응변수로 사용한 경우는 분석적 채점 결과에서 2개의 채점요소가 차별기능문항으로 추출되었고, 총괄적 채점 결과에서 차별기능문항으로 추출된 과제가 없었으며, 수행평가와 선다형 검사의 전체총점을 대응변수로 사용한 경우는 분석적 채점 결과에서 3개의 채점요소가, 총괄적 채점 결과에서 1개의 과제(도보여행)가 차별기능문항으로 추출되었다. 다집단 일반적 부분점수 모형에 의하면, 수행평가에 의한 피험자 모수 추정치를 대응변수로 사용한 경우는 분석적 채점 결과에서 7개의 채점요소가, 총괄적 채점 결과에서 3개의 과제가 차별기능문항으로 추출되었으며, 수행평가와 선다형 검사에 의한 피험자 모수 추정치를 대응변수로 사용한 경우는 분석적 채점 결과에서 10개의 채점요소가, 총괄적 채점 결과에서 1개의 과제가 차별기능문항으로 추출되었다. 다국면 Rasch 모형에 의하면, 수행평가에 의한 피험자 모수 추정치를 대응변수로 사용한 경우는 분석적 채점 결과와 총괄적 채점 결과에서 차별기능문항으로 추출된 과제가 없었으며, 수행평가와 선다형 검사에 의한 피험자 모수 추정치를 대응변수로 사용한 경우는 분석적 채점 결과에서 차별기능문항으로 추출된 과제가 없었고, 총괄적 채점 결과에서 1개의 과제가 차별기능문항으로 추출되었다. 각 추출 방법에 의해 추출된 차별기능문항의 수를 비교하면, 다집단 일반적 부분점수 모형에 의해서 차별기능문항으로 추출된 과제나 채점요소의 수가 다른 세 가지 방법에 의해 차별기능문항으로 추출된 과제나 채점요소의 수에 비해 상대적으로 많았고, 다국면 Rasch 모형은 다른 세 가지 방법에 비해 상대적으로 적은 수의 과제나 채점요소를 차별기능문항으로 추출하였다. 각 추출 방법에 의해 추출된 차별기능문항이 일치하는 정도를 대응변수에 따라 비교하면, 대응변수로 수행평가에 의한 피험자 능력 측정치를 사용한 경우보다 수행평가와 선택형 검사에 의한 피험자 능력 측정치를 사용한 경우에 추출 결과가 일치하는 방법이 많았다. 이러한 사실로부터 수행평가에 의한 피험자 능력 측정치를 대응변수로 사용하는 것보다 수행평가와 선택형 검사에 의한 피험자 능력 측정치를 대응변수로 사용하는 것이 차별기능문항을 추출한 결과가 더 정확할 가능성이 높다고 유추할 수 있다. 다분 문항에서 차별기능문항을 추출하는 방법들을 수행평가 도구에 적용한 결과, 수행평가 도구에 성별에 따라 차별적으로 기능하는 과제가 있었으며, 추출 방법에 따른 추출 결과가 언제나 일치하는 것은 아니었다. 따라서 학교 현장에서는 다분 차별기능문항을 추출하는 여러 가지 방법을 사용하여 현재 활용하고 있는 수행평가 도구의 차별기능을 점검해 볼 필요가 있으며, 수행평가 도구에서 측정하고자 하는 내용이나 특성을 측정하는 선택형 검사가 있다면, 수행평가와 선택형 검사에 의해 동시에 피험자 능력 측정치를 대응변수로 사용하는 것이 수행평가에 의해 측정한 것만을 사용하는 것보다 더 정확한 결과를 얻을 수 있다. 두 가지 이상의 방법에 의해서 차별기능문항으로 추출된 도보여행 과제의 차별기능의 원인을 발견하기 위하여 평가내용과 측정학적 특성에 대해 분석하였다. 도보여행 과제는 방정식이나 비와 비례배분에 대한 이해가 요구되는 과제로서, 능력수준 1.0 이하에서는 여학생에게 유리하고 능력수준 1.0 이상에서는 남학생에게 유리한 비일방적 차별기능문항이었다. 수행과제에 대한 학생들의 응답자료를 분석한 결과, 여학생의 수학적 능력이 남학생의 수학적 능력에 비해 낮다고 보는 것이 적절하며, 방정식이나 비와 비례배분이 여학생에게 유리한 내용영역이라고 볼 만한 근거는 없었다. 이 연구에서 분석한 자료의 성격상 선행지식의 습득 기회에 대해 추적하기 어려웠기 때문에, 수행평가 과제를 수행하기 위한 선행지식을 습득할 기회가 동등하였는지 등에 대한 질적인 분석은 이루어지지 않았다. 차별기능문항의 원인을 밝히고 결정하는 일은 쉽지 않으나 타당하고 공정한 평가도구의 개발을 위해서 평가 내용이나 문항특성 외에 과제가 다루고 있는 소재 등 차별기능의 원인으로 고려될 수 있는 요소들을 탐구하고 확인하려는 노력이 요구된다. 뿐만 아니라 차별기능문항과 차별기능을 야기하는 요소들이 밝혀지면 중립적으로 기능하도록 평가도구를 수정하고 교육과정이나 교수방법의 변화가 이루어져야 할 것이며, 차별기능의 영향을 통제·조절한 새로운 측정치, 즉 차별기능으로부터 자유로운 측정치를 산출할 수 있는 통계적 절차를 개발하려는 노력이 필요하다. 실제 자료를 사용하여 차별기능문항을 추출하고, 그 결과를 기초로 추출방법들을 비교하는 것은 실제 상황에서 차별기능문항을 추출하는 방법들의 유용성을 평가하는 기회를 제공한다. 그러나 실제 자료에 의한 추출방법간 비교는 한 자료에서 얻은 결과를 다른 자료에 어느 정도 일반화할 수 있을지는 단정적으로 말할 수 없다. 어떤 문항이 차별기능하지 않는데 차별기능한다고 판정할 제 1종 오류를 범할 수도 있고, 그 반대의 제 2종 오류를 범할 수도 있다. 따라서 다양한 검사 상황에 대한 모의자료를 대상으로 한 Monte Carlo 연구를 통하여 일반화의 근거를 마련하는 작업이 후속되어야 한다. 이상에서 제언한 바와 같이 학교 현장에서는 각종 평가도구의 차별기능을 검색하여 타당하고 공정한 평가도구의 개발과 교육과정과 교수·학습의 평가 및 개선에 도움되는 정보를 얻을 수 있도록 노력해야 할 것이며, 이러한 역할을 성공적으로 수행하기 위해서 차별기능문항에 대한 연구들이 다각적으로 끊임없이 지속되어야 할 것이다. In recent years, there has been an increased interest in the use of performance assessments (PA) and the increased emphasis on various types of PA raises the question of what the effect of such assessments on various population subgroups is. The detection of differential item functioning (DIF) can be helpful in investigating the effective subpopulations of the introduction of performance tasks. The purposes of this study are to detect a gender-related DIF, to find out a relevant procedure and an appropriate matching variable for detecting DIF, and to investigate the causes of gender-related DIF in a PA. For these purposes, the generalized Mantel- Haenszel procedure, Logistic discriminant function analysis procedure, procedure based on Multiple-Group Partial Credit Model, and procedure based on Many-Faceted Rasch Model were applied to detect DIF. Each method used both the measure of a PA and the combined measure of a PA & a MC test to match examinees. And results by using the four methods were compared through correlation coefficients and the degree of agreement. Also, with analyzing contents and distinct features of DIF flagged by at least two of the four methods, an attempt was made to identify the factors that influence DIF. For these purposes of this study, the response data of 135 men and 103 women of a PA 6 tasks and a multiple-choice (MC) test containing 20 items for elementary 6th grade mathematics were analyzed. The performance sample of 238 students were rated respectively 0-4 points for based on analytic scoring rubrics and holistic scoring rubrics by 8 raters. Technical qualities of assessment instruments were analyzed before detecting DIF and the results are as follows: The reliability in MC test and inter-rater reliability in PA were generally high. The correlation between a measure of PA and a measure of MC test were also high. And the factor analysis of PA & MC confirmed that there could be only one dimension out of all items. As a result of this study, the general Mantel-Haenszel method detected three scoring demensions in analytic scoring and one task in holisic scoring in the case that the combined measure matched examinees. Logistic discriminant function analysis procedure detected two scoring demensions in analytic scoring in the case that the PA measure matched examinees and three scoring demensions in analytic scoring and one task in holistic scoring in the case that the combined measure matched examinees. The procedure based on Multiple-Group Partial Credit Model detected seven scoring demensions in analytic scoring and three task in holistic scoring in the case that the PA measure matched examinees, and ten scoring demensions in analytic scoring and one task in holisic scoring in the case that the combined measure matched examinees. The procedure based on Many-Faceted Rasch Model detected one task in holisic scoring in the case that the combined measure matched examinees. This study found that the procedure based on Multiple-Group Partial Credit Model was tended to more DIF and the procedure based on Many-Faceted Rasch Model was tended to less DIF. Also this study found that more appropriate matching variable for detecting DIF in PA was a combined measure of PA and multiple-choice test than a measure of PA. In conclusion, this study proposed to analyze the contents of DIF items beyond detecting DIF and to examine and compare the DIF procedures using simulated data. It is desirable to compare results of variety methods and to analyze the cause of DIF through a content analysis. The content analysis will help to set a curriculum and to improve a instructional method. And the simulation study will help to select a DIF procedure in several different conditions such as sample size, test length, the type of DIF and so on.

      • 한국어판 근거중심 가치평가 모형(EVIDEM) 개발 및 타당도 평가

        최원정 고려대학교 대학원 2021 국내박사

        RANK : 248703

        Purpose: The purpose of this study was to develop a suitable and highly useful medical technology evaluation tool in a situation needing new medical technology evaluation considering the rapidly increasing value in the field of medical technology. EVIDEM (Evidence Decision-Making) developed by McGill University in Canada is a value-considered medical technology evaluation tool that allows an evaluator to determine evaluation items and evaluation method (quantitative/qualitative) according to characteristics of medical technology. Moreover, considering the uncertainty and variability of values, it is a highly useful tool that can be used for medical technology evaluation. Therefore, it is necessary to develop a medical technology evaluation tool in Korea that considers the value to enable appropriate medical technology evaluation suitable for a changing situation. The purpose of this study was to confirm the Korean version of EVIDEM (Evidence Decision-Making) as a helpful tool for decision making. Method: For the development of the Korean version of EVIDEM tool, conceptual review process was first conducted through copyright permission, Korean translation, back translation, review of translation, and preliminary research. Next, data were collected from 70 bilingual health care professionals to review the validity and reliability of the tool in a statistical way. Finally, by applying the Korean version of EVIDEM tool, the social value was evaluated through a group of four experts based on the reference in which digital treatment for chronic obstructive pulmonary disease (COPD) patients was mainly discussed as topic. Result: The usefulness of the Korean version of EVIDEM was confirmed through linguistic and statistical reviews. Firstly, in terms of linguistics, its validity was confirmed through processes such as standard translation and back translation. In terms of statistics, validity of composition, criteria, and content was reviewed. As for composition validity, there were some changes as the version of the EVIDEM tool was upgraded. However, the related study was not identified. Thus, the new factor had an explanation power of 64.9% derived from an exploratory analysis. Criterion-related validity confirmed its relatedness with HIRA (Health Insurance Review & Assessment service) tool V0.622 and the BAS tool V0.649 compared to existing tools. The correlation of each item was also confirmed in a comprehensive way through canonical correlation analysis. In terms of content validity, although subjective judgments of experts were included, the degree of agreement among experts was high (item-CVI = 0.97). In addition, its reliability was homogeneous, with an internal consistency reliability (Cronbach-alpha value) of 0.744 and good split-half reliabilities (spearman-Brown coefficient and Guttman's coefficient) of 0.843 and 0.882, respectively. Its test-retest reliability (ICC, intraclass Correlation Coefficient) was 0.647-0.873, confirming that it was a reliable tool. Lastly, when the Korean version of EVIDEM was applied to the evaluation of digital treatment for COPD patients, it could be used as tool to improve medical outcomes through self-management based on the characteristics of a chronic disease and app-based medical technology, even though significant evidence for efficacy was limited. Conclusion: In this study, the Korean version of EVIDEM was developed with linguistic and statistical validity and reliability. In addition, as a result of applying this tool to a digital treatment for COPD patients, its suitability and external validity were confirmed. This tool can evaluate a wide range of medical technologies including pharmaceuticals, medical devices, systems, and services. However, considering the national health insurance system in Korea, and conventional medical practices such as evidence-based medical technology evaluation that requires sufficient evidences, there is a limit in uniformly applying this tool to all medical technologies. Therefore, this tool is considered to be meaningful when it is applied to fields where it is difficult to apply existing medical technology evaluation method. That is, medical technology targeting rare diseases with low incidence and severe pain, or relatively innovative medical technology with proved safety but having some uncertainty due to insufficient evidences could be eligible for this tool. 목적: 본 연구는 빠르게 성장하는 의료기술분야에서 가치를 고려한 새로운 의료기술평가가 요구되는 상황에서 적절하고 활용도 높은 의료기술평가 도구를 개발하는데 목적을 두었다. 캐나다 McGill대학에서 개발된 EVIDEM(EvidenceDecision-Making)은 가치를 고려한 의료기술평가 도구로 의료기술의 특성에 따라 평가자가 평가 항목과 평가방법(정량/정성)을 결정할 수 있으며, 무엇보다 가치의 불확실성과 가변성을 고려하여 의료기술평가에 활용할 수 있어 유용성이 높은 도구이다. 이에 우리나라에서도 가치를 고려한 의료기술평가 도구를 개발하여 상황에 맞는 적절한 의료기술평가를 가능하게 할 필요가 있는 바, 본 연구는 한국어판 EVIDEM (EvidenceDecision-Making)이 의사결정에 도움이 되는 도구인지를 확인하기 위한 목적으로 수행되었다. 방법: 한국어판 EVIDEM 도구 개발을 위해 우선 저작권 허가, 한국어 번역, 역번역, 번역본 검토, 예비조사를 통해 개념적 검토 과정을 거쳤다. 다음으로 이중언어 사용자인 보건의료전문가 70인으로부터 자료를 수집하여 도구의 타당도, 신뢰도를 통계학적으로 검토하였다. 마지막으로 한국어판 EVIDEM 도구를 적용하여, 만성폐쇄성 폐질환(COPD) 환자 대상 디지털 치료제를 주제로 한 문헌적 근거를 기반으로, 전문가 집단 4인을 통해 사회적 가치를 평가하였다. 결과: 한국어판 EVIDEM은 언어학적, 통계학적 검토를 거쳐 유용성을 확인하였다. 먼저언어학적 측면에서는 순번역, 역번역 등의 과정을 거쳐 타당도를 확보했다. 통계학적 측면에서는 구성·준거·내용의 타당도를 검토하였다. 구성타당도는 EVIDEM 도구의 버전이 업그레이드되면서 요인의 변화가 있었으나 관련 연구가 확인되지 않아 탐색적 요인분석을 통해 64.9%의 설명력을 가지는 새로운 요인이 도출되었다. 준거타당도는 기존의 도구와 비교하여 심평원 도구 0.622, BAS 도구0.649로 관련성을 확인하였고, 정준상관분석을 통해 항목들간의 상관관계를 종합적으로도 확인도 하였다. 내용타당도는 전문가의 주관적인 판단이 들어가는 부분이나 전문가간 동의 정도가 높았다(item-CVI=0.97). 또한, 신뢰도는 내적 일관성 신뢰도(Cronbach-alpha값)가 0.744와 반분신뢰도(spearman-Braown coefficient, Guttman의 계수)가 각각 0.843, 0.882로 동질적이었고, 조사-재조사 신뢰도(ICC, intraclass Correlation Coefficient)가 0.647 ~ 0.873로 안정성이 있는 도구로 확인하였다. 마지막으로, 한국어판 EVIDEM을 COPD환자 대상 디지털치료제 평가에 적용한 결과, 유효성에 대한 유의미한 근거가 부족하였지만 해당 질환이 만성질환이고 앱 기반 의료기술의 특성을 고려하여 자가관리를 통해 의료 결과를 향상시키는데 보조적으로 도움을 줄 수 있는 기술로 평가할 수 있었다. 결론: 본 연구에서는 언어학적 통계학적 타당성이 있고 신뢰성을 갖춘 한국어판 EVIDEM을 개발하였다. 아울러 이를 COPD환자 대상 디지털치료제에 적용한 결과, 적합도 및 외적 타당도를 확인하였다. 동 도구는 의약품, 의료기기, 시스템, 서비스까지 넓은 범위의 의료기술을 평가할 수 있는 도구라는 측면에서 장점이 있다. 그러나 충분한 근거를 필요로 하는 근거중심의 의료기술평가와 보험체계 등 우리나라 의료환경을 고려할 때, 동 도구를 모든 의료기술에 일률적으로 적용하기에는 한계가 있다. 따라서 동 도구는 의료기술평가를 적용하기 어려웠던 분야, 즉 유병률이 낮고 고통이 심한 희귀 질환을 대상으로 한 의료기술이나, 안전성은 있되 근거에 불확실성이 있는 비교적 혁신적인 의료기술에 제한적으로 적용할 때 그 의의가 있을 것으로 판단된다.

      • 평가도구 유형이 중학생들의 일과 에너지 개념 획득에 미치는 영향

        신성기 한국교원대학교 대학원 2012 국내석사

        RANK : 248703

        이 연구는 과학 학습 평가가 일과 에너지 개념 획득에 미치는 영향, 평가도구의 유형에 따른 개념 획득 정도, 그리고 과학학업성취도 수준별 과학 개념 획득 정도를 조사하여 과학 교육의 시사점을 얻는데 있다. 평가도구의 유형은 큰 범주로 선택형과 서답형의 두가지로 나누었으며, 선택형은 긍정문 선다형, 부정문 선다형, 긍정문 진위형, 부정문 진위형등 4가지로, 서답형은 서술형, 단답형등 2가지로 나누어 조사하였다. 학생들의 일과 에너지 개념을 조사하기 위하여 일과 에너지 개념 검사도구를 개발하고, 평가를 실시하기 위하여 평가도구 유형별로 16개 평가 문항을 개발하였다. 학생들의 성취수준별 개념 획득 정도를 조사하기 위하여 학생들의 성취 수준을 2011학년도 국가 수준 학업 성취도 평가를 사용하여, 우수학력은 '상', 보통학력은 '중', 기초학력과 기초미달학력은 '하'등 세 그룹으로 구분하였다. 연구대상은 중학교 3학년 244명이며, 일과 에너지 개념 검사도구를 이용하여 학생들의 사전 개념을 조사하고, 2주 후에 유형별 평가도구를 투입하여 평가를 실시하였다. 평가도구에 관련된 피드백을 주지 않은 상태에서 2주후 사전 검사와 동일하게 개념 조사를 하였다. 조사 결과, 학생들의 과학적 개념은 과학 학습 평가를 실시한 학생들이 평가를 실시하지 않은 비교집단 보다 증가를 보여, 과학 학습 평가 자체가 학습자의 개념 획득에 긍정적 영향을 주는 것으로 사료된다. 그리고, 평가 유형별 과학 개념 회득은 서답형이 선택형 평가를 받은 집단 보다 과학적 개념이 더 많이 증가하였고, 비과학적 개념은 서답형이 선택형 평가를 받은 집단보다 줄어들었음을 알 수 있었다. 또한, 옳은 것을 묻는 긍정문이 부정문보다 과학적 개념이 증가하였다. 따라서, 서답형이 선택형보다 바람직하며 옳은 것을 묻는 긍정형 평가 문항이 부정형 평가 문항보다 바람직하다. 학생들의 성취수준에 따른 평가도구의 영향을 조사한 결과 성취수준 '하'인 학생의 과학적 개념이 가장 많이 증가하였으며, 그 다음으로 '중', '상'의 순으로 나타났다. 비과학적 개념의 경우 '하', '중', '상'의 순으로 줄어 하위 수준에 효과적임을 알수 있다. 또한, 각 성취도 수준별 평가도구 유형에 따른 개념 획득에 대한 영향은 '상'수준의 학생은 진위형, '중'수준의 학생은 선다형, '하'수준의 학생은 선다형과 서술형에 긍정적 효과가 이었다. 이는 학교에서 이루어지는 과학 학습 평가가 학습자의 과학 개념 형성에 직접적인 역할을 담당한다는 중요한 사실과 학생들의 학업 성취에 따른 평가도구의 다양성을 확보해야 된다는 사실을 제공한다고 볼 수 있어 과학교육에 주는 시사점이 매우 크다고 생각된다.

      • 수행평가의 타당도 검증을 위한 측정학적 접근

        김경희 이화여자대학교 2000 국내박사

        RANK : 248703

        Validity is the most fundamental psychometric consideration in developing and evaluating test tool. In psychometric aspects, validity is to verify which to extent to appropriately estimate examinee true scores with observed scores by assessment format. If observed scores are appropriate estimates of examinee true scores, observed scores reflect the intended theoretical framework of the test. In other words, the test is valid when the sources of variance in the test scores include the traits which is intended to measure by means of test. In this aspects, the validity of assessment tools appropriately infers the validity evidence from the sources of variance in test scores. Performance assessments require raters judgement on students performance to produce a score, in contrast to assessment formats which are scored objectively as multiple choice tools. So the observed scores of performance assessment include the multiple sources of variance in test scores. The purpose of this study is to identify psychometric approaches of validity based on multiple sources of scores variance by means of performance assessment and to apply these approaches to emperical performance data. This study handles following study issues to apply validity approaches to real data. This study analyze content validity based on content of performance assessment tool and verify construct validity based on internal structures of performance assessment tool, validity based on internal structures of scoring rubrics, validity based on scoring responces of scorers, and concurrent validity based on other test scores. This study develops the performance assessment format with 6 tasks and multiple choice assessment format with 20 items from elementary 6th grade mathematics to apply specific approaches of validity in performance assessment tool. Two assessment formats were set from relationship content domain of the sixth elementary mathematics curriculum. Performance assessment is constructed to measure cognitive skills of conceptual understanding, strategical knowledge and communication skill and multiple choice test is intended to measure cognitive skills of simple understanding, problem solving, and strategical knowledge. The response data of examinees could be made from performance assessment and multiple choice test done to 582 1st grade students from 3 middle schools in Seoul, and among these, the response data of 238 students who responded more than 4 performance tasks is selected. The corroborative data to actually analyze the validity of performance assessment is the raw scores that 8 raters rated respectively 0-4 points for performance sample of 238 students based on analytic scoring rubrics and holistic scoring rubrics. This study analyze to technical quality of performance assessment tool before verifying of validity and the results are as follows.; Reliability analysis for two assessment tools says that reliability in multiple choice test and inter-rater reliability in performance assessment are generally high. And item analysis of multiple choice test shows consistent medium level difficulty and appropriate discriminant index. There is a little mean difference in each performance task and item characteristics analysis by graded response theory says the performance assessment format may not be appropriate for very low-ability level examinees and appropriate discriminant parameter. But the results of analysis to technical quality of performance assessment tools point out that two assessment tools have no problem in technical qualities. The results of this study through the analysis of performance assessment validity are as follows.; First, the results of content validity in performance assessment show that in content performance assessment tool which is development by this study is appropriate to content and objectives of teaching and learning process. Second, the construct validity test through factor analysis show that the final exploratory factor structure of performance assessment format has 3 content domains. Such a result reflects the intended theoretical framework of the test. Third, the multidimensional scaling and the multiple regression analysis on holistic scoring rubrics and analytic scoring rubrics shows that holistic scoring scores are not the sum of analytic scoring domains scores and the interrelationship of holistic scoring method and analytic scoring method is not the same. Fourth, multidimensional scaling was used to analyze validity of scoring reponses of scorers whether raters use similarly or separately domains of scoring criteria. The analysis says that raters do similar scoring using scoring domains of strategical knowledge and communication skill. Fifth, according to the results of examining the concurrent validity of performance assessment to multiple choice test score using Pearsons product correlation and structure equation models, two assessment formats are similar to measure cognitive skills. Therefore, this study emperically verifies that the performance assessment in teaching and learning process gives similar information to multiple choice test. And there is no statistically significant difference in the ability estimates of examinees. The implications of this study through the application of performance assessment validity approaches from real data are as follows.; First, analyses methods of content and internal structure of performance test in this study are appropriate performance test tools. Second, through analyses with multiple regression models and multidimensional scaling of validity based on internal structure of scoring rubrics show same results, two methods in exchangeable. Third, it is discussed that the concurrent validity approaches of performance assessment is need more sound method than correlation procedure. And the development of standardized performance assessments tool is discussed in order to verify validity of performance assessment by means of cuncurrent evidence with standardized assessment tool. This study proposes that psychometric approaches of validity in the performance assessment is needed to analyses validity of scoring responses by scorers and internal structure of scoring rubrics as well as validity approaches based on content, construct, and other test because performance assessments require raters judgement on students performance to produce a score with socring rubruics. 타당도는 평가도구를 개발하고 평가하는 데 가장 근본적으로 고려해야 할 측정학적 조건이다. 측정학적인 입장에서 타당도는 평가도구에 의해 얻어진 관찰 점수를 통해 평가대상의 진점수를 적합하게 추정했는가를 검증한다. 관찰점수가 평가대상의 진점수의 적합한 추정치라고 한다면, 관찰점수는 검사가 의도한 이론적 체계를 반영하고 있는 것이다. 구체적으로 검사도구에 의해 얻어진 관찰점수의 분산원에 검사가 측정하려는 특성이 포함되어 있을 때 그 검사도구는 타당하다. 이러한 관점에서 검사도구의 타당도 연구는 관찰점수의 분산원을 탐색하여 분산원의 타당도 근거를 추론하는 것이라 할 수 있다. 수행평가 형태들은 학생들이 응답한 수행표본에 대한 평가자나 채점자들의 판단에 의해서 점수가 부여되는 방식을 따른다. 문항에 대한 응답이 맞고 틀리는 이분적인 방식에 의해 학습자의 능력을 측정하는 평가형태와는 달리 수행평가는 모종의 기준을 가지고 채점자들이 판단하여 학습자의 능력을 측정하는 평가방법이기 때문에 전자의 점수화 방법과는 달리 복잡한 관찰점수 분산원을 가지고 있다. 전통적인 평가방법에 의한 검사점수의 분산원이 피험자들의 문항점수 분산원과 오차분산원으로 구성되어 있다면, 수행평가의 점수 분산원은 피험자들의 수행에 의한 점수, 채점기준의 수준, 채점자들의 채점반응 등에 대한 분산원과 오차분산원으로 구성된다고 할 수 있다. 따라서 수행평가에 의한 관찰점수를 통하여 진점수를 추정하는 적합성, 곧 타당도는 이러한 각 분산원에 대한 타당도 검증을 필요로 한다. 곧 수행평가의 타당도 검증은 전통적인 평가방법에 대한 타당도를 검증하는 접근들 뿐 아니라 채점기준의 수준, 채점자들의 채점반응에 대한 타당도 분석을 필요로 한다. 이 연구에서는 이러한 수행평가도구의 복잡한 점수 분산원에 근거하여 타당도를 검증하는 방법들을 구체화하고 이를 실제 수행평가자료에 적용하였다. 피험자들의 수행점수 분산원에 대한 타당도를 검증하기 위해서 전통적인 타당도 접근방법을 활용하였으며, 채점기준과 채점반응의 타당성을 분석하기 위해 다차원척도법, 중다회귀분석의 방법을 활용하였다. 수행평가도구의 타당도를 검증하는 방법들을 실제 자료에 적용하기 위해서 다음과 같은 구체적인 연구문제를 다루었다. 첫째, 수행평가도구의 내용 근거에 의해 내용타당도를 분석한다. 둘째, 수행평가도구의 내적 구조에 근거한 구인타당도를 검증한다. 셋째, 채점기준들간의 내적 구조에 근거한 타당도를 검증한다. 넷째, 채점자들의 채점반응의 타당도를 분석한다. 다섯째, 수행평가도구와 다른 형태의 검사도구와의 관계에 근거하여 공인타당도를 검증한다. 이 연구에서는 위와 같은 연구문제를 통하여 수행평가도구의 타당도 검증방법을 실제 자료에 적용하기 위해 초등학교 6학년 수학교과에서 6개의 과제로 구성된 수행평가도구와 20개의 문항으로 구성된 선택형 검사도구를 개발하였다. 두 가지의 평가도구는 제6차 초등 수학 교육과정의 관계영역에서 출제되었으며, 수행평가는 개념적 이해, 전략적 지식, 의사소통기술 등의 문제해결을 측정하도록 구성되었고, 선택형 검사도구는 단순이해, 문제해결, 전략적 지식을 측정하도록 구성되었다. 2000학년도 1학기초에, 서울 시내 세 개의 중학교에서 1학년 582명을 대상으로 두 검사도구를 실시하여 응답표본들을 얻었고, 이 중에서 4개 이상의 수행과제에 응답한 피험자 238명의 응답자료를 선택하였다. 실제로 수행평가의 타당도를 분석하기 위한 실증적 자료는 238명의 수행표본에 대하여 8명의 채점자가 분석적 채점기준과, 총괄적 채점기준에 의해 각각 0∼4점으로 채점한 원점수들이다. 본 연구에서는 우선, 수행평가도구의 타당도를 분석하기 전에 수행평가도구의 양호도 검증을 실시하였고, 그 결과는 다음과 같다. 첫째, 평가도구의 신뢰도를 분석한 결과, 선택형 검사도구의 내적 일관성 신뢰도는 높은 편이었고, 수행평가에서의 채점자간 신뢰도는 상관계수와 일반화 가능도 이론에 의해서 분석한 결과, 대체적으로 높은 편이었다. 둘째, 선택형 검사도구의 문항분석을 한 결과, 적정 수준의 난이도를 유지하고 있으며, 변별도도 적절한 것으로 나타났다. 수행평가도구에서는 과제들의 평균에서 큰 차이는 없었지만 일부 과제간의 평균에서 약간의 변동이 있었고, 등급반응이론에 의한 문항특성 분석에 의해서도 과제에 따라 능력이 매우 낮은 피험자들에게는 적정하지 못한 경우가 있었다. 그러나 과제의 각 범주들이 대부분의 피험자 능력수준에서 기능하였고, 과제의 변별도도 적절한 것으로 나타났다. 위와 같은 측정도구의 기본적인 양호도 검증을 실시한 결과, 본 연구에서 개발한 수행평가도구는 타당도를 위협할 수준의 측정학적 문제점은 없는 것으로 나타났다. 다음은 본 연구에서 구체화하고 있는 타당도를 검증하는 방법을 적용한 결과이다. 첫째, 수행평가도구의 내용타당도를 분석한 결과 본 연구에서 개발한 수행평가도구는 이와 관련된 교수학습의 목표와 내용에 적합하며, 고등사고력의 측정, 실생활 맥락성, 공정성, 채점기준의 명료성, 변별성 등의 수행평가과제의 타당화 준거에 대하여 적합한 것으로 나타났다. 둘째, 수행평가도구의 구인 타당도를 검증하기 위하여 요인분석을 적용한 결과, 본 연구에서 개발한 수학과 수행평가도구에서 최종적으로 탐색된 요인의 구조는 3개의 내용영역으로 나타났다. 이러한 결과는 이 연구에서 개발한 검사도구의 이론적 체계를 반영한다고 할 수 있다. 셋째, 채점기준들간의 내적 구조에 근거한 타당도를 중다회귀분석과 다차원 척도법으로 검증한 결과, 두 방법 모두에서 총괄적인 채점기준은 분석적인 채점기준의 합이 아니며, 총괄적인 채점기준과 분석적인 채점기준은 내적 구조가 동일하지 않다는 공통적인 결과를 얻었다. 넷째, 채점자들의 채점 반응의 타당도를 다차원 척도법을 사용하여 분석하였다. 채점자들이 채점기준이 제시하는 채점영역들을 독립적으로 사용하는지, 혹은 유사하게 사용하는지의 채점 반응에 대하여 다차원 척도법을 사용하여 분석하였는데, 채점자들은 분석적인 채점영역에서 전략적 지식과 의사소통기술을 유사하게 판단하여 채점하는 것으로 나타났다. 다섯째, 수행평가도구와 다른 형태의 검사도구와의 공인타당도를 검증하기 위해 상관계수와 구조방정식 모형을 적용하였다. 그 결과 수행평가도구와 다른 형태의 검사도구가 측정하려는 인지적인 특성들은 상관이 있었다. 본 연구에서 구체화한 수행평가 타당도 검증방법을 실제 수행평가 점수 자료에 적용해 본 결과, 다음과 같은 시사점을 얻을 수 있었다. 첫째, 내용타당도와 구인타당도를 검증하여 검사의 점수가 검사의 이론적 체계를 반영하고 있다는 결과를 통해 수행평가도구의 타당화 준거에 대한 점검표와 요인분석은 수행평가도구의 타당도를 분석하고 검증하기 위한 적절한 방법임을 확인하였다. 둘째, 중다회귀분석과 다차원 척도법을 적용하여 채점기준들간의 내적 구조에 근거한 타당도를 검증하여 두 가지 방법에 의해 동일한 결과를 얻음으로써 두 방법론간의 호환 가능성을 확인하였다. 셋째, 두 검사도구의 공인타당도 검증방법에 대해, 본 연구에서는 두 검사도구의 형태가 다르고 사회적 영향이 큰 평가에 활용될 때에는 상관계수에 의한 공인타당도지수는 상관계수 해석기준에만 의존하여 해석되기 때문에 해석상의 오차를 포함하므로, 구조방정식과 같이 통계적으로 강건한 방법을 적용할 필요가 있음을 시사하였다. 또한 수행평가도구의 공인타당도 검증을 위해 다양한 교과영역에서 다양한 인지적 특성을 측정하는 표준화된 수행평가도구의 개발이 필요함을 논의하였다. 본 연구에서는 수행평가도구의 타당도를 검증하는 방법은 내용타당도, 구인타당도, 공인타당도와 같이 모든 형태의 측정에서 공통적으로 추구하는 타당도 접근도 필요 하지만, 점수를 부여하는 방식에 있어서 수행평가만의 특성으로 야기되는 복잡한 분산원을 고려할 필요가 있음을 제안하였다. 수행평가에 의한 점수는 채점기준의 수준과 채점자들의 판단에 의하여 점수가 부여되는 방식을 따르기 때문에 채점기준의 내적 구조에 대한 타당도와 채점자들의 채점반응에 대한 타당도 접근도 필요함을 실제적인 수행자료를 통하여 논의하였다.

      • 학교급식 식재료 품질관리 평가도구 개발

        김나연 경기대학교 일반대학원 2015 국내박사

        RANK : 248703

        우리나라는 2013년 02월 기준으로 전국의 모든 초·중·고등학교 100% 학교 급식이 실행되고 있다. 이에 학교급식의 질적인 관리가 필요한 시점이며 학교급식의 질 향상이 중요하게 인식되고 있다. 2014년도 서울시 교육청에서는 학교급식의 질 향상을 위한 방안으로 학교급식 안전성 확보 및 안전하고 우수한 식재료 사용을 제시하였다. 또한 경기도 교육청은 안전하고 질 높은 학교급식을 위한 정책으로 친환경 무상급식 추진, 학교급식 운영의 내실화, 학교급식 안전성 확보, 영양 및 식생활 지도강화, 안전하고 우수한 한식재료 사용, 지도·감독 및 행정지원 강화 등을 6대 과제로 제시하였다. 이렇듯 학교급식의 질적 향상을 위해 서울 및 경기도는 다양한 관리방안을 제시하고 있다. 그러나 학교급식의 질적 향상에 있어 가장 중요한 부분인 안전하고 우수한 식재료 사용에 대한 품질기준은 그 기준범위가 너무 방대하고 관리방안에 대한 대응 또한 부족한 형편이다. 이에 본 연구는 학교급식의 질적 향상에 있어 가장 중요한 부분인 안전하고 우수한 식재료 사용을 위해 학교급식 식재료 품질관리 평가도구를 개발하고자 하였다. 연구방법으로는 혼합연구방법(Exploratory Mixed Methods)의 유형 중 순차적 탐구전략 연구방법을 채택하여 수행하였다. 질적(qualitative research)연구를 위해 서울 및 경기도 지역의 급식유형별 학교 5곳을 방문하고 학교급식에 대한 영양사 경력이 최소 5년 이상 된 영양사를 대상으로 심층면접(in-depth interview)을 실시하였다. 양적(quantitative research)연구를 위해서는 서울 및 경기도 지역의 학교급식 영양사들을 대상으로 설문조사를 실시하였다. 연구결과는 다음과 같다. 첫째, 내용분석과 심층면접을 통해 평가분야와 평가영역, 평가항목으로 평가도구의 초안을 구성하였다. 평가분야는 식재료 품질관리, 식재료 품질교육, 식재료 법령관리 3개의 분야로 구성하였고 평가영역은 11개, 평가항목은 17개로 구성하였다. 둘째, 구성된 평가도구의 안전성, 일관성 예측 가능성을 알아보기 위하여 신뢰도 분석을 실시하였다. 평가분야 3항목에 관한 신뢰도 계수는 0.81로 나타나 신뢰수준을 만족하였고, 식재료 품질관리 평가영역의 9항목은 0.89로 나타났다. 셋째, 학교급식 식재료 품질관리 평가도구에 IPA를 통한 중요도와 수행도 분석을 실시하였다. 식재료 품질관리 평가분야에서는 식재료 품질교육과 법령관리가 개선대상 영역으로 나타났으며, 평가영역에서도 농·축·수산물 및 가공식품 법령과 식재료 품질교육이 개선대상 영역으로 나타났다. 넷째, 계층적 분석과정(AHP)을 통해 상대적 중요도를 산출하고 전체 집단 간의 영향값을 분석하여 항목별 우선순위를 판단하고 평가도구의 배점을 산정하였다. 평가도구의 평가분야에서는 식재료 품질관리(0.556), 품질관리 평가영역에서는 식재료 검수(0.420), 품질교육 평가영역에서는 조리종사원에 대한 교육(0.479), 법령관리 평가영역에서는 수산물 법령관리(0.285)가 상대적 중요도 값이 가장 높은 값들로 나타났다. 다섯째, 위의 분석과정을 통해 식재료 품질관리 분야 55점, 식재료 품질교육 분야 25점, 식재료 법령관리 분야 20점으로 학교급식 식재료 품질관리 평가도구의 각 분야별 점수가 산정되었다. 이렇게 개발된 평가도구의 적절한 활용으로 학교급식 식재료 품질관리를 평가하고 안전하고 우수한 식재료를 사용하여, 학교급식 질적 향상을 도모할 수 있을 것이다. In Korea, from the basis of Feb. 2013, 100% school feeding of all elementary, middle, and high schools over the country has been conducted. So, it is a time that qualitative control of school feeding is necessary, quality improvement of school feeding is recognized importantly. As ways for the quality enhancement, Seoul Metropolitan Office of Education in 2014 proposed safety securement of school feeding and use of safe and excellent food materials. Also, Gyeonggi-province Metropolitan Office of Education suggested six assignments such as promotion of eco-friendly free feeding, substantiality of operation of school feeding, safety securement of school feeding, reinforcement of nutrition and the leading of dietary life, use of safe and excellent Korean food materials, and strengthening of leading, coaching, and administrative support. Like these, for qualitative improvement of school feeding, Seoul and Gyeonggi-do propose diverse control plans. But, quality standards about use of safe and superb food ingredients as the most important part in qualitative improvement of school feeding are in a situation that the standard ranges are too enormous and also response to the control plans lacks. Therefore, this study tried to develop evaluation tools of the quality control of school materials for the use of safe and excellent food ingredients as the most important part in the qualitative enhancement of school feeding. As a study method, the study method of consecutive exploration strategies among types of exploratory mixed methods was selected and implemented. For qualitative research, five schools of Seoul and Gyeonggi-do areas by feeding type were visited. Targeting dietitians with at least 5 years and more experience, in-depth interviews were conducted. For quantitative research, aiming at dietitians of school feeding in Seoul and Gyeonggi-do areas, surveys were conducted. Study results are like the next. First, through the contents analysis and in-depth interviews, with fields, areas, and items of the evaluation, a draft of evaluation tools was structured. The evaluation fields were constructed with quality control of food materials, quality education of food materials, and legislation control of food materials. The evaluation areas and items were constructed with 11 and 17, respectively. Second, to find out safety, consistency, and predictability of the constructed evaluation tools, the reliability analysis was conducted. The reliability coefficient of three items of the evaluation fields was 0.81,so the confidence level was satisfied. Nine items of the evaluation areas of the quality control of food materials were 0.89 in the reliability coefficient. Third, importance and performance analysis on the evaluation tools of the quality control of school feeding were conducted through IPA. In the evaluation fields of the quality control of school feeding, the quality education and legislation control of food materials were represented as the areas of improvement objects. In evaluation areas, the legislations of agriculture, livestock, and marine products and processed food and the quality education of food materials were shown to be the areas of improvement objects. Forth, through AHP (analytic hierarchy process), the relative importance was calculated. By analyzing influence values between all groups, priorities by item were judged and scores of the evaluation tools were calculated. With values like the quality control of food materials(0.556) in the evaluation fields of the evaluation tools, examination of food materials (0.420)in the evaluation areas of quality control, education for cooking employees (0.479) in the evaluation areas of quality education, and legislation control of marine products (0.285) in the evaluation areas of the legislation control, each of them was represented to be the highest in relative importance values. Fifth, through the analysis courses above, scores by each field of the evaluation tools of the quality control of food ingredients of school feeding were calculated with 55 points in the field of the quality control of food ingredients, 25 points in the field of the quality education of food ingredients, and 20 points in the field of legislation control. From proper use of the evaluation tools developed like these, the quality control of food ingredients of school feeding is evaluated. By using safe and excellent food ingredients, qualitative enhancement of school feeding will be able to be promoted.

      • 中央行政機關의 政策評價 受容度 提高에 관한 硏究

        尹秀栽 中央大學校 大學院 2001 국내박사

        RANK : 248703

        본 연구는 우리나라 중앙행정기관 정책평가제도의 정착에 있어 정책피평가자의 수용도에 영향을 미치는 요인에 어떤 것이 있는지 그 핵심변수를 평가자의 능력요인, 평가도구의 합리성요인 그리고 평가과정의 효율성 요인으로 나누어 그 영향구조 밝히고자 하였다. 이에 한국 정책평가제도에 대한 전반적인 이론과 외국 정책평가제도의 연구분석을 통해 중앙행정기관 정책평가제도의 정착에 대한 문제점과 정책적 시사점을 도출하였다. 이를 통해 본 연구의 기본방향, 분석의 틀, 분석변수의 지표설정에 대한 이론적 함의를 도출하고자 하였다. 특히 미국, 영국, 캐나다, 프랑스 정책평가제도를 역사적 배경과 평가법.평가내용을 포함한 정책평가과정면에서 살펴보고, 정책평가체제 주요변수를 통해 본 외국 평가제도의 정책적 함의를 도출하였다. 연구의 대상과 범위는 시간적 측면에서 1998년 이해 오늘에 이르기까지 시행되고 있는 기관평가가 주 대상이지만, 1994년 이후 한국 정책평가제도와 관련된 사항도부분적으로 포함되었다. 공간적 측면에서 중앙정부 기관평가에 대한 평가기관인 국무조정실의 평가담당자와 정책평가위원회 평가위원 그리고 피평가기관인 각 중앙정부의 평가담당자를 대상으로 하였다. 본 연구는 펑가체제의 핵심변수인 평가자의 능력, 평가도구의 합리성, 평가과정의 효율성이 수용도에 미치는 영향, 이에 대한 평가기관과 피평가기관의 인식차이 그리고 평가교육방안 등 평가수용을 촉진하는 제도적 요인을 분석하였다. 연구의 핵심적 분석결과를 살펴보면 첫째, 평가자의 능력요인 중 평가권한에 대한 법제적 장치 정비, 업무수행에 있어 독립성 보장, 평가활동에의 근무경험이 평가결과에 대한 시정조치에 영향을 미치는 것으로 나타났다. 그리고 평가담당자가 평가활동에 대한 목적을 정책오류시정과 개선권고 같이 교정적으로 인식하는 것이 수용도 제고의 핵심변인으로 분석되었다. 특히 업무수행에 대한 독립성 보장은 평가전문연수원 설립.운영을 통한 평가교육방안에 가장 많은 응답을 보인 것과 밀접한관계가 있다. 즉 평가업무를 수행하는데 있어 독립성을 보장하는 평가전문연수원을 설립하여 운영하는 것이 평가교육을 강화시키는 가장 중요한 요인으로, 이를 통해 궁극적으로 피평가자의 수용도에 핵심적인 역할을 수행한다 할 수 있다. 둘째, 평가도구의 합리성요인 중 평가도구의 각 부처 정책오류 식별능력, 평가배점기준의 효율적 배정 그리고 평가도구의 각 기관간 실적차이 현시능력이 수용도에 영향을 주는 것으로 나타났다. 즉 평가도구의 적절성과 유용성이 시정조치이행에 영향을 주는 핵심변인으로, 특히 평가배점기준의 효율적 배정은 현 중앙행정기관 정책평가제도에 있어 각 부처마다 공통적으로 적용할 수 있는 지표의 개발도 중요하지만, 이와 함께 부처의 특성과 업무에 맞는 평가기준과 지표를 재정비하는 것이 정책평가의 수용도 제고에 긍정적인 기제로 작용한다 할 수 있다. 셋째, 평가과정의 효율성요인으로, 인센티브 등 평가결과처리 촉진유인제도 구비가 수용도 제고에 대한 가장 중요한 영향요인으로 분석되었다. 이는 정책평가제도 운영현황에 대한 국내의 문제점과 외국사례가 주는 시사점에서 나타난 결과를 재확인한 것으로, 현재 인센티브와 같은 제도적 장치가 구비되어 있지만, 정책평가체제의 수용도 향상을 위한 핵심요소로 자리잡지 못하고 있는 제�ː�현실을 반영한 것이라 할 수 있다. 넷째, 정책피평가자의 수용도에 영향을 미치는 사회적 특성요인으로, 직급과 평가관련업무 담당기간이 유의하게 나타났다. 다섯째, 정책평가의 수용도에 영향을 미치는 3대 핵심변수를 평가자와 피평가자 응답으로 나누어 비교분석한 결과, 공통적으로 도출된 영향요인은 업무수행에 있어 독립성 보장, 평가활동에의 근무경험 그리고 평가배점기준의 효율적 배정, 평가결과처리 촉진유인제도 구비로 분석되었다. 이 4가지 요인은 두 집단간의 업무와 지위가 다름에도 불구하고 공통적으로 도출된 정책평가 수용도 요인으로 그 정책적 시사점은 의미 있다 할 수 있다. 한편 평가자의 경우 평가자의 권한요인, 평가도구의 적절성과 유용성을 수용도에 영향을 주는 요인으로 인식하고 있으며, 피평가자의 경우 평가자의 능력요인과 평가과정의 효율성요인을 중요한 수용도 영향요인으로 인식하고 있음이 나타났다. 기존의 연구가 실제 평가업무를 담당하는 평가자와 피평가자간의 상호간 인식을 통한 행태적이고 실증적 분석이 없어 현상에 대한 정확한 분석측면에서 제한적 의미를 가질 수밖에 없었던 것과 결부하여 생각할 때 중요한 이론적 시사점을 주고 있다. 본 연구에서 정책피평가자의 수용도 제고에 영향을 미치는 요인들은 결국 한국 중앙행정기관 정책평가제도 발전에 대해 긍정적인 기제로 작동하여, 결국 평가수행체계에 긍정적인 환류(feedback)요인으로 자리 잡을 수 있다는 모형이 성립하였다. 즉 중앙행정기관 정책평가제도의 정착은 결국 각 중앙행정기관이 평가결과의 지적사항에 대해 얼마만큼 수용하고 정책오류시정의 계기로 삼느냐가 관건으로, 효과적인 평가활동을 통해 수용된 후 다시 평가자의 능력제고, 평가도구의 합리성제고 그리고 평가과정의 효율성제고에 환류되는 과정이 반복되어 계속적으로 순환된다면, 이는 정책평가가 원활하게 작동하고 있다는 것을 의미한다. 결국 정책피평가자의 수용도제고를 통한 중앙정부 정책평가제도의 정착을 위해서는 정책평가체계의 중요변수 모두 독립적으로 중요하지만, 어떤 한 변수에 이상이 생기면 그 정책오류를 식별하고 시정하여 긍정적 환류작용을 할 수 있도록 하는 종합적 평가모형을 개발하여 운영해야만 바람직한 귀결에 도달할 수 있다. The purpose of this thesis is to research the effect structure of the factors which affect the acceptability degree of the policy evaluation performed people in the settlement of the policy evaluation system of Korean central administration organization dividing the primary variables into the ability factor of the policy evaluator, rationality factor of the policy evaluation tool and the efficiency factor of the policy evaluation course. Hereupon, through the overall theories about the Korean policy evaluation system and the research analysis of the foreign policy evaluation system, the problem about the settlement of the policy evaluation system of the central administration organization and policy implication were induced. Through the above courses, I attempted to induce the theoretical implication about the basic direction of this study, the form of the analysis, the index establishment of the analysis variable. Especially, after examining the policy evaluation system of United States, England, Canada and France in the aspect of the policy evaluation course including the historical background, the evaluation law and the evaluation content, the policy implication of the foreign evaluation system which was seen through the major variable of the policy evaluation system was induced. On the subject and the extent of this study, in the aspect of the time, the major subject was the organization evaluation which was being performed from 1998 to today, however some articles which are related with Korean policy evaluation system since 1994 were partly included in this study. In the aspect of the space, the evaluation performer of Office for Government Policy Coordination which is the evaluation organization about the central government, the evaluation commissioner of Policy Evaluation Committee and the evaluation performer in each central government which is evaluated by them were the main subject. In this thesis, the effect, which the ability of the evaluation performer who is the core variable of the evaluation system, the rationality of the evaluation tools, and the effect which the efficiency of the evaluation course which are the core variables of the evaluation system affect upon the acceptability degree was analyzed and the difference of the recognition in both the organizations which is evaluated or the organization which evaluates about the above was analyzed and the institutional factor which promotes the evaluation acceptability such as the educational plan for the evaluation was analyzed. When examining the result of the core analysis, firstly it was shown that the preparation of the legislation tool about the evaluation authority, the guarantee of the independence in the operation performance and the work experience in the evaluation activity among the ability factors of the evaluation performer affect the correction step about the evaluation result. Additionally, the fact that the evaluation performer correctly recognizes the purpose about the evaluation activity as the policy mistake correction and the improvement recommendation was analyzed as the core variable of the rise of the acceptability degree. Especially, the guarantee of the independence about the operation performance is closely related with the fact that there are most answers on the evaluation educational plan through the establishment and the operation of the evaluation specialized research center. Namely, when performing the evaluation work, to establish and operate the evaluation specialized research center which guarantees the independence can be said to be the most important factor which strengthens the evaluation education. Through the above, it can be said that it ultimately takes an core role in the acceptability degree of the performer who is evaluated. Secondly, among the rationality factor of the evaluation it was shown that the evaluation tool's ability which can recognize the policy mistake in each department, the effective arrangement of the standard for the evaluation allotting-marks activity and the evaluation tool's representing ability for the difference of achievement in each organization affect the acceptability degree. Namely, it was proved that the relevance and the usefulness of the evaluation tool are the core variables which take the function to affect the correction step execution. Especially, on the effective arrangement of the evaluation scoring standard, the development of the index which can be applied commonly in each department in the policy evaluation system of the current central administration organization is important, however the re-preparation of the evaluation standard and the index which are appropriate with the characteristics and work in each department can be said to function as the positive denotation in the improvement of the acceptability degree of the policy evaluation. Thirdly, as the efficiency factor of the evaluation course, it was analyzed that the arrangement of the promotion attracting system for the evaluation result treatment such as the incentive system was the most important influential factor about the improvement of the acceptability degree. This fact means that the result which was shown in the domestic problem about the current operation situation of the policy evaluation system and the implication of the foreign examples was reconfirmed. This reflects that institutional reality that though the institutional tool such as the incentive system is already arranged, it cannot be settled as the core element for the improvement of the acceptability degree of the policy evaluation system. Fourthly, as the social characteristics factor which affect the acceptability degree of the policy evaluation performer who is evaluated, the position and the charging period which is related with the evaluation were shown to have a meaning. Fifthly, the result which compared and analyzed the 3 big core variables which affect the acceptability degree of the policy evaluation by dividing them into the answers of both the evaluation performing people and the evaluation performed people showed that the effect factors of the acceptability degree, which was commonly induced, were analyzed as the guarantee of the independence of the operation performance, the work experience in the evaluation activity, the effective preparation of the evaluation scoring standard and the arrangement of the promotion attraction system for the evaluation result treatment. These 4 factors are the very factors of the policy evaluation acceptability which was induced commonly in spite of the difference of the work and the title in both group and policy implication can be told to have a meaning. It was shown that, in the meantime, in case of the evaluation performing people, they recognized the authority factor of the evaluation performer, the relevance and usefulness of the evaluation tool as the factor which influences upon the acceptability degree, and in case of the evaluation performed people, they recognized the ability factor of the evaluation performer and the efficiency factor of the evaluation course as the important influencing factor upon the acceptability degree. The previous study neglected the behavioral and corroborate analysis through the mutual recognition between the evaluation performing people and the evaluation performed people who are in charge of the actual evaluation operation, consequently considering the fact that the previous study cannot escape from obtaining the limited meaning in the exact analysis aspect about the phenomenon, the fact throws an important theoretical implication. The factors which affect the improvement of the acceptability degree of the policy element performed people in this study finally operate as the positive promotion on improvement of policy evaluation in central administration organization, and in the end, the model that it can be settled as the positive feedback factor in the evaluation performance system was established. Namely, the successful settlement of the policy evaluation system of the central administration organization focuses upon how much each central administration organization receive and adopt as the opportunity of the policy mistake correction about the pointed items of the evaluation result. After being accepted through the effective evaluation activity, the course, where once more the improvement on the ability of the evaluation performing people, the improvement on the rationality of the evaluation tool, and the improvement on the efficiency of the evaluation course are repeated and continuously circulated, this means the policy evaluation is being smoothly operated. In the long run, for the establishment of the policy evaluation system of the central government through the improvement of the acceptability degree of the policy evaluation performed people, all the important variables of the policy evaluation system are respectively essential, but if abnormality is found in one variable, the evaluation model which enables to discriminate the policy mistake and then rectify the abnormality, and finally to make the positive circulating function feasible should be developed and maintained in order to acquire the desirable conclusion.

      • 친환경건축물 인증평가 도구 개발에 관한 실증적 연구

        이승민 경북대학교 일반대학원 2007 국내박사

        RANK : 248703

        본 연구의 목적은 현재 수작업으로 수행되는 친환경건축물 인증작업의 효율성을 높이기 위한 인증평가 도구를 개발하는 것이며, 인증평가 도구를 모든 용도의 건물에 적용하기 위해 현재 시행 중인 공동주택, 주거복합 건축물, 업무용 건축물, 학교시설, 판매시설, 숙박시설 인증기준뿐만 아니라 이것을 제외한 모든 용도의 건물을 평가할 수 있는 인증기준을 포함하였다. 그리고 실제 인증받은 용도별 건물을 대상으로 인증평가 도구를 시범운영하여 평가결과를 분석한 후 수작업에 의한 결과와의 비교, 인증평가 도구의 이용에 의한 이점 확인 및 향후 개선방향 검토, 사례건물의 환경친화적 성능 분석 및 추가득점이 가능한 항목의 검토를 통해 실증작업을 수행하였다. 또한 평가자가 쉽게 이용할 수 있도록 매뉴얼을 작성하였다.

      • 인공지능(AI) 기반 동작 인식 알고리즘을 활용한 태권도 품새 평가도구 개발

        이지용 한국체육대학교 일반대학원 2022 국내박사

        RANK : 248703

        This study aims to develop a tool for the evaluation of Taekwondo Poomsae based on an algorithm for the recognition of Taekwondo motions. Concretely, first, this study developed algorithms for the recognition of the basic motions in Taekwondo Poomsae, utilizing motion recognition algorithms. To do so, from 64 black-belt holders in a level higher than Taekwondo 1 Dan (First Degree), who could perform Taekwondo Taegeuk 1 Jang, Taegeuk 1 Jang videos were collected, and EfficientNet B4 Model was adopted as the final deep learning model to classify Taekwondo motions. Second, utilizing the developed algorithms for the recognition of the basic motions of Taekwondo Poomsae, the optimum models for the evaluation of Taekwondo Poomsae were selected. To draw a result better than the performance in the developed single model, an ensemble technique was utilized. Third, utilizing the selected optimum models, a tool for the evaluation of Taekwondo Poomsae was developed and applied. As an artificial intelligence-based Taekwondo Poomsae evaluation tool, Python’s PyQt5 Library was used, and it has a series of system that can conduct video insertion (input), motion classification (processing), and Poomsae result information provision (output). It does not simply classify motions, but they are matched according to the designated classified motions of Taegeuk 1 Jang Poomsae, and finally, the success or failure of Taegeuk 1 Jang can be judged. The conclusions of this study are as follows. First, according to the point of view of the camera and the shape of the image, algorithms for the recognition of 27 basic motions in Taekwondo Poomsae were developed. Of the 27 algorithms developed, the algorithm that showed the best performance achieved an accuracy of 96.1% to the maximum. Second, an ensemble model was developed to improve the performance of the algorithm for the recognition of the basic motions in Taekwondo Poomsae. This study selected nine ensemble models that were finally developed as the optimum models for the evaluation of Taekwondo Poomsae. Third, utilizing the selected optimum model, this study developed an artificial intelligence-based Taekwondo Poomsae evaluation tool. Of the nine models developed, the model that showed the best performance achieved an accuracy of 100.0% to the maximum. In conclusion, this study developed an artificial intelligence-based Taekwondo Poomsae evaluation tool, utilizing the Taekwondo motion recognition algorithm. This study can be utilized as a useful tool in providing objective judgment in the Taekwondo Poomsae evaluation site and can further be utilized as the baseline information in evaluating motions in various sports events. 이 연구는 태권도 동작 인식 알고리즘을 기반으로 태권도 품새 평가도구를 개발하는데 목적이 있다. 구체적으로 첫째, 동작 인식 알고리즘을 활용하여 태권도 품새 기본 동작 인식 알고리즘을 개발하였다. 이를 위해 태권도 태극 1장을 수행할 수 있는 태권도 1단 이상 유단자 64명을 대상으로 태극 1장 영상을 수집하였으며, EfficientNet B4 모델을 태권도 동작을 분류하는 최종 딥러닝 모델로 채택하였다. 둘째, 개발된 품새 기본 동작 인식 알고리즘을 활용하여 태권도 품새 평가 최적 모델을 선정하였다. 개발된 단일 모델에서의 성능보다 더 나은 결과를 도출하기 위해 앙상블(Ensemble) 기법을 활용하였다. 셋째, 선정된 최적 모델을 활용하여 태권도 품새 평가도구를 개발하고 실제 적용해보았다. 인공지능 기반 태권도 품새 평가도구는 Python의 PyQt5 라이브러리를 이용하였으며, 영상삽입(입력) - 동작분류(처리) - 품새결과정보제공(출력)을 할 수 있는 일련의 체계를 지니고 있다. 단순히 동작을 분류할 뿐만 아니라 지정해놓은 태극 1장 품새 구분 동작에 따라 매칭되어 최종적으로 태극 1장의 성공여부를 판단할 수 있다. 이 연구의 결론은 다음과 같다. 첫째, 카메라 시점과 이미지 형태에 따라 27개의 태권도 품새 기본 동작 인식 알고리즘을 개발하였다. 개발된 27개의 알고리즘 중 가장 좋은 성능을 나타낸 알고리즘은 최대 96.1%의 정확도를 달성했다. 둘째, 태권도 품새 기본 동작 인식 알고리즘의 성능을 높이기 위해 앙상블 모델을 개발하였다. 이 연구에서는 최종적으로 개발된 9개의 앙상블 모델을 태권도 품새 평가 최적 모델로 선정하였다. 셋째, 선정된 최적 모델을 활용하여 인공지능 기반 태권도 품새 평가도구를 개발하였다. 개발된 9개의 모델 중 가장 좋은 성능을 나타낸 모델은 최대 100.0%의 정확도를 달성했다. 결론적으로 이 연구에서는 태권도 동작 인식 알고리즘을 활용하여 인공지능 기반 태권도 품새 평가도구를 개발하였다. 이는 태권도 품새 심사 현장에서 객관적인 판정을 제공하는데 유용한 도구로 활용할 수 있을 것이며, 더 나아가 다양한 스포츠 종목의 동작 평가를 하는데 기초정보로 활용될 수 있을 것이다.

      • 뇌졸중 환자 균형 평가에 대한 물리치료사의 인식과 평가 실태

        장호영 삼육대학교 대학원 2015 국내석사

        RANK : 248703

        뇌졸중 후 균형 문제는 일상생활동작(activities of daily living, ADL)과 보행 회복에 부정적이고 낙상(fall)의 위험도를 증가시킨다. 뇌졸중 환자에 대한 객관적인 균형 평가는 균형 능력 향상을 위한 근거 중심 치료(evidence-based practice, EBP)에 중요한 부분이다. 이에 본 연구는 뇌졸중 환자 균형 평가에 대한 물리치료사의 인식과 평가 실태를 조사하고 실태에 영향을 미치는 요인을 알아보기 위하여 시행하였다. 연구 대상자는 서울, 경기 지역에 상급종합병원, 종합병원, 병원, 요양병원, 복지관 등에 근무하는 뇌졸중 환자를 치료하고 있거나 치료한 경험이 있는 물리치료사를 대상으로 하였다. 총 516부의 설문지를 배포하여 481부의 설문지를 회수하였고 회수된 자료에서 설문에 동의하지 않거나 중복 답변한 경우 그리고 답변이 없는 설문지 99부를 제외하고 382부를 바탕으로 분석하였다. 응답자 중 남자가 239명, 여자 143명으로 남자가 많았고, 30세 이하가 247명 64.7%로 가장 많았으며, 최종 학력은 4년제 대학교 졸업이 202명으로 가장 많았다. 뇌졸중 환자를 치료한 경력이 5년 이하가 268명으로 가장 많았으며, 일일 치료 건수는 10건에서 14건 치료한다가 278명 72.8%로 가장 많았다. 응답자의 근무처는 상급종합병원 64명, 종합병원 62명, 병원 246명 그리고 기타 10명이였고 지역은 서울이 247명, 경기도가 135명이였다. 균형 요인에 대한 인식에서 자세 정렬(297명, 77.8%), 정적 안정성(318명, 83.3%), 동적 안정성(317명, 83%), 반응적 조절(211명, 55.4%), 기능적 과제 수행에서 균형(242명, 68.9%), 운동계(284명, 74.4%), 감각계(244명, 64%), 인지(214명, 56.1%)의 8가지 균형 요인 중 정적 안정성(static stability)에 대한 인식도가 가장 높았으며 반면 반응적 조절(reactive control)은 가장 낮게 나타났다. 뇌졸중 환자 균형 평가 시 11가지 개별 평가도구에 대한 인식도 조사에서 한발 서기 검사(287명, 75.2%)를 가장 유용하다고 생각했으며 버그 균형 척도(267명, 70.2%)와 팔 뻗기 검사(265명, 68.5%)를 또한 많이 유용한 평가도구로 생각하고 있었다. 평가에 대한 포괄적 인식을 알아보기 위한 4가지 질문에서 306명(80.2%)이 평가도구를 사용해 측정을 정량화하는 것이 환자 치료에 중요하다고 생각하고 있었으며, 219명(57.4%)은 기존의 표준화된 평가도구들이 환자 치료에 적합하다고 생각하고 있었으나, 168명(44.1%)만이 기존의 표준화된 평가도구들이 환자의 손상 정도를 충분히 정량화 할 수 있다고 했으며, 아울러 115명(30.3%)이 기존의 평가도구들이 균형의 모든 측면을 평가 할 수 있다고 생각하고 있었다. 뇌졸중 환자 균형 평가 시 평가도구 평가 실태 조사에서 11가지 개별 평가도구 중 한발 서기 검사(254명, 66.6%)를 가장 많이 평가하고 있었으며 팔 뻗기 검사(199명, 51.9%)와 버그 균형 척도(191명, 50.2%)를 많이 사용하였다. 반면 BBA(Brunel balance assessment)는 12명(3.1%)만이 사용한다고 해 가장 낮은 평가 실태를 보였다. 일반적 특성 중 뇌줄중 환자 치료 경력은 균형 요인에 대한 인식, 뇌졸중 환자 균형 평가 시 개별 평가도구에 대한 인식 그리고 평가에 대한 포괄적인 인식과 교차분석에서 모두 유의한 차이를 보였으며, 균형 요인에 대한 인식, 개별 평가도구에 대한 인식과 평가에 대한 포괄적인 인식도는 개별 평가도구에 대한 평가 실태와 정적 상관관계를 보였다. 또한 단계적 다중회귀분석 결과에서 균형 요인에 대한 인식, 개별 평가도구에 대한 인식, 평가에 대한 포괄적인 인식도는 평가도구 평가 실태에 영향을 미치는 것을 알 수 있었다. 본 연구를 통해 뇌졸중 환자 균형 평가 시 물리치료사들의 평가도구에 대한 인식과 평가 실태 조사를 통해 한 발 서기 검사를 가장 유용하게 생각하고 많이 평가 했으며 반면 BBA는 가장 낮은 인식과 평가 실태를 보였다. 균형 요인에 대한 인식, 개별 평가도구에 대한 인식과 평가에 대한 포괄적인 인식도 그리고 개별 평가도구 평가 실태는 상관관계를 가졌고 평가 실태에 영향을 미치는 요인으로는 균형 요인에 대한 인식과 개별 평가도구에 대한 인식 그리고 평가에 대한 포괄적 인식도였다. 그러나 물리치료사들이 왜 한 발 서기 검사를 가장 유용하게 생각하고 많이 평가하는지 BBA는 왜 가장 낮은 인식과 평가 실태를 보이는지에 대해 추후 연구에서는 물리치료사들이 평가도구를 선택하는데 있어 어떤 요인들이 의사 결정(decision making)에 영향을 미치는지에 대한 연구가 필요할 것이다.

