RISS 학술연구정보서비스

검색
다국어 입력

http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.

변환된 중국어를 복사하여 사용하시면 됩니다.

예시)
  • 中文 을 입력하시려면 zhongwen을 입력하시고 space를누르시면됩니다.
  • 北京 을 입력하시려면 beijing을 입력하시고 space를 누르시면 됩니다.
닫기
    인기검색어 순위 펼치기

    RISS 인기검색어

      검색결과 좁혀 보기

      선택해제
      • 좁혀본 항목 보기순서

        • 원문유무
        • 음성지원유무
        • 학위유형
        • 주제분류
          펼치기
        • 수여기관
          펼치기
        • 발행연도
          펼치기
        • 작성언어
        • 지도교수
          펼치기

      오늘 본 자료

      • 오늘 본 자료가 없습니다.
      더보기
      • 멀티모달 인터페이스 개발을 위한 휴먼-컴퓨터 인터랙션 설계

        임미정 아주대학교 2006 국내석사

        RANK : 248703

        멀티모달 인터페이스는 인간의 제스처, 시선, 손의 움직임, 행동의 패턴, 음성, 물리적인 위치 등 인간의 자연스러운 행동들에 대한 정보를 해석하고 부호화하는 인지기반 기술이다. 멀티모달 인터페이스는 인간과 컴퓨터 인터랙션 과정에서 동시 여러 모달리티의 입출력을 허용하며 다수의 모달리티의 조합과 입력 신호 통합해석 등을 통해 상호 의사교환을 한다. 모달리티(Modality)란 인터랙션 과정에서 사용되는 커뮤니케이션 채널을 의미한다. 현재 시스템에서 휴먼-컴퓨터 인터랙션은 한 번에 한 가지 사용자 입력을 허용하기 때문에 하나의 오브젝트가 활성화되면 다른 오브젝트들은 모두 비활성화되어 두 개 이상의 오브젝트의 동시적 입력이 불가능하다. 그러나 멀티모달 인터페이스에서는 청각이나 촉각 등의 모달리티 입력은 동시 입력이 가능하여 여러 프로세스의 동시적 제어가 가능하다. 본 연구에서는 멀티모달 병렬입력을 효율적으로 설계하기 위해 Dual-Task 및 병렬 정보 처리와 관련한 인간의 주의(attention) 작용에 대해 살펴보고 생리학적, 인지학적, 심리학적 관점에서 고려해야 할 멀티모달 인터페이스 요구사항에 대해 살펴본다. 또한 W3C(월드와이드웹컨소시엄)와 ETSI(유럽표준화기구)에서 발표한 표준화 문서들을 바탕으로 멀티모달 인터랙션 프레임워크에서 고려되어야 할 시스템적 요구사항과 관련 기술들을 분석하고 입출력 모달리티들에 대한 특징들을 조사한다. 그리고 표준화 내용을 바탕으로 멀티모달 인터페이스와 관련한 모달리티 결합방법과 입력문법, 동기화 방법, 멀티모달 메타포, 화면 출력 형식 등을 설계한다. 멀티모달 인터페이스는 인간의 제스처, 시선, 손의 움직임, 행동의 패턴, 음성, 물리적인 위치 등 인간의 자연스러운 행동들에 대한 정보를 해석하고 부호화하는 인지기반 기술이다. 멀티모달 인터페이스는 인간과 컴퓨터 인터랙션 과정에서 동시 여러 모달리티의 입출력을 허용하며 다수의 모달리티의 조합과 입력 신호 통합해석 등을 통해 상호 의사교환을 한다. 모달리티(Modality)란 인터랙션 과정에서 사용되는 커뮤니케이션 채널을 의미한다. 현재 시스템에서 휴먼-컴퓨터 인터랙션은 한 번에 한 가지 사용자 입력을 허용하기 때문에 하나의 오브젝트가 활성화되면 다른 오브젝트들은 모두 비활성화되어 두 개 이상의 오브젝트의 동시적 입력이 불가능하다. 그러나 멀티모달 인터페이스에서는 청각이나 촉각 등의 모달리티 입력은 동시 입력이 가능하여 여러 프로세스의 동시적 제어가 가능하다. 본 연구에서는 멀티모달 병렬입력을 효율적으로 설계하기 위해 Dual-Task 및 병렬 정보 처리와 관련한 인간의 주의(attention) 작용에 대해 살펴보고 생리학적, 인지학적, 심리학적 관점에서 고려해야 할 멀티모달 인터페이스 요구사항에 대해 살펴본다. 또한 W3C(월드와이드웹컨소시엄)와 ETSI(유럽표준화기구)에서 발표한 표준화 문서들을 바탕으로 멀티모달 인터랙션 프레임워크에서 고려되어야 할 시스템적 요구사항과 관련 기술들을 분석하고 입출력 모달리티들에 대한 특징들을 조사한다. 그리고 표준화 내용을 바탕으로 멀티모달 인터페이스와 관련한 모달리티 결합방법과 입력문법, 동기화 방법, 멀티모달 메타포, 화면 출력 형식 등을 설계한다.

      • 멀티모달메타포(Multimodal-Metaphors)를 활용한 표지 일러스트레이션 연구 : 〈차이나데일리(China Daily)〉 표지의 시대적 가치를 중심으로

        Wang, Xin 세종대학교 대학원 2024 국내박사

        RANK : 248703

        2009년, 찰스 포스빌(Charles Forceville)을 필두로 한 학자들은 모달리 티(modality) 방식의 메타포적 표현을 탐구하기 위해 끊임없는 노력을 기울 였다. 멀티모달(multimodal)은 이미지, 음성, 문자, 구성, 문법, 조형 등 다양 한 매개 기호가 한데 융합되어 있다. 여기서 매개 기호는 감각의 조정 효과 를 충분히 동원하고 정보를 전달하며 감정을 교환한다. 또한 설득 및 의미 전달의 기능도 가지고 있다. 본 연구는 멀티모달 메타포(multimodal-metaphors) 이론을 사용하여 현상을 분석하고 연구하였다. 본 연구의 대상은 2017년부터 2022년까지 발행된 〈차이나데일리(China Daily)〉표지 일러스트레이션이다. 본 연구의 이론과 분석틀은 텍스트 모달리 티, 문법 모달리티, 언어 환경 모달리티를 기반으로 한다. 본 연구는 구체적 으로 표지 일러스트레이션의 시각적 텍스트, 시각적 문법과 연구 모델을 제 안하였다. 그 자세한 내용은 다음과 같다. 첫째, 표지 일러스트레이션 시각 텍스트에서 자주 사용되는 시각적 기호 메타포를 분석하였다. 표지 일러스트레이션의 시각적 텍스트에는 지역 및 국 가 특성을 나타내는 동식물과 현대화의 장면들이 자주 등장한다. 시각적 요 소는 텍스트 의미를 구성하는 과정에서 비교적 명확한 매타포적 의미를 전달 할 수 있다. 여기서 메타포적 방식은 전체를 부분적으로 대체하는 것이다. 이 방식은 표지 일러스트레이션 텍스트의 의미 해석 방향을 한정하고 텍스트 의 의미를 최대한 구체화할 수 있다. 둘째, 시각적 문법 중 재현의미(repres entational meaning), 상호작용의미(interactional meaning), 구성의미(compo sitional meaning) 세 가지 지표를 통해 표지 일러스트레이션의 시각 문법 적 메타포를 분석하고 연구하였다. 표지 일러스트레이션은 개념의 분류, 분 석 과정을 바탕으로 일러스트레이션의 정보 재현을 완성하였다. 화면 인물 의 동작 행동과 시선 활동을 통해 화면 상호작용의 의미를 실현된다. 또한 표지 일러스트레이션의 방위 정보를 기초로 화면 전체의 의미를 구현하게 된다. 셋째, 표지 일러스트레이션의 어의적 해석의 맥락 분석을 통해 멀티 모달 메타포 선택 방안을 도출하였다. 〈차이나데일리〉표지 일러스트레이션 은 전략적으로 시각적 기호를 선택하였다. 각 일러스트레이션은 소스 도메인(so urce domain)의 특성을 중국개발 타겟 도메인(target domain)에 적용하는 모습을 보이고 있다. 본 연구에서는 멀티모달 이론을 바탕으로 <차이나데일리> 표지 일러스 트레이션을 분석·연구하여 신문 뉴스 표지 일러스트레이션의 의미가 이루 어지는 현실 문제에 접근하였다. 또한 〈차이나데일리〉가 국가 미디어 플랫 폼으로서 시각적 자원을 활용하고, 멀티모달 메타포 수단을 통해 시각 기호 에 내재되어 있는 문화적 의미를 도출하는 과정을 분석하였다. 멀티모달 메 타포 분석을 사용하여 〈차이나데일리〉 표지 일러스트레이션의 시각적 텍 스트, 텍스트 인코딩의 시각적 문법, 텍스트 의미 해석의 언어환경 등에서 다양한 인식 모달을 분석한다. 이로써 이 멀티모달이 상호 작용하는 방법과 표지 일러스트레이션의 전반적인 의미 출력을 어떻게 조화롭게 실현하는지 찾을 수 있다. 표지 일러스트레이션의 의미 구성에 대한 연구는 시각 텍스 트에서 멀티모달 메타포 이론의 의미 구성 가능성을 검증할 수 있으며, 나 아가 언어 텍스트 모달에서 이미지 텍스트가 쉽게 드러나지 않는 특징도 밝힐 수 있다. 주요어 : 멀티모달 메타포, 표지 일러스트레이션, 텍스트, 시각적 문법, 언어 환경, 의미 구성

      • 인터랙티브 미디어 아트에서 터치디자이너 설계기반의 멀티모달 인터랙션에 관한 연구 : 본인 작품 <BE YOURSELF>를 중심으로

        CHENCHUXIN 중앙대학교 첨단영상대학원 2024 국내석사

        RANK : 248703

        본 논문은 주로 인터랙티브 미디어 아트에서 멀티모달 인터랙션(Multimodal Interaction)을 연구 방향으로 인터랙티브 미디어 아트에서 멀티모달 인터랙션의 디자인 방법을 탐구하였다. 그리고 뉴미디어 창작 플랫폼 터치디자이너(TouchDesigner)와 결합하여 멀티모달 인터랙션 디자인의 더 많은 가능성을 탐구하였다. 먼저 문헌 연구법을 통해 인터랙티브 미디어 아트의 정의를 확정하고 역사를 분류하였다. 그리고 인터랙티브 미디어 아트의 특성을 정리하고 인터랙티브 미디어 아트 작품을 만들기 위해 일반적으로 자주 사용되는 뉴미디어 창작 소프트웨어를 조사하였다. 이어서 멀티모달 인터랙션의 정의를 확정하고 그것의 특성, 포함된 상호 작용 유형 및 인터랙티브 미디어 아트에서의 실용성을 정리하였다. 조사를 통해 터치디자이너는 같은 유형의 뉴미디어 제작 소프트웨어에서 큰 강점을 가지고 있다는 것을 알 수 있었다. 따라서 터치디자이너와 멀티모달 인터랙션의 결합은 다양하고 독특한 인터랙티브 미디어 아트 작품을 더욱 쉽게 만들 수 있었다. 본 논문에서는 터치디자이너에 대한 조사를 통해 터치디자이너의 관련 지식과 갖추어진 기능을 정리하고, 터치디자이너와 멀티모달 인터랙션의 결합 방식을 관련 사례를 결합하여 분석하였다. 마지막으로 저자의 작품 <BE YOURSELF> 분석을 통해 작품의 설계 이념과 제작 단계를 상세히 설명하고, 터치디자이너와 멀티모달 인터랙션의 결합 과정을 자세히 보여주고, 터치디자이너에 기반의 멀티모달 인터랙션 디자인의 타당성, 독특성 및 혁신성을 명확히 하고, 더 많은 뉴미디어 창작자가 이를 기반으로 더 많은 디자인 아이디어와 결합 방법을 탐색하고, 자신만의 인터랙티브 미디어 예술 작품을 만들도록 격려한다. This thesis mainly explores the design method of multi-modal interaction in interactive media art, and explores the possibilities of multi-modal interaction design with Touchdesigner. Firstly, through the literature research method, this paper determines the definition of interactive media art, combs the history of interactive media art, organizes the characteristics of interactive media art.Then, define the multimodal interaction, organize its characteristics, the types of interactions included, and its practicality in interactive media art. TouchDesigner is known to have a great advantage as a new media production software of the same type.Touchdesigner's combination with multimodal interaction makes it easier to create diverse and unique interactive media artworks.Through the investigation of TouchDesigner, this paper collates the relevant knowledge and functions of TouchDesigner, and analyzes the ways of combining TouchDesigner and multi-modal interaction. Finally, through the analysis of my work <BE YOURSELF>, the design concept and production steps are elaborated, and the combination process of Touchdesigner and multi-modal interaction is shown in detail.

      • 멀티모달 데이터 융합 및 지식 추출에 대한 연구 : 자동 생성 주석 기반 멀티모달 데이터 융합 및 지식 추출 기법 설계 및 구현

        고효진 가천대학교 글로벌캠퍼스 일반대학원 2024 국내석사

        RANK : 248703

        최근 AI 분야의 중요한 연구 과제는 다양한 데이터 소스에서 의미 있는 정보를 얻고 이를 작업에 활용하는 것이다. 개체명 인식과 관계 추출에 초점을 맞춰오던 기존의 방법들은 표면적인 방법에만 집중하기 때문에 원시 데이터에 잠재된 정보를 활용하지 못하는 경우가 많다. 이러한 문제를 해결하기 위해 본 논문에서는 멀티모달 환경에서의 심층 문맥 정보를 반영한 지식 추출 기법을 제안한다. 제안하는 방법은 데이터 간의 관계와 맥락을 보다 포괄적으로 고려하여 정보 추출 능력을 향상시킬 수 있도록 설계되었다. 이는 멀티모달 지식 그래프를 구성 할 수 있도록 이미지와 텍스트 데이터 모두에서 정보를 추출한다. 이때 이미지에 대한 주석을 자동으로 생성하고 이미지의 의미적 정보를 활용하여 이미지와 텍스트 간의 상관관계를 강화할 수 있다. 원본 데이터와 이미지 주석 문장의 융합은 이미지와 텍스트 사이의 시각적 연결고리로서 다른 형식 간의 이질성을 완화 해 효과적인 지식 추출을 가능하게 한다. 마지막으로 다양한 데이터에서 풍부한 정보를 추출하는 멀티모달 심층 문맥 지식 추출기법의 성능을 검증하기 위한 실험을 진행한다.

      • 멀티모달과 테크놀로지 교수내용지식(TPACK) 관점에서 설명 동영상 설계 전략 탐색

        김예인 이화여자대학교 대학원 2024 국내석사

        RANK : 248703

        As technology advances at an accelerated pace, diverse forms of online platforms for learning content are expanding. This trend provides more sophisticated learning experiences, opening new horizons in education. Recently, the use of explainer videos, which summarize concepts within approximately 3~5 minutes using multimodal(visual, textual, etc.) data, has gained attention in video-based learning. In response to this trend, there is an emphasis on educators taking on the role of creators by designing and producing explainer videos. Analyzing the specific characteristics of multimodal design strategies used by educators when designing explainer videos is crucial in the context of these contemporary demands. Multimodal refers to the use of various formats such as text, images, and illustrations to convey information. In explainer videos, considering multimodal elements is essential because the educator's knowledge is represented through these elements. However, designing videos solely based on multimodal strategies may lead to errors, such as misrepresentations, as educators aim to convey specific content. Therefore, it is necessary to explore the relationship between multimodal elements and Technological Pedagogical and Content Knowledge(TPACK) when designing explainer videos. TPACK refers to the combination of a teacher's Content Knowledge(CK), Pedagogical Knowledge(PK), and Technological Knowledge(TK), which interact and transform within the teaching and learning process. However, since TPACK is implicit knowledge within educators, externalization or representation tasks are required. This study aims to explore the relationship between multimodal and TPACK by analyzing the representation strategies of multimodal TK and PK in educational explainer videos. To achieve this, a qualitative analysis of explainer videos from prominent educational platforms(EBS, Khan Academy, Udemy) was conducted The research questions are as follows: 1. What are the frequent multimodal Technological Knowledge(TK) and Pedagogical Knowledge(PK) representation strategies in explainer videos? 1-1. What are the platform-specific frequent multimodal Technological Knowledge(TK) and Pedagogical Knowledge(PK) representation strategies? 1-2. What are the subject-specific frequent multimodal Technological Knowledge(TK) and Pedagogical Knowledge(PK) representation strategies? 2. Is there a relationship between multimodal Technological Knowledge(TK) and Pedagogical Knowledge(PK) representation strategies in explainer videos? 3. From the perspectives of multimodal and Technological Pedagogical and Content Knowledge(TPACK), what design strategies need to be considered when producing explainer videos? In this study, to associate multimodal and Technological Pedagogical Content Knowledge(TPACK), the narrator's multimodal use was considered as Technological Knowledge(TK) representation strategy. Accordingly, Content Knowledge(CK) was viewed as ‘what’ of strategy use, Pedagogical Knowledge(PK) as ‘why’, and TK as ‘how’, Precise discourse analysis of CK, requiring in-depth speech analysis, was not conducted independently to explore the relationship between TK and PK. However, as excluding CK entirely from the TK and PK analysis process is not feasible, the scope of TPACK analyzed in this study ultimately corresponds to the intersection of TK, PK, and CK, known as Technological Pedagogical Knowledge(TPK), Technological Content Knowledge(TCK), and Pedagogical Content Knowledge(PCK). The research method followed the multimodal technology knowledge(TK) and pedagogical knowledge(PK) representation strategy analysis procedure by Serafini and Reid(2019) to analyze 20 qualitative explanation videos from various platforms(EBS, Khan Academy, Udemy) and subjects(mathematics, science, English, social studies, computing). Video selection criteria were based on the consideration that the narrator's multimodal TK representation strategy might vary depending on the video's form and content. The multimodal TK coding system was based on Tang et al. (2023) coding system, consisting of three areas: Written(Freehand, Type font, Mathematical-Scientific), Visual(Drawing, Table, Graph, Concept organizer, Map, Photograph, Animation, Video), and Annotation(Pointing, Underlining, Enclosing, Marking, Linking). The forms of each design element were categorized into real-time forms(Live creation) and pre-prepared forms(Prepared insertion) where the narrator's multimodal use appears either as an ongoing process or in a completed form. Uncommon or impossible areas, such as the narrator editing a photograph in real-time, were marked as ‘Not Possible’ The PK coding system was inductively developed by referencing Park et al. (2022) representation strategies in educational videos. It consisted of Attention, Comparing/Contrast, Emphasising, Connection, Example, Blanking/Delaying, Questioning, and Summarising. The research results are as follows. Firstly, examining the overall frequency of multimodal TK utilization in the analyzed 20 explanation videos, Annotation-Pointing-Live creation(APL) was most frequently used, followed by Written-Freehand-Live creation(WFL) and Written-Type font-Prepared insertion(WTP). Across platforms, APL was consistently the most frequently used, with EBS and Khan Academy mainly using WFL, and Udemy relying on WTP. Across subjects, APL was the most frequently used in all subjects, except for mathematics, which preferred real-time Mathematical/Scientific symbols(WML), and computing, which favored Prepared Type font(WTP). Secondly, examining the overall frequency of multimodal PK utilization in the analyzed 20 explanation videos, Attention was the most frequently used, followed by Emphasising, Connection, and Example. Blank creation/Delaying and Summarising showed relatively low frequencies. Across platforms, Attention was consistently the most frequently used, with EBS and Udemy using Emphasising more, and Khan Academy favoring Connection. Blank creation/Delaying and Summarising were low-frequency strategies across all platforms. Across subjects, Attention was the most frequently used in all subjects. Mathematics videos used Connection, science videos used Example, English and social studies videos used Emphasising. Thirdly, regarding the multimodal TK-PK relevance, APL-Attention was the most frequently used, followed by AEL-Emphasising, AUL-Emphasising/AML-Emphasising, and ALL-Connection. Across platforms, EBS mainly used AEL-Emphasising, Khan Academy used AML-Emphasising, and Udemy relied on WTP-Attention. Across subjects, mathematics videos used AMP-Attention/WMP-Example, science videos used VDL-Example, English videos used AEL-Emphasising, social studies videos used AEL-Emphasising, and computing videos used VVP-Example. Lastly, three patterns of explanation video design strategies were derived based on video types. Type 1 videos(narrator/Physical Whiteboard), a segmented coding style predominated, linked to frequent verbalizations without the presence of the narrator's technical knowledge(TK). Keller(1987) relevance strategy was somewhat frequently employed. In terms of multimodal TK design, there was a notable utilization of written elements, while in PK design, emphasis and concentration were prominent. The use of multimodal TK-PK interactions mainly featured APL(real-time pointing annotations) for concentration and AEL(real-time bundled annotations) for emphasis. The EBS platform is recommended as a reference for designing Type 1 videos, particularly for creating content focused on causal relationships and grammar explanations. Type 2 videos(No narrator/Virtual Whiteboard), a decentralized coding style predominates, stemming from the diverse and complex use of multimodal elements by the narrator. The utilization of Keller(1987) relevance strategy is minimal, resulting in infrequent appearances of intro/outro sequences. In terms of multimodal TK design, there is a high reliance on visual elements, while in PK design, emphasis is placed on concentration, highlighting, linking, and providing examples. The usage of multimodal TK-PK interactions mainly includes APL(real-time pointing annotations) for concentration, AML(real-time marking annotations) for emphasis, AUL(real-time underline annotations) for emphasis, and VDL(real-time drawing/graphics) for providing examples. The Khan Academy platform is recommended as a reference for designing Type 2 videos, particularly for creating content focused on explaining phenomena. Type 3 videos(No narrator/PowerPoint), the coding primarily took a linear form, attributed to the limited use of multimodal elements by the narrator. Similar to Type 2 videos, Type 3 videos showed minimal utilization of Keller(1987) relevance strategy, with scarce occurrences of intro/outro sequences. In terms of multimodal TK design, there was a high utilization of prepared TK, while in PK design, emphasis was placed on concentration, highlighting, linking, and providing examples. The use of multimodal TK-PK interactions mainly featured APL(real-time pointing annotations) for concentration and WTP(prepared typing text) for concentration. The Udemy platform is recommended as a reference for designing Type 3 videos, particularly for creating content focused on explaining sequential concepts. This study holds several significances. Firstly, it introduces an extended research method by utilizing multimodal content analysis to externalize Technological Pedagogical Content Knowledge(TPACK) and qualitatively analyze the dimensions of Mishra and Koehler(2006) TPACK relationships. Secondly, through the analysis of the relationship between multimodal Technological Knowledge(TK) and Pedagogical Knowledge(PK), it highlights the challenge of clearly distinguishing Content Knowledge(CK), PK, and TK within the TPACK framework. This underscores the need to surpass the limitations of existing TPACK research. Thirdly, by examining the design characteristics of explanatory videos, the study emphasizes that traditional teaching strategies may not be universally effective. It suggests the importance of adapting teaching strategies based on the contextual needs, promoting a flexible and context-aware approach in instructional design. The limitations and suggestions for future research in this study are as follows. First, additional validation of the coding system used in this study is necessary, so it is proposed that future research abbreviate and reevaluate the coding system. Second, although this study derived explanatory video design strategies from a multimodal and Technological Pedagogical Content Knowledge(TPACK) perspective, it acknowledges a limitation in not separately analyzing Content Knowledge(CK) within TPACK. Therefore, for future research, it is suggested to incorporate the Oral mode into the analysis for a more precise TPACK examination. Third, considering the presence of videos not directly produced by the narrator in this study(all EBS platform videos), future research is recommended to analyze videos produced by narrators from various subject areas for a more diverse and comprehensive analysis. Fourth, since the primary objective of this study did not involve validating the effectiveness of selected videos, there is a need for future research to conduct effectiveness verification studies targeting actual learners to evaluate the impact of explanatory video design strategies on learning outcomes. 테크놀로지의 발전이 가속화되면서 다양한 형태의 온라인 플랫폼을 활용한 학습 콘텐츠가 확장되고 있다. 이러한 트렌드는 더욱 정교한 학습 경험을 제공하며, 학습의 새로운 지평을 열고 있다. 최근에는 멀티모달(Multimodal) 자료를 통해 3~5분 내외로 간단한 개념을 요약적으로 제시하는 설명 동영상(Explainer video)이 영상 기반 학습에서 화두가 되고 있다. 이에 교수자들에게 설명 동영상을 직접 설계하고 제작하는 크리에이터로서의 역할이 강조되고 있다. 이러한 시대적 요구에 따라 교수자들이 설명 동영상을 설계할 때 사용하는 구체적인 멀티모달 설계 전략 특성을 분석할 필요성이 제기된다. 멀티모달이란 텍스트, 이미지, 일러스트레이션 등의 다양한 양식을 사용하여 정보를 전달하는 것을 의미한다. 설명 동영상에서 설명자가 멀티모달을 고려해야 하는 이유는 영상에서 설명자의 지식이 멀티모달 요소를 통해 표상되기 때문이다. 하지만, 설명자는 목적이 있는 내용 전달을 목표로 하기 때문에 멀티모달만 고려한 영상 설계 전략은 설명자의 오개념 표상과 같은 오류를 범하기 쉽다. 따라서 설명 동영상 설계 시 멀티모달 요소와 함께 내용적인 특성을 고려할 수 있는 테크놀로지 교수내용지식(Technological Pedagogical and Content Knowledge, 이하 TPACK)을 함께 살펴볼 필요성이 있다. TPACK이란 교수자의 내용지식(Content Knowledge, 이하 CK)과 교수지식(Pedagogical Knowledge, 이하 PK), 테크놀로지 지식(Technological Knowledge, 이하 TK) 역량을 의미하는데, 이들은 서로 유기적인 상호작용을 하며 변형, 유지, 생성된다(Mishra & Koehler, 2006). 그러나 TPACK은 교수자의 내면에 존재하는 암묵적인 지식이기 때문에 외현화, 즉 표상 작업이 요구된다. 이러한 TPACK은 영상에서 무의식적으로 사용하는 멀티모달 요소를 통해 표상될 수 있다. 따라서 본 연구에서는 멀티모달과 TPACK 간의 연관성을 분석함으로써 설명자가 주로 사용하는 설명 동영상 설계 전략 도출을 목적으로 하였다. 구체적으로 국내외 대표적인 영상 학습 플랫폼(EBS, Khan Academy, Udemy) 설명 동영상의 멀티모달 TK와 PK 표상 전략을 분석하여 설명 동영상 설계 전략을 탐색하였다. 본 연구의 연구문제는 다음과 같다. 1. 설명 동영상에서 빈번하게 나타나는 멀티모달 테크놀로지 지식(TK)과 교수지식(PK) 표상 전략은 무엇인가? 1-1. 플랫폼별로 빈번하게 나타나는 멀티모달 테크놀로지 지식(TK)과 교수지식(PK) 표상 전략은 무엇인가? 1-2. 교과목별로 빈번하게 나타나는 멀티모달 테크놀로지 지식(TK)과 교수지식(PK) 표상 전략은 무엇인가? 2. 설명 동영상에서 멀티모달 테크놀로지 지식(TK)과 교수지식(PK) 표상 전략 간에는 어떠한 관련성이 있는가? 3. 멀티모달과 테크놀로지 교수내용지 (TPACK) 관점에서 설명 동영상 제작 시 고려해야 할 설계 전략에는 어떠한 것들이 있는가? 본 연구에서는 멀티모달과 TPACK을 연관 짓기 위해 설명자의 멀티모달 사용을 TK 표상 전략으로 간주하였고, 이에 따라 CK는 ‘전략 사용 내용(what)’으로, PK는 ‘전략 사용 이유(why)’로, TK는 ‘전략 사용 방식(how)’으로 보았다. 본 연구에서는 TK와 PK 간의 관계를 살펴보기 위해 정밀한 발화 분석이 필요한 CK 영역은 단독으로 분석하지 않았다. 그러나 TK 및 PK 분석 과정에서 CK를 완전히 배제하는 것은 불가능하기 때문에 결과적으로 본 연구에서 분석한 TPACK의 범위는 TK, PK, CK의 교차점인 테크놀로지 교수지식(Technological Pedagogical Knowledge, TPK), 테크놀로지 내용지식(Technological Content Knowledge, TCK), 교수내용지식(Pedagogical Content Knowledge, PCK)에 해당한다. 연구방법은 설명자의 멀티모달 테크놀로지 지식(TK)과 교수지식(PK) 표상 전략을 분석하기 위해 Serafini와 Reid(2019)의 멀티모달 내용분석 방법 절차를 따랐다. 구체적으로 멀티모달 TK 코딩 체계와 PK 코딩 체계를 선정 및 개발한 후 다양한 플랫폼(EBS, Khan Academy, Udemy) 및 다양한 주제 영역(수학, 과학, 영어, 사회/역사, 컴퓨팅)의 설명 동영상 20개를 질적으로 분석하였다. 영상 선정 기준은 영상의 형태 및 내용에 따라 설명자의 멀티모달 TK 표상 전략이 다르게 나타날 수 있는 점을 고려하여 영상 형태와 내용을 기반으로 하였다. 멀티모달 TK 코딩 체계는 Tang 외(2023)의 코딩 체계를 기반으로 하였고, Written, Visual, Annotation 총 세 영역으로 구성된다. 이중 Written은 세 개(Freehand, Type font, Mathematical-Scientific), Visual은 여덟 개(Drawing, Table, Graph, Concept organizer, Map, Photograph, Animation, Video), Annotation은 다섯 개(Pointing, Underlining, Enclosing, Marking, Linking)의 설계 요소로 구성된다. 각 설계 요소의 형태는 설명자의 멀티모달 사용이 진행형으로 나타나는 실시간 형태(Live creation)와 완성형으로 나타나는 미리 준비된 형태(Prepared insertion)로 구성되어 있다. 또한, 설명자가 영상에서 실시간으로 사진(Photograph)을 편집하여 보여주는 것과 같이 일반적이지 않거나 불가능한 영역들은 ‘Not Possible’로 처리되었다. 그리고 PK 코딩 체계는 Park 외(2022)의 교육용 영상에서의 표상 전략을 참조하여 연구자가 귀납적으로 개발하였다. 이는 주의집중(Attention), 비교/대조(Comparing/Contrast), 강조(Emphasising), 연결(Connection), 예시(Example), 빈칸생성/지연(Blanking/Delaying), 질문(Questioning), 요약(Summarising)으로 구성된다. 본 연구의 주요 연구결과는 다음과 같다. 첫째, 멀티모달 TK는 전반적으로 실시간 포인팅 주석인 APL(Annotation-Pointing-Live creation)이 가장 높은 빈도로 활용되고 있었으며, 그다음으로 실시간 손글씨인 WFL(Written-Freehand-Live creation), 준비된 타이핑 글씨인 WTP(Written-Type font-Prepared insertion), 실시간 수학/과학 기호인 WML(Written-Mathematical/Scientific-Live creation) 순으로 높게 나타났다. 플랫폼별로는 EBS와 Khan Academy에서는 실시간 손글씨인 WFL이, Udemy에서는 준비된 타이핑 글씨인 WTP가 주로 활용되었다. 교과목별로는 전반적으로 모든 교과목에서 실시간 포인팅 주석인 APL이 가장 높은 빈도로 사용되고 있었다. 수학 교과에서는 실시간 수학/과학 기호인 WML이, 과학, 영어, 사회 교과에서는 실시간 손글씨인 WFL이, 컴퓨팅 교과에서는 준비된 타이핑 글씨인 WTP가 가장 높은 빈도로 활용되었다. PK 활용 빈도를 살펴보면 전반적으로 주의집중이 가장 높은 빈도로 활용되고 있었으며, 그다음으로 강조, 연결, 예시 순으로 높게 나타났다. 반면 빈칸생성/지연과 요약은 상대적으로 낮은 빈도를 보였다. 플랫폼별로는 EBS와 Udemy에서는 강조가, Khan Academy에서는 연결이 주로 활용되었다. 반면 빈칸생성/지연, 요약은 세 플랫폼 모두 낮은 빈도로 활용되었다. 교과목별로는 전반적으로 모든 교과목에서 주의집중이 가장 높은 빈도로 활용되고 있었다. 수학 교과에서는 연결이, 과학, 컴퓨팅 교과에서는 예시가, 영어, 사회 교과에서는 강조가, 전반적으로 모든 교과목에서 연결, 예시, 강조 전략이 주로 활용되었다. 둘째, 멀티모달 TK-PK 관련성을 살펴보면 전반적으로 APL(실시간 포인팅 주석)-주의집중이 가장 높은 빈도로 활용되고 있었으며, 그다음으로 AEL(실시간 묶음 주석)-강조, AUL(실시간 밑줄 주석)-강조/AML(실시간 마킹 주석)-강조, ALL(실시간 연결 주석)-연결 순으로 높게 나타났다. 플랫폼별로는 EBS는 AEL(실시간 묶음 주석)-강조, Khan Academy는 AML(실시간 마킹 주석)-강조, Udemy는 WTP(준비된 타이핑 글씨)-주의집중이 주로 활용되었다. 교과목별로는 전반적으로 모든 교과목에서 APL(실시간 포인팅 주석)-주의집중이 가장 높은 빈도로 활용되고 있었다. 수학 교과에서는 AMP(준비된 마킹 주석)-주의집중이, 과학 교과에서는 VDL(실시간 그림/그래픽)-예시가, 영어와 사회 교과에서는 AEL(실시간 묶음 주석)-강조가, 컴퓨팅 교과에서는 VVP(준비된 비디오)-예시가 주로 활용되었다. 셋째, 설명 동영상 설계 전략은 영상의 유형별로 세 가지 패턴이 도출되었다. 유형 1 영상(설명자O/실물칠판)은 분절형으로, Written TK 전략과 주의집중/강조 PK 전략, 그리고 APL(실시간 포인팅 주석)-주의집중 및 AEL(실시간 묶음 주석)-강조 TK-PK 전략을 인과관계, 문법 설명을 목적으로 하는 콘텐츠 제작 시 사용할 것을 권장한다. 유형 2 영상(설명자X/가상칠판)은 분산형으로, Visual TK 전략과 주의집중/강조 PK 전략, 그리고 APL(실시간 포인팅 주석)-주의집중, AML(실시간 마킹 주석)-강조 TK-PK 전략을 현상 설명을 목적으로 하는 콘텐츠 제작 시 사용할 것을 권장한다. 유형 3 영상(설명자X/PPT)은 선형으로, Prepared된 TK 전략과 주의집중/강조 PK 전략, 그리고 APL(실시간 포인팅 주석)-주의집중 및 WTP(준비된 타이핑 글씨)-주의집중 TK-PK 전략을 순차적 개념 설명을 목적으로 하는 콘텐츠 제작 시 사용할 것을 권장한다. 본 연구의 이론적 시사점은 다음과 같다. 첫째, 암묵적 지식에 해당하는 TPACK을 외현화하여 분석할 수 있는 질적 연구 방법을 확장하였다. 멀티모달 내용분석 방법은 TPACK의 양적인 측면(활용 빈도)뿐만 아니라 질적인 측면(활용 패턴)도 포괄적으로 살펴볼 수 있으므로 TPACK의 복합적인 관계를 분석하기에 적합한 연구방법이라 할 수 있다. 둘째, 멀티모달 TK와 PK 간의 관계성을 분석함으로써 TPACK 프레임워크에서 CK가 PK 및 TK와 명백하게 구분될 수 없다는 점을 확인하였다. 이를 통해 현재 보편적으로 사용되고 있는 TK, PK, CK 세 개의 원으로 표현된 TPACK 프레임워크에 국한되지 않는 TPACK 연구의 필요성을 제기하였다. 셋째, 설명 동영상의 설계적 특징을 확인함으로써 일반적 교수학습 전개 구조와의 차이를 규명하였다. 20개의 설명 동영상을 코딩 체계로 분석해 보았을 때, 모든 영상이 Gagné의 아홉 가지 교수사태와 Keller의 ARCS 이론을 따르지 않는다는 점을 확인하였다. 이는 곧 설명 동영상에서 일반적인 교수학습 전략이 효과적으로 적용되지 않을 수 있음을 시사한다. 이에 따라 설명자가 상황 맥락에 맞게 교수전략을 개발해야 할 필요성이 있음을 제안하였다. 본 연구의 실제적 시사점은 다음과 같다. 첫째, 설명자가 설명 동영상을 제작하고자 할 때 설명자의 발화, 글씨, 주석, 비주얼 요소 등 다양한 TK 전략 지원이 필요하다. 둘째, 설명자의 TK 발달을 위해 수업 현장에서 전문적인 교육용 영상을 활용하기보다 설명자 스스로 영상을 설계하여 제작할 수 있는 역량을 키워야 한다. 셋째, 수학 및 영어 과목을 포함한 특정 교과목의 설명 동영상 콘텐츠 제작 시 시험을 대비하기 위한 영상과 개념 이해를 돕기 위한 영상의 구분이 명확해야 할 필요성이 있다. 이는 교과목별 TK-PK 전략을 분석해 본 연구결과에 기반한다. 주로 시험 대비를 위한 TK-PK 전략은 시험 빈출 문제만을 강조하는 TK 및 PK 전략을 사용할 가능성이 크기 때문에 이에 유의하여 설명 동영상 콘텐츠를 제작해야 한다. 본 연구의 제한점과 후속 연구를 위한 제언은 다음과 같다. 첫째, 본 연구에서 사용한 코딩 체계에 대한 추가 검증 작업이 요구되기 때문에 향후 연구에서는 코딩의 범주를 조금 더 명료하고 간단하게 축약하여 코딩 체계를 재점검해 볼 것을 제안한다. 둘째, 본 연구에서는 멀티모달과 TPACK 관점에서 설명 동영상 설계 전략을 도출하였지만, TPACK 구성 요소 중 CK를 단독 분석하지 않았다는 제한점이 존재한다. 따라서 향후 연구에서는 CK도 함께 분석하여 TPACK을 보다 종합적으로 균형감 있게 살펴볼 필요성이 있다. 셋째, 본 연구에서 선정한 영상 중 설명자가 직접 제작하지 않은 영상(모든 EBS 플랫폼 영상)이 존재하기 때문에 향후 연구에서는 다양한 교과목의 설명자를 직접 모집하여 설명 동영상 설계 및 제작을 시행한 후 제작된 영상을 분석해 볼 것을 제안한다. 넷째, 본 연구의 목적은 선정된 영상의 우수성이나 효과성을 증명하는 것이 아니기 때문에 영상의 효과성 검증은 할 수 없다는 제한점이 존재한다. 따라서 향후 연구에서는 실제 학습자를 대상으로 설명 동영상 설계 전략에 따른 효과성 검증 연구가 필요하다. 이러한 제한점에도 불구하고 본 연구는 멀티모달과 TPACK 관점에서 설명 동영상 설계 전략을 탐색함으로써 영상 유형에 따른 멀티모달 TK 및 PK 지원이 차별화되어야 함을 시사하였고, 멀티모달 요소를 통해 TPACK의 외현화 가능성과 TK, PK, TPK를 확인하였으며, 멀티모달 TK 및 PK 코딩 형태를 통해 설명자의 교수설계 구조를 파악하였다는 점에서 의의가 있다.

      • 터치스크린을 적용한 모바일 기기의 멀티모달 피드백 사용성 분석

        김진훈 홍익대학교 영상대학원 2009 국내석사

        RANK : 248702

        인간이 기계를 다루기 위한 인터페이스의 입력수단에는 다양한 방법이 적용된다. 마우스나 키보드, 버튼과 같은 입력장치는 인간-기계의 상호작용에 있어 지금까지 가장 효율적인 입력장치로 활용되어 왔다. 책상 위의 데스크 탑은 기술의 발전으로 주머니 속 모바일 기기로 대신하여 모든 정보처리가 손 안에서 이뤄지기에 이르렀고, 보다 다양한 정보를 쉽고 편리하게 사용할 수 있는 멀티미디어 기기로서의 역할을 요구하게 되었다. 이러한 변화에 부응하기 위한 터치스크린의 등장은 한정된 인터페이스의 한계를 극복하고 다양한 입력환경을 사용자에게 제공하기 때문에 모바일 기기의 입력장치로서 최적의 대안으로 급부상하고 있다. 그러나 터치스크린 환경은 사용자가 조작하는 행위에 대한 청각, 촉각 등에 대한 피드백이 없기 때문에 인지과정에 대한 인위적인 환경이 필요하다. 멀티모달(multimodal) 피드백은 이러한 물리적 특성이 적은 터치스크린 환경에 시지각(visual), 청지각(sound), 촉지각(haptic)의 인위적인 환경을 제공함으로써 사용성을 높이는 수단으로 활용되고 있다. 궁극적으로는 가상의 인터페이스 환경에 소리(sound)와 촉감(tactile)과 같은 현실감을 부여함으로써 사용자의 몰입감을 상승시키고 에러율을 감소시켜 사용성이 높은 입출력 환경을 만드는데 있다. 그러나 멀티모달 피드백은 사용환경과 작업특성, 사용계층에 따라 항상 안정된 사용성을 보이는 것은 아니다. 멀티모달 인터페이스환경은 사용자의 더 나은 경험을 위해 존재하는 인위적인 매개체일 뿐이므로 사용자가 시스템을 이용하여 얻고자 하는 가치는 항상 절대적일 수 없기 때문이다. 따라서 인터페이스 환경마다 달라질 수 있는 사용자 가치는 멀티모달 피드백을 적용하기 위한 중요한 척도가 아닐 수 없다. 이에 따라 본 연구에서는 터치스크린을 적용한 모바일 기기의 주요 입력유형을 분석하고 입력유형에 따라 나타나는 피드백 사용성 지수를 측정하여 최적의 멀티모달 피드백 유형을 제시하고자 한다. 본 연구의 실험을 위해 터치 입력유형에 따른 피드백 사용성 측정을 위해 대표적인 입력유형 6가지를 추출하였고, 시지각, 청지각, 촉지각 피드백을 독립적, 복합적으로 구현할 수 있는 프로토타입을 제작하여 각 피드백이 주는 만족도 지수 7가지 항목을 측정하였다. 멀티모달 피드백 사용성 실험분석을 통한 결론은 다음과 같다. 첫째, 시지각 반응은 입력유형에서 반드시 존재해야만 하는 필수적인 피드백 요소로 확인되었다. 둘째, 인터페이스의 높은 난이도와 과업의 빠른 속도, 터치의 면적의 축소에 따라 청지각, 촉지각 피드백 요소는 사용성 저해 요인으로 작용하였다. 셋째, 재미적인 요소와 단순한 과업의 인터페이스에서는 촉지각 피드백이 사용자의 만족도를 상승시키는 주요 요소로 작용하였으며, 시지각, 청지각, 촉지각의 멀티모달 3요소가 모두 결합하였을 때 가장 좋은 사용성을 보여주었다. 위 결과에 따라 터치스크린 환경에서의 멀티모달 피드백 3요소는 사용성을 높여주는 절대적인 만능조건이 될 수 없는 것으로 확인하였으며, 입력유형 및 사용자 환경에 따른 최적의 피드백 요소를 밝혀내었다. 하지만 이러한 환경과 조건은 기술의 발전과 다양한 사용자환경의 변화에 따라 상대적으로 바뀔 것이다. 따라서 단순한 논리의 멀티모달 시스템을 벗어나고, 인간과 기계의 보다 자연스러운 커뮤니케이션이 될 수 있도록 지속적이고 종합적인 평가가 이뤄져야 할 것이다. Many ways are applied to the input methods for interfaces in order for people to operate machines. The input devices such as mouses, keyboards and buttons have been used as the most effective input devices in terms of human-machine interactions so far. Development of technology has replaced desktops with mobile devices in your pockets. All information processes are done within your hand. This came to require that mobile devices work as multimedia devices that provide more various information in easier and more convenient ways. The appearance of touch-screen to meet these changes surpasses the limit of limited interfaces. Touch-screen provides many kinds of input environment to users. Touch-screen has suddenly risen to be an optimal alternative as an input device of mobile devices. However, touch-screen environment does not have any audible or haptic feedback on users' operating activities. Instead, artificial environment is needed for the recognition process. Multimodal feedback provides artificial visual, sound and haptic environment to touch-screen environment that has very little physical characteristics. Multimodal feedback is used for improving touch-screen's usability. The eventual goal is to create input-and-output environment with high usability by giving the sense of the real such as sound and tactile senses to virtual interface environment, multimodal increase the users' involvement and decrease the error rate. However, multimodal feedback does not always show stable usability according to the used environment, the operating characteristics and the user class. Multimodal interface environment is just artificial media for users' better experience. The value users want to get by using the system cannot always be absolute. Therefore, the users' value that can be changed according to each interface environment is an important measure to apply multimodal feedback to touch-screen. This study, in turn, is designed to suggest the optimal multimodal feedback type by analyzing main input types of mobile devices to which touch-screen is applied and measuring the feedback usability quotient. For the experiments of this study, we extracted representative 6 input types in order to measure the feedback usability according to touch-input types. We manufactured prototypes that can implement visual, sound and haptic feedback in independent and combined ways. We measured the satisfaction quotient for 7 items that each feedback gave. The conclusion through the experiment and analysis of multimodal feedback usability is as follows; First of all, visual reaction is identified as an essential feedback factor that must exist among input types. Second of all, the sound and haptic feedback factors acted as an anti-usability factor according to the highly difficult interface, fast operating speed and reduced touch-area. Third of all, haptic feedback acted as a main factor to increase users' satisfaction for fun factors and simple operation interface. It showed the best usability when all three multimodal factors of visual, sound and haptic feedback are combined. According to the above result, we made sure that 3 multimodal feedback factors in touch-screen environment cannot be absolute condition. We found out the optimal feedback factors according to input types and user environment. These environment and conditions, however, will be changed relatively according to the development of technology and changes of various user environment. Therefore, it is necessary to do the constant and comprehensive evaluation for more natural human-machine communication.

      • 터치스크린 모바일 폰의 멀티모달 피드백 모형 개발에 관한 연구

        김동후 건국대학교 대학원 2010 국내석사

        RANK : 248700

        최근 모바일 폰 사용자들에게 멀티미디어 콘텐츠의 이용과 인터넷 접속은 필수적인 요소가 되었다. 이에 따라 대화면과 고화소 디스플레이가 일반화되는 추세이다. 대화면의 디스플레이를 효과적으로 활용하기 위해서는 물리적인 버튼을 최대한 줄이고 화면크기를 최대한 늘려야 한다. 이에 따라 물리적 버튼 기능을 대신 할 수 있으며 사용자 편의성을 최대한 높일 수 있는 터치스크린이 모바일기기의 필수 입력장치로 적극 활용되고 있다. 터치스크린은 사용자가 화면의 원하는 지점을 직접 터치하여 조작하는 방식이다. 눈에 보이는 정보에 가장 빠르게 접근 가능한 포인팅 디바이스이며 조작에 대한 의사결정을 빠르게 할 수 있는 장점이 있다. 그러나 평면 디스플레이에서 조작이 이루어지는 특성은 물리적 조작감을 떨어뜨려 조작행위에 대한 결과를 인지하기 어려운 환경을 만든다. 따라서 터치스크린 환경에서는 인지과정에 도움을 주는 인위적인 장치가 필요하다. 멀티모달(multimodal) 피드백은 이러한 물리적 조작이 적은 터치스크린 환경에 시지각(visual), 청지각(auditory), 촉지각(tactile)의 인위적인 환경을 제공함으로써 사용성을 높이는데 효과적인 수단이다. 멀티모달 피드백은 사용자가 한 가지 이상의 감각 기술을 이용하여 인간이 기계와 교감하는 인터페이스 환경을 말한다. 그래픽과 소리 진동 등을 이용한 보조적인 환경을 제공하는 것이다. 최근 풀 터치스크린(Full Touchscreen)의 이용 증가 추세와 맞물려 이러한 멀티모달 피드백의 필요성은 높아지고 있다. 이에 따라 안정적인 태스크(Task) 진행을 위한 멀티모달 피드백 연구가 지속적으로 이루어져야 할 시점이다. 이에 본 연구에서는 멀티모달 피드백의 유형을 분류하고 유형별 요소를 제시하였다. 그것을 바탕으로 각 피드백 유형에 적합한 손가락 동작별 모형을 제안하였으며, 모형을 활용한 프로토 타입을 제작하였다. 위 결과물을 통해 모바일 UI설계 과정 중 멀티모달 피드백 제작에 필요한 최소한의 가이드라인을 제안하였다. 하지만 이러한 피드백 환경과 조건은 기술 발전과 컨텐츠 변화에 따라 지속적으로 변화 할 것이다. 본 논문을 통해 제시하는 것은 최소한의 가이드라인이며 앞으로도 지속적인 연구가 필요할 것이다.

      • 비디오월 제어시스템을 위한 손동작과 음성 기반 멀티모달 상호작용에 관한 연구

        조영욱 한성대학교 대학원 2024 국내박사

        RANK : 248687

        디스플레이 산업 발전으로 다양한 인터페이스를 통해 컴퓨터와 상호 작용하는 부분이 증가하고 있다. 마우스나 키보드의 직접적인 제어 없이 손동작이나 음성으로 컴퓨터를 제어하거나 자동차 안에서 손동작 및 음성 명령으로 음악을 듣거나 길 안내를 할 수 있다. 음성과 손동작 인식 기술은 엔터테인먼트, 의료, 로보틱스, 스마트시티 등에 다양한 응용 분야에 적용이 되고 있다. 자율주행자동차, 자율경비로봇, 자율배달로봇이 도시를 활보하고, 드론 택시가 하늘을 날아다니는 스마트 시티의 중요성이 커지고 있다. 도시의 다양한 문제를 모니터링하고 관제하는 스마트 통합관제센터의 기능도 고도화되고 있다. 도시뿐만 아니라 철도, 발전소, 제조, 건설 등의 안전에 대한 모니터링이 휠씬 강화되고, 중대재해법 시행으로 기업주의 관리 감독이 더욱 엄중해졌다. 본 연구는 스마트 통합관제시스템의 CCTV영상을 모니터링하고 제어가 되는 시스템인 비디오월 제어시스템과 자연 친화적인 방법으로 상호작용하는 기능을 개발하여 관제센터 운영자가 효율적으로 모니터링하는 것을 목표로 한다. 손동작 인식하기 위해 웹카메라(RGB), 3D 카메라, Leap Motion, LiDAR 인터페이스 장비를 사용하는데 본 연구에서는 널리 보급된 웹 카메라(RGB)를 사용하였고 음성 인식을 위한 인터페이스 장치는 마이크를 활용하였다. 입력 장치에서 감지된 손동작 및 음성을 전처리 과정을 거쳐 정의된 동작 라이브러리를 활용하여 모델링을 거쳐 실제 Detection 검증 후 손동작과 음성신호를 순차적으로 동기화 및 상호작용하여 제어가 되도록 설계하였다. 멀티모달 인터페이스를 이용한 비디오월 제어시스템의 음성 및 손모양 인식에 대한 기능별 기술 요소를 구성하고, 손모양 인식은 웹캠을 통해 구글 사의 머신러닝 기반 고성능 손제스처 인식 솔루션인 MediaPipe Hands를 활용하여 손동작 인식을 구현하였고, 각 손에 대해 21개의 3D 랜드마크를 프레임마다 추론하여 두 개 이상의 손을 동시에 인식하고 인터페이스가 가능하도록 구성하였다. 손모양의 인식한 후 음성 명령을 통해 비디오월의 제어판의 UI를 제어하여 영상, 이미지, 웹브라우저 등의 컨텐츠를 비디오월에 표출되고 콘텐츠를 삭제, 확대, 축소의 기능을 개발하여 마우스로 제어하는 방식에서 벗어나 자연 친화적인 비디오월 제어시스템을 구현하였다. 가장 적합한 손동작을 적용하기 위해 3가지 손동작을 테스트하여 각각 인식에 대한 정확도와 편리성을 검증하여 손동작을 선정하였다. 음성인식은 ‘MIT/ast-finetuned-speech-commands-v2’의 모델을 결합하여 음성 명령을 내리면 음성을 텍스트로 변환하여 손동작과 연동하여 동시에 제어가 되도록 설계하였다. 설계된 손동작 및 음성인식 기반 비디오월 제어시스템에 적용하여 시스템의 검증을 위해 컴퓨터공학과 학생과 ICT 종사자를 대상으로 활용 및 테스트를 하였고, 기존 마우스로 제어하는 방식과 비교하며 사용자 평가를 통해 만족도, 유용성에 대해 검증하고 평가를 진행하였다. 손동작과 음성인식으로 비디오월 제어시스템을 제어하는 기능 중에 마우스 좌클릭, 우클릭 기능이 가장 높은 90%의 유용성으로 나타났고, 마우스 이동, 더블 클릭, 휠 업/다운(확대/축소)이 80% 수준으로 다소 낮게 나타났다. 그리고 마우스 스크롤 업/다운 기능의 제어는 가장 낮은 50%대로 스크롤 바 제어의 어려움을 확인하였고, 손동작 및 음성인식으로 비디오월 제어시스템 제어판의 UI를 제어하였을 때 걸리는 시간은 손동작과 음성 인식으로 순차적으로 제어할 때보다 0.3초에서 0.55초 빠르게 동작이 인식되었다. 본 연구의 성과는 멀티모달 기반으로 비디오월 제어시스템을 손동작이나 음성으로 제어가 가능성과 유용성을 확인하였다. 그리고 손동작 인식을 하기 위해 웹캠과 같은 범용적인 디바이스에서 LiDAR, LeapMotion 등 다양한 디바이스에도 인식이 되는 플랫폼 연구 개발이 필요함을 인식하게 되었다. 또한 손동작 및 음성인식으로 명령을 내린 후 컨텐츠의 응답시간을 마우스의 기능보다 유사하거나 빠르게 콘텐츠를 제어할 수 있어야 사용성이 높다는 것을 확인하였다. 특히 제어판의 UI 중에 음향, 해상도 등을 제어하는 슬라이드 바에 대한 제어는 컴퓨터 GUI 환경을 더욱 정밀한 방법으로 제어하는 연구가 진행되어야 할 것으로 판단된다.

      • 멀티모달 데이터 기반의 부정적 감정 인식 및 강도 표출 기법

        함승미 한신대학교 일반대학원 2024 국내석사

        RANK : 248687

        인간과 컴퓨터 간의 상호작용이 점점 중요해지는 추세에 따라 감성 컴퓨팅(affective computing) 분야가 급속히 발전하고 있다. 이로 인해 감정 인식은 중요한 연구 분야로 주목받으며 활발히 연구되고 있다. 현재 감정 인식 연구는 주로 얼굴 표정을 활용하고 있지만 외부 요인에 의존하는 한계를 갖고 있다. 반면 생체신호는 이를 극복할 수 있는 객관적인 정보를 제공한다. 이에 따라 표정과 생체신호 데이터를 결합한 멀티모달 방법의 필요성이 대두되고 있다. 그러나 기존의 멀티모달 감정 인식 연구는 주로 6가지 기본 감정의 다양한 상태를 분류하는 데 초점을 맞추었기 때문에 정신 건강에 해를 끼칠 수 있는 부정적인 감정에 대한 연구는 부족한 실정이다. 더욱이 oneM2M 표준을 준수하면 생체 데이터와 같은 다양한 멀티모달 데이터를 효과적으로 지원하고 활용할 수 있지만, 아직 이러한 표준을 적용하는 연구는 많지 않다. 따라서, 본 논문에서는 oneM2M 표준을 준수하는 사물인터넷(Internet of Things, IoT)을 활용한 멀티모달 데이터 기반의 부정적 감정 인식 및 강도 표출 기법을 제안한다. 먼저 스마트 밴드, 뇌파(Electroencephalogram, EEG) 헤드셋, 웹캠을 통해 심박수(Heart Rate, HR), 피부 온도(Skin Temperature, SKT), 피부 전도도(Galvanic Skin Response, GSR), 명상도(Meditation, MED), 집중도(Attention, ATT) 그리고 얼굴 표정을 포함하는 멀티모달 데이터를 수집한다. 수집된 멀티모달 데이터는 부정적 감정 인식 및 강도 표현 앙상블 모델에 입력된다. 이 앙상블 모델은 표정 인식 모델과 멀티클래스 서포트 벡터 머신(Support Vector Machine, SVM) 모델에서 도출하는 각각의 두 가지 감정 결과에 대해 신뢰도를 계산한 후, MED와 ATT 데이터를 활용하여 부정적인 감정 상태를 나타내는 가중치를 적용함으로써 부정적인 감정의 강도를 수치화한다. 앙상블 모델을 구성하는 표정 인식 모델과 멀티클래스 SVM 모델의 성능을 각각 평가한 결과, 표정 인식 모델은 62%의 정확도를 보였고 멀티클래스 SVM 모델은 95%의 정확도를 보였다. 두 모델 각각의 데이터 불균형을 고려하여 가중 평균으로 성능을 평가한 결과, 표정 인식 모델은 전체 7가지 감정에 대해 62%, 멀티클래스 SVM 모델은 전체 8가지 감정에 대해 95%로 나타났다. 부정적 감정에 대한 가중 평균을 평가한 결과, 표정 인식 모델은 51%, 멀티클래스 SVM 모델은 96%의 성능을 보였다. 또한 순열 특성 중요도 분석을 통해 HR, SKT, GSR 중 SKT가 모델 성능 향상에 가장 크게 기여함을 파악하였다. 추가로 동일한 하이퍼파라미터 값(C=10^(6), gamma=10^(3))을 가진 SVM 모델을 사용하여 HR, SKT, GSR 세 가지 특성을 모두 활용한 경우와 SKT, GSR 데이터만을 활용한 경우의 성능을 비교하였을 때, 두 경우 모두 95%의 가중 평균을 나타냈다. 만약 두 가지 특성만을 고려한다면, 여러 가지 특성을 고려한 경우에 비해 연산량의 복잡도를 줄이고 과적합을 방지할 수 있다. 부정적 감정의 강도를 수치화한 결과는 Minecraft Pi Edition Application Programming Interface(MCPI)라는 메타버스 공간 연동 모듈을 사용하여 메타버스에 시각적으로 표출된다. 사용자의 부정적 감정 상태를 나타내는 블록을 생성하고 해당 정보를 채팅창에 출력하여 직관적으로 확인할 수 있도록 구현하였다. 사용자는 이를 통해 메타버스 공간에서 자신의 부정적 감정을 시각적으로 표현하고 다른 이들과 공유할 수 있다. 이러한 기능은 메타버스 내의 상담이나 치료 등 부정적 감정 관리 및 완화 서비스에 유용하게 활용될 수 있다. 더불어, 사용자의 감정을 공유할 수 있는 디지털 휴먼 구현에 중요한 역할을 할 것으로 기대된다.

      연관 검색어 추천

      이 검색어로 많이 본 자료

      활용도 높은 자료

      해외이동버튼