최근 인공지능(Artificial Intelligence, AI) 기반의 Text-to-Image 생성을 수행하는 서비스가 속속히 등장하고 있다. 해당 서비스의 근간이 되는 생성형 인공지능 모델의 발전은 텍스트 입력만으로 이...
http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.
변환된 중국어를 복사하여 사용하시면 됩니다.
https://www.riss.kr/link?id=T16938186
서울 : 국민대학교 테크노디자인전문대학원, 2023
학위논문(석사) -- 국민대학교 테크노디자인전문대학원 , 디자인사이언스학과 , 2024. 2
2023
한국어
서울
vii, 108 ; 26 cm
지도교수: 주다영
I804:11014-200000742968
0
상세조회0
다운로드국문 초록 (Abstract)
최근 인공지능(Artificial Intelligence, AI) 기반의 Text-to-Image 생성을 수행하는 서비스가 속속히 등장하고 있다. 해당 서비스의 근간이 되는 생성형 인공지능 모델의 발전은 텍스트 입력만으로 이...
최근 인공지능(Artificial Intelligence, AI) 기반의 Text-to-Image 생성을 수행하는 서비스가 속속히 등장하고 있다. 해당 서비스의 근간이 되는 생성형 인공지능 모델의 발전은 텍스트 입력만으로 이미지 결과물을 생성할 수 있다는 새로운 접근성을 도입했다. 이는 특정 기술적 숙련도 없이도 텍스트를 입력하는 간편한 방식으로 이미지 결과물을 생성할 수 있다는 장점이 있다. 그러나 대비되게도 Text-to-Image 모델 기반의 이미지 생성 수행은 편리성과 높은 접근성을 제공하는 동시에 다양한 문제점을 동반한다. 이는 텍스트 기반의 이미지 생성이라는 다소 생소한 프로세스의 작업 과정의 도입으로부터 아직까지 적절한 사용자 경험 설계가 미비하기 때문으로 볼 수 있다.
이에 본 연구는 사용자 경험(User Experience, UX) 향상을 위한 Human-AI 협업 프로세스 개선안을 제안하고자 하였다. 협업 프로세스 내 개선이 필요한 항목은 크게 두 가지 관점에서 정의되었다.
첫째, Text-to-Image 생성의 중요한 영향력을 미치는 텍스트 프롬프트에 대한 불충분한 정보 제공. 즉, 적절한 입력값에 대한 정보 공백의 이유로 하여금 사용자의 의도를 충분히 반영한 생성이 어려워지는 것을 파악하였다.
둘째, 텍스트 프롬프트 입력값과 생성된 이미지 결과물 간의 불명확한 관계성. 인공지능 작동 원리의 불투명성으로 인하여 사용자 입력값에 대한 적용 혹은 누락에 대한 이해 미비가 발생할 수 있다. 이는 여러 차례의 비효율적인 수정을 야기할 수 있다.
본 연구에서 발견 및 정의한 문제점은 Human-AI 인터랙션(Interaction)에서 주되게 고려해야하는 인공지능의 투명성 및 설명 가능성과 연계되어 있다. 기존 이미지 제작 방식과 현저한 차이가 있는 새로운 생성 프로세스가 도입되며, 특히나 사용자가 생성형 인공지능에 대한 개념 이해가 미비할 경우 인공지능과의 협업 과정에서의 주도권 상실 및 일종의 무력감을 경험할 수 있다. 이는 결과적으로 생성형 인공지능 활용의 가치인 효율적인 이미지 생성을 저해하는 방향으로 작용할 수 있다. 그러나 현재 출시된 Text-to-Image 생성 모델 기반의 이미지 생성 서비스는 해당 관점을 고려한 사용자 경험 설계가 미비한 실정이다.
본 연구는 문제 해결을 위해 Human-AI 협업 프로세스를 기반으로 단계별 과업 수행을 고려한 사용자 경험 설계 개선안을 제안하고자 한다. 이는 향후 이미지 생성 서비스 설계 시 고려할 수 있는 기본 가이드라인으로써 가치가 있다.
이를 위해 수행된 연구 내용은 다음과 같다. 1) Text-to-Image 생성 프로세스 내 Human-AI 인터랙션 분석 2) 협업 프로세스 세부 단계 정의 및 해당 단계별 과업 수행 정의 3) 사용자 경험 개선이 필요한 특정 단계를 정의 4) 문제 발생 여지가 있는 단계 내 사용자를 서포트할 수 있는 협업 기능 적용 방안 제안 5) 협업 기능의 적용 방안을 포괄한 전체 프로세스의 사용자 경험 설계 가이드라인 제시
본 연구의 차별점은 협업 프로세스 개선안 제안을 위해 독창적인 협업 기능을 제안하였다는 것이다. 크게 1) 스타일 패턴 라이브러리 2) 프롬프트 비주얼라이저의 두 가지 협업 기능이 제안되었으며, 해당 기능 제안을 위해 DiffusionDB 내 프롬프트 활용 패턴 분석 및 Diffusion 모델의 작동 원리를 분석하였고 이를 통해 사용자가 적극적으로 탐색 및 활용할 수 있도록 Human-AI 협업 프로세스를 개선하고자 하였다.
본 연구는 결과적으로 생성형 인공지능의 도입으로 인한 이미지 제작 방식의 변화, 그리고 이로부터 새롭게 고려해야 하는 작업 과정 내 인공지능의 불투명성을 일부 해소하는 방안의 Human-AI 협업 프로세스를 제안하였다. 협업 프로세스는 HCI 직군 대상 설문 평가를 통해 수집된 해당 가이드라인의 적합성, 명확성 및 확장성에 대한 의견을 기반으로 보완 후 최종 제안되었다. 또한 가이드라인의 적용 방안 및 활용을 추가적으로 논의하기 위하여 한 가지 프로토타입 시안을 제작 후 실제 액티브 사용자 기반의 인뎁스(In-depth) 인터뷰를 수행하였다. 협업 증진 및 사용자 경험 향상 측면에서의 긍정적 기대감이 돋보였고, 이에 가이드라인의 효용성 및 긍정적 영향력을 방증하며 연구 결론을 소결하였다.
본 연구의 의의는 다음과 같다.
첫째, Text-to-Image 서비스에서 발생할 수 있는 사용자 경험 측면의 문제점을 발견 및 정의하고, 인공지능 모델의 공학적인 접근의 문제 해결이 아닌 사용자 중심의 UX 접근법을 통해 협업의 생산성 및 효율을 개선하고자 한 것에 있다.
둘째, 효용성 및 실행 가능성을 고려하여 협업 기능을 제안 및 적용 방안을 모색하였고 이 과정에서 DB 분석 수행과 유관 메커니즘 Cross-Attention의 탐색을 바탕으로 도출한 것에 의의가 있다.
셋째, Human-AI 협업 프로세스 개선안 제안에서 그치지 않고 이에 대한 적용 방향성을 논의하기 위하여 프로토타입 제작 및 실제 사용자의 의견을 수집하여 종합적으로 연구 결론을 소결할 수 있었다. 특히 액티브 사용자가 내비친 기대감과 제안한 추가 적용 방안의 인사이트는 후속 연구로써 잠재력이 있다.
넷째, 다수의 이미지 생성 서비스 출시 및 각종 생성형 인공지능 서비스가 새롭게 등장하는 시대의 흐름 속에서 인간과 인공지능 간의 협업을 중심으로 프로세스 개선을 모색하고 이후의 발전 방향성을 논의한 것에 기초 연구로써 의의가 있다.
결과적으로 연구 제안된 협업 경험 개선안과 프로토타입 적용 방식에 대한 대표적인 평가로는 그간 미비하였던 인간과 인공지능 간의 협업 경험 개선 측면에서 효용성이 있는 제안이라는 긍정적 평이 있었고, 또한 이를 적용한 세부 프로토타입 구현 방식에 대하여도 이후 프로세스가 구체화되어 실제 서비스에 적용 된다면 사용자 관점에서 작업 효율에 효과적일 것이라는 긍정적 기대감이 존재하였다. 이에 본 연구가 이미지 생성 서비스 내 협업 경험의 미흡이라는 문제의 공감으로부터 정의한 맥락에서의 문제 해결에 기여하였으며, Human-AI 협업 측면의 사용자 경험 선행적 연구로써 발판이 될 수 있기를 고대한다.
다국어 초록 (Multilingual Abstract)
Recently, there has been a surge in services that generate images from text using Artificial Intelligence(AI). Built on generative AI models, these services offer a novel approach to creating images solely from text inputs. This method enables the gen...
Recently, there has been a surge in services that generate images from text using Artificial Intelligence(AI). Built on generative AI models, these services offer a novel approach to creating images solely from text inputs. This method enables the generation of images through simple text descriptions, eliminating the need for specific technical skills.
However, while these Text-to-Image models offer convenience and accessibility, they also present various challenges, particularly in user experience, due to the relatively unfamiliar process of text-based image creation.
This study aims to enhance User Experience(UX) in Human-AI collaboration by focusing on two key areas.
Firstly, the study identifies a critical issue in Text-to-Image generation: the provision of insufficient information regarding text prompts. This lack often leads to difficulty in accurately reflecting the user’s intentions in the generated images.
Secondly, the study delves into the ambiguous relationship between text prompt inputs and the images generated as a result. Due to the opacity of artificial intelligence's operational principles, it might become challenging for users to assess how their inputs are specifically applied or omitted in the image creation outcomes. This complexity may lead to numerous inefficient revisions, potentially complicating the image generation process.
These challenges highlight the need for transparency and explainability in AI, essential for effective Human-AI interaction. The shift from traditional image creation methods to AI-generated processes could encourage users feeling out of control and overwhelmed, particularly when their understanding of generative AI is limited. This can impede the efficient generation of images, which is a key benefit of using generative AI. From this perspective, current Text-to-Image services often overlook user experience aspects.
To address these issues, the study proposes UX design improvements at various stages of the Human-AI Co-creative process. This approach serves as a foundational guideline for future image generation service designs.
The research encompasses:
1) Analysis of Human-AI interaction in the Text-to-Image generation process.
2) Identification and definition of detailed collaboration stages and tasks.
3) Focuse on specific stages where UX improvements are needed.
4) Development of methods for collaboration features to assist users at challenging stages.
5) Creating a comprehensive UX design guideline including these methods.
A distinctive aspect of this study is the proposal of original collaboration features, specifically the 'Style Pattern Library' and 'Prompt Visualizer'. These features have developed through an analysis of the user prompt patterns in DiffusionDB and Diffusion model's operation principles, aiming to enhance Human-AI collaboration.
This study proposes a Human-AI co-creative process that addresses the inherent opacity of AI in the new image creation methods introduced by generative AI. The guideline of designing Human-AI co-creative process has refined based on feedback regarding its suitability, clarity, and scalability, collected through surveys by experts in Human-Computer Interaction(HCI) field. Furthermore, in-depth interviews with active users have conducted to discuss application methods, guideline utilization, and prototype development.
The study's significance lies in:
First, identifying and addressing user experience issues in Text-to-Image services, focusing on improving collaboration productivity and efficiency through a user-centered UX approach.
Second, proposing practical and feasible collaboration features, derived from database analysis and exploration of the Cross-Attention mechanism.
Third, gathering actual user feedback and developing a prototype to guide and discuss the proper methods, instead of merely emphasizing the need for improvements in Human-AI collaboration.
Fourth, serving as a foundational study in the evolving field of image creation services and generative AI, focusing on improving Human-AI collaboration processes.
The study has been positively received, particularly for its potential to enhance Human-AI collaboration. There is optimism that detailed implementation of the prototype will improve work efficiency from the user's perspective, particulary when applied to actual services. This research contributes to addressing the gap in collaboration experience in image creation services and paves the way for future studies on user experience in Human-AI collaboration.
목차 (Table of Contents)