http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.
변환된 중국어를 복사하여 사용하시면 됩니다.
R&D 집약적 기업의 탐색적 혁신 전략과 혁신 성과 간의 관계 및 내부 혁신역량의 조절효과에 관한 연구
박수현 과학기술연합대학원대학교 한국과학기술정보연구원(KISTI) 2024 국내박사
본 논문은 불확실성과 위험을 감수하면서도 새로움의 추구를 통해 혁신 성과를 이끌어 내는 기업의 탐색적 혁신 전략이 국가 및 지역 경제의 성장을 견인하는 R&D 집약적 기업의 혁신 성과에 어떠한 영향을 미치는가에 대해, 기업 내부의 혁신역량의 조절효과를 중심으로 실증 분석하는 것을 그 목적으로 한다. 본 연구에서는 외부 지식과의 결합과 다양한 기술 분야로의 확장이라는 탐색적 혁신의 주요 특성을 토대로, 탐색적 혁신 전략을 크게 개방형 혁신 전략과, 기술다각화 전략으로 구분하여 조사함으로써 탐색적 혁신과 혁신 성과 간의 관계를 보다 잘 이해하는 구조적 틀을 제시한다는 점에서 기존 연구를 확장한다. 구체적으로 먼저 3 장에서는 자원이 제한된 R&D 집약적 중소기업의 탐색적 혁신 전략을 살펴봄에 있어, 외부 지식의 활용과 내부 지식 공유를 통해 내부 자원의 한계를 극복하는 개방형 혁신 전략을 중점적으로 살펴보았다. 이를 위해 국내 정부 지원 R&D 프로젝트 2,339 개를 대상으로 로지스틱 회귀분석을 수행하였으며, 연구 결과 과학 기반 파트너와 내부 흡수역량 간의 상호 작용이 제품 혁신 성공에 긍정적인 영향을 미친 반면, 시장 기반 파트너와 내부 흡수역량 간의 상호작용은 유의한 영향을 미치지 않는 것으로 나타났다. 이는 혁신 전략을 수립함에 있어 협력 파트너의 특성을 고려하고, 특히 과학 기반 파트너와의 상호보완성을 강조함으로써 외부 지식 소스 채택 전략의 중요성을 입증했다는 데에 의의가 있다. 이후 4 장에서는 높은 비율의 R&D 지출을 지속적으로 집행할 수 있는 R&D 집약적 대기업의 탐색적 혁신 전략에 초점을 맞춰, 이질적 지식을 재조합하고 결합 및 확장하는 비관련 및 관련 기술다각화 전략과 내부 핵심기술역량의 조절효과를 중심으로 살펴보았다. 본 연구는 기술다각화가 복잡하고 지속적인 지식 통합 과정을 필요로 한다는 점에 주목하여 전 세계 상위 R&D 투자기업 516 개의 패널 데이터를 사용하여 분석을 수행하였다. 결과적으로 비관련 기술다각화 전략은 R&D 효율성과 역 U자형 관계를 나타내며, 내부 핵심기술역량은 비관련 기술다각화와 R&D 효율성 간의 역 U 자형 관계가 갖는 변동성 폭을 완화함으로써 기술다각화와 R&D 효율성 간의 관계를 유의하게 조절하는 것으로 확인되었다. 이는 기술다각화의 동기와 전략적 목표가 다양하게 나타날 수 있음을 감안하여 다양한 유형의 기술다각화를 구분하고 각각의 기술다각화 전략의 유형이 R&D 효율성에 미치는 영향을 보다 심층적으로 이해할 수 있다는 점에서 의의를 갖는다. 본 논문은 위의 두 가지 연구 결과를 바탕으로 다음과 같은 학술적 의미와 정책적 시사점을 갖는다. 첫째, 기존의 탐색적 혁신 연구를 확장함으로써 혁신의 구조적 틀을 제시한다. March(1991)가 제안한 탐색적 혁신의 추상적이고 다의적인 성격을 해소하기 위해 외부 지식과의 결합, 다양한 기술 분야로의 확장이라는 특성을 기반으로 이를 개방형 혁신 전략과 기술다각화 전략으로 구분함으로써 선행연구들에서 다뤄지지 않았거나 모호했던 부분을 보완하면서, 탐색적 혁신에 대한 보다 명확한 구조적 틀을 제시한다. 둘째, 본 논문은 탐색적 혁신 활동과 혁신 성과 사이의 역학을 깊이 파악하기 위해, 혁신의 투입과 산출이 분명한 관계를 보이는 R&D 집약적 기업을 연구 범위로 설정함에 따라 탐색적 혁신 활동과 혁신 성과 간의 관계에 대해 깊이 있는 이해를 제공했다는데 의의가 있다. 셋째, 본 논문은 탐색적 혁신 전략이 혁신성과에 미치는 영향을 조사함에 있어, 선행연구에서 활발히 다루지 않았던 R&D 집약적 기업의 자원 규모에 따른 적합한 탐색적 혁신전략의 유형을 이론적 근거를 바탕으로 제시하였다는 점에서 기존 연구와 차별성을 갖는다. 마지막으로, 본 연구는 다양한 탐색적 혁신 전략과 혁신 성과 간의 관계 조사에서 상대적으로 간과되어 왔던 내부 혁신역량의 조건부 효과를 다루는 문헌 내 실증적 연구 확장에 기여한다. 따라서 본 논문은 기업의 내부 혁신 역량을 종합적으로 고려함으로써 탐색적 혁신 프로세스의 역학에 대한 심층적인 통찰력을 제공한다는 데에 학술적 의의가 있으며, 탐색적 혁신 전략 수립에 있어 필요한 다각도의 판단 기준을 제공하는 데에 큰 의의가 있다. Keywords: 탐색적 혁신, R&D 집약적 기업, 개방형 혁신, 기술다각화, 내부 혁신역량, 흡수역량, 핵심기술역량 The purpose of this dissertation is to empirically analyze how a firm's exploratory innovation strategy, which has been found to contribute to deriving innovation through the pursuit of newness while taking uncertainty and risk, affects the innovation performance of R&D-intensive firms known to drive national and economic growth. Based on the main characteristics of exploratory innovation, which combines external knowledge and expands to various technological fields, this dissertation expands existing research in that it presents a structural framework to better understand the relationship between exploratory innovation strategies and innovation performance by dividing exploratory innovation strategies into open innovation strategies and technological diversification strategies. Specifically, Chapter 3 focuses on open innovation strategies that overcome the limitations of internal resources through the use of external knowledge and sharing internal knowledge in examining the exploratory innovation strategies of R&D-intensive SMEs with limited resources. To this end, a logistic regression analysis was performed on 2,339 government-supported R&D projects in Korea, and the study found that the interaction between science-based partners and internal absorptive capacities had a positive effect on the success of product innovation, while the interaction between market-based partners and internal absorptive capacities had no significant effect. This is significant in that it has demonstrated the importance of external knowledge source adoption strategies by considering the characteristics of cooperative partners in establishing innovation strategies and emphasizing complementarity, especially with science-based partners. Chapter 4 focused on the exploratory innovation strategies of R&D-intensive large firms that can continuously execute a high percentage of R&D expenditures, focusing on technological diversification strategies that recombine, combine, and expand heterogeneous knowledge, and the moderating effect of internal core technology competencies. This study conducted an analysis using panel data of 516 top R&D investors around the world, noting that technological diversification requires a complex and continuous knowledge integration process. As a result, it was confirmed that the unrelated technological diversification strategy shows an inverted U-shaped relationship with R&D efficiency. In addition, internal core technology competencies were confirmed to significantly moderate the relationship between unrelated technological diversification and R&D efficiency by alleviating the volatility of the inverted U-shaped relationship between unrelated technological diversification and R&D efficiency. This is meaningful in that it allows us to distinguish between various types of technological diversification and understand more in-depth the impact of each type of technological diversification strategy on R&D efficiency, considering that the motivation and strategic goals of technological diversification can appear in various ways. Based on the results of two studies, this dissertation has the following academic meanings and policy implications. First, it presents a structural framework for innovation by expanding existing exploratory innovation research. To address the abstract and multifaceted nature of exploratory innovation proposed by March (1991) by dividing it into open innovation strategies and technological diversification strategies based on the characteristics of combining external knowledge and expanding it to various technology fields, complementing areas that were not covered or ambiguous in previous studies, it presents a clearer structural framework for exploratory innovation. Second, this dissertation provided an in-depth understanding of the relationship between exploratory innovation activities and innovation performance by setting R&D-intensive firms with a clear relationship between innovation input and output as the scope of research. Accordingly, this paper contributes to deeply understanding the dynamics between exploratory innovation activities and innovation performance. Third, this dissertation is different from existing research in that it presents, based on theoretical grounds, the type of exploratory innovation strategy appropriate for the resource size of R&D-intensive firms, which was not actively covered in previous research. Finally, this dissertation contributes to the expansion of empirical research in literature that deals with the conditional effects of internal innovation capabilities that have been relatively overlooked in investigating the relationship between various exploratory innovation strategies and innovation performance. Therefore, this dissertation is of academic significance in providing in-depth insight into the dynamics of the exploratory innovation process by comprehensively considering the firm's internal innovation capabilities, and it is of great significance in providing the criteria for various judgments necessary for establishing exploratory innovation strategies. Keywords: Exploratory innovation, R&D intensive firm, Open innovation, Technological diversification, Internal innovation capabilities, Absorptive capacities, Core technology competencies
A Study of Dark Matter at Electron-Positron Colliders using High Performance Computing
박기홍 과학기술연합대학원대학교 (UST) 한국과학기술정보연구원 (KISTI) 2021 국내석사
우주를 구성하는 물질과 그 상호작용을 기술하는 표준모형은 잘 확립되었지만 암흑물질에 대하여 설명할 수 없다. 따라서 암흑물질에 관하여 알려진 바는 적고 여러 가지 수단으로 탐색 중에 있다. 본 학위논문에서는 입자충돌실험 연구에 활용되는 여러 가지 툴킷을 활용하여 전자-양전자 충돌실험에서 암흑물질을 연구한다. 신호사건은 e^+ e^-→μ^+ μ^- A' with A'→μ^+ μ^- 이고 이론적 모델은 simplified model이다. 여러 가지 매개변수에 따른 산란단면적을 조사하였다. 궁극적으로 현재 및 미래의 전자-양전자 충돌실험에서의 신호사건에 대한 검출기 수용율을 구하였다. 또한 KISTI슈퍼컴퓨터5호기 및 로컬머신을 활용하여 모의시늉의 중앙처리장치(CPU) 시간을 비교하였다. 슈퍼컴퓨터의 높은 병렬처리효율과 많은 코어 수를 활용하여 암흑물질 연구 효율을 높일 수 있음을 확인할 수 있었다. 이 연구의 결과는 Belle II, FCC-ee, CEPC 그리고 ILC 등의 현재 및 미래의 전자-양전자 충돌실험에서 본 연구의 신호사건에 대한 암흑물질 신호를 찾는데 도움이 될 것이다. Even if the Standard Model (SM) describing particles that constitutes the universe and its interactions is well established, the SM cannot explain dark matter. Therefore, little is known about dark matter and is being explored by various means. In this thesis, we study dark matter at electron-positron collider experiments using toolkits utilized in particle collider experiments. The signal channel is e^+ e^-→μ^+ μ^- A' with A'→μ^+ μ^- and the theoretical model is the simplified model. We investigated the dependence of cross-section according to various parameters. Ultimately, we obtained detector acceptance for the signal channel in present and/or future electron-positron collision experiments. In addition, we used the KISTI-5 supercomputer and a local machine to compare central processing unit time of simulation. It has been confirmed that the high efficiency of parallel processing of supercomputers and the many number of cores can be utilized to increase the efficiency of dark matter research. The results of this study will help to find dark matter signals for the signal channel in present and/or future electron-positron collider experiments such as Belle II, Future Circular Collider (FCC)-ee, Circular Electron-Positron Collider (CEPC), and International Linear Collider (ILC).
Thanin Methiyothin 과학기술연합대학원대학교 한국과학기술정보연구원(KISTI) 2024 국내박사
코로나19 대유행은 공중 보건에 심각한 위협을 초래하며, 2009년 인플루엔자(H1N1) 대유행과 같은 다른 호흡기 질환의 확산 양상에도 영향을 미쳤다. 코로나19와 인플루엔자는 초기에는 백신 접종에 의한 집단 면역 형성 부족으로 빠르게 확산되었다. 하지만 백신 접종이 시행 이후로 두 질병 모두 대유행에서 풍토병 단계로 이행되었다. 본 연구에서는 비지도 학습 기법인 군집화 분석을 활용하여 한국과 태국의 질병 발생 추이 패턴을 밝혀냈다. 또한, 한국과 태국 데이터를 통합하여 국내외 클러스터를 분석하였다. 이 연구에서는 초기 단계의 코로나19, 대유행 인플루엔자 A(H1N1), 엔데믹 인플루엔자, 총 세 가지 감시 데이터를 사용하여 분석을 수행하였다. 연구 결과, 일부 국제 클러스터에 한국과 태국의 주요 시도가 포함되어 있음을 확인했다. 이는 두 나라 간의 질병 전파 양식의 유사성을 시사하며, 국가 간 상호 작용 혹은 전 세계적인 질병 확산 패턴의 영향이 작용했을 가능성이 있다. 본 연구는 인플루엔자와 코로나19의 전파 패턴을 파악하여 해당 질병의 공간 역학에 대한 통찰력을 얻는 것을 목표로 한다. 본 연구 결과는 미래의 대유행 또는 엔데믹 단계로의 전환에 대비하여 한국과 태국 모두 효과적인 공중 보건 개입 및 질병 감시 전략을 수립하는 데 활용될 수 있다. 주요단어(Key words) : 인플루엔자; COVID-19; 비지도 클러스터링; DBSCAN; K-means; 자기조직도; QGIS; 공중보건. The COVID-19 pandemic has significantly impacted on public health, altering the spread of other respiratory diseases like the 2009 influenza pandemic (H1N1). Both COVID-19 and influenza are respiratory illnesses that initially spread due to a lack of population immunity from vaccinations. However, as vaccinations have been rolled out, both diseases have transitioned from pandemic to endemic status. In this research, this study employed unsupervised clustering methods to detect patterns in disease trends in South Korea and Thailand. This study examined both domestic clusters within each country and international clusters by combining South Korea and Thailand datasets together. This study’s analysis utilized three different surveillance datasets: the early stage of COVID-19, H1N1 influenza pandemic and influenza during the endemic stage. The findings have shown some international clusters included provinces and major cities from South Korea and Thailand, indicating similarity of disease transmission patterns between both countries. This could be due to mutual influence between the countries or possibly influenced by global disease spread patterns. This study’s objective was to determine the transmission patterns of influenza and COVID-19 to gain insights into the spatial epidemiology of these diseases. This information aims to guide public health interventions and disease surveillance strategies in both countries, preparing them for future pandemics or the transition to an endemic phase. Key words : Influenza; COVID-19; Unsupervised clustering; DBSCAN; K- means; Self-Organizing Map; QGIS; Public Health
박기홍 과학기술연합대학원대학교 한국과학기술정보연구원(KISTI) 2024 국내박사
빅뱅 후 약 38 만년이 지났을 때의 빛인 우주배경복사(Cosmic Microwave Background)의 데이터를 분석한 결과 우주에는 보이는 보통물질보다 보이지 않는 암흑물질이 5 배 이상 많이 존재함이 밝혀졌다. 암흑물질은 우주 초창기부터 존재해왔으며 중력작용을 통하여 은하 및 은하단 등의 우주의 주요한 구조를 형성 및 유지하는데 결정적인 기여를 하고 있다고 여겨진다. 이렇듯, 암흑물질은 우주의 주요한 구성물질일 뿐 아니라 우주 진화와 천문현상을 이해하는 열쇠이다. 하지만, 암흑물질은 중력 외에는 보통 물질과 거의 상호작용하지 않으며 표준모형보다 산란단면적이 1000 분의 1 보다 훨씬 작다. 다양한 이론적 모델을 바탕으로 실험적으로 암흑물질을 직접 검출하기 위한 노력들이 활발하게 진행되고 있으나 아직까지 암흑물질은 검출되지 않고 있다. 표준모형에는 적당한 암흑물질 후보가 없으므로 이러한 미지의 물질들로 구성된 암흑영역(dark sector) 개념을 표준모형으로부터 도입할 수 있다. 암흑영역은 표준모형과 유사하게 표준모형에서 전자기 상호작용을 매개하는 광자(photon)가 있듯이 암흑영역에는 암흑광자(dark photon)가 존재할 수 있다. 이 가상의 입자는 암흑물질과는 달리 표준모형으로 붕괴할 수 있으므로 표준모형 입자가 검출기에 남기는 데이터를 분석하여 암흑광자 신호를 탐색할 수 있다. 한편, 암흑광자 신호를 탐색하기 위해서는 방대한 양의 데이터 생산과 처리가 필요하며 배경사건의 효과적인 감소가 요구된다. 이때, 고성능 컴퓨팅을 활용하여 대규모 모의시늉 데이터를 생산하고 처리하며 기계학습을 활용하여 배경사건을 효과적으로 제거할 수 있다. 이에 따라, 우리는 고성능 컴퓨팅과 기계학습 기반으로 전자-양전자 충돌실험에서 암흑광자를 연구하였다. 연구에 포함한 실험은 현재실험인 Belle II 와 미래실험인 Circular Electron-Positron Collider (CEPC), Future Circular Collider (FCC)-ee, International Linear Collider (ILC) 실험이다. 이중 특히, 일본 고에너지 가속기 연구 기구 (KEK)의 Belle II 실험은 한국과학기술정보연구원(Korea Institute of Science and Technology Information, KISTI) 고에너지물리(High energy physics, HEP) 연구 그룹이 참여하는 국제공동실험이다. Belle II 실험에서 데이터 핸들링 시스템을 구축하고 이를 운영 및 개발해왔다. 2020 년 COVID-19 팬데믹 상황 때에 우리는 KISTI 원격 제어실에 Belle II 온라인 쉬프트 시스템을 구축하여 운영하였다. 그래서 일본 KEK 에 방문하지 않고도 데이터 획득 실험을 수행할 수 있었다. 신호사건 모드는 단일암흑광자모드 ( 𝑒+𝑒− → 𝜇+𝜇−𝐴′ )와 이중암흑광자모드 ( 𝑒+𝑒− → 𝐴′𝐴′ and 𝑒+𝑒− → 𝐴′𝐴′𝛾 )를 포함한다. 신호사건의 산란단면적에 영향을 주는 변수로서 질량중심에너지, 암흑광자질량, 결합상수 등이 있다. 산란단면적은 곧 암흑광자의 생성율을 의미하므로 이러한 변수들의 효과를 연구할 필요성이 있다. 따라서, 우리는 질량중심 에너지, 암흑광자 질량, 결합상수가 신호사건 모드들에 미치는 영향을 조사하였다. 다음으로, KISTI 슈퍼컴퓨터 5 호기를 활용하여 신호사건 및 배경사건을 매우 효율적으로 생산하였다. 이때, 신호사건은 simplified model 을 배경사건은 표준모형을 사용하여 질량중심에너지 91, 160, 240, 250, 350, 500, 1000 GeV 에 대하여 각각 백만 개의 이벤트를 생산하였다. 특히, 복잡한 배경사건 생성은 많은 메모리를 소모하므로 보통의 컴퓨터 자원으로는 목표로 하는 이벤트 수를 만들 수 없었다. 따라서, 슈퍼컴퓨터의 여러 노드와 코어들을 활용함으로써 충분한 모의시늉 데이터를 생산할 수 있었다. 다음으로 Delphes 검출기 모의시늉 툴킷을 활용하여 CEPC (91, 160, and 240 GeV), FCC-ee (91, 160, 250, and 350 GeV), ILC (250, 500, and 1000 GeV)의 검출기 모의시늉을 수행하였다. 검출기 데이터로부터 암흑광자를 재구성하였고 재구성한 신호사건 및 배경사건의 물리량을 Boosted Decision Trees (BDT) 기계학습 기법으로 훈련 및 테스트하였다. 그 결과, 배경사건은 효과적으로 감소되었고 고순도의 신호사건을 얻을 수 있었다. 고순도의 신호사건을 피팅하여 실험별로 예측되는 신호사건 수를 구하고 검출기 효율을 구하였다. 본 연구의 결과는 미래실험에서 암흑광자를 탐색하는데 참고자료가 될 것이다. 또한 본 연구에서 사용한 방법론은 현재 진행중인 Belle II 실험과 BESIII 실험에서 암흑광자 탐색에 도움을 줄 수 있을 것이다. Approximately 380,000 years after the Big Bang, analysis of the Cosmic Microwave Background (CMB) radiation revealed that the universe contains more than five times as much dark matter as visible matter. Dark matter, which has existed in the universe since its early stages, is believed to play a crucial role in forming and maintaining major structures in the universe, such as galaxies and galaxy clusters, through gravitational interactions. Therefore, dark matter is not only the dominant matter of the universe but also serves as a key to understanding the evolution and astronomical phenomena of the universe. However, dark matter interacts with ordinary matter primarily through gravity. In addition, the cross- section of dark matter is more than 1000 times smaller than that of the Standard Model particles. Due to these challenges, dark matter is not directly detected even though intensive efforts are made to detect dark matter experimentally based on various theoretical models. Because there is no suitable dark matter candidate in the Standard Model, dark sector composed of unknown particles can be introduced. Similar to how photons mediate electromagnetic interactions in the Standard Model, the dark sector may contain dark photons. These hypothetical particles can collapse into the Standard Model, allowing the analysis of data left by Standard Model particles in detectors to search for dark photon signals. However, effective removal of background events and massive data production are required to search for dark photon signals. In this regard, researches based on high performance computing and machine learning techniques are expected to be promising. Thus, we studied dark photons at electron-positron colliders based on high performance computing and machine learning. The experiments included the current Belle II experiment and future experiments of the Circular Electron- Positron Collider (CEPC), Future Circular Collider (FCC)-ee, and International Linear Collider (ILC). Specifically, the Belle II experiment at KEK (High Energy Accelerator Research Organization) in Japan is an international collaboration. Korea Institute of Science and Technology Information (KISTI) has played role in data handling system of the Belle II experiment. During the COVID-19 pandemic, we have developed the remote control room and have operated control room shift remotely. Therefore, we have taken data acquisition experiment even if we do not visit the KEK, Japan. We investigated the effects of variables of center-of-mass energy, dark photon mass, and coupling constant on the cross-section of signal event modes, including single dark photon mode ( 𝑒+𝑒− → 𝜇+𝜇−𝐴′ ) and double dark photon modes (𝑒+𝑒− → 𝐴′𝐴′ and 𝑒+𝑒− → 𝐴′𝐴′𝛾). Using the KISTI-5 supercomputer, we efficiently generated signal and background simulation data. One million events were produced for each center-of- mass energy of 91, 160, 240, 250, 350, 500, and 1000 GeV. A simplified model is used for the signal events and the Standard Model is used for background events. Delphes simulation was performed to simulate detector responses for the CEPC (91, 160, and 240 GeV), FCC-ee (91, 160, 250, and 350 GeV), and ILC (250, 500, and 1000 GeV). We then reconstructed dark photons from detector data. To reduce the background events, we used Boosted Decision Trees as a machine learning method. As a result, for each experiment, background events were effectively reduced, and high-purity signal events were obtained. The predicted numbers of signal events and detector efficiencies were calculated. The results of this study will serve as a reference of searching for dark photons in future experiments. In addition, the methodologies used in this study will help searching for dark matter at current experiments of Belle II and BESIII.
Optimal Network-Aware Cloud Scheduling Over High Performance Network
이상권 과학기술연합대학원대학교 한국과학기술정보연구원(KISTI) 2024 국내박사
대규모의 과학 장비가 등장하면서 과학 데이터의 크기는 이전에 비해 거대 해졌다. 과학 연구의 협업을 위해 이러한 데이터를 상용 네트워크 망을 통해 전송하게 되면 낮은 대역폭과 잦은 패킷로스로 인해 성능이 저하되는 문제가 있다. 이러한 점을 해결하기 위해 과학데이터 전송의 고속도로 역할을 하는 전용망을 만들어 사용하고 있다. 전용망은 상용 네트워크와 망분리를 하고 고성능의 네트워크 카드가 장착된 데이터 전송 전용 노드를 사용한다. 최근에는 데이터 전송 전용 노드의 컴퓨팅 자원을 계산 작업에도 활용하고자 컨테이너 오케스트레이션을 통해 클라우드로 구성하였다. 컨테이너 오케스트레이션을 통해 큰 규모의 공유 컴퓨팅 자원을 활용할 수 있고 자원의 확장이 용이하다는 장점이 있다. 다만 네트워크 성능으로 인한 문제점이 생겨날 수 있다. 예를 들어, 분산 딥러닝에서 학습 데이터 셋의 크기가 증가되거나 잦은 연산과 전송을 요구하는 복잡한 모델을 사용하게 되면 네트워크 성능이 학습 시간에 필요한 시간을 증가시킬 수 있다. 또한 IoT 기술 및 과학 장비의 발전으로 이전에 비해 데이터의 크기가 증가되었는데 이러한 데이터를 서로 다른 데이터 센터간 전송 시 단일 노드로 전송하는 것이 아닌 다수의 노드를 클러스터로 구성해 보다 빠르게 전송하는 방법을 사용한다. 이 방법은 노드들 간의 네트워크 성능이 전송 시간에 영향을 주기 때문에 네트워크는 중요한 요소가 된다. 본 논문에서는 앞에서 언급한 컨테이너 오케스트레이션으로 구성된 클러스터의 네트워크에 대한 연구를 하였다. 사용자가 작업을 생성하면 컨테이너 오케스트레이션은 스케줄러를 통해 이미지 지역성, 사용가능한 CPU 그리고 메모리의 비율을 점수화 하여 적합한 노드들을 선발하여 작업이 실행되도록 한다. 현재의 스케줄러는 네트워크 성능을 고려하지 않기 때문에 본 논문에서는 네트워크 모니터링 도구를 통해 수집된 네트워크 성능 데이터를 바탕으로 점수화 하여 노드를 선발하는 스케줄러를 적용하여 성능을 실험하였다. 클러스터간 데이터 전송과 분산 딥러닝 모델에 제안한 스케줄러 적용하여 노드간 네트워크 성능으로 인한 문제를 해결하였다. 주요단어(Key words): 분산 딥러닝, 데이터 전송, 클라우드, 컨테이너 오케스트레이션 The size of scientific data has become larger than before with the advent of large-scale scientific equipment. When such data is transmitted through a commercial network for collaboration in scientific research, performance is degraded due to low bandwidth and frequent packet loss. To solve this problem, a dedicated network is being created and used to serve as a highway for scientific data transmission. The dedicated data transmission nodes equipped with high- performance network interface card. Recently, it was configured as a cloud through container orchestration to utilize the computing resources of nodes dedicated to data transmission for calculation tasks. Container orchestration has the advantage of being able to utilize large-scale shared computing resources and making it easy to expand resources. However, problems may arise due to the network performance. For example, in distributed deep learning, when the size of a training data set increases or a complex model requiring frequent computation and transmission is used, the time required for training may increase depending on network performance. In addition, with the development of IoT technology and scientific equipment, the size of data has increased compared to before. When transmitting such data between different data centers, instead of transmitting it to a single node, multiple nodes are clustered to make it faster. In this method, the network becomes an important factor because network performance between nodes affects transmission time. In this thesis, we studied the network of clusters composed of the orchestration mentioned above. When a user creates a task, container orchestration scores image locality, available CPU, and memory ratio through the scheduler and selects appropriate nodes to execute the task. Since the current scheduler does not consider network performance, this thesis tested the performance by applying a scheduler that selects nodes by scoring them based on network performance data collected through a network monitoring tool. By applying the proposed scheduler to cluster- to-cluster data transmission and distributed deep learning model, problems caused by network performance between nodes were solved. Key words: Distributed deep learning, Data transmission, Cloud, Container orchestration
Advancing Arabic Large Language Model for Infectious Diseases Domain
Yesim Selcuk 과학기술연합대학원대학교 한국과학기술정보연구원(KISTI) 2023 국내석사
감염병 대유행은 사회에 미치는 영향력이 매우 크기 때문에 이를 완화하기 위해서는 선제적이고 정기적인 모니터링이 필요하다. 이를 위해서 세계보건기구(WHO)와 유럽 질병예방통제센터(ECDC) 등은 여러 지역의 감염병 추세를 추적하기 위해 감시 데이터를 수집하여 플랫폼을 통해서 정보를 제공한다. 그러나 대부분의 감시 데이터는 영어로 제공되고 있기 때문에 비영어권 사용자의 경우 이와 같은 플랫폼 정보에 접근하여 발병 패턴을 정확하게 모니터링하는데 어려움이 있다. 특히 중동호흡기증후군(MERS-CoV)와 같이 중동 및 북아프리카(MENA) 와 같은 비영어권 국가들 중심으로 확산되고 있는 감염병의 경우에도 이와 같은 문제가 발생할 수 있다. 따라서 영어 이외의 언어를 이해할 수 있는 기술을 개발하면 발병 정보를 더 광범위한 범위에서 사용할 수 있다. 본 연구에서는 위와 같은 문제를 완화하기 위해서 아랍어와 영어를 모두 지원하고 MENA 지역에 초점을 맞춘 Q&A(질문과 답변) 작업을 위해 개발된 대규모 언어 모델인 ‘KISTI-모델’을 개발하였다. 이 연구는 총 55,400개의 아랍어 및 영어 도메인별 학습용 데이터 세트를 사용하여 Q&A 작업을 기반으로 AceGPT-7B 및 AceGPT- 7B-Chat 모델에 대한 지시조정(instruction tuning)을 수행하였다. 또한, 검색 증강 생성(RAG) 기술을 사용하여 추가적인 미세 조정 없이 감염병에 대한 최신 데이터에 접근했다. 평가는 GPT-4를 활용해서 수행했는데 KISTI-모델은 각각 43.32% 및 46.81%의 수행률로 7B 및 13개의 B 크기 아랍어 LLM에서 좋은 성과를 거두었으며, 23.71%의 수행률을 보인 GPT-4에 미해서도 높은 수준을 나타냈다. 이 연구는 정확한 정보를 제공하는 데 있어 현재 아랍어 LLM의 한계를 해결하여 감염병을 모니터링하기 위한 이중 언어 Q&A 시스템을 개발하는 것을 목표로 한다. 주요단어(Keywords): 대형 언어 모델; 아랍어 언어 모델; LLM; 아랍어 LLM; 전염병 Infectious diseases have several public health concerns that needs proactive, regular monitoring to alleviate the adverse effects of diseases on society. There are platforms such as The World Health Organization (WHO) and the European Centre for Disease Prevention and Control (ECDC) have gathered surveillance data to track infectious disease trends in across regions. However, most surveillance data is provided in English via these platforms which creates language barriers for non-English speakers' access and global health efforts to monitor outbreak patterns accurately. This is particularly observed in countries such as the Middle East and North Africa (MENA), where infectious diseases like MERS- CoV have been emerging rapidly. Thus, developing technologies that break down language barriers can make outbreak information more available to a broader scope. To alleviate these issues, we present a large language model of KISTI that was developed for Q&A (Question & Answering) tasks, supporting Arabic and English and focusing MENA region. This comprehensive study was applied with performing instruction tuning on AceGPT-7B and AceGPT-7B-Chat models based on Q&A tasks using a dataset of 55,400 Arabic and English domain-specific instruction-following data. Moreover, we used the Retrieval-Augmented Generation (RAG) technique to access recent data on infectious diseases without the need for extra fine-tuning. Using the GPT-4 evaluation approach, KISTI’s model performed remarkably well with 7B and 13 B-sized Arabic LLMs, with performance rates of 43.32% and 46.81%, respectively, while competing with GPT-4 with a 23.71% performance rate. This study aims to develop a bilingual Q&A system for monitoring infectious diseases, addressing current Arabic LLMs' limitations in providing accurate information. Keywords: large language model; Arabic language models; LLM; Arabic LLMs; infectious diseases; * A thesis submitted to committee of the University of Science and Technology in a partial fulfillment of the requirement for the degree of Master of Science conferred in February 2025.
과학 분야 분석을 위한 인용 정보를 활용한 BERT 기반 언어 모델 연구
유주연 과학기술연합대학원대학교 한국과학기술정보연구원(KISTI) 2024 국내석사
최근 BERT 기반의 사전 학습 언어 모델들은 질의응답이나 개체명 인식과 같은 다양한 자연어 처리 태스크에서 높은 성능을 달성하고 있다. 대다수의 언어 모델은 위키피디아나 뉴스 기사와 같은 범용적 도메인을 학습 데이터로 사용하고 있기 때문에 과학이나 의학과 같은 전문적인 분야의 태스크에서는 비교적 낮은 성능을 보인다. 또한, 대부분의 언어 모델들이 사전 학습 과정에서 단일 문서만을 고려하는 경향이 있어, 실제 세계의 정보가 지닌 계층적인 구조를 충분히 반영하지 못하고 있으며, 이는 인과 관계와 추론을 이해하는 능력에 있어서의 취약점으로 나타나고 있다. 이에 본 논문에서는 과학 분야의 태스크에서의 성능 향상을 도모하기 위해 PubMed 논문 전문에 대해 BERT를 확장한 언어 모델을 학습시키는 방법을 제안한다. 단일 문서가 아닌 문서 간의 인용 정보를 활용하며 이를 효과적으로 학습시키기 위한 문장 간 관계 예측 로스와 BERT와 동일한 마스킹 기법을 사용한다. 또한, 대규모 말뭉치를 효율적으로 처리할 수 있도록 GPU 클러스터를 활용한 분산 학습 전략을 채택하고, 언어 모델의 성능을 극대화하기 위한 다양한 사전 처리 기법을 구현하였다. 성능 평가를 위해 BLURB, MedQA, SciERC, GENIA 등 다양한 과학 분야의 자연어 처리 태스크를 통한 비교 평가를 수행하였고, 모델의 우수성을 입증하였다. 구체적으로, BC5-disease 데이터셋에서의 개체명 인식 태스크에서 BioLinkBERT를 상회하는 2.4% 향상된 성능, EBM PICO 데이터셋에서의 의학 텍스트 문장 식별 태스크에서 0.39%, 그리고 MedQA 데이터셋에서의 질의응답 태스크에서 0.71% 향상된 성능을 보였다. 이외에도 SciERC 데이터셋에서의 개체명 인식과 관계 추출 태스크에서 SciDeBERTa(CS)를 능가하는 1.1%, 4.81%의 성능 향상을 관찰하였으며, GENIA 데이터셋의 개체명 인식 태스크에서도 0.34%의 성능 개선을 달성하였다.
Developing a conceptual model of Open Science Policy Design and Implementation Process
Hanna Shmagun 과학기술연합대학원대학교 한국과학기술정보연구원(KISTI) 2024 국내박사
Several phenomena, such as the Digital Revolution and the so-called ‘replication crisis’, influenced the emergence of the Open Science (OS) movement, emphasising the necessity of collaborative co-production of scientific knowledge and its open sharing via the Internet within and beyond research communities. While various OS initiatives, like Open Access to publications and open research data, have surfaced over the past decades and the value of OS has been underscored by various stakeholders, especially during the coronavirus pandemic, numerous issues related to the adoption of OS practices still arise largely because of the fragmentation and lack of structured holistic approaches in developing and implementing related policy interventions at different levels. The aim of this doctoral research was to develop a conceptual model of OS Policy Design and Implementation Process that can be used as a basic framework for formulating, evaluating, improving and/or analysing (inter)national and institutional OS policies and strategies in a systematic way. To achieve this aim, a mixed methods research methodology was employed. This included policy document analysis of various legal and quasi-legal instruments at international, European Union and country levels; semi-structured interviews; a questionnaire survey; a virtual participatory workshop with subject matter experts. The core output of this doctoral dissertation is a conceptual model of OS Policy Design and Implementation Process. This model, anchored by a generic flowchart adapted from Ostrom’s Institutional Analysis and Development (IAD) framework, is structured as an iterative cycle. It encompasses five interdependent components or stages: enabling or inhibiting factors for OS development; deliberate actions taken in response to these OS factors; interaction and coordination mechanisms among stakeholders within and across action situations, capturing power relations and role dependences; OS outcomes derived from collective actions; evaluative criteria and associated performance measures, applied to outcomes and interaction patterns, which can invigorate feedback loops iterating the entire cycle. Delving into this model, the dissertation offers a typology of possible OS factors, ranked by significance, and proposes a guide of detailed actions for relevant stakeholders, complemented by real-world examples. It also suggests evaluative criteria alongside associated performance measures for assessing potential OS outcomes. The conceptual model can assist various stakeholders in the research and innovation sector – including policy-making governments, funding agencies and research institutions – in adopting a structured and comprehensive approach to OS policy development and implementation, emphasising continuous improvement. Moreover, it can be used as a tool in case study research, providing scholars a systematic method to analyse and describe national or institutional-level OS policy landscapes. Keywords: Open Science, policy design and implementation, enabling and inhibiting factors and recommended actions, Ostrom’s Institutional Analysis and Development (IAD) framework 세계적으로 디지털 혁명과 재현성 위기와 같은 현상들이 나타났으며, 이를 통하여 과학적 성과를 만들기 위해서는 협업을 통한 공동작업의 중요성을 인식하였고 인터넷을 통한 연구자 커뮤니티 안밖에서의 공유와 개방의 중요성을 알게 되었으며, 이것이 오픈사이언스(Open Science; OS)의 출현에 깊은 영향을 주었다. 지난 수십 년 동안 학술 출판물에 대한 오픈액세스와 공개된 연구데이터와 같은 다양한 OS 이니셔티브가 표면화되었으며, 특히 코로나바이러스 팬데믹 기간 동안 다양한 이해관계자들에 의해 OS의 가치가 강조되었지만, 다양한 수준의 관련 정책을 개발하고 구현하는 데 있어 구조화된 총체적 접근 방식의 부족과 구조화되지 않은 단편화된 문제로 인해OS 도입과 관련해서는 여전히 수많은 문제가 존재하고 있다. 본 박사과정 연구의 목적은 국제·국가·기관의 OS 정책 및 전략을 체계적으로 수립하고 평가하며 개선하고 분석하기 위한 기본 틀로 활용될 수 있는 ‘OS 정책 설계 및 구현 프로세스의 개념적 모델’을 개발하는 것이다. 이러한 목적을 달성하기 위해 ‘혼합적 방법의 연구 방법론’을 사용하였다. 이 방법론에는 국제, 유럽연합, 국가 차원의 다양한 법적·준법적 수단에 대한 정책 문서 분석과 반 구조화된 인터뷰 조사, 설문 조사, 해당 전문가들의 가상 참여형 워크숍이 포함되었다. 이 논문 연구의 핵심 결과물은 ‘OS 정책 설계 및 구현 프로세스의 개념적 모델’이다. Ostrom의 IAD(Institutional Analysis and Development) 프레임워크에서 채택한 일반적인 흐름도를 기반으로 하는 이 모델은 반복 주기로 구조화되어 있다. 이 모델은 5개의 상호 의존적인 구성요소 또는 단계가 포함되어 있다. 즉, (1) OS 개발을 활성화하거나 저해하는 요인; (2) 이러한 OS 요인에 대응하여 취해지는 의도적인 조치; (3) 조치 상황 내외에서 이해관계자 간의 상호 작용 및 조정 메커니즘이 거버넌스 관계와 역할 의존성을 포착하는 것; (4) 집단 조치에서 파생된 OS 성과; (5) ‘(3)’과 ‘(4)’에 적용되는 평가 기준 및 관련 성능 측정이다. 본 박사과정 연구에서 제시한 개념적 모델은 가능한 OS 요인의 유형을 중요도에 따라 순위를 매기고 실제 사례를 통해 보완된 관련 이해관계자를 위한 세부 행동 지침을 제안한다. 또한 잠재적인 OS 성과를 평가하기 위한 관련 성능 측정과 함께 평가 기준을 제안한다. 이 개념적 모델은 정책을 입안하는 정부, 자금 지원 기관 및 연구 기관을 포함하여 연구 및 혁신 분야의 다양한 이해관계자가 OS 정책 개발 및 구현에 대한 체계적이고 포괄적인 접근 방식을 채택하고 지속적인 개선을 시행하도록 지원할 수 있다. 또한 이 모델은 사례 연구의 도구로 사용될 수 있으며, 학자들에게 국가 또는 기관 수준의 OS 정책 환경을 분석하고 설명할 수 있는 체계적인 방법을 제공한다. 주요단어: 오픈사이언스(Open Science; OS), 정책 기획∙실행, 촉진∙저해 요인 및 권장 활동, 엘리너 오스트롬(Elinor Ostrom)의 제도분석(Institutional Analysis and Development; IAD) 프레임워크
A Study of Anomaly Sound Detection of Automotive Motors Using Machine Learning Techniques
윤은선 과학기술연합대학원대학교 한국과학기술정보연구원(KISTI) 2024 국내석사
비정상적인 소리 감지(ASD)는 산업 분야에 심각한 영향을 미치는 비정상적인 소리 패턴을 식별하는 데 중요하다. 그러나 기존 딥러닝 방법을 기반으로 하는 ASD 는 몇 가지 과제에 직면해 있다. 예를 들어, 딥 러닝 모델에는 대량의 레이블이 지정된 데이터가 필요하다. 또한 이상값의 다양성은 딥 러닝 모델의 성능에 영향을 미치며 일부 이상값은 감지하기 어렵다. 본 연구에서는 기계학습(ML) 기술을 결합하여 ASD 의 새로운 진단 방법을 제안한다. 이를 위하여 평활화, 주성분 분석(PCA) 및 K-means 알고리즘을 사용하여 음향 모터 이상을 탐지하기 위해 제안된 ML 방법의 효율성을 조사했다. 이 방법을 심층 합성곱 신경망을 사용하는 기존 접근 방식과 비교하여 그 장점이 강조되었다. 또한 소리 데이터의 차원성을 줄이면서 정보 손실을 최소화하고 이상의 종류와 이상의 정도에 따라 나누어 분류했다. 따라서 데이터의 양과 이상치의 다양성에 관계없이 데이터 진단을 수행하였다. 또한, 제안된 방법은 99.4%의 분류 정확도를 보였으며, 이 결과는 모터 소리 기반 고장 진단 시스템에 적용할 수 있는 우수한 가능성을 보여주었다. Anomalous sound detection (ASD) is crucial in identifying anomalous sound patterns significantly affecting industrial areas. However, ASD based on conventional deep learning methods faces several challenges. For instance, deep learning models require large amounts of labeled data. Additionally, the diversity of anomalies affects the performance of deep learning models, with a few anomalies being difficult to detect. In this study, a novel diagnostic method for detecting motor anomalies using sound signals has been proposed by combining Machine Learning (ML) techniques. The effectiveness of the proposed machine learning method for detecting acoustic motor anomalies was investigated in this study, employing techniques such as smoothing, Principal Component Analysis (PCA), and K-means algorithms. The method was compared with current approaches using deep convolutional neural networks, and its advantages were highlighted. Furthermore, it minimized information loss whereas reducing the dimensionality of sound data, and further classified motor anomalies and outliers. Therefore, the data diagnosis was performed independent of the amount of data and the diversity of outliers. Additionally, the proposed method exhibited a classification accuracy of 99.4%, and the results showed significant potential for its application in motor sound-based fault diagnosis systems.
Sajid Hussain 과학기술연합대학원대학교 한국과학기술정보연구원(KISTI) 2024 국내석사
압축모델을이용한지식증류기반효율적인 SR-GAN기법 고해상도 이미지는 가장 널리 알려진 컴퓨터 비전 분야의 대표적 이슈 중 하나이며 의료 영상부터 감시 시스템까지 다양한 응용 분야에서 중요한 역 할을 한다. GAN(Generative Adversarial Networks)의 등장으로 저해상도 입력 이미지로부터 고품질의 사실적인 이미지를 생성할 수 있게 되면서 이 분야는 혁신적으로발전하게되었다.그러나 GAN을활용한단일고해상도이미지(SR) 생성에는여전히많은어려움이존재한다. GAN기반 SR기술활용의주요어려움은고성능생성자네트워크로인한 높은 메모리와 계산 요구에 있다. 이러한 요구사항은 성능을 저해하고 많은 에 너지를소비하여자원이제한적인기기에 GAN기반 SR을활용하는것을어렵게 한다. 본 연구는 이 문제점을 해결하기 위한 단일 이미지의 고해상도를 위한 혁신적이고 효율적인 SR-GAN 구조를 제안한다. 제안하는 방법은 지식 증류 (knowledge distillation) 개념을 전략적으로 활용하여 메모리 요구 사항을 최대 58%까지획기적으로감소시키면서도성능향상을얻을수있었다. 본 연구에서 제안하는 방법의 핵심은 고성능 모델로부터 특징 맵들을 추 출하여 연산 및 메모리 오버헤드를 최소화하는 경량 모델을 개발하는 데 있다. 다양한 벤치마크 데이터셋에 대한 x4 고해상도 태스크 실험 결과, 우리의 압축 모델이 기존 지식 증류 기반 기술과 기반 모델의 성능을 SSIM, PSNR, LPIPS, DISTS측면에서모두뛰어넘는것을확인할수있었다. Keywords:지식증류;생성적적대네트워크;감독자-해결;모델경량. Efficiency Enhanced Super Resolution Generative Adversarial Network via Advanced Knowledge Distillation Image super-resolution is a widely popular computer vision problem that plays a pivotal role in numerous real-world applications, ranging from medical imaging to surveillance systems. The field has been revolutionized by the emergence of Generative Adversarial Networks (GANs), which enable the generation of high- quality, photorealistic images from low-resolution inputs. However, the utilization of GANs for single-image super-resolution (SISR) is not without its challenges. The main obstacle to the adoption of GAN-based SR lies in its high memory and computational demands, primarily attributed to the resource-intensive genera- tor networks. These demands hinder performance and exacerbate energy consump- tion, making the deployment of GAN-based SR on resource-constrained devices a formidable task. In response to this challenge, our research endeavors to introduce an innova- tive and efficient solution: a novel SR-GAN architecture optimized for the demands of SISR. Our approach leverages the concept of knowledge distillation strategically, resulting in a remarkable reduction in storage requirements by up to 58%, while enhancing performance. The core of our methodology involves the extraction of feature maps from a resource-intensive model to craft a lightweight, yet powerful model with minimal computational and memory overhead. Through extensive experimentation across diverse benchmark datasets, our proposed compressed model outperforms existing knowledge distillation-based techniques and the base model, particularly in regard to SSIM, PSNR, LPIPS, DISTS, and overall image quality in 4x super-resolution tasks. Keywords: Knowledge Distillation; Generative Adversarial Network; Super-Resolution; Model Lightweight.