RISS 학술연구정보서비스

검색
다국어 입력

http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.

변환된 중국어를 복사하여 사용하시면 됩니다.

예시)
  • 中文 을 입력하시려면 zhongwen을 입력하시고 space를누르시면됩니다.
  • 北京 을 입력하시려면 beijing을 입력하시고 space를 누르시면 됩니다.
닫기
    인기검색어 순위 펼치기

    RISS 인기검색어

      검색결과 좁혀 보기

      선택해제
      • 좁혀본 항목 보기순서

        • 원문유무
        • 음성지원유무
        • 학위유형
        • 주제분류
          펼치기
        • 수여기관
          펼치기
        • 발행연도
          펼치기
        • 작성언어
          펼치기
        • 지도교수
          펼치기

      오늘 본 자료

      • 오늘 본 자료가 없습니다.
      더보기
      • On the head redundancy in Swin transformer for image classification

        오준호 Graduate School, Yonsei University 2022 국내석사

        RANK : 2943

        Transformer 모델은 원래 자연어 처리를 위해 고안된 모델이지만, computer vision 등의 타 분야에서도 Transformer를 활용하려는 연구가 매우 활발하게 진행되고 있다. 자연어 처리 분야에서 이용되는 Transformer 기반 모델의 Multi-Head Self-Attention (MHSA) 모듈을 구성하는 각 헤드간의 중복성에 관한 연구는 존재하지만, computer vision 분야에서 이용되는 Transformer 기반 모델에 대해 이를 연구한 바는 없다. 본 논문에서는 Swin Transformer 모델의 MHSA 모듈에서 각 헤드를 제거했을 때 ImageNet 데이터셋의 이미지 분류 작업에서 모델 성능의 변화를 측정하였고, 이를 통해 몇몇 헤드는 다른 헤드와 중복성이 존재하여, 그 헤드를 제거하더라도 정확도의 하락이 적거나 오히려 상승함을 밝혔다. 또한 stage 3을 구성하는 헤드 중 절반을 제거하여 비교적 적은 정확도 감소를 대가로 모델을 경량화할 수 있음을 보였다. 마지막으로, 헤드의 중복성에 영향을 미칠 것으로 예상되는 3개의 잠재요소로 출력 행렬의 노름의 평균값, 입력에 따른 출력 행렬 간의 불변성, 각 헤드 간 attention map의 코사인 유사도를 제시하였고, 그 중 전자 2개의 요소와 모델 성능 간에 상관관계가 존재함을 발견하였다. Although the Transformer model was originally designed for natural language processing (NLP), many studies are being actively conducted in utilizing the Transformer in other fields such as computer vision. There is a study on the redundancy between attention heads in multi-head self-attention (MHSA) modules of Transformer-based models in NLP, but there is no study on Transformer-based models in computer vision. In this thesis, we measure the change of model performance on the ImageNet image classification task when each head in MHSA layers in Swin Transformer is removed. Several heads are redundant, so the model accuracy slightly decreases or rather increases. In addition, it is shown that the model can be compressed by removing half of the heads in stage 3, in exchange for insignificant accuracy loss. Finally, we offer three factors that are expected to affect the head redundancy; the mean of norms of output matrices for various inputs, the invariance of output matrices for various inputs, and the cosine similarity between attention maps of each head. It is proved that the former two factors are correlated with head redundancy.

      • Transformer 기반 예측적 프로세스 자원 할당 알고리즘

        박영인 경기대학교 대학원 2023 국내석사

        RANK : 2943

        많은 기업들은 프로세스 기반 정보 시스템을 통해 업무 프로세스를 실행하고 관리한다. 프로세스 기반 정보 시스템은 실행된 프로세스 인스턴스의 이력을 프로세스 이벤트 로그 형태로 기록하고, 이러한 로그를 분석하여 효과적인 비즈니스 프로세스 운영을 지원한다. 프로세스 기반 정보 시스템을 사용하는 기업들은 프로세스 모니터링을 통해 커다란 경쟁 시장에서 우위를 선점하기 위해 업무 프로세스를 개선하고자 한다. 이에 따라 프로세스를 분석하고 개선하는 여러 연구들이 개발 되었으며, 특히 기업의 금전적인 손익과 직접적으로 연관이 되는 자원 할당에 대한 연구가 주목받고 있다. 이러한 연구는 실시간 프로세스 업무에 대하여 즉각적으로 자원을 할당하는 것에 대한 좋은 지표가 될 뿐만 아니라, 미래의 자원 할당 계획 수립에 도움이 된다. 프로세스 자원 할당 연구로는 규칙기반의 수학적 알고리즘과 자원의 적합성 및 관계파악, 자원 활용 모니터링이 가능한 프로세스 마이닝 등이 있다. 하지만 이들은 실시간으로 들어오는 데이터에 대해 예기치 못한 변수로 낮은 자원 활용률을 초래하거나, 업무 수행 흐름을 반영하지 못하여 비효율적인 자원 할당 계획을 수립할 수 있고, 자원의 상호 실행가능성을 고려하지 않아 프로세스 오작동을 초래할 수 있다. 본 논문에서는 미래 자원 할당 계획 수립을 위해 수행 흐름을 고려할 수 있는 예측적 프로세스 모니터링 기법으로 자원의 상호 실행가능성을 고려한 자원 할당 알고리즘을 제안한다. 예측적 프로세스 모니터링은 과거 프로세스 인스턴스의 실행이력을 분석하여 실행중인 프로세스 인스턴스의 미래 상태를 예측하는 기법으로, 업무 수행 흐름을 알 수 있는 다음 업무 및 런타임 예측이 가능하다. 최근 예측적 프로세스 모니터링에는 지능형 데이터 예측 기법인 딥러닝 기반 연구가 진행되었으며, 특히 순차적으로 기록되는 프로세스 이벤트 로그의 시계열적인 특성을 고려할 수 있는 시계열 딥러닝 모델인 LSTM을 사용한 연구가 가장 많이 이뤄졌다. 하지만 이는 프로세스 인스턴스의 길이가 길어질수록 성능이 낮아진다는 한계점이 있으며, 이에 따라 성능 향상을 위한 새로운 모델 기반의 연구가 필요했고, 이를 해결한 Transformer 기반의 연구가 이뤄졌다. Transformer는 기계 번역에서 SOTA 모델을 이룬 시계열 딥러닝 모델로, 출력을 예측하는 매 시점마다 전체 입력을 다시 참고함으로써 해당 출력과 연관성이 있는 입력에 대해 더 집중하는 Attention Mechanism을 사용한다. 프로세스 인스턴스는 업무의 흐름인 제어흐름을 가지며, 프로세스 인스턴스를 예측하는 데 있어 업무 간의 상관관계는 중요한 지표이다. Transformer는 Attention Mechanism을 통해 이러한 프로세스 업무 간의 상관관계를 고려한 예측이 가능하며, 이에 따라 Transformer를 사용한 예측적 프로세스 모니터링 연구인 ProcessTransformer가 등장하였다. ProcessTransformer는 다음 액티비티 예측에 있어 LSTM 기반 연구보다 훨씬 좋은 성능을 보였지만, 예측 모델의 입력으로 프로세스 액티비티 흐름만을 고려하였다. 프로세스 자원 할당 계획 수립을 위해서는 할당되었던 자원들에 대한 정보도 중요한 요소로 작용되며, 따라서 본 논문에서는 ProcessTransformer를 기반으로 자원의 정보도 고려하여 예측적 프로세스 모니터링 모델을 설계해 런타임 및 다음 업무를 예측하고, 자원의 상호 실행가능성을 고려하여 자원할당을 진행한다. 제안한 연구를 검증하고자 4TU.Centre for Research Data에서 제공하는 실제 프로세스 이벤트 로그인 Helpdesk, BPIC2012, BPIC2013, Review_Example_Large 데이터세트를 사용하여 실험한다. 예측적 프로세스 모니터링 성능 확인을 위해 기존 연구들과 비교한 결과, Helpdesk, BPIC2012, Review_Example_Large 데이터세트에서 가장 높은 성능을 보였다. 그리고 학습된 예측적 프로세스 모니터링 모델의 예측 결과를 통해 자원 할당을 하여 자원의 상호 실행가능성을 고려한 예측적 프로세스 인스턴스를 생성하였다. Many enterprises execute and manage business processes through Process-Aware Information System (PAIS). PAIS records the histories of executed process instances in the form of process event logs, and supports effective business process operation by analyzing these logs. Process-Aware enterprises seek to improve business processes to gain an advantage in a highly competitive market through process monitoring. Accordingly, several studies have been developed to analyze and improve the process, and in particular, research on resource allocation, which is directly related to financial profit-and-loss, is getting attention. These studies not only serves a good indicator of immediate resource allocation for current process tasks, but also helps to plan future resource allocation. Process resource allocation studies include rule-based mathematical algorithms and process mining, which can identify suitability and relationship of resources and monitor resource utilization. However, it can result in low resource utilization due to unexpected variables of data in real-time, and establish an inefficient resource allocation plan due to failing to reflect the workflow, and may cause malfunctions due to not consideting the interoperability of resources. For future resource allocation planning, this study proposes resource allocation algorithm considering interoperability of resources by performing Predictive Process Monitoring(PPM) that can consider the execution flow. PPM is a technique that predicts the future state of process instance, which is being executed, by analyzing the histories of past process instance and it is possible to predict th next task and runtime to figure out workflow. Recently, research based on deep learning, an intelligent data prediction technique, has been conducted for PPM, and in particular, LSTM, which can consider the time-series characteristics of sequentially recorded process event logs, was the most used. However, it has a limitation that the longer length of the process instance, the lower performance. Accordingly, a new model-based research was needed to improve performance, and Transformer-based research was conducted to solve this problem. Transformer is a time-series deep learning model that is state-of-the-art in machine translation, and uses Attention Mechanism that focuses more on inputs that are related to the output by referring back to the entire input at every point in predicting output. Process instance has a control flow, which is a workflow, and the correlation between tasks is an important indicator in predicting a process instance. Transformer can predict considering the correlation between process tasks through Attention Mechanism, and accordingly, ProcessTransformer, a PPM study using Transformer, appeared. ProcessTransformer performed significantly better than LSTM-based studies in predicting the next activity, but only considered the process activity flow as an input to predictive model. In order to establish a process resource allocation plan, information on allocated resources is also an important factor, therefore, this study is based on ProcessTransformer and design PPM model by considering resource factor to predict runtime and next task, and then proceed with resource allocation. To verify the proposed study, this paper experiments using the actual process event log datasets provided by 4TU.Centre for Research Data, Helpdesk, BPIC2012, BPIC2013, Review_Example_Large. As a result of comparison with previous studies to confirm PPM, proposed study showed high performance in Helpdesk, BPIC2012, and Review_Example_Large. Then, resource allocation was performed through the prediction result of the learned PPM model, and a predictive process instance was created considering interoperability of resources.

      • 트랜스포머 기반 분류 작업을 위한 시계열 표현 학습

        서재진 인하대학교 대학원 2022 국내석사

        RANK : 2943

        시계열 데이터란 일정한 시간 동안 수집된 일련의 순차적으로 정해진 데이터 셋의 집합을 의미하며 예측, 분류, 이상치 탐지 등에 활용되고 있다. 기존의 시계열 분야의 인공지능 모델에는 RNN(Recurrent Neural Network)을 주로 활용하여 분석을 진행했지만, 최근 Transformer 모델의 개발로 인하여 연구 추세가 변화하고 있다. Transformer 모델은 시계열 데이터 예측에는 좋은 성능을 보이지만, 분류 쪽에서는 상대적으로 부족한 성능을 보인다. 본 논문에서는 시계열 분류를 위한 Transformer 모델에 CLS 토큰을 추가하여 성능 향상에 초점을 맞추었다. 본 논문에서 제안하는 방식은 1) 입력 데이터의 임베딩 방법, 2) 사전 학습 방법이다. 1) 입력 데이터의 임베딩 방법은 총 2가지 방법을 이용한다. 첫 번째는 입력 데이터를 standard scaler를 활용하여 각기 다른 진폭을 가지는 시계열 데이터들을 정규화하여 진폭을 균일하게 만들고 time window 방식으로 데이터의 차원을 변경한 뒤 GRU(Gated Recurrent Unit)를 통하여 Transformer에 입력 토큰으로 활용한다. 두 번째는 GASF(Gramian Angular Summation Field)를 활용하여 입력 데이터를 이미지로 만든 뒤 사전 학습된 컴퓨터 비전 모델을 활용하여 얻어낸 벡터를 Transformer의 CLS 토큰 입력으로 활용한다. 사전 학습 방식은 자연어 분야에서 사용하는 MLM(Masked Language Modeling)과 유사한 방식을 활용한다. 시계열 데이터는 자연어와 다르게 연속 변수로 이루어져 있어서 목적함수 계산 시 MSE(Mean Squared Error)를 활용한다. 입력 토큰의 마스킹 작업 시에 CLS 토큰은 제외하고 나머지 입력 토큰 중 30%를 마스킹하고 마스킹 된 값을 출력단에서 맞추는 형식으로 학습된다. 본 논문에서는 UCR 데이터 셋을 활용하여 총 12개의 서로 다른 모델들과 제안하는 모델의 성능을 비교한다. 제안하는 모델은 85개의 데이터에 대한 평균 정확도 평가에서 최소 1.4% 최대 21.1%까지 성능 향상을 보였다. Time series data refer to a sequentially determined data set collected for a certain period of time and is used for prediction, classification, and outlier detection. Although the existing artificial intelligence models in the field of time series are mainly based on the RNN (Recurrent Neural Network), recently research trends are changing to Transformer-based models. Although these Transformer-based models show good performance for time series data prediction problem, they show relatively insufficient performance for classification tasks. To address this problem, we propose a novel Transformer-based model to enhance the classification performance by adding CLS token to Transformer model and applying a pre-training method. The main contributions of this paper are summarized as follows : 1) an embedding method of input data, 2) a pre-training method for time series data. The embedding method of input data consists of two steps. First, the standard scaler is used to normalize time series data with different amplitudes. Then, we change the dimension of the data by using a time window method and use it as an input token for Transformer through GRU(Gated Recurrent Units). Second, we transform input data into an image using the GASF(Gramian Angular Summation Field). In addition, this transformed image is vectorized using a pre-trained model of ResNet. This vector is used as an input of a CLS token. Our pre-training method for time series data is basically based on the MLM (Masked Language Modeling) used in the natural language processing. Compared to the original MLM method, we use MSE(Mean Squared Error) for the evaluation of the objective function because time series data are composed of continuous variables unlike natural language processing. To show the efficacy of our method, we conduct extensive experiments with 12 different models using the UCR dataset. The experimental results show that our proposed model improves the average accuracy of 85 datasets from 1.4% to up to 21.1%.

      • Accelerating Transformer-Based Model Inference using Efficient Matrix Multiplications on GPUs

        이해룡 서울대학교 대학원 2023 국내박사

        RANK : 2943

        Transformer-based models have become the backbone of many state-of-the-art natural language processing (NLP) and computer vision tasks. As existing powerful models become large, enabling the models to learn and represent complex data relationships. Additionally, increasing the input sequence can be an effective way to improve performance for challenging real-world tasks. However, high inference cost hinders the use of powerful transformers because of large memory footprint, quadratic complexity with input sequence length in attention layers, and inefficient kernel operations. In this thesis, we propose Transformer optimization methods to reduce inference costs in various scenarios, depending on the model size, input sequence length, and batch size. First, we propose Multigrain, an optimization method for scenarios where the input length (Lin) is significantly greater than the hidden dimension (Dh). Existing sparse attention techniques can effectively reduce computation and memory footprints in long input sequences; however, they are inefficiently processed on GPUs and still account for the majority of the execution time. Multigrain takes into account the sparse patterns of sparse attention, processing the coarse-grained part with a coarse-grained kernel using high-performance tensor cores and the fine-grained part with a fine-grained kernel using CUDA cores, respectively. As a result, Multigrain achieves a 2.07x end-to-end speedup over DeepSpeed when running Longformer inference. Second, we propose a tiled singular value decomposition (TSVD) method to reduce inference costs in scenarios where Lin is similar to or smaller than Dh. TSVD is a technique that divides a matrix into tiles, performs singular value decomposition (SVD) on each tile, and compresses the matrix using low-rank approximation. By performing matrix multiplication, the fundamental operation of attention layers and feed-forward layers in Transformer models, using low-rank approximation-based TSVD-matmul, memory footprint and computation can be reduced, significantly lowering inference costs. Consequently, when compressing matrices by 2 to 8x, TSVD-based matrix multiplication is 1.02 to 2.26x faster than the uncompressed matrix multiplication. However, when applying TSVD to models, the execution time is reduced, but there is a trade-off in decreased accuracy. To address this issue, we propose TSVD-common, a parameter-efficient fine-tuning method based on TSVD. TSVD-common shares one of the submatrices decomposed by SVD in each tile across all tiles and fine-tunes only the common submatrix during training. As a result, TSVD-common improves accuracy by approximately 2% even when compressing the GPT-2 model by 2 or 4x in E2E NLG tasks, compared to full fine-tuning without compression. 최근 Transformer 기반의 모델들은 자연어 처리와 컴퓨터 비전 등 다양한 분야에서 높은 성능을 보여주고 있다. 기존 강력한 모델들은 커지면서 모델이 복잡한 데이터 관계를 학습하고 나타낼 수 있게 된다. 또한 입력 시퀀스 길이를 늘려 문맥학습을 향상시켜 복잡한 문제도 효과적으로 해결한다. 다만 이러한 모델들은 큰 메모리 사용량, 어텐션 레이어에서 입력 길이에 의한 2차복잡도 문제, 또한 커널 최적화가 되어 있지 않아 높은 추론 비용을 야기한다. 본 논문에서는 Transformer 기반 모델들의 크기, 입력 시퀀스 길이, 배치 크기에 따라 추론 비용을 줄이는 최적화 방법을 제안한다. 먼저, 입력 길이(Lin)가 은닉 차원(Dh)보다 큰 시나리오를 최적화하는 Multigrain 방법을 제안한다. 기존 희소 어텐션 기법은 긴 입력 시퀀스에서 연산량과 메모리 사용량을 효과적으로 줄일 수 있지만 GPU에서 비효율적으로 처리되며 여전히 대부분 수행시간을 차지한다. Multigrain은 희소 어텐션의 복합적인 희소 패턴을 파악하고 거친 희소 패턴은 고성능 텐서 코어를 사용한 커널로 처리하고 세밀한 패턴은 CUDA 코어를 사용한 커널로 각각 멀티 스트림으로 동시에 처리한다. 그 결과로 Longformer 모델을 DeepSpeed에서 추론을 실행한 기준 시스템에 비해 2.07배 더 빠른 것을 보여준다. 그리고 본 논문에서는 Lin이 Dh와 비슷하거나 작은 시나리오에서 추론 비용을 줄이는 tiled singular value decomposition(TSVD) 방법을 제안한다. TSVD는 행렬을 타일로 나누고 각 타일을 특이값 분해(SVD)하며 저랭크 근사를 이용하여 행렬을 압축하는 기법이다. Transformer 기반 모델에서 어텐션 레이어와 피드포워드 레이어의 기본 연산인 행렬 곱을 저랭크 근사를 이용한 TSVD기반의 행렬 곱으로 수행하면 메모리 사용량을 줄일 수 있고 연산량도 줄일 수 있으므로 추론 비용을 상당히 줄일 수 있다. 결과적으로 행렬을 2배~ 8배까지 압축 시, TSVD기반의 행렬 곱은 압축하지 않은 행렬 곱보다 1.02배--2.26배 빠른 것을 보인다. 다만 모델에 적용 시 수행시간이 줄어들지만 정확도가 하락하는 문제점이 존재한다. 이러한 문제점을 해결하기 위해 본 논문에서는 TSVD 기반의 매개변수 효율적 미세조정(parameter efficient fine-tuning) 방법인 TSVD-common을 제안한다. 각 타일에서 SVD로 분리된 두 서브행렬들 중 하나를 모든 타일에서 공유하는 형태로 하고 공동의 해당 서브행렬만 미세조정 시켜 학습시키는 방법이다. 결과적으로 제안한 TSVD-common은 GPT2 모델에서 2배 또는 4배 압축 시 E2E 태스크에서는 압축하지 않은 전체 매개변수를 미세조정하는 방법(full fine-tuning)보다 정확도가 2%정도 향상되었고 매개변수 효율적 미세조정 최신 방법인 LoRA와 근접한 정확도를 보여준다.

      • TransSkip : Leveraging Transformer based Attention Mechanisms for Multi-Scale Feature Fusion

        Khan Rabeea Fatma 경기대학교 대학원 2024 국내석사

        RANK : 2943

        의료 영상 분할 분야의 효과적이고 정확한 해결책을 찾기 위해 다양한 연구가 진행되어 왔다. 전통적인 영상처리 방법에서 복잡한 합성곱 신경망(CNN)까지 다양한 방법이 제안되었다. 최근, Transformer의 셀프어텐션 메커니즘 및 Transformer와 CNN의 조합에서 비롯된 혼합 네트워크가 주된 방법으로 떠올랐다. 일반적으로 해당 모델은 계층적 인코더-디코더 아키텍처로 구성되어 있다. 이런 구조들은 간단한 잔차 연결을 사용하여 인코더에서 디코더로 중요한 공간 정보를 전송한다. 본 논문에서는 어떤 계층적 인코더 디코더 네트워크에서도 간단한 잔차 연결을 대체할 수 있는 TransSkip이라는 새로운 트랜스포머 기반 잔차 연결 아키텍처를 제안한다. 이는 교차 어텐션과 다중 해상도 상관 관계를 활용하여 전역 종속성 및 다양한 해상도에서의 정보를 효과적으로 포착한다. 간단한 잔차 연결을 제안된 향상된 스킵 연결로 대체함으로써 안정적인 네트워크를 구축하여 고도로 다양한 의료 데이터를 처리할 수 있다. 또한 TransSkip을 통해 최신 기술의 네트워크를 강화할 때 성능이 명확하게 향상되는 것을 방대한 실험 결과를 통해 확인할 수 있다. Significant research has been conducted to create efficient and accurate solutions to the very in demand problem of medical image segmentation. From handcrafted solutions to complex convolutional neural networks (CNNs), a variety of approaches have been looked into. One of these is the self-attention mechanism of the Transformer and the resulting hybrid networks of a combination of CNNs and the Transformer. Among these, the hierarchical encoder-decoder architecture has remained the state of the art. Generally, these models have simple skip connections transferring vital spatial information from the encoder to the decoder. In this thesis, a novel transformer-based skip connection architecture called TransSkip is proposed that can replace simple skip connections in any hierarchical encoder decoder network. This is carried out by utilizing cross attention and multi-scale correlations to efficiently capture global dependencies and information from different resolutions. Replacing simple skip connections with proposed enhanced skip connections can help construct robust networks that can deal with the highly varying medical data. This is also confirmed through extensive experimental results that show a clear boost in performance when state of the art networks are enhanced through TransSkip.

      • Transformer-based Feature Extraction Approach for Hematopoietic Cancer Subtype Classification through Gene Expression Profile

        박광호 충북대학교 일반대학원 2024 국내박사

        RANK : 2943

        Recently, with the development of computing performance, machine learning, and deep learning, research is being actively conducted to solve various problems using the technology not only in the computer field but also in many other fields. As genetic information is becoming digitized in the field of biology, many studies are being conducted on ways to use computers to solve problems associated with various diseases using the genetic information. Cancer, which is mainly caused by genetic defects in cells, is one of the most active fields, and a lot of research has already been conducted. However, most studies are focused on classifying cancer and normal or cancers of different organs. The challenge is to clinically detect cancer in cells that have the ability to differentiate from a single cell into many different types of cells. Cells with this characteristic are called multipotent cells, and a typical cancer is breast cancer. In the case of breast cancer, the genetic markers of mammary stem cells are clear and have been utilized in various treatments. In contrast, hematopoietic stem cells, which are also multipotent cells, have the ability to differentiate into a wider variety of cells and differentiate in various locations in the body, making early diagnosis and prediction clinically difficult. Nevertheless, hematologic stem cell subtypes of hematologic cancers are less studied than other cancers, and unlike breast cancer, there are no accurate genetic markers of subtype differentiation. Therefore, this dissertation proposes a feature extraction technique using transformers to solve the subtype classification problem of hematopoietic cancer and detect genetic indicators. A transformer is a large structure that utilizes an attachment technique, which is currently being actively utilized in the field of natural language processing (NLP). In NLP, a transformer consists of an encoder and a decoder. The encoder is responsible for extracting contextual meaning, and the decoder is responsible for generating context from the extracted meaning. Using this concept, this dissertation proposes a transformer-based autoencoder (TFAE), a new feature extraction algorithm using a transformer encoder combined with autoencoder, with the goal of obtaining feature information meaningful for subtype classification of hematopoietic cancer. The details of research contents can be summarized as follows: First, this dissertation presents a transformer-based feature extraction algorithm, TFAE, for gene expression data. TFAE is designed to extract features by using a transformer-encoder to extract important feature of the data, and then extending it to a decoder to create the original. Second, in order to compare the feature extraction of the proposed feature extraction algorithm, different algorithms used for feature extraction are applied. For this purpose, PCA (Principal Component Analysis) and NMF (Non-Negative Factorization), which are widely used statistical-based feature extraction algorithms, and AE (Autoencoder) and VAE (Variational Autoencoder), which are deep learning-based feature extraction algorithms, were applied and compared. Third, multiple classifiers were applied to real tabular genomic data to classify hematopoietic cancer subtypes. Each set of features was applied to eight multiclass classifiers for performance evaluation. Finally, applied XAI (eXplainable Artificial Intelligence) to find genes that are important for hematopoietic cancer subtype classification. For this purpose, this research applied the SHAP (SHapley Additive exPlanations) algorithm, one of the XAI techniques, to show how much the extracted genes affect the subtyping and to detect which genes are important. To achieve these research objectives, the data of five types of blood cancers were collected from TCGA (The Cancer Genome Atlas), a representative open database of genetic information, and experimental data were generated by preprocessing, and then feature extraction algorithms including the proposed TFAE were used to extract genes of the same size. In order to determine how much a particular gene contributes to the subtype classification of hematopoietic cancers, this research applied the SHAP algorithm, one of the explanatory artificial intelligence (AI) techniques, to find the top 20 genes that best classify hematopoietic cancer subtypes. The overall experimental results show that the feature extraction techniques for each classifier yield reasonable performance for hematopoietic cancer subtype classification but the proposed TFAE algorithm can achieve better results than other feature extraction algorithms. In particular, when TFAE was combined with LGBM to classify hematopoietic cancer subtypes, the best performance was achieved with Accuracy 0.9857, Precision 0.9753, Recall 0.9635, Specificity 0.9963, F1 score 0.9691, G-mean 0.9797, and Balanced accuracy 0.9543. Although other algorithms have lower performance, they showed sufficiently significant performance in classification, confirming that this approach is effective. Consequently, the findings of this dissertation showed that our proposed feature extraction model, namely TFAE, could more accurately classify the hematopoietic cancer subtypes, and the SHAP method could identify the genes which are significant for each subtype classification. This dissertation can be regarded as one of the studies that showed the research potential of feature extraction techniques for classifier algorithms by applying transformer techniques to biological data, as apply real world hematopoietic cancer data to subtype classification. In the future, plans are to further develop this research and work on feature extraction for biological data using methods with similar representations such as Generative Adversarial Network (GAN) and diffusion.

      • LCD back light 구동을 위한 inverter transformer의 자기장 감소에 관한 연구

        남정모 성균관대학교 일반대학원 2010 국내석사

        RANK : 2943

        본 논문은 LCD(Liquid crystal display)모니터의 저주파 자기장 저감을 위하여 LCD panel의 Inverter 회로를 분석하고 Transformer의 자기장 방사를 Modeling하여 효과적인 자기장 감소 방안을 제시한다. TFT-LCD는 비자발광 소자로써 화면을 display하기 위해서는 반드시 광원이 필요하며 LCD 모니터의 경우 대부분 냉음극관램프(Cold cathod fluorescent lamp, CCFL)를 광원으로 사용한다. 이 CCFL을 구동시키기 위해서는 Set에서 입력된 직류전압을 높은 교류전압으로 전환시킬 Inverter가 필요한데 Inverter는 직류를 교류로 변환시키는 공진회로와 전압을 상승시켜줄 변압기(Electric Transformer)로 구성된다. Transformer의 core에 감겨있는 1차 coil에 시간에 따라 변화되는 전류가 흐르면 core에는 마찬가지로 시간에 따라 변화되는 자기장이 발생되고, 2차 coil에는 전자기유도에 의한 유도기전력이 발생하여 권선비에 의한 전압상승이 이루어진다. 이 과정에서 core에는 강력한 자기장이 발생하게 되는데 본 논문에서는 이러한 자기장 발생 mechanism을 분석하고, 자기장의 방사 원리를 파악하여 Transformer의 극성변경에 의한 자기장 감소 방안을 제시한다. The low frequency magnetic fields from LCD panel can be serious problem for emission certification. Inverter transformer for LCD back light is a main factor of magnetic fields emission. Therefore we analyze transformer circuits in inverter and verify driving function. This paper describes a simulation results of magnetic fields path from transformer and suggests an effective design of transformer coils for reduction of magnetic fields.

      • A Study on the Cooling Performance of 18.62 MVA ONAF Transformer with Mineral and Vegetable Oil as Cooling Medium

        양초번 한국해양대학교 대학원 2021 국내석사

        RANK : 2942

        The transformer is an essential device in the power grid system, which guarantees electric energy's safe and stable transmission. It enables electric energy to operate more economically and safely in the grid. The modern power network is developing rapidly, and the capacity of the power grid continues to increase. Compared with the natural oil circulation transformer, the forced oil circulation transformer has an external fan with a better heat dissipation effect. Studies have shown that the most critical factor affecting the insulation life of oil-immersed transformers is the hot spot temperature of the windings. Therefore, it is essential to study the internal temperature field distribution of oil-immersed transformers. This study uses the finite volume method combined with the Fluent software to perform numerical simulation analysis on the three-dimensional temperature field and hot spot temperature of the 18.62 MVA ONAF large oil-immersed transformer produced by HanChang Company. Firstly, the transformer's internal structure was simplified reasonably, and an ONAF transformer simulation analysis model was established. Secondly, it compares and analyzes the similarities and differences between the temperature field and the oil flow inside the transformer when mineral oil and vegetable oil are used as the cooling medium. The feasibility of replacing mineral oil with vegetable oil as the cooling medium of oil-immersed transformer is discussed. Finally, the IEC mathematical model is compared with the simulation result, which verifies the reliability of the simulation result. The research results show that in the high and low voltage windings, the temperature is unevenly distributed, and the temperature at the bottom and top is relatively low, the temperature in the middle is rather high, and the temperature of the low voltage winding is higher than of the high voltage winding. In addition, the hot spot temperature of the two windings rises gradually along the axial direction. It then gradually decreases, and the hot spot temperature appears in the middle of the low-voltage winding. By comparing mineral oil and vegetable oil when used as a cooling medium, this article finds that when mineral oil is used as a cooling medium, the transformer's internal hot spot temperature and top oil temperature are lower than vegetable oil. At the same time, when mineral oil is used as a cooling medium, the internal oil flow velocity is greater than that of vegetable oil. However, because vegetable oil has better physical properties, it is feasible to replace mineral oil as a cooling medium. In summary, these studies in this article have specific guiding significance for optimizing the oil-immersed transformer structure and selecting the cooling medium and provide a basis for the positioning of the optical fiber to measure the hot spot temperature of the transformer winding.

      • Swin Transformer와 Cascade R-CNN 혼합 모형을 활용한 소나무 병해충 탐지 시스템에 관한 연구

        가오가오 호남대학교 대학원 2022 국내석사

        RANK : 2942

        소나무과에 속하는 소나무는 한국의 산림에 가장 넓게 분포되어 있으며 개체 수 역시 다른 산림 수보다 많으며, 활용 용도에 따라 건축, 전신주, 교량, 농기구, 기구, 가구 그리고 제작제지업과 귀한 약재 원료로 사용하고 있으며, 솔가지와 솔뿌리는 먹, 잉크, 검은색 도색 재료 등 다양한 재료에 쓰인다. 이러한 소나무는 다른 나무들에 비해 병해충에 매우 취약한 면을 보이고 있으며, 병해충 종류로는 솔잎 흑파리, 솔껍질깍지벌레, 참나무시들음병 등이 있다. 현재 소나무 병해충을 확인하기 위해 산림관리자가 직접 수작업으로 채집망을 이용해 채집하여 눈으로 확인하는 과정을 진행하고 있으므로 빠른 방제작업이 늦어지는 원인이 된다. 따라서 본 논문은 딥러닝을 이용하여 소나무 병해충을 빠른 시간에 확인할 수 있는 소나무 병해충 탐지 시스템을 구현하고자 한다. 또한, 인공지능의 좋은 성능 모형을 선택하여 시스템에 적용하기 위해 You Only Look Once (YOLOv5s)_Focus+C3, Cascade Region-based Convolutional Neural Networks (Cascade R-CNN)_Residual Network 50(ResNet50), Faster Region-based Convolutional Neural Networks (Faster R-CNN)_ResNet50 그리고 본 논문에서 제안된 Swin Transformer와 Cascade R-CNN의 혼합 모형 등의 4가지 성능을 비교 분석하고자 한다. 결과는 YOLOv5s_Focus+C3은 소나무 병해충 탐지에서 Average Precision (AP) Intersection over Union (IoU=0.5)는 56.3%, Recall 값은 66.8%로 나타났으며, Cascade R-CNN_ResNet50은 소나무 병해충 탐지에서 AP(IoU=0.5) 93.2%, AP(IoU=0.75) 89.5%, Recall 92.9%로 나타났다. Cascade R-CNN_ResNet50은 Faster R-CNN보다 AP(IoU=0.5)는 0.7% 높고, AP(IoU=0.75)는 1.6% Recall은 1.8%로 높은 값을 가진다. 반면 Swin Transformer와 Cascade R-CNN의 혼합 모형은 Cascade R-CNN_ResNet50 과 비교해 AP(IoU=0.5)가 1.4%만큼 높으며, AP(IoU=0.75)는 0.1%만큼 높다. 또한, Recall은 0.6%만큼 높게 나타났다. 따라서 소나무 병해충 탐지하는 4가지 모형의 성능을 비교한 결과 YOLOv5s_Focus+C3, Faster R-CNN_ResNet50, Cascade R-CNN_ResNet50, 그리고 본 논문에서 제안하는 Cascade R-CNN_Swin Transformer 혼합 모형과 비교하면 낮은 성능을 보였다. 따라서 본 논문에서 제안한 Swin Transformer와 Cascade R-CNN의 혼합 모형이 비교한 4가지 모형 중 우수함이 본 연구를 통해 확인되었다. Pine trees, which belong to the Pinaceae, are the most broadly distributed in the forests of Korea, and have a higher population than other trees. Their diverse applications include construction materials, telephone poles, bridges, tools, furniture, papermaking, and medicinal ingredients. Pine branches and roots are also used to make inks and black coloring materials. However, pine trees are more vulnerable to pests, with common types being the pine needle gall midge, black pine bast scale, and Korean oak wilt. Currently, forest managers manually collect samples and inspect them for larvae using the naked eye. This is a factor contributing to the slow rate of pest control. Against this backdrop, this study seeks to develop a deep learning-based pine larva detection system to allow more rapid and effective pest control. To select a model with the best performance, a comparative analysis was carried out on four models: You Only Look Once (YOLOv5s)_Focus+C3, Cascade Region-based Convolutional Neural Networks (Cascade R-CNN)_Residual Network 50(ResNet50), Faster Region-based Convolutional Neural Networks (Faster R-CNN)_ResNet50, and the proposed Swin Transformer and Cascade R-CNN hybrid model. The analysis revealed that YOLOv5s_Focus+C3 had an Average Precision (AP) Intersection over Union (IoU=0.5) of 56.3% and a Recall of 66.8% in pine larva detection. Cascade R-CNN_ResNet50 had an AP (IoU=0.5) of 93.2%, an AP (IoU=0.75) of 89.5%, and a Recall of 92.9%. Compared to Faster R-CNN, Cascade R-CNN_ResNet50 had higher AP(IoU=0.5) by 0.7%, AP(IoU=0.75) by 1.6%, and Recall by 1.8%. Compared to Cascade R-CNN_ResNet50, theproposed Swin Transformer and Cascade R-CNN hybrid model had higher AP(IoU=0.5) by 1.4% and higher AP(IoU=0.75) by 0.1%. In addition, its recall was higher by 0.6%. Based on the above comparison of the four models of pine larva detection, YOLOv5s_Focus+C3, Faster R-CNN_ResNet50, and Cascade R-CNN_ResNet50 yielded poorer performance than the proposed Cascade R-CNN_Swin Transformer hybrid model. That is, the proposed hybrid model of Swin Transformer and Cascade R-CNN was found to be the most outstanding among the four models.

      • Efficient Transformer Network-based End-to-End Speech Recognition

        심규홍 서울대학교 대학원 2022 국내박사

        RANK : 2942

        Deep neural networks (DNNs) have shown impressive performance in end-to-end automatic speech recognition (ASR) in recent years. In particular, Transformer-based models have achieved excellent performance due to their ability to model long-range relationships. However, the self-attention (SA) module inside Transformer requires a quadratic computation complexity to construct the relationship between every frame. Because ASR is a core building block for various applications, it is important to reduce such heavy costs of SA in Transformer-based models. Specifically, we aim at designing an efficient SA architecture for ASR that can accelerate inference on current hardware systems. We obtain the direction of the architectural improvement from the analysis of the domain knowledge. In this dissertation, we provide a novel analysis of the role of SA in Transformer-based ASR models. We show that the behavior of SA can be distinguished into two groups, phonetic localization and linguistic localization. We introduce two tools for analyzing the behavior of attention heads. First, cumulative attention diagonality (CAD) measures the concentration of attention weights within near frames. Second, phonetic attention relationship (PAR) visualizes the attention between phoneme classes. From the analyses, we present that the lower layers and the upper layers correspond to phonetic and linguistic localization, respectively. Phonetic localization pays more attention to phonologically meaningful frames over the entire sequence, while linguistic localization assigns high attention weights for near frames. The lower SA layers standardize the phonetic variance in utterances, and the upper SA layers build linguistic features from extracted phonetic features. We verify our claim by a phoneme classification task and PAR analysis on CTC, RNNT, and LAS-based ASR models. Based on the analysis, we propose a practical Transformer design, attention map reuse, which reduces the number of effective SA computations by sharing an attention map through multiple consecutive layers. From extensive experiments, we show that the inference speed is accelerated almost twice on real GPU and CPU platforms without any degradation of accuracy. We investigate the amount of phonetic knowledge by evaluating the PAR coverage ratio and discover that an appropriate reuse configuration can preserve the necessary phonological information. In addition, we propose a new inference strategy called concatenated inference that improves the recognition accuracy by utilizing the extracted phonetic features from an external source, an utterance spoken by the same speaker. Finally, we develop a variant of SA named phonetic self-attention (phSA) that reinforces the phonetic behavior of attention heads. We divide two different behaviors, similarity-based and content-based attention, of attention heads in the lower layers corresponding to phonetic localization. Similarity-based attention pays high attention weights for similarly pronounced phonemes, employing the pairwise correlation between the query and the key. In contrast, content-based attention gives high attention to certain phoneme classes regardless of the query. By replacing the original SA with the proposed phSA for several lower layers, the model can improve the recognition accuracy without additional parameters and GPU costs. 최근 깊은 인공신경망을 사용하는 음성인식기가 뛰어난 성능을 얻고 있다. 특히, 트랜스포머 구조를 사용하는 인공신경망 모델이 제일 높은 성능을 내고 있는데, 이는 트랜스포머가 멀리 있는 프레임의 정보도 잘 활용할 수 있다는 장점이 있기 때문이다. 하지만, 이를 위해 사용되는 셀프 어텐션 알고리즘은 모든 프레임 사이의 연관성을 계산하기 위해 프레임 수의 제곱에 비례하는 연산 복잡도가 필요하다는 단점이 있다. 음성인식기는 다양한 응용에 필수적으로 활용되는 핵심 모듈이기 때문에, 셀프 어텐션의 무거운 연산 비용을 줄이는 것은 트랜스포머 기반 음성인식기의 상용화에 필수적이다. 본 논문에서는 먼저 트랜스포머의 동작 방식을 분석하고 이를 바탕으로 효율적인 셀프 어텐션 모듈을 디자인하였다. 우선, 기존에 알려지지 않았던 트랜스포머 기반 음성인식기의 동작을 새롭게 분석하였다. 핵심적으로, 셀프 어텐션의 역할이 크게 음운론적 지역화와 언어적 지역화의 두 가지로 나눠진다는 것을 발견하였다. 분석을 위해 두 가지 새로운 분석 기법을 제안하였다. 첫째, 누적 어텐션 대각성분 분석은 각 프레임이 자기 주변의 프레임들에 얼마나 어텐션 가중치를 주는지를 측정한다. 둘째, 음소 어텐션 관계 분석은 음소 종류들 사이에서의 어텐션 가중치를 보여준다. 분석을 통해 음성인식기의 아래쪽 층에서는 음운론적 지역화가, 위쪽 층에서는 언어적 지역화가 발현된다는 것을 확인하였다. 음운론적 지역화는 입력 전체에 걸쳐 각 프레임이 음소에 기반한 특징을 추출하도록 하며, 언어적 지역화는 이렇게 추출된 특징을 사용해 발화에 맞는 문장을 생성하는 역할을 한다. 특히, 음운론적 지역화는 발화 내부에 존재하는 동일 음소에 대한 변화를 표준화하여 인식을 더 수월하게 만들어 준다. 이 과정에서 음소 어텐션 관계 분석을 통해, 음성인식기가 잘 알려진 음운론적 음소 관계를 스스로 학습했다는 것을 확인하였다. CTC, LAS, RNNT 방식으로 훈련된 음성인식기에서 위 두 가지 기법을 사용한 분석과 음소 분류 실험을 수행하여 핵심 주장을 뒷받침하였다. 다음으로, 실제 연산되는 셀프 어텐션의 횟수를 줄여 모델을 최적화하는 방법인 어텐션 맵 재사용 기법을 제안하였다. 이 기법은 한 층에서 연산한 셀프 어텐션 맵을 연속된 다음 여러 층에서 다시 그대로 사용하게 하여 층수보다 훨씬 적은 연산만으로도 모델을 구성할 수 있게 해 준다. 실험을 통해, 제안한 기법을 사용하면 실제 GPU 및 CPU에서 2배 이상 추론 속도를 올리면서도 정확도에는 거의 손실이 없다는 것을 보였다. 음소 관계 분석을 통해, 재사용을 했을 때 모델이 학습한 음운론적인 정보가 크게 손실되지 않는다면 모델의 정확도를 유지할 수 있다는 것을 발견하였다. 추가로, 동일 발화자의 다른 문장에서 추출한 음운론적인 특징을 활용하여 인식 정확도를 높이는 기법인 연쇄 추론 기법을 제안하였다. 마지막으로, 셀프 어텐션을 변형한 음운론 기반 셀프 어텐션 알고리즘을 제안하였다. 이 알고리즘은 어텐션 연산에서 음운론적인 특징 추출 과정을 강화하여 아래쪽 층에서 음운론적 지역화가 더 잘 수행되도록 한다. 우선 셀프 어텐션 내부의 곱 연산을 분해하여 유사도 기반 어텐션과 내용 기반 어텐션을 계산하는 항을 분리하였다. 전자는 프레임 간의 관계에 기반한 가중치를, 후자는 프레임 각각의 종류에 기반한 가중치를 만드는 데 특화되어 있다. 아래쪽 층들에서 기존의 일반적인 셀프 어텐션 층을 제안한 개선된 셀프 어텐션으로 대체한 결과, 음성인식 성능을 높이면서도 모델 크기와 GPU 연산 속도를 그대로 유지할 수 있었다.

      연관 검색어 추천

      이 검색어로 많이 본 자료

      활용도 높은 자료

      해외이동버튼