RISS 학술연구정보서비스

검색
다국어 입력

http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.

변환된 중국어를 복사하여 사용하시면 됩니다.

예시)
  • 中文 을 입력하시려면 zhongwen을 입력하시고 space를누르시면됩니다.
  • 北京 을 입력하시려면 beijing을 입력하시고 space를 누르시면 됩니다.
닫기
    인기검색어 순위 펼치기

    RISS 인기검색어

      Identification of isotope clusters from mass spectra using neural network model

      한글로보기

      https://www.riss.kr/link?id=T15479707

      • 저자
      • 발행사항

        서울 : 한양대학교 대학원, 2020

      • 학위논문사항

        학위논문(석사) -- 한양대학교 대학원 , 컴퓨터·소프트웨어학과 , 2020. 2

      • 발행연도

        2020

      • 작성언어

        영어

      • 주제어
      • 발행국(도시)

        서울

      • 기타서명

        인공신경망을 이용한 질량 스펙트럼의 동위원소 클러스터 식별

      • 형태사항

        vi, 21 p. : 삽도 ; 26 cm.

      • 일반주기명

        권두 Abstract, 권말 국문요지 수록
        지도교수: 백은옥
        참고문헌: p. 18-19

      • UCI식별코드

        I804:11062-000000112117

      • 소장기관
        • 한양대학교 안산캠퍼스 소장기관정보
        • 한양대학교 중앙도서관 소장기관정보
      • 0

        상세조회
      • 0

        다운로드
      서지정보 열기
      • 내보내기
      • 내책장담기
      • 공유하기
      • 오류접수

      부가정보

      다국어 초록 (Multilingual Abstract)

      Mass spectrometry-based proteomics plays an important role in identifying peptides. Peptide identification strongly depends on a precursor mass estimated from mass spectrometry; however, there is burden to estimate precise precursor masses because it is too noisy to obtain correct isotope clusters. This problem can be reduced by conventional tools such as RAPID and MS-Deconv. These tools applied heuristic functions to recognize correct isotope clusters so that more precise precursor masses could be estimated. However, the heuristic functions were limited in modelling the patterns of experimental isotope clusters in that they were based on similarity with theoretical isotope clusters. Here, we propose a machine learning approach to identify correct isotope clusters, with a hope that it can better characterize experimental isotope clusters. Furthermore, we extend this concept to predict monoisotopic masses in addition to recognizing isotope clusters by developing a new software tool called MaSIC, which stands for MAss Spectrum Isotopic Cluster.
      We designed an artificial neural network model to train characteristics of isotope clusters. The model takes a monoisotopic mass and intensities of peaks from the first to the twelfth in a cluster as an input, and then predicts whether the given cluster is an isotope cluster or not.
      To train the model, we collected 3,749,487 peptide spectrum matches (PSMs) from a previous study. Predicted isotope clusters (PICs) corresponding to each PSM were generated from both RAPID and MS-Deconv, and we got ~1.73M PICs after de-duplicating clusters. We generated 0.75 M negative isotope clusters (NICs) consisting of subsequence of 1.73 M PICs.
      Four-fifths of PICs and NICs were used for training, and the rest of them were used for test. We applied 5-fold cross validation to prevent overfitting. The accuracy was 99.98% on average. We used PICs and NICs derived from different experimental methods to test the model. The sensitivity and specificity were 99.95% and 99.85%, respectively.
      DL4J, which is a useful library for machine learning algorithms in Java, was applied to make the trained model available on a Java platform. The software MaSIC can predict all possible isotope clusters when mass spectra in mzXML format are given as an input. The complementary use of both MaSIC and heuristic software can increase prediction performance.
      번역하기

      Mass spectrometry-based proteomics plays an important role in identifying peptides. Peptide identification strongly depends on a precursor mass estimated from mass spectrometry; however, there is burden to estimate precise precursor masses because it ...

      Mass spectrometry-based proteomics plays an important role in identifying peptides. Peptide identification strongly depends on a precursor mass estimated from mass spectrometry; however, there is burden to estimate precise precursor masses because it is too noisy to obtain correct isotope clusters. This problem can be reduced by conventional tools such as RAPID and MS-Deconv. These tools applied heuristic functions to recognize correct isotope clusters so that more precise precursor masses could be estimated. However, the heuristic functions were limited in modelling the patterns of experimental isotope clusters in that they were based on similarity with theoretical isotope clusters. Here, we propose a machine learning approach to identify correct isotope clusters, with a hope that it can better characterize experimental isotope clusters. Furthermore, we extend this concept to predict monoisotopic masses in addition to recognizing isotope clusters by developing a new software tool called MaSIC, which stands for MAss Spectrum Isotopic Cluster.
      We designed an artificial neural network model to train characteristics of isotope clusters. The model takes a monoisotopic mass and intensities of peaks from the first to the twelfth in a cluster as an input, and then predicts whether the given cluster is an isotope cluster or not.
      To train the model, we collected 3,749,487 peptide spectrum matches (PSMs) from a previous study. Predicted isotope clusters (PICs) corresponding to each PSM were generated from both RAPID and MS-Deconv, and we got ~1.73M PICs after de-duplicating clusters. We generated 0.75 M negative isotope clusters (NICs) consisting of subsequence of 1.73 M PICs.
      Four-fifths of PICs and NICs were used for training, and the rest of them were used for test. We applied 5-fold cross validation to prevent overfitting. The accuracy was 99.98% on average. We used PICs and NICs derived from different experimental methods to test the model. The sensitivity and specificity were 99.95% and 99.85%, respectively.
      DL4J, which is a useful library for machine learning algorithms in Java, was applied to make the trained model available on a Java platform. The software MaSIC can predict all possible isotope clusters when mass spectra in mzXML format are given as an input. The complementary use of both MaSIC and heuristic software can increase prediction performance.

      더보기

      국문 초록 (Abstract)

      질량 분석 기반 단백체학은 펩타이드를 동정하는데 중요한 역할을 한다. 펩타이드 식별은 질량 분석법으로 추정된 전구체 이온 질량에 크게 의존한다. 그러나 정확한 동위원소 클러스터를 얻기에는 질량 스펙트럼이 복잡하기 때문에 정확한 전구체 이온의 질량을 추정하는 데에 어려움이 있다. 이 문제는 RAPID와 MS-Deconv와 같은 기존의 도구를 이용하여 해결해왔다. 이 도구는 휴리스틱 기법을 적용하여 정확한 동위원소 클러스터를 식별하여 보다 정확한 전구체 이온 질량을 추정할 수 있다. 그러나 휴리스틱 기법은 이론적인 동위원소 클러스터와의 유사성에 기초하여 실험적 동위원소 클러스터의 패턴을 반영할 수 없다. 본 논문에서는, 정확한 동위원소 클러스터를 식별하기 위한 머신러닝 접근법을 제안하며, 동위원소 클러스터의 실험적 특성을 반영하는 이점이 있다.
      우리는 동위원소 클러스터의 특성을 학습하기 위해 인공 신경망 모델을 설계했다. 이 모델은 동위원소 클러스터에서 단일동위원소 질량과 동위원소 클러스터를 구성하는 각 피크의 양을 입력으로 주어진 클러스터가 동위원소 클러스터인지 여부를 예측한다.
      모델을 훈련시키기 위해, 우리는 이전 연구에서 약 375만 개의 펩타이드 스펙트럼 매치를 수집했다. 각 펩타이드 스펙트럼 매치에 해당하는 동위원소 클러스터는 RAPID와 MS-Deconv에서 추출하였고, 동일한 동위원소 클러스터를 중복 제거 한 후 약 173만개의 positive 동위원소 클러스터를 얻었다. 그리고 173만 개의 동위원소 클러스터를 정제하여 75만 개의 negative 동위원소 클러스터를 만들었다.
      학습에는 80%의 positive, negative 데이터가 사용되었고 나머지는 테스트에 사용되었다. 과적합을 방지하기 위해 5-fold 교차 검증을 적용했다. 정확도는 평균 99.98%이다. 다른 실험 방법에서 얻은 데이터로 테스트한 결과, 민감도와 특이도는 각각 99.95%, 99.85% 이었다.
      우리는 DL4J 라이브러리를 사용하여 학습된 모델을 Java 플랫폼에 사용할 수 있도록 소프트웨어를 개발하였다. 소프트웨어 MaSIC은 mzXML 형식의 질량 스펙트럼이 입력으로 제공될 때, 가능한 모든 동위원소 클러스터를 출력할 수 있다. 이로써 MaSIC을 다른 휴리스틱 소프트웨어와 상호보완적으로 사용하면 더 많은 전구체 이온의 질량을 예측하는데 사용할 수 있다는 이점이 있다.
      번역하기

      질량 분석 기반 단백체학은 펩타이드를 동정하는데 중요한 역할을 한다. 펩타이드 식별은 질량 분석법으로 추정된 전구체 이온 질량에 크게 의존한다. 그러나 정확한 동위원소 클러스터를 ...

      질량 분석 기반 단백체학은 펩타이드를 동정하는데 중요한 역할을 한다. 펩타이드 식별은 질량 분석법으로 추정된 전구체 이온 질량에 크게 의존한다. 그러나 정확한 동위원소 클러스터를 얻기에는 질량 스펙트럼이 복잡하기 때문에 정확한 전구체 이온의 질량을 추정하는 데에 어려움이 있다. 이 문제는 RAPID와 MS-Deconv와 같은 기존의 도구를 이용하여 해결해왔다. 이 도구는 휴리스틱 기법을 적용하여 정확한 동위원소 클러스터를 식별하여 보다 정확한 전구체 이온 질량을 추정할 수 있다. 그러나 휴리스틱 기법은 이론적인 동위원소 클러스터와의 유사성에 기초하여 실험적 동위원소 클러스터의 패턴을 반영할 수 없다. 본 논문에서는, 정확한 동위원소 클러스터를 식별하기 위한 머신러닝 접근법을 제안하며, 동위원소 클러스터의 실험적 특성을 반영하는 이점이 있다.
      우리는 동위원소 클러스터의 특성을 학습하기 위해 인공 신경망 모델을 설계했다. 이 모델은 동위원소 클러스터에서 단일동위원소 질량과 동위원소 클러스터를 구성하는 각 피크의 양을 입력으로 주어진 클러스터가 동위원소 클러스터인지 여부를 예측한다.
      모델을 훈련시키기 위해, 우리는 이전 연구에서 약 375만 개의 펩타이드 스펙트럼 매치를 수집했다. 각 펩타이드 스펙트럼 매치에 해당하는 동위원소 클러스터는 RAPID와 MS-Deconv에서 추출하였고, 동일한 동위원소 클러스터를 중복 제거 한 후 약 173만개의 positive 동위원소 클러스터를 얻었다. 그리고 173만 개의 동위원소 클러스터를 정제하여 75만 개의 negative 동위원소 클러스터를 만들었다.
      학습에는 80%의 positive, negative 데이터가 사용되었고 나머지는 테스트에 사용되었다. 과적합을 방지하기 위해 5-fold 교차 검증을 적용했다. 정확도는 평균 99.98%이다. 다른 실험 방법에서 얻은 데이터로 테스트한 결과, 민감도와 특이도는 각각 99.95%, 99.85% 이었다.
      우리는 DL4J 라이브러리를 사용하여 학습된 모델을 Java 플랫폼에 사용할 수 있도록 소프트웨어를 개발하였다. 소프트웨어 MaSIC은 mzXML 형식의 질량 스펙트럼이 입력으로 제공될 때, 가능한 모든 동위원소 클러스터를 출력할 수 있다. 이로써 MaSIC을 다른 휴리스틱 소프트웨어와 상호보완적으로 사용하면 더 많은 전구체 이온의 질량을 예측하는데 사용할 수 있다는 이점이 있다.

      더보기

      목차 (Table of Contents)

      • Abstract v
      • 1 Introduction 1
      • 2 Previous Studies 4
      • Abstract v
      • 1 Introduction 1
      • 2 Previous Studies 4
      • 2.1 RAPID 4
      • 2.2 MS-Deconv 5
      • 3 Methods and Experiment 6
      • 3.1 Experimental Data 7
      • 3.2 Training Data 8
      • 3.2.1 Positive Data 8
      • 3.2.2 Negative Data 9
      • 3.3 Training 10
      • 3.4 Test 11
      • 3.5 Software MaSIC 11
      • 4 Results 13
      • 4.1 Training Results 13
      • 4.2 Software Results 14
      • 5 Conclusions 16
      • References 18
      • Abstract in Korean 20
      더보기

      분석정보

      View

      상세정보조회

      0

      Usage

      원문다운로드

      0

      대출신청

      0

      복사신청

      0

      EDDS신청

      0

      동일 주제 내 활용도 TOP

      더보기

      주제

      연도별 연구동향

      연도별 활용동향

      연관논문

      연구자 네트워크맵

      공동연구자 (7)

      유사연구자 (20) 활용도상위20명

      이 자료와 함께 이용한 RISS 자료

      나만을 위한 추천자료

      해외이동버튼