RISS 학술연구정보서비스

검색
다국어 입력

http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.

변환된 중국어를 복사하여 사용하시면 됩니다.

예시)
  • 中文 을 입력하시려면 zhongwen을 입력하시고 space를누르시면됩니다.
  • 北京 을 입력하시려면 beijing을 입력하시고 space를 누르시면 됩니다.
닫기
    인기검색어 순위 펼치기

    RISS 인기검색어

      검색결과 좁혀 보기

      선택해제
      • 좁혀본 항목 보기순서

        • 원문유무
        • 음성지원유무
        • 학위유형
        • 주제분류
          펼치기
        • 수여기관
          펼치기
        • 발행연도
          펼치기
        • 작성언어
        • 지도교수
          펼치기

      오늘 본 자료

      • 오늘 본 자료가 없습니다.
      더보기
      • Next-generation sequencing error validation method for rare variant detection

        염희란 서울대학교 대학원 2020 국내박사

        RANK : 233327

        약 15년 전인 2003년에 인간 유전체 분석이 4조원이라는 천문학적인 비용을 들여 완성되었다. 그러나 2006년에 등장한 차세대 염기서열 분석 (Next Generation Sequencing, NGS) 기술을 시작으로 한 염기서열 분석 기기의 비약적인 발전은 현재 우리가 현재 우리가 100만원에 인간 유전체를 전부 분석할 수 있는 시대에 살 수 있게 해 주었다. 이는 기존 엄청난 분석 비용 때문에 제한적이었던 생명공학, 의학, 약학 등의 생물학적 연구에 혁명적인 발전을 가져오게 하였고, 오늘날에는 임상에서 질병의 진단과 처방을 위해서 사용되기 위한 단계에 있다. 그러나 NGS 분석이 임상에서 쓰이기에 대두되고 있는 문제는 높은 오류율로, 염기서열을 잘못 읽는 경우가 많다는 것이다. 이 문제는 특히 암 조기진단을 위한 DNA 변이 분석에 있어서 치명적이다. 암 발생 초기에는 일반세포에 비해서 매우 낮은 비율 (< 0.1%) 로 암세포가 존재하는데 비록 적은 비율로 존재할 지라도 시간이 지날수록 매우 왕성하게 분열하여 생체 내 조직을 파괴하기 떄문에 조기에 이 암세포들을 발견하는 것이 중요하다. 그러나 현재는 NGS의 높은 오류율 (> 0.1%) 로 인하여 낮은 변이율의 DNA 변이 분석을 해야하는 경우, NGS 분석결과에서 NGS 분석 오류와 DNA 변이의 구별이 불가능한 실정이다. 따라서, 낮은 변이율의 DNA 변이를 감지하기 위해서는 NGS 오류를 검증할 수 있는 기술이 필요하다. 이러한 NGS분석의 높은 오류율은 암 조기진단 이외에도 산모 내 태아 유전자 검사 (비침습성 산전 검사), 장기 이식 거부반응 검사 등과 같이 낮은 비율의 DNA 변이를 검사해야하는 경우에 걸림돌이 되고 있다. 이를 해결하기 위하여 NGS의 오류를 검증할 수 있는 기술을 개발하였다. 기술의 핵심은 NGS 오류가 염기서열 분석과정에서 DNA에 변이가 있는 것이 아니라 광학적 감지에 오류가 있는 것임을 착안한 것이다. 차세대 염기서열분석은 각 염기 (A, T, G, C) 에 빛을 내는 물질을 달아 광학적으로 감지해 내는 원리인데, 이 때에 광학적 감지 오류로 인하여 마치 돌연변이가 있는 것처럼 분석하게 되는 것이다. 이 원리를 바탕으로 NGS 분석에서 오류로 읽힌 DNA 분자들만을 레이저로 추출하여 복제 후에 NGS 분석 결과와 독립적으로 재분석하고자 하였다. 그 결과 NGS 분석결과에서는 DNA 변이로 분석되었으나 실질적으로는 NGS의 분석과정에서 생긴 광학적 감지 오류임을 밝힐 수 있었다. 본 방법을 통해 NGS 광학적 감지 오류를 정확하게 구별 해 냄으로써 최종적으로는 0.003%의 변이율을 가지는 DNA 변이까지 NGS 분석이 가능함을 보였다. 또한, 본 방법은 기존 NGS 오류를 검증하고자 하는 접근에서 벗어난 새로운 방법으로, NGS 기기 자체에서 정해지는 품질 점수 (Q-score)에 의존하는 기존 검증방법의 한계점을 극복하였다. 이 품질 점수는 NGS 기기 자체의 알고리즘에 의해 결정되는 것으로 NGS의 근본적인 오류를 검증하기에는 한계를 가진다. 하지만 본 방법은 레이저로 추출해 낸 DNA 분자를 다른 염기서열 분석 기기로 재분석할 수 있게 함으로써 염기서열 분석 품질 점수에 의존하지 않고 NGS 오류를 검증할 수 있다. 본 오류 검증방법을 통하여 실제 암환자의 혈액 내의 종양 유래 DNA를 분석함으로써 임상에 적용가능한지에 대한 실험을 검증하였다. 해당 환자는 유방암 2기의 환자로서 luminal A type의 subtype으로 진단된 환자였다. 따라서 환자의 암 특이적 변이를 확인하기 위하여 조직과 혈액에서 각각 NGS 분석을 실시하였다. 그 결과 조직 분석에서는 인트론 영역에서만 변이가 발견되었으며 따라서 유전자와 관련된 종양 특이적 변이는 발견되지 않았다. 혈액 분석을 위해서는, 혈액 10ml을 추출하여 플라즈마 분리 후 DNA만을 추출하였으며, 환자의 유방암 subtype인 PIK3CA 유전자에 대하여 변이를 분석하고자 하였다. 이를 위해 해당 유전자 특이적인 프라이머를 디자인 하여 PCR 증폭을 통해 샘플을 준비하였다. 해당 PCR 증폭물을 NGS 분석하였으며 그 결과 오류 검증 전에는 PIK3CA 유전자 염기서열 중 ‘A’가 반복되는 부분에 variant calling이 많이 발생하는 것을 확인하였으며, 암 특이적인 변이에 해당하는 염기서열 위치에서는 상대적으로 적은 개수의 variant calling이 나타난 것을 관찰하였다. 따라서 본 NGS 오류 검증방법으로 관심있는 영역인, PIK3CA의 암 특이적 변이 위치에 발생한 variant calling에 대하여 NGS 오류를 검증하고자 했다. 암 특이적 변이 위치에서는 총 2개의 variant가 calling 되었으며, 이에 해당하는 DNA 클론을 NGS 기판으로부터 분리하여 PCR 증폭 후 재분석 해보았다. 그 결과 해당 위치에서는 NGS 오류 없이 모두 실제 변이였음을 검증할 수 있었다. The advent of next-generation sequencing (NGS) has accelerated biomedical research by enabling the high-throughput analysis of DNA sequences at a very low cost. However, NGS has limitations in detecting rare-frequency variants (< 1%) because of high sequencing errors (> 0.1~1%). NGS errors should be filtered out for accurate analysis. Especially the ‘liquid biopsy’, which is non-invasive method to analyze cancer instead of tumor tissue biopsy, required highly accuracy of massively parallel sequencing. For the liquid biopsy analysis, the circulating tumor DNA (ctDNA) should be detected however ctDNA from tumor cell was buried in the major population of cell-free DNA which is come from normal cells. Usually the variant frequency of the ctDNA is lower than 1% for the stage 1 patient or the cancer patient after surgery. In this regard, the NGS error should be validated to distinguish true variant of the DNA sample .Accordingly, several method have been developed depending on molecular barcoding, which uses unique sequence for each DNA molecules by addition to the end of the DNA. Using the molecular barcodes, each molecules can be identified after NGS preparation including PCR amplification. Also, the NGS error can be filtered out by comparing read replicates among those with the same barcodes However, the barcode-based methods are cost-prohibitive, especially for studying a few number (< 100) of mutation positions with rare variant frequency (< 0.1 %) such as researches for liquid biopsy, and prenatal test. This is because every barcoded DNA strands should be read 10 times although only a few position mutations is of interest. Also, since each sequencing method (for e.g. cyclic reversible termination (Illumina) or single-nucleotide addition (Roche 454)) can introduce the same type of NGS error (such as indel or substitution), orthogonal validation of NGS error using different sequencing methods, is needed. Previous studies have used Sanger sequencing for orthogonal validation that involves high cost. Here, I present a cost-effective NGS error validation method in a barcode-free manner. By physically extracting and individually amplifying the DNA clones of erroneous reads, I distinguish true variants of frequency > 0.003% from the systematic NGS error and selectively validate NGS error after NGS. This method can selectively analyze erroneous reads of interest after NGS run in barcode-free manner. Therefore, I were able to reduce sequencing cost substantially (at least ten times less costly in comparison to barcode-based methods) through the selective analysis of rare variants, without the requirement for redundant barcoding reads. With this method, I achieve a PCR-induced error rate of 2.5×10−6 per base per doubling event, using 10 times less sequencing reads compared to those from previous studies. Also, the previous studies have reported that trimming low-quality NGS reads based on quality score can result in the removal of a few reads of true variants, thus losing critical information from the dataset. This method offers the advantage of analyzing all variants regardless of quality control data trimming, with the possibility to preserve all information in the raw NGS result. I believe that this method can be utilized in scientific fields studying rare variants from samples of high diversity, such as metagenomics and immune profiling. For the application, I validated true variant of the circulating tumor DNA extracted from the patient who was diagnosed as stage 2 breast cancer. The variant was detected in PIK3CA gene after NGS error validation with this method. In addition, this method have potential that NGS error of single-nucleotide addition sequencing can be verified orthogonally using another NGS platform of cyclic reversible termination, thus providing a high-throughput, yet cost-effective methodology.

      • Phylogenetic characterization of hantaviruses using multiplex PCR-based next-generation sequencing

        노진선 Graduate School, Korea University 2020 국내박사

        RANK : 233311

        한타바이러스는 외피를 가지는 단일 가닥의 음성 RNA 바이러스이다. 한타바이러스는 감염된 쥐의 소변, 대변 및 타액으로부터 노출된 바이러스 입자가 건조되어 공기중에 떠다니다 호흡기를 통해 사람에게 감염되어 신증후출혈열 및 한타바이러스 폐 증후군을 일으킨다. 최근에 차세대염기서열분석법 (NGS, Next-generation sequencing)의 상용화에 따라 여러 연구 분야에서 다양하게 NGS가 적용되고 있다. 특히, 신출현 바이러스를 규명하기 위해서는 바이러스로부터 전장유전체를 획득하여 바이러스의 전파를 분석하는 것은 매우 중요하다. 그러나 바이러스의 감염 상태에 따라 바이러스 농도가 낮거나, 시료 내에 바이러스의 양이 극미세소량으로 존재할 수 있기 때문에 일반적인 NGS 실험 방법으로는 바이러스의 전장 유전체 서열을 획득하는 것이 어렵다. 따라서 이 연구에서는 한탄, 서울, 수청바이러스 감염시료로부터 바이러스 유전체 획득을 위한 NGS 방법을 확립하고자 한다. 우선적으로 한탄바이러스를 매개하는 등줄쥐 시료에서 바이러스의 전장 유전체 서열 획득을 위해 3가지의 NGS 방법 (SISPA, RNA access, Multiplex PCR)을 개발하고 비교 분석했다. 등줄쥐 시료 내의 한탄바이러스 농도에 따라서 유전체 획득률을 비교하였을 때, Multiplex PCR에 기반한 NGS 방법이 바이러스 유전체 서열 확보에 있어 최적의 방법임을 확인하였다. 최근 미국과 영국에서 애완용으로 기르는 쥐로부터 서울바이러스에 감염되는 사례가 확인되기도 하여 감염병에 대한 대비가 필요하다. 따라서, 이 연구에서는 서울바이러스에 특이적인 Multiplex PCR에 기반한 NGS 방법을 확립함으로써 서울바이러스 감염으로 인한 신증후출혈열 환자의 혈청과 서울바이러스에 감염된 시궁쥐 조직으로부터 서울바이러스 유전체 획득을 가능하게 하였다. 얻어진 유전체 염기서열을 이용하여 계통학적분석을 진행한 결과, 기존의 연구들에서 규명되지 않았던 서울바이러스의 발생지역에 따른 유전 분류 및 전세계적인 분포 형태를 밝혔으며 자연 상태에서 서울바이러스에 대한 유전자 재편성 현상의 가능성을 확인했다. 수청바이러스는 현재까지 인간에게 질병을 일으키는지 확인되지 않았다. 그러나, 한국에서 발생하는 신증후출혈열 환자의 10%는 한탄바이러스와 서울바이러스가 아닌 다른 한타바이러스로 인한 감염으로 인해 발생된다고 알려져 있다. 따라서 수청바이러스를 매개하는 흰넓적다리붉은쥐에서의 수청바이러스 유전체 연구 또한 필요한 시점이다. 이 연구에서는 수청바이러스에 특이적인 Multiplex PCR에 기반한 NGS 방법을 통해 흰넓적다리붉은쥐 뿐만 아니라 등줄쥐에서도 수청바이러스 유전체를 획득하였다. 그 결과, 국내 수청바이러스의 유전적 다양성 및 지리적 분포 형태를 밝혔다. 결론적으로 이 연구에서 확립한 Multiplex PCR에 기반한 NGS 방법은 극미세소량의 바이러스 RNA를 가지는 시료로부터 한타바이러스 유전체 획득을 가능하게 하여 조기 진단에 적용될 수 있을 것이라 생각된다. 또한 한타바이러스의 유전자 정보 기반의 진화적 분석에 기초를 제공할 뿐만 아니라 설치류 매개 한타바이러스의 다발생에 대비한 감시 체계 구축에 기여할 수 있을 것이다. Orthohantaviruses are enveloped, negative-sense, single-stranded RNA viruses. They are transmitted to humans when viral infectious particles from the excreta of infected rodents are inhaled through the respiratory tract. In humans, orthohantaviruses cause two types of clinical diseases, which are hemorrhagic fever with renal syndrome (HFRS) and hantavirus pulmonary syndrome. Next-generation sequencing (NGS) has been applied for various analyses in virology. In particular, it is very important to analyze the spread of the virus by acquiring whole-genome sequences in order to identify the emerging virus. However, it is very difficult to obtain genomic sequences for clinical specimens or wild rodents with low virus levels. Therefore, this study aims to establish NGS methods for the acquisition of viral genomes from specimens infected with Hantaan orthohantavirus (HTNV), Seoul orthohantavirus (SEOV) and Soochong virus (SOOV). Thus, different NGS methods have been attempted obtaining the genomic sequences of HTNV from lung tissues of wild rodents. The coverage rate of HTNV tripartite genomes was compared and analyzed according to the viral copy number. As a result, multiplex PCR-based NGS is the most robust method for acquiring the genomic sequences of HTNV. Recently, outbreaks of SEOV-induced HFRS have been reported from pet rats in the United States and the United Kingdom; thus, it is required to prepare for infectious diseases. Thus, this study established the SEOV multiplex PCR-based NGS method, enabling the acquisition of SEOV genomes from HFRS patients caused by SEOV infection and SEOV-infected rats. Phylogenetic analysis revealed the genetic diversity and distinct genotypes around the world and identified the possible occurrence of genetic exchange (genetic reassortment) of SEOV. The pathogenicity of SOOV still remains to be understood in humans. About 70% of HFRS patients were infected with HTNV, 20% were infected with SEOV, and the remaining 10% of the cases were infected by unidentified agents. To identify the other HFRS-causing orthohantaviruses, it is necessary to investigate the prevalence of SOOV infection in the Korean field mouse. In this study, the multiplex PCR-based NGS of SOOV was used to obtain SOOV genomes not only in the Korean field mouse but also in the striped field mouse. Phylogenetic analysis of SOOV genomic sequences revealed geographic distribution and genetic diversity in South Korea. In conclusion, multiplex PCR-based NGS can be applied to early diagnosis by enabling viral genome acquisition from specimens with low virus titers. This study provides useful insights into NGS methods for whole-genome sequencing, surveillance and HFRS diseases risk assessment of rodent-borne orthohantaviruses.

      • Next-generation sequencing based multi-omic analysis of Streptomyces genome for deciphering secondary metabolism

        김진우 서울대학교 대학원 2015 국내박사

        RANK : 233311

        In this thesis, applications using next-generation sequencing (NGS) technology were employed to obtain genome-wide data, elucidating diverse cellular events of Streptomyces genome. First, comparative genomic analysis using 17 completely sequenced genome of Streptomyces revealed that 2018 gene families constitute core genome of this genus, including 15 ortholog clusters of sigma factors, 22 ortholog clusters involved in cell division category and secondary metabolite genes related to stress protection. Next, genome-wide binding of NdgR, a common transcriptional regulator involved in the biosynthesis of amino acids in S. coelicolor, was discovered by using chromatin immunoprecipitation coupled with high-throughput sequencing (ChIP- seq). The study showed that NdgR binds 19 genomic loci including upstream regions of most genes involved in branched-chain and sulfur-containing amino acids biosynthesis. For this experiment, tandem epitope tagging systems for Streptomyces genome engineering was developed, which can be applied to other transcription factors in Streptomyces. Further study revealed that NdgR maintains homeostasis of sulfur assimilation under thiol oxidative stress conditions. In addition, genome architecture and dynamic expressions of mRNA and protein were uncovered by using multiple NGS tools, including TSS-seq, RNA-seq and ribosome profiling. Total 3926 transcription start sites were identified, indicating the length of 5’ untranslated region of mRNA. This revealed that abundant existence of leaderless genes (~20%) and many of them were involved in transcription category. In particular, dynamic change of RNA and ribosome protected mRNA fragment (RPF) level showed disparity between transcription and translation, indicating the existence of translational control. With the integration of multiple NGS data, the single-based resolution map of genome architecture and expression profiles of each secondary metabolite clusters were examined, which provides valuable information for manipulating secondary metabolite production. The enormous data generated in this thesis and methodologies can be applied to engineering of genetic circuits for the antibiotics synthesis in S. coelicolor.

      • Bioinformatics research using next generation sequencing data to compare genomic features between populations and a review of future genetic resources

        권영준 서울대학교 대학원 2014 국내석사

        RANK : 233295

        유전체는 생물체에서 설계도와 같으며, 따라서 유전체 연구를 통하여 생명현상을 설명하기 위한 많은 연구들이 시도되어 왔다. 최근 차세대 염기서열 기술의 발달과 염기서열 해독 가격의 인하로 인하여 집단수준에서의 전장 유전체 비교 연구가 개인 연구실에서도 가능한 수준에 이르렀다. 개체 별로 수집된 변이정보로부터 각각의 집단의 유전적 특징이 설명되고 비교 될 수 있고, 나아가 집단 사이의 표현형적인 차이 또한 DNA 서열 수준에서 설명 될 수 있다. 다양한 특징들을 가지는 가축들은 오랜 시간 동안 가축화되어 오면서, 그 자취들이 유전체 서열 안에 남아 있게 되었다. 따라서 이러한 가축 동물들은 많은 연구자들로부터 좋은 연구 모델동물로서 여겨져 왔다. 챕터 1에서는 DNA 서열 해독 역사와 차세대 염기서열 기술에 대하여 간단하게 요약하여 기술하였다. 또한 양성 선택 유전자 지역 발굴 방법과 같이 이 연구에서 사용된 집단간 유전체 비교 분석 기법들에 대하여서도 간략히 요약하였다. 챕터 2에서는 한국 재래 염소 15마리, 교잡종 염소 11마리 각각 개체에 해당하는 차세대 염기서열 해독방법(Illumina)을 이용한 전장 유전체 서열 데이터를 이용하여 두 개의 염소집단에 대해 유전체를 비교하고 집단간 뚜렷이 구분되는 유전적 특징 등을 파악하기 위한 연구를 진행하였다. 염소는 소목 소과의 포유류로서 소와는 가장 가까운 가축이므로, 챕터3에서 다루게 될 아프리카 소 프로젝트에 대한 선행 연구 모델로서 선택하여 연구를 진행하였다. 개체 별로 유전자형을 조사하기 위하여 GATK를 이용한 SNP 분석을 실시하였고, 이 데이터를 바탕으로 연구를 진행하였다. 두 집단에서 확인된 유전 변이들로부터 재래염소 집단에서 유전적 다양성이 확연하게 감소 되어있는 것을 확인하였다. 또한 두 집단이 유전적으로 분명하게 구분되지만, 공통조상으로부터 물려받은 대립형질들이 여전히 양쪽 집단에서 우점 되어 있는 것을 STRUCTURE 분석을 통하여 확인 하였다. 이 결과들은 기존에 알려진 두 집단에 대한 사전정보를 뒷받침 해주는 결과이다. 양성 선택 받은 유전자 지역을 탐지하는 방법 중 하나인 XP-EHH 통계치를 통하여 6개의 후보 유전자(예상되는 유전자 포함)에서 강한 양성 선택 신호가 발견되었다. 또한 GO term 분석을 수행하였으며, 이 연구에서는 DAVID tool이 GO term 분석을 위하여 이용되었다. 변이가 많이 밀집되어 있는 염색체 구간에 존재하는 유전자들로 GO term 분석을 수행하였을 때, 후각과 신경에 관련된 유전자들이 상대적으로 변이를 획득할 기회를 가지는 것으로 보였으나, 실제로 Non-synonymous SNP을 가지는 유전자들로 GO-term 분석을 실시하였을 때는 후각 및 면역 관련 유전자에서 한국 재래 염소와 교잡종 염소 집단 사이의 차이를 보이는 것으로 확인 되었다. 챕터 3에서는 미래 유전자원으로서의 아프리카 재래 소에 대하여 요약 및 기술하였다. 아프리카 재래 소들은 다양하고 혹독한 기후 조건하에 적응 되어 온 결과로 매우 다양한 특징들을 보여준다. 아프리카 재래 소들의 표현형 적인 특징 혹은 유전적인 특징들을 조사하였고, 미래 유전자원으로서의 아프리카 소 연구의 필요성에 관하여 서술하였다. 또한 기존에 행해졌던 아프리카 재래 소 연구에 대하여 간략히 소개하였으며 앞으로 예상되는 아프리카 소 연구에 대하여도 간략히 기술하였다. Genome is a blueprint of organism, so there have been a lot of studies trying to describe phenomenon of life through genome analyses. Given recent development of Next Generation Sequencing (NGS) and reduction of sequencing cost, analyses of whole genome sequencing data between populations became financially possible in individual labs. From gathered genomic variations of individuals, genomic features of each population can be described and compared, and moreover, phenotypic differences between populations can be explained in a view of DNA sequences. Livestock of which characteristics are various have been domesticated for a long time, and signatures of domestication remains on their genome sequences. Thus, those animals have been considered to be good research models and researched by many researchers. In Chapter 1, I simply summarized and reviewed history of DNA sequencing and NGS technologies. Also, methods for comparative analyses between populations especially which are used in this study such as methods to define positive selection regions were briefly reviewed. In Chapter 2, I analyzed two of goat populations to compare their genomic contents and understand distinct genetic features of patterns of selection in the populations using NGS whole genome sequence data (Illumina flatform) from 15 Korean native goats and 11 crossbred goats. Because goats are the closest animal to cattle, I researched as preceding analyses for the research of African cattle project which I will cover on Chapter 3. I used GATK software to perform variant calling, and the called SNPs data was used in this study. From the identified variants in two goat populations, I discovered that Korean native goats evidently have lower nucleotide diversity than crossbred goats. Also, I revealed that ancestry of their common ancestor still hold a large majority in both of populations using STRUCTURE although they were clearly distinguished. The results of genetic structure of goat populations also supported the information of population which was already known. Through analysis using XP-EHH statistics, which is one of the methods to define positive selection regions, 6 candidate genes including predicted genes which show signatures of strong positive selection were identified. I also performed gene ontology term analysis, and DAVID tool was used in this study. GO term analyses with genes in highly variable regions showed the potential chances of gaining variations in genes involved with olfactory and neurological systems, but in practice, GO term analyses with non-synonymous SNP revealed that genes involved with olfactory and immune systems show differences between Korean native goat and crossbred goat populations. In Chapter 3, I reviewed African indigenous cattle as future genetic resources. African indigenous cattle show varieties of characteristics with the result that they have been adapted to various and harsh environmental conditions. I investigated phenotypic and genetic features of African indigenous cattle and described the necessities of research on African indigenous cattle as future genetics resources. I also investigated previous researches on African indigenous cattle and briefly describe expected goals of researches on African cattle in the future.

      • Evolutionary bioinformatic studies to characterize mammalian genomic features using next generation sequencing

        김형민 서울대학교 대학원 2013 국내박사

        RANK : 233295

        From the year 1975 that was the year of introducing Sanger’s sequencing method, the DNA sequencing technology has developed rapidly and expanded in a tremendous scale. Only the DNA sequence of ~100 nucleotides could be produced at the initiatory stage of sequencing, but today, next-generation sequencing (NGS) technology can produce billions of nucleotides sequences in a single run. At the first stage of genome sequencing in 1977, only the small genome of virus such as bacteriophage phi X174 that has genome of approximately 5375 nucleotides, could be facilitated. However, as the DNA sequencing technology has been improving, the large genomes of complex organisms have been sequenced, and we, the humankind could produce our own genome map (3.2 giga base pairs) in 2001. Today, the genome assemblies of dozens of organisms were built or are under building, and hundreds and thousands of papers in extensive research fields are published using NGS technology. The NGS technology is now the most powerful tool for the biological science and evolutionary science, and it produces more information than the whole information of the previous studies. The day is quickly coming when every individual will have his own genome sequence information. In the near future, every researcher will use NGS routinely as a common protocol just like polymerase chain reaction (PCR). Therefore, this thesis is mainly about researches using NGS, from simple data which is the size of chromosomes, to complex data that including expression information and evolutionary information of genes. In chapter 1, the general background of NGS was summarized. The history of DNA sequencing technology and the difference between Sanger sequencing and NGS were presented, and the application of NGS was listed. For the background of analysis of sex chromosomal- and autosomal-size from NGS, evolution in sex chromosome that relates to X chromosome inactivation and dosage compensation was written. For the expression analysis using RNA sequencing (RNA-seq) data, the character of RNA-seq data was summarized and an overview of RNA-seq analysis was presented. For the evolutionary analysis using re-sequencing data, background of positive selection signature that includes principles of selective sweep and detecting methods was introduced. In chapter 2, by using the sex chromosomal- and autosomal-size from NGS, Ohno’s hypothesis on conservation of the size of the X chromosome in mammals was reanalyzed. Unlike the Ohno’s hypothesis, variation in the length of the X chromosome is at least similar or greater than in the autosomes in 9 or 14 mammalian species. Interspersed nuclear elements, LINEs and SINEs were shown to be responsible for this variation form by taking genetic rearrangements into account with them. In chapter 3, by using the RNA-seq data in 3 mammalian species (horse, human and mouse), the dosage compensation between the X chromosome and autosomes was investigated. When the entire expression was considered, I could not identify the dosage compensation of X-linked genes (X:AA ratios < 1) in all three species. However, when the expression level threshold was increased, X:AA ratios were increased and converged on 1. This indicates that the dosage compensation occurs partially and at highly expressed genes. In chapter 4, by using the RNA-seq data in 6 Thoroughbred racing horses of different exercise condition (before and after exercise), global gene expression pattern of response to exercise-stress in the skeletal muscle and blood was investigated. I analyzed differentially expressed genes and their co-expression networks, and identified 1822 and 222 up-regulated genes, and 930 and 200 down-regulated genes in muscle and blood tissues, respectively. When a co-expression network of after exercise was conducted, 321 core genes in muscle were identified. From the results of two types of analyses, two gene expression patterns of response to exercise were found. First, after a single round of exercise, gene expression in muscle tissue is more disrupted than in blood. Second, pathways involved in exercise-induced stress are related to those involved in inflammation and apoptosis in skeletal muscle. In chapter 5, by using the DNA re-sequencing data in 70 pigs, which are 15 Yorkshires, 13 Landraces, 10 wild boars, 20 Durocs and 12 Yucatan miniature pigs, genetic signature of body size in Yucatan miniature pig was investigated. By estimating FST based neighbor-joining tree and XP-EHH, I was able to unravel the evolutionary layers of adaptations of body size. The older layer (FST) consists of adaptations at level of organ and organism, which include feed intake, regulation of body weight and increase in mass of entire organism, and also consists of adaptations at cellular level, which include cell cycle. I found that the recent layer (XP-EHH) is responsible for adaptations at cellular level including cell growth and regulation of cell cycle. By using information acquired from NGS technology, lots of biological and evolutionary meaning could be obtained. From simple data (the size of chromosomes) to complex data (expression and evolutionary information), they all contain useful meanings to us, which are like a pearl hidden in the mud. A new finding and inference can be achieved with the same data by careful investigation, and more meaningful biological and evolutionary finding can be attained by combining different information together. 1975년 Sanger의 시퀀싱 방법이 도입된 후로 DNA시퀀싱 기술은 빠르게 발달하여 왔고 엄청난 규모로 확장되어 왔다. 시퀀싱의 초기에는 ~100 뉴클레오티드의 DNA 염기서열만이 생산될 수 있었지만 오늘날의 차세대 시퀀싱(NGS)은 수십억 염기서열의 시퀀싱 데이터를 생산할 수 있다. 게놈 시퀀싱의 초기에는 박테리오파지 phi X174와 같은 아주 작은 생물체의 작은 게놈 (5375개의 뉴클레오티드로 이루어져 있다고 보고됨.) 만이 밝혀질 수 있었다. 하지만 DNA 시퀀싱 기술이 향상됨에 따라 하나 이상의 세포로 이루어진 생물체들의 커다란 크기의 게놈들이 밝혀지게 되었다. 그리고 인류는 2001년에 우리 인간의 게놈 지도(3.2 기가 베이스 페어)를 완성하였다. 현재 우리는 수십 종의 게놈 어셈블리를 만들었고 또 만들고 있다. 그리고 방대한 연구 분야에서 수천 개의 논문이 NGS를 사용하여 연구되고 출판되고 있다. NGS 기술은 현재 생물과학과 진화과학에서 가장 영향력 있는 도구이고 지금까지 생산된 정보를 합친 것보다 더 많은 정보를 생산해 내고 있다. 개개인이 자신만의 게놈 염기서열에 대한 정보를 가질 날이 다가오고 있다. 가까운 미래에 모든 연구자들은 지금의 중합 효소 연쇄 반응(PCR)처럼 일상적으로 NGS를 사용할 것이다. 따라서 이 학위 논문은 간단한 데이터로는 염색체의 길이, 복잡한 데이터로는 발현 정보나 진화 정보와 같은 NGS데이터를 이용한 연구들로 구성하였다. 제 1장에서는 NGS의 일반적인 배경 지식을 요약하였다. 먼저 DNA 시퀀싱 기술의 역사를 기술하였고, Sanger시퀀싱과 NGS를 대조하여 기술하였다. 그리고 NGS가 현재 어떻게 활용될 수 있는지에 대하여 정리하고 목록화 하였다. NGS로부터 얻은 성염색체와 상염색체의 길이 정보를 사용한 분석에 대한 배경 지식으로 성염색체의 진화에 대해서, 보다 구체적으로 성염색체 불활성화와 유전자량 보정에 대해 정리하였다. NGS의 활용 방법 중의 하나인 RNA 시퀀싱 (RNA-seq)에 의해 생산된 데이터를 사용한 유전자 발현 분석에 대한 배경 지식으로 RNA-seq의 특성을 마이크로어레이와 대조하여 요약하였고, RNA-seq 분석의 전반적인 과정에 대하여 정리하였다. 리시퀀싱 데이터를 이용한 진화적 분석에 대한 배경 지식으로 양성 선택(positive selection)의 서명(signature)에 대하여, 구체적으로 유전 쓸림(selective sweep)의 개요와 양성 선택의 표지를 탐색하는 방법들에 대해 소개하였다. 제 2장에서는 NGS로부터 얻은 성염색체와 성염색체의 길이 정보를 이용하여, 포유 동물의 성 염색체의 길이가 보존되어 있다는 오노의 가설을 재분석하였다. 오노의 가설과 달리 9종 또는 14종의 포유류에서 성염색체의 길이에 대한 분산은 상염색체의 길이에 대한 분산보다 최소한 같거나 컸다. 이러한 분산의 유형에 대해, 산재적 핵 요소(interspersed nuclear elements)인 LINEs과 SINEs, 그리고 유전적 재배열의 관계 분석으로 LINEs과 SINEs이 원인이 됨을 보였다. 제 3장에서는 말, 사람, 생쥐의 포유류 3종에서 생산된 RNA-seq 데이터를 이용하여 성염색체와 상염색체 간의 유전자량 보정에 대해 살폈다. 전체적인 발현을 고려하였을 때는 3종 모두에서 성염색체 연관 유전자의 유전자량 보정을 확인할 수 없었다(X:AA 비율 < 1; 상염색체 발현의 중간값에 대한 성염색체 발현의 중간값의 비율 < 1). 그러나 발현 수준 한계치를 적용하여 증가시킬 때 X:AA 비율이 증가하였고 1로 수렴하였다. 이는 유전자량 보정이 부분적으로, 그리고 높게 발현하는 유전자에서 발생한다는 것을 의미한다. 제 4장에서는 6마리의 더러브렛 경주마의 운동 전 후에 생산된 RNA-seq데이터를 이용하여 근육과 혈액에서 운동 스트레스에 반응하는 전 유전체적 발현 패턴을 분석하였다. 유의 발현유전자와 그들의 동시 발현 네트워크를 분석하였고 1822개, 222개의 발현 증가 유전자와 930개, 200개의 발현 감소 유전자를 근육과 혈액 각각에서 확인하였다. 운동 후의 동시 발현 네트워크를 구축하였을 때 근육 조직에서 321개의 네트워크 핵심 유전자를 찾을 수 있었다. 두 가지의 분석 결과로부터 운동에 대한 반응의 발현 패턴 두 가지를 찾을 수 있었다. 첫째, 운동 후에 근육 조직의 유전자 발현이 혈액의 유전자 발현보다 분열되는 모습을 보인다. 둘째, 근육에서 운동에 의한 스트레스에 유의하게 반응한 유전자들이 염증 반응과 세포자멸사에 관련되어 있다. 제 5장에서는 돼지 70마리(요크셔 15마리, 랜드레이스 13마리, 야생 돼지 10마리, 듀록 20마리, 유카탄 미니어처 돼지 12마리)의 DNA 리시퀀싱 데이터를 이용하여 유카탄 미니어처 돼지의 몸집에 관련된 유전적 서명을 조사하였다. FST에 근거한 인접 결합 트리와 XP-EHH를 추정함으로써 몸집의 적응에 관련된 진화적 계층을 밝혀낼 수 있었다. 더 오래된 진화적 계층(FST)은 음식의 섭취, 몸무게의 조절과 전체적인 생물의 크기 증가와 같은 장기 수준과 생물체 전체 수준의 적응에 대한 유전적 서명을 가진다는 것을 밝혀 내었다. 그리고 최근의 진화적 계층(XP-EHH)은 세포 성장과 세포 주기 조절과 같은 세포 수준의 적응에 대한 유전적 서명을 가진다는 것을 밝혀 내었다. NGS 기술로부터 얻은 정보를 사용하여, 많은 생물학적 진화학적 의미들을 얻을 수 있었다. 염색체 사이즈와 같은 간단한 데이터에서부터 발현 정보와 진화 정보 같은 복잡한 데이터까지 NGS의 데이터는 우리에게 유용한 의미를 내포하고 있다. 그것은 진흙 속에 숨겨진 진주와 같아서 비록 이미 사용된, 다른 연구에서 쓰인 같은 데이터를 사용하게 되어도 세심한 조사를 통해 새로운 의미를 발견할 수 있다. 그리고 서로 다른 정보들을 하나로 묶어 분석함에 따라 더 의미 있는 생물학적 진화학적 발견이 가능하다.

      • RNA-seq based transcriptome analysis on domestic animals under various experimental design

        박원철 서울대학교 대학원 2017 국내박사

        RANK : 233295

        Today, next-generation sequencing (NGS) technology can produce billions of nucleotides sequences in a single run. In addition, hundreds and thousands of papers in various research fields are published using NGS technology. The NGS technology is now the most powerful tool for the biological science and evolutionary science, and it produces more information than the whole information of the previous studies. RNA sequencing (RNA-seq) is a recent technique that appeared presently after next-generation sequencing (NGS) was invented. In the study of gene expression profiling, Transcriptome sequencing is most appropriate because it enables a profile of the whole transcriptome. A full view of a cellular transcriptional profile at a given biological point and remarkably improve the power of RNA detection methods are provided by whole-transcriptome sequencing. In the application of NGS approach for RNA, several studies were successfully implemented. In the near future, every researcher will use NGS for RNA such as RNA-seq routinely, but transcriptome analysis doesn’t come easy to them. Therefore, this thesis is mainly about researches using RNA-seq and additional DNA re-sequencing with NGS, from complex data that including expression information and additional evolutionary information of genes. In chapter 1, the general background of NGS was summarized. The history of sequencing technologies and the classification of NGS methods were presented, more detail, the separation of NGS methods such as genomic and transcriptomic, which was listed. The character of RNA-seq was summarized. The history of sequencing and gene expression were presented, and comparison between RNA-seq and previous technologies, and an overview of RNA-seq analysis was presented. Evolution of domestic animals (Horse, Pig and Chicken) was introduced. .In chapter 2, by using RNA-seq data in a Jeju native pigs and a Berkshire pig in three different tissues (fat, liver and muscle), significantly change of gene expression pattern of response to breed in each tissue was investigated. Jeju native pigs (JNP) have been adapted to an exotic natural environmental niche. They have been known to be resistant disease and have a good meat quality because of higher tenderness, juiciness, redness and brightness than those of Western breeds. In order to understand the molecular mechanisms of JNP specific phenotype, here I conducted comparative transcriptomics study using RNA-seq technology. I compared transcriptome between JNP and Berkshire in three different tissues (fat, liver and muscle). I identified differential expressed genes (DEGs) of each tissue between the two breeds. Among the DEGs, I found that 26 genes were related to meat quality and body growth. Among those genes, MPZ, AADAT, IGFN1 and MYBPH were up-regulated in JNP. Therefore, I suggest that JNP has different gene expression profile which related to meat quality and body growth compared to Berkshire. In chapter 3, by using RNA-seq data in 9 chicken broiler of 3 different calcium intake condition, significantly change of gene expression pattern of response to calcium–stress in kidney tissue was investigated. Chicken (Gallus gallus) was first domesticated from a wild form called a red jungle fowl that still runs wild in most of Southeast Asia. After then, the grey jungle fowl (G. sonneratii) was hybridized, which was occurred probably about 8,000 years ago, and domestic chickens have been selected to have ideal economic traits such as a meat breed and a laying breed. Among these breeds, a meat breed such as a broiler is the most distributed in poultry industry. In addition, calcium is essential for normal cellular function and blood coagulation. However, it has a decisive effect on the hypocalcemia and the hypercalcemia if calcium intake was less or more than adequate calcium intake, which is related to body weight gain and stress such as hypertension. So, I experimented about the body weight gain and feed intake from 4 chicken broilers per calcium intakes (0.8, 1.0 and 1.2percent) and generated RNA-seq data from 10 broilers for gene expression profiling. As a result, I identified differentially expressed genes (DEGs) using cufflinks (128 DEGs between 0.8 and 1.0 percent, 141 DEGs between 0.8 and 1.2 percent and 103 DEGs between 1.0 and 1.2 percent), and also 12 DEGs were identified by edgeR. I identified that these DEGs were related to hypertension and blood pressure through the KEGG pathway enrichment, the co-occurrence and the protein/protein interaction (PPI) network analysis. Next, seven DEGs that were randomly chosen were validated by quantitative real-time PCR (qRT-PCR). In summary, the objective of this study was to investigate the influence of increasing calcium intake in broilers kidney. Therefore, I suggested that higher calcium intakes than adequate amount in broilers can cause the reduced body weight gain that was related to stress-induced disease such as hypertension. In chapter 4, previous studies of horse RNA-seq were performed by mapping sequence reads to the reference genome during transcriptome analysis. However in this study, I focused on two main ideas. First, differentially expressed genes (DEGs) were identified by de novo–based analysis (DBA) in RNA-seq data from six Thoroughbreds before and after exercise, here-after referred to as “de novo unique differentially expressed genes” (DUDEG). Second, by integrating both conventional DEGs and genes identified as being selected for during domestication of Thoroughbred and Jeju pony from whole genome re-sequencing (WGS) data, we give a new concept to the definition of DEG. I identified 1,034 and 567 DUDEGs in skeletal muscle and blood, respectively. DUDEGs in skeletal muscle were significantly related to exercise-induced stress biological process gene ontology (BP-GO) terms: ‘immune system process’; ‘response to stimulus’; and, ‘death’ and a KEGG pathways: ‘JAK-STAT signaling pathway’; ‘MAPK signaling pathway’; ‘regulation of actin cytoskeleton’; and, ‘p53 signaling pathway’. In addition, I found TIMELESS, EIF4A3 and ZNF592 in blood and CHMP4C and FOXO3 in skeletal muscle, to be in common between DUDEGs and selected genes identified by evolutionary statistics such as FST and Cross Population Extended Haplotype Homozygosity (XP-EHH). Moreover, in Thoroughbreds, three out of five genes (CHMP4C, EIF4A3 and FOXO3) related to exercise response showed relatively low nucleotide diversity compared to the Jeju pony. DUDEGs are not only conceptually new DEGs that cannot be attained from reference-based analysis (RBA) but also supports previous RBA results related to exercise in Thoroughbred. In summary, three exercise related genes which were selected for during domestication in the evolutionary history of Thoroughbred were identified as conceptually new DEGs in this study. In chapter 5, in this study, I aim to identity that differentially expressed isoforms (DEIs), differential splicing and alternative splicing event by using the published Thoroughbred racing horse RNA-seq data between before and after exercise, because previous studies didn’t researched that carefully and without researches about alternative splicing event in Thoroughbred racing horses. I used g/--GTF-guide option in Cufflinks program, because I want to find the all reference transcripts as well as any novel genes, isoform and splicing. As results, In DEIs, the number of DEI in blood and skeletal muscle were 67 and 1,133 respectively. Among them, novel DEIs were 37 in blood, 378 in skeletal muscle. In addition, I identified 7 (6 up-regulated and 1 down-regulated) DEIs in blood and 56 (45 up-regulated and 11 down-regulated) DEIs in skeletal muscle. Among them, in blood, 3 isoforms such as HSPA8 (heat shock 70 kDa protein 8 gene), RhoB (Rho-related GTP-binding protein) and SOCS3 (suppressor of cytokine signaling 3 mRNA) (up-regulated) in blood and 5 isoforms such as AMPD2 (AMP Deaminase Isoform L), ICAM1 (intercellular adhesion molecule 1), MMP-1 (Matrix metalloproteinase-1), MXD1 (MAX Dimerization Protein 1) and TET2 in skeletal muscle were revealed that related to exercise-induces. Moreover, we identified 4 (4 up-regulated) significant differential splicing such as BLZF1, ITGB6, KDM5C and ZNF207 gene in skeletal muscle. Most of these genes were included a litter-related exercise-induce stress with alternative splicing. Conclusively, we classified and identified the alternative splicing events in blood and skeletal muscle in six Thoroughbreds racing horses before and after exercise. As a result, we identified that exon skipping/inclusion (ESI) type is the most common of alternative splicing event, this is the identical result such as human and yeast but the different result as pig with alternative 3’ splicing (A3) Through these studies, diverse applications, of the transcriptome analysis considering the experimental design and purpose, was successfully demonstrated in RNA-seq data or additional re-sequencing data derived from NGS. By using data acquired from RNA-seq or additional re-sequencing technology, lots of biological and evolutionary meaning could be achieved. Given these results, I suggest that researchers in transcriptome study field will employ the suitable transcriptome analysis corresponding to their experimental design and purpose.

      • Development of high-throughput DNA analysis platforms using next-generation sequencing

        허성훈 Graduate School, Yonsei University 2022 국내박사

        RANK : 233295

        After the first discovery of DNA double helix by Watson and Crick in 1953, researchers sought for methods for reading DNA nucleotide sequences (DNA sequencing). In 1977, two groups developed DNA sequencing method. One is the method that is developed by Allan Maxam and Water Gilbert which is based on the chemical modification of DNA that breaks DNA sequences at specific bases. The other is developed by Fredrick Sanger and his colleagues and dominated DNA sequencing field about 30 years. In early 2000s, new sequencing methodology called next-generation sequencing(NGS) was introduced and now, the era of third-generation sequencing, represented by PacBio sequencing and Nanopore sequencing, has arrived. The biggest difference after next-generation sequencing is the introduction of the concept of “massively-parallel high-throughput” to sequencing technology (Figure 1). Using these technologies researchers discovered the genetic difference between people or population (population genomics), cancer driving mutations of human genome (cancer genomics), and genetic factors related the other human disorders such as autism and diabetes. Early of 2021, which is the 20 years after the first human “draft” genome sequencing, researchers found the “complete” human genome sequencing using all the technologies have developed. Now researchers are look forward to more precisely understand the human genome and genetics. So the improvement of DNA sequencing technologies has led the understanding of life science. In addition, advances in sequencing technology are reducing the cost of sequencing at a rate faster than Moore’s law to the extent that the human genome can be sequenced analyzed for $1,000 (Figure 2A). Through this, many researchers have been able to produce large amounts of data more easily than before (Figure 2B). The data produced in this way has become the driving force that transforms the current molecular biology into 'big data science'. Although molecular biology is transforming to big data science, the lab work of individual synthetic biology laboratory is still performed in low-throughput manners such as sequence verification of cloned plasmids one by one manners and this procedure is not only time consuming but also labor and cost intensive step when the number of samples to be analyzed gets larger. Recently, as the concept of personalized medicine has been introduced in the field of molecular diagnosis, clinicians and medical researchers are sequencing and analyzing patient data. Liquid biopsy, that detects circulating tumor DNA (ctDNA) from of patient’s plasma sample which originated from various sources of cell deaths including apoptosis and necrosis has drawn attention. Because liquid biopsy do not required tumor tissue by obtained by surgery or needle biopsy, this settings is favorable for cancer patients compared to the traditional tumor biopsy based precision medicine. However, previous studies showed that there are two major challenges in liquid biopsy settings. The first challenge is the limit of input amount of material. Previous mathematical model has shown that in early stage of lung cancer patient has median 1.5 ctDNA molecules in 15mL of patient’s plasma samples which is typical blood draw amount [1]. To increase the tumor DNA from plasma samples, the only method is to obtain more blood from patients which is unfavorable. The second challenge is the distinguishing the true tumor DNA signal from background error which is introduced several sources of errors. Acquisition of sequencing data requires DNA extraction, library preparation, and a machine to perform DNA sequencing. In sequencing library preparation step, PCR (Polymerase Chain Reaction) step is required. Because polymerase has error rate (10^(-6)~ 10^(-4))[2], these errors are introduced to original DNA source molecules. Another source of error is sequencing instrument which is known to have 0.1% to 1% [3]. These sources of errors are accumulated in sequencing data. Plus, typical ctDNA fraction in patient’s blood contains less than 1% [4], which is very close to the errors. Because of these challenges, distinguishing true signal and background error requires strong bioinformatics. Although now biology has moved to data rich science, sill the bioinformatics pipeline is very complicated and not user friendly. For sequencing data analysis, many steps are required (Figure 3). Several different software are required to process sequencing data and these software are not suitable for researchers not having backgrounds in bioinformatics. This hinders the researchers to discover valuable results such as new cancer drug discovery or early diagnosis of patients with disease. To tackle these problems, I have devised bioinformatics software and pipelines to offer efficient and simple methods for researchers in the field of synthetic biology and precision medicine. The first part, chapter 1 of this dissertation, I introduce an analysis platform called TnClone to provide synthetic biologists a paradigm shift of their work which reduce the time, cost and labor for the analysis of the various cloned plasmids unprecedented scale. The second part, chapter 2 of this dissertation, I introduce analytical method that distinguishes sequencing error signals and true variant signal from targeted gene sequencing data of liquid biopsy sample of metastatic colorectal cancer patients. After calling variants from liquid biopsy samples, I investigated the clinical characteristics of patients in conjunction with called variants. 왓슨과 크릭이 1953년에 DNA의 이중 나선 구조를 밝히고 난 이후, 연 구자들은 DNA의 서열을 읽는 방법(시퀀싱)을 개발하고자 했다. 1977년 두 곳의 그룹에서 시퀀싱 방법을 제안한다. 한 방법론은 맥삼-길버트 그룹에서 DNA에 화학적 처리를 통해 시퀀싱을 하는 방법으로 이 방법 은 특정 DNA 염기에서 화학적 처리된 것이 DNA를 자르는 것을 이용 하는 방법이다. 다른 방법으로는 프레드릭 생어 그룹에서 만든 방법으 로 이 방법이 개발이후 30년동안 시퀀싱 분야를 지배했다. 이후 2000년 초반 차세대 시퀀싱이 도입이 되며 현재에 이르러서는 PacBio 시퀀싱과 Nanopore 시퀀싱으로 대표되는 3세대 시퀀싱의 시대가 도래하였다. 차 세대 시퀀싱 이후의 가장 큰 차이는 “초 병렬적 고속 대량”의 개념이 시퀀싱에 도입이 된 것이다. 연구자들은 시퀀싱 기술을 이용하여 사람 혹은 집단간의 유전적인 차이(집단 유전체학), 인간 지놈에서 발생한 종 양의 발생을 촉진하는 변이(종양 유전체학), 그리고 자폐증이나 당뇨병 과 같은 유전성 질환에 영향을 주는 유전적 요인 등에 대한 연구를 수 행하였다. 첫 인간의 지놈의 “초본”이 도입된 지 20년이 지난 2021년 초에 앞서 말한 모든 시퀀싱 기술을 이용하여 인간의 “완전한” 지놈의 서열이 공개되었다. 이제 연구자들은 더 정밀하게 인간의 지놈과 유전 학에 대한 이해를 하기를 기대하고 있다. 이처럼 시퀀싱의 발전이 생명 현상을 이해하는 계기가 되었다. 또한 시퀀싱 기술의 발전으로 $1,000으 로 인간 게놈을 시퀀싱하여 분석할 수 있을 정도로 무어의 법칙보다 빠 른 속도로 시퀀싱 가격이 절감되고 있다. 이를 통해 다수의 연구자가 기존보다 손 쉽게 대용량의 데이터를 생산하게 되었다. 이렇게 생산된 데이터들은 현재의 분자 생물학을 ‘빅 데이터 과학’으로 변모해 주는 힘이 되었다. 비록 많은 분자 생물학 연구가 빅 데이터 과학으로 이전 해 가고 있지만 많은 합성 생물학 연구실에서는 여전히 실험실에서 낮 은 처리량의 실험 기법을 이용하고 있다. 그 예시가 DNA 클로닝이 종 료된 후에 생거의 시퀀싱 방법을 통해 DNA서열을 확인하는 방법으로 이는 매우 노동 집약적이며 비용이 들어가는 일이다. 최근 분자 진단 분야에서 개인 맞춤형 의료의 개념이 도입됨에 따라 많 은 의료계열의 종사자들이 환자들의 데이터를 시퀀싱하여 분석을 진행 하고 있다. 이 중 세포 포식, 자가사멸 등에 의해 생성되는 순환 종양 DNA(ctDNA)를 검출하는 액체 생검분야가 각광을 받고 있다. 기존에 환 자의 수술이나 바늘 생검을 통해 진행하는 종양 생검 기반 개인 맞춤형 의료와는 달리 액체 생검은 환자의 조직을 이용하지 않기 때문에 환자 에게 보다 접근성이 좋다. 그러나 앞선 연구들에서 액체 생검에는 두 가지의 제약 사항이 있다. 첫 번째는 시료의 양이 제한된다는 것이다. 기존의 수학적인 모델 연구에 따르면 15mL의 환자의 혈액에 존재하는 ctDNA의 양은 평균 1.5개 정도로 매우 극 미량의 시료이다. 시료의 양 을 증가시키는 유일한 방법은 환자의 혈액을 더 많이 채취하는 것인데, 이는 환자에게 좋은 방법이 아니다. 두 번째 제약사항은 종양 DNA의 참된 신호를 여러 원인에서 발생한 주변의 에러 신호와 구분하기가 어 렵다는 점이다. 시퀀싱 데이터를 얻기 위해서는 DNA 추출, 시퀀싱 라 이브러리 제작 그리고 시퀀싱의 일련의 단계를 거친다. 시퀀싱 라이브 러리 제작 단계에서 PCR이 필수적으로 진행되어야 한다. 하지만 PCR에 이용되는 폴리머레이즈의 에러가 (10−6~ 10−4 ) 존재하고 이 에러는 원 본 DNA분자에 남게된다. 다른 에러의 원인은 시퀀싱 기계가 만드는 것 으로 약 0.1% 에서 1% 정도의 에러율을 가진다. 이러한 에러들이 시퀀 싱 데이터에 포진하게 된다. 그런데 혈액 내의 ctDNA의 분율은 1%가 되지 않으며 매우 에러와 근접한 수준이다. 이 때문에 매우 정밀한 이 중에서 혈액을 이용하여 암을 진단하는 액체 생검 분야가 매우 각광 받고 있다. 그러나 액체 생검의 시퀀싱 데이터에서 종양에 해당하는 신 호와 시퀀싱 에러에서 기인한 신호를 구분하는 것이 매우 어려운 일로 알려져 있다. 이를 구분하기 위해서는 엄밀하고 정교한 생물정보학 방 법론이 요구된다. 비록 현대의 생물학이 데이터가 풍족한 과학으로 변화하고 있지만, 현 재의 데이터 분석을 위한 생물정보학적 접근은 매우 복잡하며 유저 친 화적이지 않다. 특히 시퀀싱 데이터 분석에는 많은 절차가 수반되며, 각 절차마다 해당 절차에 필요한 소프트웨어가 다르고 이러한 소프트웨어 를 선별하는 것은 비 전공자에게는 어려움이 따른다. 이러한 복잡성이 연구자들이 새로운 치료제나 종양의 조기진단과 같은 가치있는 연구 성과를 내는 것을 막는 장애물이 된다. 이러한 문제를 해결하기 위해 나는 생물정보학 소프트웨어와 파이프라 인을 고안해서 합성 생물학 분야와 정밀의료 분야에 도움이 되는 방법 론을 개발 했다. 논문의 첫 번째 파트인 챕터1에서는 기존 합성 생물학자들이 고강도의 노동과 시간을 투입하여 만들어 낸 다양한 클로닝된 프라스미드 벡터를 분석하는 방법에 패러다임 시프트를 줄 수 있도록 차세대 시퀀싱을 이 용하여 대용량의 플라스미드를 한번에 분석하는 플랫폼인 TnClone을 소 개한다. 두 번째 파트인 챕터2 에서는 한국인 전이가 있는 대장암 환자들의 혈 액을 타겟 유전자 시퀀싱한 데이터에서 에러와 신호를 구분하는 분석 방법론을 통해 대장암 환자들의 변이를 검출하고 그와 함께 약물 치료 에 대한 반응성, 그리고 생존 분석과 같은 임상 분석에 그 초점을 맞추 었다.

      • (The) use of next generation sequencing to decipher metagenome of domestic animals

        임수연 서울대학교 대학원 2015 국내박사

        RANK : 233295

        This study investigated metagenomic characteristics of microbial communities in the domesticated poultry through the combination of next generation sequencing (NGS) and bioinformatic pipelines. Among various kinds of commercial animals, this study placed its focus on the bovine rumen, chicken feces and goat rumen fluid, respectively. In more detail, structure of microbial population in the various samples of rumen (bovine/goat) and feces (chicken) was analyzed and then, its phylogeny and specific gene such as cellulase was identified. Sequencing the genomes of rumen microbes, determining the role of the genes and identifying its potential applications are the great deal for researchers to understand the microbiology of the rumen. Chicken feces have generally been known to be closely associated with contamination of poultry and health safety. Goats have unique habits, which include feeding on unconventional tree leaves. Thus, goats are expected to host distinct bacterial communities with cellulose-degrading enzyme activity in their rumen. In cahpter1, basic background and necessity were reviewed the series of worked in this doctoral dissertation, which showed its pivotal role of microbiomes in the commercial animal in various respects. Furthermore, metagenomics and genetics/genomics can provide a significant clue to these microbial population. In chapter 2, the microbial community structure of rumen solid and rumen liquid of cattle rumen was analyzed using high-throughput pyrosequencing of 16S rRNA gene PCR amplicons and a subsequent bioinformatics pipeline. A 16S rRNA gene clone library identified abundant communities belonging to specific bacterial groups in the rumen. The diversity results suggested that the specific bacterial groups was found in both samples with a slight difference. Bacteroidetes, Firmicutes and Fibrobacteria were present in higher concentrations in rumen solid than in rumen liquid, indicating their major role in the degradation of plant fiber. Other groups identified include Proteobacteria, which are responsible for playing a greater role in rumen metabolism; Mollicutes class of Firmicutes, which metabolizes imported sugars to short chain fatty acids; and Prevotellacea, which are crucial for the breakdown of proteins. These biological function of identified microbial groups mentioned above have also coincided with other previous studies. In chapter 3, fecal microbial community of chicken was quantitatively analyzed using next generation sequencing (NGS) techniques and bioinformatic analyses with metagenomic tools such as MOTHUR, MEGA6 etc. during a relatively short growth time of 35 days. The diversity of microbial community at the genus level increased during the five week growth period (from 30 to 87 identified genera). Despite the diversity, only a few dominant bacteria groups (over 80%) were identified in each fecal sample, which were completely different from each other. These results suggested that chicken fecal microbiome is a dynamic system with a differentiated population structure under a restricted number of higher taxa. In chapter 4, protein domains with cellulase activity in goat rumen microbes were investigated using Illumina sequencing and bioinformatic analyses with metagenomic tools such as METAIDBA, HMMER and Interproscan etc. After the complete genome of the goat rumen microbe was obtained using a shotgun sequencing method, 217,892,109 pair reads were filtered using METAIDBA. These filtered contigs were assembled and annotated using blastN against the NCBI nucleotide database. As a result, a microbial community structure with 439 genera was analyzed, among which Prevotella and Butyrivibrio were the dominant groups. In parallel, 201 sequences related with cellulase activities (EC.3.2.1.4) were obtained through blast searches using the enzyme.dat file provided by the NCBI database. 28 protein domains with cellulase activity were identified using the HMMER package. Cellulase activity protein domain profiling showed that the major protein domains such as lipase GDSL, celluase, and Glyco hydro 10 were present in bacteria with strong cellulase activities. Furthermore, correlation plot clearly displayed the strong positive correlation between some protein domain groups, which was indicative of microbial adaption in the goat rumen based on feeding habits. Recent studies clearly reported that intestinal microbome was closely correlated with the traits of host such as obesity and growth. Therefore, it can be easily expected that analysis of intestinal microbial structure in commercial animals can provide an insight to the livestock industry in terms of fiber digestion and growth.

      • Mutational Analysis of Extranodal Marginal Zone Lymphoma Using Next Generation Sequencing with a Custom Cancer Panel

        허석재 동아대학교 대학원 2018 국내박사

        RANK : 233295

        Extranodal marginal zone lymphoma is a type of low-grade B-cell lymphoma and may be classified as mucosal-associated lymphoid tissue lymphoma. MALT lymphoma is most common in stomach and also occurs in various locations such as the lung, ocular adnexa, salivary glands and small bowel. The etiologic factors are inflammation caused by chronic infection, autoimmune disease and genetic variation. Identifying various somatic mutations is an essential process in precision medicine, where high throughput sequencing is used to accurately detect genetic changes. Nucleotide sequencing techniques are basically based on the Sanger method, but recently second generation or next generation sequencing(NGS) that can sequence millions or billions of DNA strands simultaneously in parallel unlike the sanger sequencing is rapidly spreading. One gastric MALT lymphoma and four small intestine MLAT lymphomas were selected and studied using tissue samples embedded in their paraffin. DNA was extracted from tissue samples and quality control was performed. NGS was performed using HemaScan, a custom panel for 426 genes including essential genes for blood cancer. The results of NGS revealed the following genomic variants ; single nucleotide variations (SNVs), insertions and deletions(Indels) and copy number variations(CNVs). And these genomic variants are reported as annotated, known, and novel variants. Of the annotated variant, ERBB2 gene amplification was confirmed in one patient. Of the known and novel variants, SNV of SETBP6, RUNX1 and KEAP1 gene, Indel of MKI67 gene, CNV of ZNF703 and NOTCH1 gene were confirmed in two or more patients. And Indel with frameshift in BCL10, DDX3X, FOXO3 and MUC2 genes was identified in one patient. More studies are needed to determine the association of various genetic mutations with the development of MALT lymphoma. 림프절외 변연부세포 림프종은 저등급 B세포 림프종의 한 형태이며 점막연관림프조직(mucosa-associated lymphoid tissue, MALT) 림프종으로도 분류되기도 한다. 이는 위(stomach)에서 가장 흔하게 발생하며 폐, 안구부속기, 침샘, 소/대장 등의 다양한 위치에서도 발생한다. 유발요인으로 만성 감염에 의한 염증, 자가면역 질환 그리고 유전적 변이 등이 확인되었다. 다양한 체세포 변이를 확인하는 것은 정밀의학(precision medicine)의 필수적인 과정이며, 이때 높은 처리량 sequencing을 사용하여 게놈(genome) 변경의 정확한 검출하는 것은 필수적이다. DNA 유전정보를 읽어내는 모든 염기서열 분석(sequencing)은 기본적으로 Sanger 방식에 기반하였으나 최근 새로운 기법의 sequencing 기술이 급속도로 보급되었으며, Sanger 방식과 달리 대량의 병렬 데이터 생산이 가능한 sequencing을 차세대 또는 제2세대 sequencing(Next Generation Sequencing, 2ndgenerationsequencing,NGS)라고 한다. 위 MALT림프종 1명과 소장 MLAT림프종 4명을 선별하였고, 그들의 파라핀에 내장된 조직 표본을 사용하여 연구를 시행하였다. 먼저 조직 표본에서 DNA를 추출하여 품질관리(quality control)를 시행하였으며 혈액암의 필수유전자를 포함한 총 426개 유전자에 대한 맞춤패널 HemaScan을 이용하여 NGS를 시행하였다. 단일 뉴클레오타이드 변형체(Single Nucleotide Variant, SNV), 뉴클레오타이드 삽입 및 삭제(Insertion and Deletion, Indel), 유전자 복사 수 변이(Copy Number Variation, CNV)를 포함하는 체세포 돌연변이(somatic mutation)에 대해 주석이 달린(annotated), 알려진(known) 그리고 새로운(novel) 변이로 구분하여 결과를 확인하였다. 주석이 달린 변이 중에서는 한 명의 환자에서 ERBB2 유전자 증폭이 확인되었다. 이미 알려지거나 새롭게 확인된 변이 중에서는 SETBP6, RUNX1, KEAP1 유전자의 SNV, MKI67 유전자의 Indel, ZNF703, NOTCH1 유전자의 CNV가 두 명 이상의 환자에서 확인되었다. 그리고 BCL10, DDX3X, FOXO3, MUC2 유전자에서는 프레임이동(frameshift)이 발생된 Indel이 한 명의 환자에서 확인되었다. 다양한 유전자 돌연변이와 MALT림프종 발생과의 연관성을 알아내기 위해서는 더욱 많은 환자를 대상으로 한 연구가 필요하다.

      • Metagenomic next-generation sequencing for etiological diagnosis of broilers with neurological signs

        김현수 경북대학교 대학원 2023 국내석사

        RANK : 233294

        이 연구는 뇌수막염을 포함한 신경증상을 보이는 32일령의 육계에 대하여 메타게놈 차세대 염기서열분석기법을 적용하여 원인체를 밝히는 과정을 제시하였다. 발병 육계는 육안적으로 심한 심낭염 및 간포막염 병변이 관찰되었으며, 조직학적으로는 화농성괴사와 백혈구 및 림프구 침윤을 동반한 뇌수막염 병변이 확인되었다. 심장과 간에서 포도상구균이 분리되었고, 유전자검사 결과, 클로스트리듐 보툴리눔, 뉴캣슬병 바이러스, 닭뇌척수염 바이러스 및 조류인플루엔자 바이러스 음성임이 확인되었다. 병인 분석을 위하여 메타게놈 차세대 염기서열 분석법을 적용한 결과, 뇌조직에서 슈도모나스 균종과 마렉병 바이러스가 추가로 확인되었다. 메타게놈 차세대 염기서열분석을 통하여 기존 진단법들로는 확인되지 않는 뇌수막염의 원인체를 밝혀내었고, 이는 메타게놈 차세대 염기서열 분석법이 미지의 신경질환에 대한 진단법으로 유용하다는 것을 입증한다. 이 연구를 통하여 메타게놈 차세대 염기서열분석법과 기존 진단법들의 병행하는 새로운 진단 체계를 확립하였으며, 이는 진단 분야의 발전에 큰 도움이 될 것으로 기대된다. This study reports a process to identify the causative agent by applying metagenomic next-generation sequencing from 32-day-old broilers displaying unique neurological symptoms including meningoencephalitis. Severe pericarditis and perihepatitis were observed in gross lesions. Broilers also displayed microscopic lesions which were associated with multifocal perivascular cuffing and purulent necrosis in the cerebrum, and severe meningitis with heterophil and lymphocyte infiltration. Staphylococcus spp. were identified in the liver and heart, and PCR/RT-PCR assays revealed that broilers were negative for avian Clostridium botulinum, Newcastle disease virus, avian encephalomyelitis virus, and avian influenza virus. As a results of metagenomic next-generation sequencing for etiological diagnosis, the presence of Pseudomonas spp. and Marek’s disease virus were additionally revealed in the brain. The causative agents that had not been identified by routine diagnostic methods could be diagnosed by metagenomic next-generation sequencing, which proves the usefulness of metagenomic next-generation sequencing as a diagnostic tool for unknown neurological diseases. The combined application of metagenomic next-generation sequencing and traditional methods represent a paradigm shift in diagnostics, and it is expected that this study will be of great help in establishing new diagnostic methods.

      연관 검색어 추천

      이 검색어로 많이 본 자료

      활용도 높은 자료

      해외이동버튼