      • 바이오그리드 컴퓨팅과 생명과학 연구에의 활용

        김태호,김의용,염재범,고원규,곽희철,주현,Kim, Tae-Ho,Kim, Eui-Yong,Youm, Jae-Boum,Kho, Weon-Gyu,Gwak, Heui-Chul,Joo, Hyun 한국생물정보시스템생물학회 2007 Bioinformatics and Biosystems Vol.2 No.2

        생물정보학은 컴퓨터를 이용하여 방대한 양의 생물학적 데이터를 처리하고 그 결과를 분석하는 학문으로서 IT의 고속성장과 맞물려 점차 그 활용도를 넓혀가고 있다. 특히 의학, 생명과학 연구에 사용되는 데이터는 그 종류도 다양하고 크기가 매우 큰 것이 일반적인데, 이의 처리를 위해서는 고속 네트워크가 바탕이 된 그리드-컴퓨팅(Grid-Computing) 기술 접목이 필연적이다. 고속 네트워크 기술의 발전은 슈퍼컴퓨터를 대체해 컴퓨터 풀 내에 분산된 시스템들을 하나로 묶을 수 있는 그리드-컴퓨팅 분야를 선도하고 있다. 최근 생물정보학 분야에서도 이처럼 발전된 고성능 분산 컴퓨팅 기술을 이용하여 데이터의 신속한 처리와 관리의 효율성을 증대시키고 있는 추세이다. 그리드-컴퓨팅 기술은 크게 데이터 가공을 위한 응용 프로그램 개발과 데이터 관리를 위한 데이터베이스 구축으로 구분 지을 수 있다. 전자에 해당하는 생물정보 연구용 프로그램들은 mpiBLAST, ClustalW-MPI와 같은 MSA서열정렬 프로그램들을 꼽을 수 있으며, BioSimGrid, Taverna와 같은 프로젝트는 그리드-데이터베이스 (Grid-Database)기술을 바탕으로 개발되었다. 본 고에서는 미지의 생명현상을 탐구하고 연구하기 위하여 현재까지 개발된 그리드-컴퓨팅 환경과 의생명과학 연구를 위한 응용 프로그램들, 그리고 그리드-데이터베이스 기술 등을 소개한다.

      • 생물정보시스템을 이용한 Local Animal BLAST Search System 구축

        김병우,이근우,김효선,노승희,이윤호,김시동,전진태,이지웅,조용민,정일정,이정규,Kim, Byeong-Woo,Lee, Geun-Woo,Kim, Hyo-Seon,No, Seung-Hui,Lee, Yun-Ho,Kim, Si-Dong,Jeon, Jin-Tae,Lee, Ji-Ung,Jo, Yong-Min,Jeong, Il-Jeong,Lee, Jeong-Gyu 한국생물정보시스템생물학회 2006 Bioinformatics and Biosystems Vol.1 No.2

        BLAST(Basic Local Alignment Search Tool)는 서열 데이터베이스 탐색을 위하여 가장 많이 사용되는 프로그램이다. 전체 서열간의 최적 글로벌 정렬을 수행하는 대신에 지역적 유사성이 있는 부분을 찾아 서열 짝짓기를 수행하는 특징을 갖는다. 일반적인 연구자들은 서열 상동성 검색을 위해 NCBI에 접속하여 웹 브라우저를 통해 온라인으로 BLAST를 수행하게 되는데, 이 경우 사용자 각각의 네트워크 환경이나 입력할 데이터양에 따른 검색속도의 지연 및 제한 등과 같은 여러 문제에 부딪히게 되고, 또한 보안유지가 필요한 서열 데이터의 유출 가능성이 존재한다. 그러므로 대량의 서열 데이터에 대하여 빠르고 안전하게 BLAST 상동성 검색이 가능한 Local BLAST 검색 시스템의 필요성이 증대되고 있다. 본 연구에서는 NCBI의 Genbank에서 공개된 동물의 발현 유전자 단편들(ESTs)에 대한 데이터를 이용하여 소, 돼지, 닭, 등의 경제형질과 연관된 유용 유전자만을 추출하여 이들만으로 구성된 새로운 데이터베이스를 구축하였고, 또한 이들을 사용할 수 있는 새로운 검색시스템을 개발하였다 자체 제작한 Perl script를 사용하여 필요한 데이터를 축종별로 추출 하여 새로운 DB를 구축하였으며 이 속에는 소의 경우 650,046개, 돼지의 경우 368,120개, 닭의 경우 693,005개의 발현 유전자 단편들(ESTs)이 포함된다. 또한 이들 DB 분석이 가능한 Local Animal BLAST Web 검색시스템(http://bioinfo.kohost.net)을 고성능 병렬 PC Cluster 시스템과 연동하도록 자체 구축함으로써 본 시스템이 보다 효율적인 생물정보학 연구수행이 기여할 것으로 기대된다. The Basic Local Alignment Search Tool (BLAST) is one of the most established software in bioinformatics research and it compares a query sequence against the libraries of known sequences in order to investigate sequence similarity. Expressed Sequence Tags (ESTs) are single-pass sequence reads from mRNA (or cDNA) and represent the expression for a given cDNA library and the snapshot of genes expressed in a given tissue and/or at a given developmental stage. Therefore, ESTs can be very valuable information for functional genomics and bioinformatics researches. Although major bio database (DB) websites including NCBI are providing BLAST services and EST data, local DB and search system is demanding for better performance and security issue. Here we present animal EST DBs and local BLAST search system. The animal ESTs DB in NCBI Genbank were divided by animal species using the Perl script we developed. and we also built the new extended DB search systems fur the new data (Local Animal BLAST Search System: http://bioinfo.kohost.net), which was constructed on the high-capacity PC Cluster system fur the best performance. The new local DB contains 650,046 sequences for Bos taurus(cattle), 368,120 sequences for Sus scrofa (pig), 693,005 sequences for Gallus gallus (fowl), respectively.

      • 생물정보학과 환원주의 - 생물정보학은 Computational Molecular Biology와 동의어인가?

        엄융의,Eom, Yung-Eui 한국생물정보시스템생물학회 2006 Bioinformatics and Biosystems Vol.1 No.1

        현대 생물학은 온통 정보의 홍수에 넘쳐나고 있다. 이렇게 쏟아져 나오는 정보들을 체계적으로 정리하고 이해하고 파악하는 것은 매우 중요하다고 하겠다. 생물정보학은 이렇게 쏟아져 나오는 정보들을 수학, 전산학, 정보학 등의 방법론을 사용하여 체계화시키려는 새로운 학문이고 미래 지향적 융합 분야이다.

      • 대규모 유전자 상호작용 네트워크 추론을 위한 클라이언트-서버 시스템 구조

        김영훈,이필현,이도헌,Kim, Yeong-Hun,Lee, Pil-Hyeon,Lee, Do-Heon 한국생물정보시스템생물학회 2006 Bioinformatics and Biosystems Vol.1 No.1

        본 논문은 베이지안 네트워크를 기반으로 대규모 유전자 상호작용 네트워크를 추론하기 위한 클라이언트-서버 시스템 구조를 제시한다. 유전체 수준(genome-wide)의 대규모 유전자 상호작용 네트워크를 베이지안 네트워크 형태로 추론하기 위해서는 병렬 서버를 이용하더라도 통상 수십시간이 소요된다. 따라서, 일반적인 대화형(interactive) 독자(standalone) 시스템 구조보다는 배치형(batch) 분산(distributed) 시스템 구조가 적합하다. 본 논문에서는 그와 같은 상황에 적합한 느슨한 연결의 (loosely-coupled) 클라이언트-서버 시스템을 구현할 결과를 기술한다. 유전자 상호작용 네트워크 추론은 크게 두 단계로 나누어진다. 첫째로, 생물주석정보(biological annotation)과 유전자 발현정보(expression data)를 사용하여, 전체 유전자 집단을 서로 중복이 가능한 모듈들로 나누며, 둘째로, 각각의 모듈들에 대해 독립적인 베이지안 학습을 수행하여 추론결과를 얻고, 각 모듈들이 공통으로 포함하는 유전자를 사용하여 각 모듈의 추론결과들을 하나로 통합한다. We present a client-server system architecture for inferring genetic interaction networks based on Bayesian networks. It is typical to take tens of hours when genome-wide large-scale genetic interaction networks are inferred in the form of Bayesian networks. To deal with this situation, batch-style distributed system architectures are preferable to interactive standalone architectures. Thus, we have implemented a loosely coupled client-server system for network inference and user interface. The network inference consists of two stages. Firstly, the proposed method divides a whole gene set into overlapped modules, based on biological annotations and expression data together. Secondly, it infers Bayesian networks for each module, and integrates the learned subnetworks to a global network through common genes across the modules.

      • 보건분야의 생명정보학

        김은진,배세은,손현석,Kim, Eun-Jin,Bae, Se-Eun,Son, Hyeon-Seok 한국생물정보시스템생물학회 2007 Bioinformatics and Biosystems Vol.2 No.2

        과거 사회라는 개념 속에서의 관찰과 통계적 인과관계의 규명에 치중하여 이루어졌던 보건학 연구는 유전체 연구와 같은 증거 위주의 기초과학적 측면에서 이루어 지고 있는 것이 현재의 추세이다. 이러한 생물학적 데이터를 이용한 질병과 보건에 대한 연구가 활성화 됨에 따라 보건 분야에서도 컴퓨터를 이용하여 방대한 정보를 다룰 수 있는 생명정보학이 유용한 도구로서 인식되고 있다. 본고에서는 생명정보학이 보건학의 연구분야에서 어떻게 이용되는 가를 학술적인 의미에서 살펴보고 그 활용방안에 대해 논의해 보고자 한다.

      • 질량스펙트럼의 펩타이드 분자량 오차범위 재해석에 의한 단백질 동정의 성능 향상

        권경훈,김진영,박건욱,이정화,백융기,유종신,Gwon, Gyeong-Hun,Kim, Jin-Yeong,Park, Geon-Uk,Lee, Jeong-Hwa,Baek, Yung-Gi,Yu, Jong-Sin 한국생물정보시스템생물학회 2006 Bioinformatics and Biosystems Vol.1 No.2

        In proteomics research, proteins are digested into peptides by an enzyme and in mass spectrometer, these peptides break into fragment ions to generate tandem mass spectra. The tandem mass spectral data obtained from the mass spectrometer consists of the molecular weights of the precursor ion and fragment ions. The precursor ion mass of tandem mass spectrum is the first value that is fetched to sort the candidate peptides in the database search. We look far the peptide sequences whose molecular weight matches with precursor ion mass of the mass spectrum. Then, we choose one peptide sequence that shows the best match with fragment ions information. The precursor ion mass of the tandem mass spectrum is compared with that of the digested peptides of protein database within the mass tolerance that is assigned by users according to the mass spectrometer accuracy. In this study, we used reversed sequence database method to analyze the molecular weight distribution of precursor ions of the tandem mass spectra obtained by the FT LTQ mass spectrometer for human plasma sample. By reinterpreting the precursor ion mass distribution, we could compute the experimental accuracy and we suggested a method to improve the protein identification performance. 프로테오믹스에서 얻는 탄뎀 질량 스펙트럼은 효소로 가수분해된 펩타이드의 전구이온(precursor ion) 분자량과 펩타이드에 에너지를 가하여 생성된 이온조각(fragment ion)들의 분자량값들로 구성된다. 탄뎀 질량스펙트럼의 전구이온 분자량은 단백질 서열 데이터베이스에서의 검객 과정에서 가장 먼저 고려하는 값이다. 단백질 검색 프로그램은 단백질 서열 중에 스펙트럼의 전구이온으로부터 계산된 분자량과 일치하는 펩타이드 서열들을 찾아내고, 이들 중의 하나를 이온조각들의 분자량 정보를 이용해서 선택한다. 이 때에 전구이온의 분자량은 사용자가 지정한 오차범위 내에서 일치하는 감을 검색하는데, 이때의 오차범위는 질량분석기의 정확도에 따라 결정된다. 본 논문에서는 인간 혈액의 혈장시료로부터 FT LTQ 질량분석기를 통해 얻어진 탄뎀 질량 스펙트럼에서 전구이온 분자량의 분포를 역순서열을 이용하여 분석하였다. 전구이온 분자량의 분포를 재해석하여 실험값의 정확도를 보정하고 단백질 동정의 성능을 향상시키는 방법을 모색하였다.

      • 단백질 서열정렬 정확도 예측을 위한 새로운 방법

        이민호,정찬석,김동섭,Lee, Min-Ho,Jeong, Chan-Seok,Kim, Dong-Seop 한국생물정보시스템생물학회 2006 Bioinformatics and Biosystems Vol.1 No.1

        The most popular protein structure prediction method is comparative modeling. To guarantee accurate comparative modeling, the sequence alignment between a query protein and a template should be accurate. Although choosing the best template based on the protein sequence alignments is most critical to perform more accurate fold-recognition in comparative modeling, even more critical is the sequence alignment quality. Contrast to a lot of attention to developing a method for choosing the best template, prediction of alignment accuracy has not gained much interest. Here, we develop a method for prediction of the shift score, a recently proposed measure for alignment quality. We apply support vector regression (SVR) to predict shift score. The alignment between a query protein and a template protein of length n in our own library is transformed into an input vector of length n +2. Structural alignments are assumed to be the best alignment, and SVR is trained to predict the shift score between structural alignment and profile-profile alignment of a query protein to a template protein. The performance is assessed by Pearson correlation coefficient. The trained SVR predicts shift score with the correlation between observed and predicted shift score of 0.80. 현재 가장 많이 사용되는 단백질 구조 예측 방법은 비교 모델링 (comparative modeling) 방법이다. 비교 모델링 방법에서의 정확도를 높이기 위해서는 alignment의 정확도 역시 매우 필수적으로 필요하다. 비교 모델링 과정 중의 fold-recognition 단계에서 alignment의 정확도에 의해 template을 고르는 방법은 단지 가장 비슷한 template을 선택하는 방법에 비해 주목을 받지 못하고 있다. 최근에는 두 가지의 alignment에 사이의 shift 정보를 바탕으로 한 shift score라는 수치가 alignment의 성능을 표현하기 위해서 개발되었다. 우리는 더 정확한 구조 예측의 첫걸음이 될 수 있는 shift score를 예측하는 방법을 개발하였다. Shift score를 예측하기 위해 support vector regression (SVR)이 사용되었다. 사전에 구축된 라이브러리 안의 길이가 n 인 template과 구조를 알고 싶은 query 단백질 사이의 alignment는 n+2 차원의 input 벡터로 변환된다. Structural alignment가 가장 좋은 alignment로 가정되었고 SVR은 query 단백질과 template 단백질의 structural alignment과 profile-profile alignment 사이의 shift score를 예측하도록 training 되었다. 예측 정확도는 Pearson 상관계수로 측정되었다. Training 된 SVR은 실제의 shift score와 예측된 shift score 사이에 0.80의 Pearson 상관계수를 갖는 정도로 예측하였다.

      • 효과적인 siRNA의 디자인

        구남진,조광휘,Gu, Nam-Jin,Jo, Gwang-Hwi 한국생물정보시스템생물학회 2007 Bioinformatics and Biosystems Vol.2 No.1

        Short interfering RNA(siRNA)는 특별한 gene의 발현을 막는데 사용될 수 있고 그 gene의 기능과 치료의 적용에 많은 가능성을 가지고 있지만, 효과적인 siRNA를 디자인하는 방법은 아직까지 명확하지 않다. 효과적인 siRNA는 서열적인 경향을 가지고 있는데 낮은 G/C content, Sense strand의 3' 끝에 적은 안정성과 1번 위치에는 G/C, 19번 위치에는 A/U의 존재 여부를 들 수 있다. 이러한 특성 말고도 최근에는 mRNA의 2차구조가 RNAi 작용에 중요한 역할을 하게 되는데 복잡한 구조(hairpin, multi loop)를 가지고 수소결합을 많이 하여 안정한 상태에 있는 부분은 siRNA의 기능을 크게 줄어들게 한다. 또한, siRNA가 특정한 mRNA에 작동하도록 BLAST 검색을 하여 부작용의 가능성을 배제한다. Shot interfering RNA (siRNA) can be used to silence specific gene expression and have many potential therapeutic applications. However, how to design an effective siRNA is still not clear. Highly effective siRNA has sequence-specific properties which are low G/C content, low internal stability at the sense strand 3'-terminus, sense strand base bias(position 1 is G/C, position 19 is /AU). Recently, mRNA secondary structure playsan important role in RNAi. Target site of siRNA in high-ordered structure (i.e hairpin loop, multi loop) or base pair of many hydrogen bonds dramatically reduce function of siRNA mediated gene silencing. Possible off-target effects of siRNA is detecting from BLAST search.

      • Biological Resources Potential and the Recent State of International Cooperation in Indonesia

        Changho Park,Ahmad Junaedi,Mira Lee,Yeonhee Lee 한국생물정보시스템생물학회, 국가핵심연구센터(NCRC)소장협의회, 생물학연구정보센터 2010 Interdisciplinary Bio Central (IBC) Vol.2 No.-

        Indonesia is a mega-biodiversity country having at least one trillion US Dollars value of biological resources per year over the next 20 years. Indonesia is home to 11 percent of the world’s flowering plant species and 12 percent of all mammals. Many of Indonesia’s species and more than half of the archipelago’s endemic plant species are found nowhere else on the Earth. This information is just a small portion of all higher plants and animals being found in Indonesia. Former studies described that total number of species in Indonesia is estimated more than 1,000,000 and most of them remain unknown scientifically. Most of lower plants and animals have not been studied yet, so that greatest portion of Indonesia’s biological resources has never been assessed with respect to its economic value or conservation status. Many developed countries are building cooperation with Indonesia on resources, mainly in the fields of grant aid, socio-economic services, R & D, researcher exchange, technology transfer, infrastructure, education/training, finance, etc. Indonesia will obtain greater benefits and management of its biological richness via increasing its international capacity to add value and information to its biological diversity. These goals can be achieved by close international collaboration on search of important biological resources and other bioactive products that have potential economic values. Development of biological resource-based technology stands as the industry of the 21st century and, therefore, Indonesia has a unique opportunity to lead the process in the world.

