본문으로 바로가기 주메뉴 바로가기

사용자별 맞춤메뉴

자주찾는 메뉴

추가하기
닫기

간행물·통계

contents area

detail content area

생물학적 경로기반 단일염기다형성 분석
  • 작성일2011-11-25
  • 최종수정일2012-08-24
  • 담당부서감염병감시과
  • 연락처043-719-7173

     

생물학적 경로기반 단일염기다형성 분석
Biological Pathway based SNP Analysis

질병관리본부 유전체센터 바이오과학정보과            
유기진            

  


Ⅰ. 들어가는 말
  근래의 전장유전체 연관분석(Genome-wide association study, GWAS)은 복합 질환(complex disease)과 관련된 유전자(gene)를 밝히기 위한 표준 방법으로써 더욱 활발하게 진행되고 있다. 그러나 여전히 그 결과로부터 생적 의미를 유출하고 다양한 생물학적 경로(biological pathway)와 질환의 복합적 현상을 이해하는 것은 매우 어려운 문제이다. 이러한 문제점을 해소하기 위하여 유전체 수준의 단일염기다형성(Single Nucleotide Polymorphism; SNP) 1)분석을 위한 유전자와 생물학적 경로, 질환 간의 연관성 분석과 그 방법론의 필요성이 중요하게 대두되고 있다.
  일반적인 접근방법은 가장 유의한 몇몇 단일염기다형성을 통해 분석하지만, 실제 유의한 하나의 단일염기다형성은 복합 질환에 미약한 영향을 끼치는 경우도 있기 때문에 복합 질환의 전체적인 이해에 한계가 있다. 또한 유의성이 낮은 단일염기다형성이 다른 단일염기다형성들 또는 여러 개의 유전자들과 함께 작용하여 질환을 일으키는데 큰 역할을 하기도 하고, 하나의 유전자 내 또는 하나의 경로에 참여하는 여러 개의 유전자에 위치하는 여러 단일염기다형성들의 영향으로 발병하기도 한다. 단일염기다형성이 질환에 직접적인 영향을 미치지는 않지만, 여러 경로를 통해 축적된 영향이 질환에 중요하게 미침으로써 발병에 큰 관여를 하기도 한다[1-6]. 따라서 단일염기다형성과 유전자, 생물학적 경로 등의 복합적인 연관 분석이 중요하다. 이 글에서는 생물학적 경로 및 질환, 기능 정보를 기반으로 단일염기다형성 통합 분석 방법과 관련된 소프트웨어를 소개하고자 한다.


Ⅱ. 몸 말
단일염기다형성을 포함하는 유전자 정보를 기반으로 관련된 기능과 경로 및 질환 정보를 검색하기 위해서, 많은 데이터를 포함하고 널리 알려진 공개 데이터베이스들이 필요하다. 일반적으로 단일염기다형성 정보는 National Center for Biotechnology Information(NCBI)에서 제공하는 Single Nucleotide Polymorphism Database(dbSNP)의 단일염기다형성 ID와 생물체의 종, 유전체에서의 위치 정보를 이용하고, 이 정보를 통해 단일염기다형성이 위치하는 유전자와 사상(mapping)한다. NCBI의 Entrez Gene Database(http://www.ncbi.nlm.nih.gov/gene)와 UCSC refGene Identifier http://hgdownload.cse.ucsc.edu/downloads.html#human)가 유전자 정보로 가장 널리 사용되고, 유전자의 위치 정보는 단일염기다형성과의 사상에, 유전자의 심볼(symbol)은 경로 및 질환 정보, 또는 온톨로지(Ontology) 용어와의 사상에 쓰인다.
  단일염기다형성과 관련된 유전자가 참여하는 생물학적 경로정보는 가장 널리 쓰이는 BioCarta (www.biocarta.com), KEGG(Kyoto Encyclopedia of Genes and Genomes, www.genome.jp/kegg), Reactome(www.reactome.org) 등의 데이터베이스 또는 앞의 데이터베이스들을 통합 및 정리한 PID(Pathway Interaction Database, http://pid.nci.nih.gov) 또는 HPD(An Integrated Human Pathway Database, http://discern.uits.iu.edu:8340/HPD) 등의 데이터베이스를 통해 확보한다. 경로에 참여하는 유전자와 단일염기다형성을 포함하는 유전자를 비교함으로써, 경로 내에서 단일염기다형성이 어떤 위치에서 어떤 영향을 미치는지 알 수 있다. 또한 단일염기다형성의 영향으로 이상이 있을 것이라고 추정되는 경로에 단일염기다형성 관련 유전자가 포함되어있지 않더라도, 관심 경로와 유전자가 참여하는 경로와의 관계를 분석함으로써 어떤 경로를 통해 단일염기다형성이 관심 경로에 어떻게 영향을 미치는지 예측할 수 있다[7].
  Gene Ontology 2)(GO, Figure 1(a))는 다양한 레벨에서 유전자와 유전자 산물의 특징을 설명하기 위해 용어와 그들의 관계를 정리한 데이터베이스로, 크게 세 가지 카테고리에서 용어를 정리하였다. 유전자와 유전자 산물의 특징은 세포 내 또는 밖의 환경에서의 구성 요소(cellular component)와 분자적 레벨에서의 유전자 산물의 역할(molecular function), 그리고 생물체, 세포, 조직 등의 기능 작용(biological process) 등 세 가지 카테고리의 용어들과 그들의 계층적 관계로 표현된다. 일반적으로 GO를 통해 각 카테고리의 높은 관점에서부터 세부적인 관점에서까지 정보를 추출하여 다양한 유전자 어노테이션(annotation) 3)을 할 수 있다.

  또한 NCBI의 Online Mendelian Inheritance in Man(OMIM, Figure 1(b)) 데이터베이스를 통해 질환 정보를 추출함으로써, 특정 질환과 유의한 연관성을 갖는 단일염기다형성이 위치하는 유전자의 생물학적 경로와 GO 용어를 통해 유전자의 기능 정보와 실제 연관성이 밝혀진 OMIM의 질환 정보까지 다양한 측면에서 통합적으로 분석할 수 있다. 그 결과 방대한 데이터를 동시에 분석함으로써 새로운 연관성을 추출할 수 있고 새로운 시야를 통해 분석에 접근할 수 있다[9-10].
                               
  이렇게 단일염기다형성이 위치하는 유전자와 관련된 경로와 질환 정보, GO 용어를 통한 어노테이션 정보를 얻었지만, 이들이 실제 전장유전체 연관분석 결과의 유의한 정보인지 알 수 없다. 전장유전체 연관분석 결과의 단일염기다형성들이 위치하는 유전자 세트(gene set)들과 추출된 정보들의 상관성 평가를 위한 방법으로 Gene Set Enrichment Analysis(GSEA)4)가 있다[11-12]. 다양한 생물학적 연구를 위해 대용량 유전자 기능 분석에 중요한 역할을 하는 GSEA는 유전체 중의 특정 경로나 GO 용어에 포함되는 유전자와 전장유전체 연관분석 결과의 유전자 분포를 비교하는 방법이다. 예로 인간 유전체의 3만개 유전자 중 p53 시그널링 경로에 40개 유전자가 포함되어 있고, 전장유전체 연관분석 결과의 유전자 300개 중 3개의 유전자가 경로에 포함되어 있다고 가정하고, 2×2 테이블로 표현할 수 있다(Figure 2).
                               

Ⅲ. 맺는 말


  생물학적 프로세스는 단일 유전자가 아닌 여러 유전자에 의해 일어나기 때문에, 대량의 유전자 정보를 바탕으로 프로세스와 연관된 유전자를 검출하여 크고 복잡한 프로세스를 이해할 수 있다. 또한 일반적으로 단일 단일염기다형성을 분석하는 전장유전체 연관분석도 생물학적 기능과 메커니즘을 이해하는데 한계가 다. 복잡한 생물학적 메카니즘을 이해하여 질환의 원인을 밝히기 위해서 생물학적 경로뿐만 아니라 여러 단일염기다형성들이 위치하는 유전자들의 기능 정보의 통합적 분석이 필요하다. 이렇게 대량의 다양한 정보를 검색하고 통계적으로 분석함으로써 다양한 생물학적 견해를 제시할 수 있고 특정질환에 대한 견해가 확실해 질 수 있다.
                                    

                                                                                                                                                                                         

1) 단일염기다형성 : 세포핵 속에 염색체가 갖고 있는 30억개의 염기 서열중 개인의 편차를 나타내는 수십개늬 염기변이를 칭함.
                           여러사람들의 DNA 염기순서를 비교하여 수백 염기서열을 읽으면 흔히 다른염기가 같은 위치에서 발견되는데
                           이러한 다형성을 SNP라고 함
2) Gene Ontology : 유전자와 유전자의 생산물을 설명하기 위해 계층적 구조를 갖는 사전형 데이터베이스.
3) 유전자 어노테이션 : 문장이나 문서의 주석처럼, 유전자의 위치 및 서열 등 관련된 특징과 정보를 찾아내는 작업.


Ⅳ. 참고문헌

1. Peng, G., Luo, L., Siu, H., Zhu, Y., Hu. P., Hong, S., Zhao, J., Zhou, X., Reveille, JD., Jin, L., Amos, CI., Xiong, M. 2010. Gene and pathway-based second-wave analysis of genome-wide association studies. Eur J Hum Genet 18, 1, 111-117.
2. Jia, P., Wang, L., Meltzer, HY., Zhao, Z. 2011. Pathway-based analysis of GWAS datasets: effective but caution required. Int J Neuropsychopharmacol 14, 4, 567-572.
3. Thomas, D. 2010. Methods for investigating gene-environment interactions in candidate pathway and genome-wide association studies. Annu Rev Public Health 31, 21-36.
4. Cantor, RM., Lange, K., Sinsheimer, JS. 2010. Prioritizing GWAS results: A review of statistical methods and recommendations for their application. Am J Hum Genet 86, 1, 6-22.
5. Bauer-Mehren, A., Furlong, LI., Rautschka, M., Sanz, F. 2009. From SNPs to pathways: integration of functional effect of sequence variations on models of cell signalling pathways. BMC Bioinformatics 10, Suppl 8, S6.
6. Zamar, D., Tripp, B., Ellis, G., Daley, D. 2009. Path: a tool to facilitate pathway-based genetic association analysis. Bioinformatics 15, 25, 2444-2446.
7. Wu J, Mao X, Cai T, Luo J, Wei L. 2006. KOBAS server: a web-based platform for automated annotation and pathway identification. Nucleic Acids Res 1, 34.
8. Chowbina SR, Wu X, Zhang F, Li PM, Pandey R, Kasamsetty HN, Chen JY. 2009. HPD: an online integrated human pathway database enabling systems biology studies. BMC Bioinformatics 10 Suppl 11:S5.
9. Schwarz DF, H dicke O, Erdmann J, Ziegler A, Bayer D, M ller S. 2008. SNPtoGO: characterizing SNPs by enriched GO terms. Bioinformatics. 1, 24(1), 146-148.
10. Holmans P, Green EK, Pahwa JS, Ferreira MA, Purcell SM, Sklar P; Wellcome Trust Case-Control Consortium, Owen MJ, O’Donovan MC, Craddock N. 2009. Gene Ontology analysis of GWA study data sets provides insight into the biology of bipolar disorder. Am J Hum Genet. 85(1), 13-24.
11. Huang da W, Sherman BT, Lempicki RA. 2009. Bioinformatics enrichment tools : pathway toward the comprehensive functional analysis of large gene lists. Nucleic Acids Res. 37(1), 1-13.
12. Zhang K, Cui S, Chang S, Zhang L, Wang J. 2010. i-GSEA4GWAS: a web server for identification of pathways/gene sets associated with traits by applying an improved gene set enrichment analysis to genome-wide association study. Nucleic Acids Res 38.
13. Cavalieri D, Castagnini C, Toti S, Maciag K, Kelder T, Gambineri L, Angioli S, Dolara P. 2007. Eu.Gene Analyzer a tool for integrating gene expression data with pathway databases. Bioinformatics 1, 23, 2631-2632.

본 공공저작물은 공공누리  출처표시+상업적이용금지+변경금지 조건에 따라 이용할 수 있습니다 본 공공저작물은 공공누리 "출처표시+상업적이용금지+변경금지" 조건에 따라 이용할 수 있습니다.
TOP