본문으로 바로가기 주메뉴 바로가기

사용자별 맞춤메뉴

자주찾는 메뉴

추가하기
닫기

간행물·통계

contents area

detail content area

유전체칩의 유전변이정보 확장방법 소개
  • 작성일2016-11-17
  • 최종수정일2016-11-17
  • 담당부서형질연구과
  • 연락처043-719-8870

유전체칩의 유전변이정보 확장방법 소개

질병관리본부 국립보건연구원 유전체센터 형질연구과
황미영, 김영진, 문상훈, 김봉조*

*교신저자: kbj6181@korea.kr / 043-719-8870

Abstract
Expansion of genetic variants of SNP chip using genotype imputation
Division of Structural and Functional Genomics, Center for Genome Science, NIH, CDC.
Hwang Mi Yeong, Kim Young Jin, Moon Sanghoon, Kim Bong-Jo

Next Generation Sequencing (NGS) technology is becoming a powerful tool for the discovery of genetic variants across entire chromosomes. However, it is not yet feasible to apply NGS in a large-scale-population-based genome study due to its relatively high cost and required high computing power. Alternatively, SNP chip genotyping and imputation analysis have been widely used to study hundreds of thousands of samples. Genotype imputation estimates untyped markers of SNP chip using reference panel comprised of thousands of sequenced samples. Reference panels of The 1,000 Genomes Project (1KG) and Haplotype Reference Consortium (HRC) are frequently used as public reference panel. 1KG and HRC include 2,504 multi-ethnic samples and 32,488, mostly European, samples. To date, 622 sequenced samples of Korean Reference Genomes (KRG) have been produced by the Korean National Institute of Health, KCDC. Among these, we have constructed the Korean Reference panel using 397 samples and performed imputation analysis using the reference panel on about 8,000 samples genotyped using Affymetrix 5.0 genotyping chip. We also compared the performance of KRG to those of 1KG. KRG showed comparable performance with 1KG, in terms of average imputation quality and imputation-based genomic coverage. The merged reference panel of KRG and 1KG showed 4-6% increased imputation efficiency compared to the imputation performance using the single reference panel. For genomic study of Koreans, imputation performance will be greatly increased by using the combined reference panels of KRG, 1KG, and other reference panel resources with Asian ancestries.


Ⅰ. 들어가는 말

인간유전체에는 단일염기다형성(Single Nucleotide Polymorphism, SNP, 이하 ‘유전변이’), 구조변이(structural variant), 삽입-결실(insertion-deletion) 등 다양한 유전변이 서로 다른 두 사람은 99% 동일한 유전정보를 가지고 있으나 약 1%는 서로 다르며 이것을 유전변이(genetic variation)이라고 하며, 키, 눈동자, 머리카락 등 표현형과 다양한 질환에 영향을 주는 것으로 알려져 있음
가 존재하는데 이중 SNP 유전변이가 가장 많이 존재하여 현재까지 약 1억 5천만개가 발굴되었다 dbSNP build 147 기준(2016년 4월), dbSNP website: https://www.ncbi.nlm.nih.gov/projects/SNP/
. 지난 약 십 년간 이러한 유전변이정보를 이용하여 전장유전체 연관성분석 연구(Genome-Wide Association Study, GWAS) 전장유전체 연관분석: 유전체에 존재하는 대량의 유전변이 정보를 분석하여 질환이나 형질과 연관된 유전변이들을 발굴하는 연구
를 통해 제2형 당뇨, 고혈압 등 다양한 공통복합질환(common complex diseases) 공통복합질환은 유전적, 환경적 요인의 복합적인 상호작용에 의해서 발병하는 질환
에 영향을 미치는 약 2만 9천개의 유전변이가 발굴되었다[1].
대량의 유전변이정보를 단시간에 분석하는 대표적인 방법으로 차세대염기서열분석기법(Next Generation Sequencing, NGS)과 SNP 마이크로어레이(SNP microarray, 이하 ‘유전체칩’)가 있다[2]. 차세대염기서열분석기법을 이용한 전염기서열분석(Whole Genome Sequencing, WGS)을 하면 인간유전체 30억 염기서열정보를 일주일 안에 확인할 수 있는 획기적인 방법으로 거의 모든 유전변이 정보를 얻을 수 있는 장점이 있다. 그러나 높은 실험 비용, 관련 전문 인력이 필요하며 높은 컴퓨터 계산력을 요구한다는 단점이 있어 수만 명 이상 대규모 인구집단 연구에 적용하기에는 비효율적인 실정이다. 반면, 유전체칩은 동전 보다 작은 크기의 칩에 수십만개 이상의 유전변이정보를 담고 있으며 전염기서열분석에 비해 약 5배 이상 저렴한 실험 비용과 상대적으로 낮은 컴퓨터 계산력이 요구되는 등 장점이 있으나 제한된 수의 유전변이만 확인할 수 있다는 한계점을 가지고 있다[2]. 이러한 유전체칩의 한계점을 보완하기 위해 유전변이정보를 확장할 수 있는 방법인 유전형 임퓨테이션(genotype imputation, 이하 ‘유전변이정보확장’)이 소개되었다[3]. 이는 전염기서열분석으로 생산된 참조유전체정보(reference panel) 전염기서열분석으로 생산한 수천 명 이상의 유전체정보로 수천만개 이상의 유전변이 정보를 가지고 있으며 이를 이용해서 유전변이정보확장, 유전변이 빈도 확인 등에 사용할 수 있음
를 활용하여 분석하면 유전체칩에 있는 수십만 개의 유전변이정보를 전염기서열분석 정보 수준인 약 8천만개 이상으로 유전변이정보를 확장할 수 있다.
최근 1,000 Genomes Project, Haplotype Reference Consortium 등에서 활용 가능한 참조유전체정보를 공개하고 있어 이를 활용하여 유전체칩의 유전변이정보를 확장하고 질환에 영향을 주는 새로운 유전변이를 찾는 사례가 늘어나고 있다. 본 글에서는 유전체칩에 대한 유전변이정보확장 분석과 활용 가능한 다양한 참조정보 및 한국인 대상 유전변이정보확장 방법에 대해서 소개하고자 한다.


Ⅱ. 몸 말

유전변이정보확장 방법은 수천만 개 이상 유전변이정보가 있는 참조유전체정보와 유전체칩의 유전변이정보를 비교해서 유전체칩에는 없지만 참조유전체정보에 있는 유전변이를 통계적으로 추정해서 확보할 수 있는 분석 방법이다(Figure 1). 이렇게 적은 수의 유전변이정보를 크게 확장할 수 있는 것은 서로 가까운 위치에 있는 유전변이의 경우 서로 유사한 패턴을 보이며 비무작위적(non-random) 연관성을 보여주는 연관불균형(linkage disequilibrium)이라는 유전체의 특성 때문이다.
유전변이정보확장을 위해서는 기본적으로 참조유전체정보가 필요하고, 이는 전염기서열분석을 통해 수백명 이상에서 발굴된 수천만개 이상의 유전변이정보를 통합한 것을 말한다. 참조유전체정보로 활용 가능한 유전체정보는 전세계에서 7개 그룹이 발표한 바 있으며 현재 약 3만 9천명의 정보가 있다(Table 1). 공개된 참조유전체정보의 약 80%는 유럽인종으로 구성되어 있으며, 아시아인은 약 2천 3백명 정도로 전체의 약 6% 수준에도 못 미치고 있어 유전변이정보확장 방법의 정확도를 높이기 위해서는 더 많은 참조유전체정보를 확보하는 것이 필수적이다. 최근 연구 결과에 따르면 1,000 Genomes project 2,504명을 이용한 유전변이정보확장 결과 보다 Haplotype Reference Consortium 약 3만 2천명을 이용한 경우에 정확도 높은(imputation quality score, R2 ≥ 0.5) 유전변이정보를 약 200만개 더 확보할 수 있다고 한다. 그리하여 한국인을 포함한 아시아인의 경우 향후 참조유전체정보 추가 확보하여 유전변이정보확장의 정확도를 더 높일 필요성이 있다[5].
현재 한국인 참조유전체정보(Korean Reference Genome, KRG)는 질병관리본부 국립보건연구원에서 622명 정보를 공개하고 있으며, 이중 397명으로 구성된 한국인 참조유전체정보는 국립인체자원은행을 통해 분양되고 있다. 한국인을 대상으로 한 유전변이정보확장의 정확도와 유전체 대표성(imputation based genomic coverage Imputation based genomic coverage: tagging SNP를 이용하여 유전체에 존재하는 SNP를 얼마나 잘 대표하는지 알 수 있다. 계산식은(Tagging SNP를 이용하여 대표되는 총 SNP수)/(전체 SNP)이다.
)을 측정하기 위해 397명의 한국인 참조유전체정보를 분석해보았다. 기존에 많이 사용되는 참조유전체와의 비교를 위해서 1,000 Genomes project 2,504명(1,000 Genomes project phase 3, 이하 ‘1KG P3’)을 활용한 유전변이정보확장 분석도 수행하였다. 비교분석을 위해 사용한 유전체칩은 한국인 약 8천명을 대상으로 Affymetrix SNP 5.0 genotyping array를 이용하여 생산한 유전변이정보 중 1번 염색체에 해당하는 자료를 사용하여 각 참조유전체정보별로 결과를 얻었다(Table 2,3). 참조유전체정보별 비교분석한 결과 한국인 참조유전체정보가 397명으로 훨씬 적은 수의 정보로 분석했음에도 불구하고 2,504명의 1KG P3와 유사한 정확도와 유전체 대표성을 보여주는 것으로 확인되었다. 특히, 한국인 참조유전체정보와 1KG P3를 통합하여 유전변이정보확장 분석에 활용하는 경우엔 각각 따로 사용한 경우보다 4-6% 더 좋은 효과를 보여주었다. 이러한 결과를 확인함에 따라, 향후 한국인 참조유전체정보, 1KG P3 외에도 한국인과 유전체 특성이 유사한 일본의 Japanese population reference panel 통합하여 유전변이정보확장 분석에 사용할 경우 더 높은 정확도와 유전체 대표성을 확보할 수 있을 것으로 기대된다.


Ⅲ. 맺는 말

유전체칩은 수만 명 이상 대규모 인구집단 유전체연구를 위해서 매우 효율적인 유전체분석 방법이지만 이미 알려진 유전변이정보만 얻을 수 있다는 한계점을 가지고 있기 때문에 이를 보완하고자 유전변이정보확장 방법을 활용하고 있다. 유전변이정보확장방법은 유전체칩의 유전변이정보를 수천만개 수준으로 확장이 가능하게 함으로써 유전체칩의 활용도를 더 높일 수 있을 것으로 예상된다. 특히 본 글에서 보인 것과 같이 한국인 참조유전체정보와 다른 참조유전체정보를 통합하여 활용하면 유전변이정보확장의 정확도와 유전체대표성을 더욱 높일 수 있는 것으로 확인하였다. 최근 한국인을 포함한 모든 아시아인에 대한 참조유전체정보가 활발히 생산되고 있어 향후 모든 아시아인 참조유전체정보를 통합하여 활용하게 되면 정확도와 유전체대표성을 높이는 효과를 극대화할 수 있을 것으로 기대된다.


Ⅳ. 참고문헌

1. GWAS catalog website https://www.ebi.ac.uk/gwas/
2. 질병관리본부. (2015). 한국인 칩 사업 소개. 제8권 제29호.
3. Howie, B., et al. (2012). Fast and accurate genotype imputation in genome-wide association studies through pre-phasing. Nature Genetics, 22;44(8):955-9.
4. Marchini, J., et al. (2010). Genotype imputation for genome-wide association studies. Nature Reviews Genetics, 11(7), 499-511.
5. McCarthy, S., et al. (2016). A reference panel of 64,976 haplotypes for genotype imputation. Nature Genetics. 48(10):1279-83.
본 공공저작물은 공공누리  출처표시+상업적이용금지+변경금지 조건에 따라 이용할 수 있습니다 본 공공저작물은 공공누리 "출처표시+상업적이용금지+변경금지" 조건에 따라 이용할 수 있습니다.
TOP