질병관리청

contents area

주간건강과질병

SNS공유 열기

SNS공유닫기

프린트하기

detail content area

한국인 참조 유전체 및 활용방안

작성일2013-07-12
최종수정일2013-07-12
담당부서감염병감시과
연락처043-719-7179

한국인 참조 유전체 및 활용방안
Korean Reference Genome

질병관리본부 국립보건연구원 유전체센터 형질연구과
김영진

Ⅰ. 들어가는 말

지난 수년 간 전장유전체 연관성 분석(Genome-Wide Association Analysis, GWAS)의 성공적인 연구로 질병과 질병 위험 인자에 영향을 미치는 유전 변이들이 대량으로 발굴되었다. GWAS catalog (http://www.genome.gov/gwastudies/)에는 현재 1,647편의 논문에서 발굴된 10,953개의 유전변이가 수록되어있다[1].

그러나 현재까지 발굴된 유전변이만으로 질병을 설명하는 것은 아직 충분치 못하며[2], 이는 기존의 연구가 주로 공통변이를 대상으로 연구되어 온 것에 기인된다. 향후 복제수변이, 희귀변이, 유전자-유전자 상호작용, 유전자-환경 상호작용 등의 연구가 진행되면 이러한 유전변이의 질병설명력에 있어서의 한계가 개선 될 수 있을 것으로 전망되고 있다.

이와 더불어 아직까지 밝혀지지 않은 공통변이들의 발굴 작업이 유전변이의 질병설명력을 개선하기 위해 지속적으로 진행되고 있으며, 이를 위한 주요 방편으로 횡단-인종 메타 분석(trans-ethnic meta analysis)이 국제공동연구를 통하여 활발히 대두되고 있다. 횡단-인종 메타 분석은 다양한 인종의 인구 집단을 대상으로 한 다수의 연구 결과를 통합하여 분석하는 것으로 연구 대상이 수만에서 수십만에 이르는 거대 규모의 인구집단 연구를 말한다.

횡단-인종 메타 분석 연구를 위해서는 참조 일배체(reference haplotype) 정보를 이용하여 결측치 예측(imputation) 분석이 선행되어야 한다[3]. 한국인의 경우 공개된 한국인 참조 일배체 정보가 없기 때문에 International HapMap Project 혹은 1,000 Genomes Project의 아시아인 정보(일본인, 중국인 등)를 주로 활용했다[4,5].

일본인과 중국인이 지리적으로 매우 가까운 위치이고 유전적 다양성(genetic diversity)에 큰 차이가 없다고 알려져 있으나, HapMap 등 에서 제공하는 일본인과 중국인 정보를 한국인과 동일한 정보처럼 사용할 수는 없다[6]. 따라서 보다 정확한 한국인 유전체 연구를 위해서는 한국인 참조 유전체 정보(Korean Reference Genome)를 구축하여 한국인 참조 일배체 정보를 만들어야 한다.

질병관리본부 국립보건연구원에서는 2012년도에 한국인 참조유전체 정보구축사업을 시작했으며, 이 사업을 통하여 한국인 참조 일배체(Korean Reference Haplotype)를 생산할 예정으로 있다.

이 글에서는 한국인 참조 유전체 정보를 설명하고 이의 다양한 활용 방안과 참조 일배체를 이용한 imputation (결측치 예측) 기법에 에 대해 소개하고자 한다.

Ⅱ. 몸 말

전 세계적으로 활용되고 있는 유전변이 및 일배체 참조 정보는 International HapMap Project와 1,000 Genomes Project를 통해 생산되었다. HapMap은 현재 phase 3까지 진행되었고, 유전형 검사(genotyping)와 단일염기다형성(유전변이) 마이크로 어레이(Single Nucelotide Polymorphism microarray)를 이용하여 11개 인종에서 1,301명의 정보와 150만-400만 개의 단일염기다형성
정보를 제공하고 있다(http://hapmap.ncbi.nlm.nih.gov).

1,000 Genomes Project는 염기서열분석 기법을 이용하여 약 2,500명 규모의 정보 생산을 목표로 하고 있으며 현재 14개 인종에서 선별된 1,092명의 약 3,800만개 단일염기다형성 및 삽입/결실(insertion/deletion) 정보를 제공하고 있다(http://www.1000genomes.org).

그러나 이러한 국제 공개 정보에 한국인이 포함되지 않았기 때문에 한국인 유전체 연구에서는 참조 정보로 한국인과 유전적으로 가까운 중국인과 일본인 정보를 활용할 수밖에 없었다.

따라서 한국인 질병 유전체 연구를 위해서는 한국인 참조 유전체 정보 확보가 필수적인 상황이다.

질병관리본부 국립보건연구원에서는 2012년도에 한국인 참조유전체 정보 구축사업을 시작하여 현재 400명의 한국인 인구집단에 대해 차세대염기서열분석(Next Generation Sequencing) 방법을 이용한 전장 유전체 염기서열분석을 수행하였고 한국인 참조 유전체와 일배체 정보를 구축 중에 있다.

차세대염기서열분석 방법은 기존의 생거 염기서열분석 방법에 비해 염기서열정보를 빠른 시간에 저비용으로 분석해낼 수 있는 방법으로 이 방법은 특히 유전체 전부에 대해 염기서열정보를 확보하는 전장유전체 염기서열 분석에 있어 매우 효율적이기 때문에 유전체에 존재하는 유전 변이를 대부분 발굴 할 수 있는 획기적인 실험기법으로 대두되고 있다.

한국인 참조 정보가 확보되면 인종 간 유전 변이 빈도 정보를 활용하여 인종 간의 질병 감수성과 약물 반응 등에 대한 차이를 알 수 있을 것으로 기대된다. 또한, 한국인 인구집단에서 나타나는 모든 공통 변이와 다수의 희귀 변이를 발굴할 수 있게 된다.

기존 연구가 공통 변이에 집중되어 있었기 때문에 희귀 변이 정보는 향후 한국인을 대상으로 한 희귀 변이 연구에 기반 정보로 활용될 수 있고, 희귀 유전질병을 연구하는 연구자에게는 정상인에서 나타나는 희귀 유전변이의 참조 정보로 사용될 수 있다.

특히 희귀 변이 중에는 염기서열 변화로 유전코드가 바뀌어 단백질 생성을 조기 종료하게 만들어 정상적인 기능이 되지 않도록 하는 넌센스 돌연변이(nonsense mutation)가 있어서 이러한 변이가 정상인에서 어느 정도 나타나는지에 대한 정보도 확인할 수 있게 된다.

무엇보다 한국인 참조 일배체 정보를 확보하게 되면 imputation 기법을 이용하여 기존 정보를 염기서열기법에서 생산된 정보 수준으로 확장이 가능하여 적은 비용으로 최대의 효과를 낼 수 있다.

Imputation 기법이란 결측치를 예측(missing value estimation)하는 것이다. 예를 들어, 설문조사에서 응답자가 몇 개의 질문에 응답하지 않는 경우에 결측치(missing value)가 발생한다. 이때 다른 설문 정보 등을 이용해서 다양한 방법으로 응답하지 않은 정보를 채워 넣는 방법이 결측치 예측 방법이다. 유전체 연구에서는 유전변이 마이크로어레이 실험에서 일부 변이 정보가 불확실할 경우 결측치로 처리하는데 이러한 결측치를 해결하기 위해서 imputation 방법을 사용한다.

최근에는 이러한 본래의 의미에서 확장하여 유전변이 마이크로어레이에서 얻은 정보를 기반으로 마이크로어레이에는 없지만 주변에 유사한 패턴을 가지는 정보를 추가로 확보하는데 사용되고 있다. 이렇게 적은 유전변이 정보를 가지고 수십 배의 정보를 추가로 얻을 수 있는 것은 연관불균형(linkage disequilibrium)이라는 유전체의 특성 때문이다.

연관불균형이란 염색체 부위의 두 유전자좌(locus)의 대립유전자가 비무작위적인(non-random) 연관성을 보이는 것을 말한다. 두 유전자좌 사이에서 재조합(recombination)이 적게 일어날수록 연관불균형이 높아지게 된다. 이렇게 연관불균형의 특성을 이용하면 연관불균형이 높은 염색체 지역에서는 적은 수의 유전 변이 정보를 가지고도 주변의 유전 변이 정보들을 예측할 수 있게 된다.

유전체 Imputation을 수행하는 목적은 크게 두 가지가 있다. 하나는 전장유전체 메타 분석 (genome-wide meta analysis)이고 또 다른 하나는 컴퓨터 내 실험 정밀 매핑(in silico fine mapping)을 목적으로 한다.

전장유전체 메타 분석은 여러 연구그룹에서 가지고 있는 대규모 인구집단을 대상으로 연구한 전장유전체 연관성 분석 결과를 통합하여 거대 규모(약 수십만 명)의 연구를 수행하는 것을 말한다. 대규모 인구집단을 대상으로 하는 전장유전체연관성분석 연구는 수백만 개의 단일염기다형성 정보가 작은 마이크로칩 위에 집적되어있는 유전변이 마이크로어레이를 사용한다.

그러나 마이크로어레이의 제조사에 따라서 서로 다른 유전변이 정보를 포함하기 때문에 비슷한 수준의 정보를 가지는 마이크로어레이의 경우 약 30% 정도만 동일한 정보를 가지고 있다.

이때 HapMap이나 1,000 Genomes Project와 같은 참조 일배체 정보를 이용하면 참조 정보와 동일한 유전변이 정보를 만들 수 있게 되고 모든 자료를 동일하게 비교할 수 있게 되기 때문에 통합하여 메타 분석을 할 수 있게 된다[Figure 2].

정밀 매핑 기법은 전장유전체 연관성 분석과 같은 연관성 매핑(association mapping)을 통해서 형질(phenotype)과 연관성이 있는 유전 지역을 찾아낸 후 그 지역에 존재하는 다수의 유전변이를 기존 연구 보다 많이 사용하여 매핑의 해상력(resolution)을 높여서 세밀하게 연관된 지역이나 원인이 되는 유전변이를 찾아내는 방법이다.

기존의 정밀 매핑 기법은 유전자형 검사(genotyping) 실험을 해서 수백 개 이상의 단일염기다형성 정보를 얻어냈다. 컴퓨터 내 실험 정밀 매핑 기법은 적은 수의 유전변이 정보를 가지고 그 주변의 다수의 유전 변이 정보를 확보하는 방법으로 추가적인 실험 비용이 없이 정밀 매핑을 할 수 있다는 장점이 있다.

이때 imputation은 마이크로어레이에 가지고 있는 유전변이 정보를 참조 일배체 정보와 패턴을 비교하여 일치하는 패턴의 일배체를 가져오고 그 일배체에 있는 유전 변이 정보를 추가로 확보하는 과정으로 이루어진다(Figure 4).

현재 주로 사용되는 상용 유전 변이 마이크로어레이는 약 100만개의 유전 변이 정보를 가지고 있는데 International HapMap, 1,000 Genomes Project 등의 참조 일배체 정보를 이용하면 최소 400만개에서 3,800만개의 유전변이 정보를 얻을 수 있고 이것은 기존 정보 대비하여 최대 38배에 달하는 양이다.

Imputation 기법을 이용한 유전 정보의 확장은 참조 일배체 정보에 의해서 달라지는데 최근의 염기서열분석 기법을 이용한 1,000 Genomes Project를 이용하여 imputation 분석을 하면 전체 샘플에 대해서 염기서열분석을 수행한 수준의 정보를 얻을 수 있다. 염기서열분석 기법이 대중화되어 실험 비용이 낮아지고 있지만 아직까지 마이크로어레이 기법에 대비하여 20배가 넘는 비용이라는 것을 감안하면 매우 효율적인 자료 생산 방법이다.

그러나 imputation 기법은 참조정보와 비교할 기본 정보 (마이크로어레이 정보 등), 참조정보의 정확도, 유전변이 빈도, imputation 프로그램의 성능(performance)에 따라 결과의 정확도가 달라지기 때문에 실제 염기서열분석과 동일한 정도의 정확도와 정보를 생산하는
방법은 아니다.

예측하고자 하는 유전변이의 빈도가 낮아질수록 빈도가 높은 변이와 비교할 때 상대적으로 정확도가 낮다는 점도 주의해야할 필요가 있다. 또한 1,000 Genomes Project의 경우 각 인구집단에서 1% 이상의 빈도를 보이는 유전변이의 약 98%를 발굴한 것으로 보고하고 있기 때문에 이 프로젝트에 포함되지 못한 한국인의 경우 imputation 수행 시 한국인 정보를 이용한 경우보다 상대적으로 정확도가 낮을 가능성이 있으며 1% 이하의 빈도를 보이는 유전변이를 발굴하는 것이 어렵다는 단점이 있다.

이러한 문제점을 고려하여 한국인 참조 일배체 정보는 한국인 인구집단에서 정상인 400명을 선별하여 빈도수 약 0.5% 이상을 가지는 대부분의 유전변이 정보를 제공할 예정이다.

Ⅲ. 맺는 말

질병에 연관된 유전 변이를 찾기 위해서는 인구집단을 대상으로 연구를 해야 하는데, 특히 제 2형 당뇨, 고혈압, 심혈관 질환과 같은 공통복합질환(common complex disease)을 연구하기 위해서는 수십만 명에 달하는 거대규모 인구집단 연구가 필수적이다. 최근 차세대염기서열분석 기법의 급속한 발전으로 유전체에 있는 모든 유전변이를 연구할 수 있게 되었다. 이 기법을 활용하면 기존에 밝혀진 형질 연관 변이 이외에 추가적으로 대량의 유전변이를 발굴 할 수 있을 것으로 많은 기대가 모아지고 있다.

그러나 아직 차세대염기서열기법은 기존 마이크로어레이 기법에 비해 수십 배의 실험 비용이 필요하기 때문에 대규모 인구집단 연구에 적합한 연구 플랫폼으로 활용할 수 없다. 이때 효율적인 연구 방법으로 imputation 기법을 활용할 수 있다. 마이크로어레이를 이용해서 대규모 인구집단 정보를 생산하고 imputation을 통해서 염기서열 정보 수준의 대량의 데이터를 비교적 손쉽게 얻을 수 있다.

이러한 관점에서 400명으로 구성된 한국인 참조 유전체 정보 구축은 한국인 유전체 연구의 중요한 기반 정보로 활용될 수 있다. 한국인 참조 유전체 정보는 2012년도 수행된 학술연구용역사업을 통해 생산되었으며, Illumina Hiseq 2000을 사용하였고 약 10-20x 수준의 정보이다. 현재 진행되고 있는 한국인 참조 일배체 정보가 구축되면 한국인 유전체 정보를 imputation 해서 한국인 특이적인 유전변이 정보와 더 높은 정확도의 결과를 생산할 수 있을 것으로 기대된다.

Ⅳ. 참고문헌

1. Hindorff LA, Sethupathy P, Junkins HA, Ramos EM, Mehta JP, Collins FS, and Manolio TA. Potential etiologic and functional implications of genome-wide association loci for human diseases and traits. Proc Natl Acad Sci USA. 2009;106(23):9362-7.
2. Manolio TA, Collins FS, Cox NJ, Goldstein DB, Hindorff LA, Hunter DJ, McCarthy MI, Ramos EM, Cardon LR, Chakravarti A, Cho JH, Guttmacher AE, Kong A, Kruglyak L, Mardis E, Rotimi CN, Slatkin M, Valle D, Whittemore AS, Boehnke M, Clark AG, Eichler EE, Gibson G, Haines JL, Mackay TF, McCarroll SA, Visscher PM. Finding the missing heritability of complex diseases. Nature. 2009;8;461(7265):747-53.
3. Li, Y., Willer, C., Sanna, S. & Abecasis, G. Genotype Imputation. Annu. Rev. Genom. Human Genet. 2009:10:387-406.
4. International HapMap consortium. The International HapMap Project. Nature 2003, 426:789-796.
5. 1000 Genomes Project Consortium, Abecasis GR, Auton A, Brooks LD, DePristo MA, Durbin RM, Handsaker RE, Kang HM, Marth GT, McVean GA. An integrated map of genetic variation from 1,092 human genomes. Nature 2012;491:56-65.
6. He M, Gitschier J, Zerjal T, de Knijff P, Tyler-Smith C, Xue Y. Geographical affinities of the HapMap samples. PLoS ONE 2009;4:e4684.

* 전장유전체 연관분석: 유전체 전장을 대표할 수 있도록 선택된 대량의 단일염기 다형성들을 타이핑하고 이 정보를 역학/임상정보와 연계하여 특정질환이나 형질과 연관된 유전변이들을 발굴하는 연구
* 인구집단에서 나타나는 빈도수가 1% 이상인 유전 변이
* 일반적으로 인간은 두 개의 대립인자(allele)가 쌍을 이루어 존재하는데 이중 한 짝을 이루는 대립인자의 집합을 말함.
* 햅맵 프로젝트(International HapMap Project)는 미국, 유럽, 중국 및 일본이 참여한 국제 생명과학 프로젝트로서, 인간의 염색체의 한 가닥을 지도화하는 프로젝트임. 유전체를 분석하는 데 필요한 단계의 정보를 도출했고, 그 결과를 사이언스에 발표 발표하였음(http://hapmap.ncbi.nlm.nih.gov).
* 1,000 genomes project는 전 세계 다양한 인종 약 2,500명의 염기서열정보 생산을 목적으로 하고 있으며, 현재 14개 인종에서 1,092명의 약 3,800만개 유전변이 정보를 공개하고 있음(http://www.1000genomes.org).
* imputation 기법: 설문지 등에서 응답되지 않은 정보와 같은 결측치(missing value)를 다른 설문 정보를 참고하여 예측하는 방법임.
* 숫자x: 1x는 염기서열분석 기법에서 총 생산된 정보가 30억 염기서열 정보(인간 유전체 기준) 수준임을 말함. 20x는 30억의 20배에 해당하는 염기서열정보가 생산된 것임.

첨부파일

Korean Reference Genome.pdf 다운로드
바로보기

본 공공저작물은 공공누리 "출처표시+상업적이용금지+변경금지" 조건에 따라 이용할 수 있습니다.

TOP

사용자별 맞춤메뉴

자주찾는 메뉴

간행물·통계

contents area

주간건강과질병

detail content area