본문으로 바로가기 주메뉴 바로가기

사용자별 맞춤메뉴

자주찾는 메뉴

추가하기
닫기

간행물·통계

contents area

detail content area

반복 측정된 형질 자료를 활용한 전장유전체연관성분석 소개
  • 작성일2014-10-02
  • 최종수정일2014-10-02
  • 담당부서감염병감시과
  • 연락처043-719-7166
반복 측정된 형질 자료를 활용한 전장유전체연관성분석 소개
Introduction of Genome-Wide Association Study with Repeated Traits

질병관리본부 국립보건연구원 유전체센터 형질연구과
이 영

Abstract

Most diseases result from the complex interaction of genetic and environmental factors. In order to prevent diseases and perform personalized treatment, the finding of the genetic variation that is related to risk factor or disease has been studied. As genotyping technology was improved, more than ten thousand genome-wide association studies (GWAS) have been conducted to discover disease susceptibility loci. Although many causal variants have been reported from GWAS, the variants account for a small portion of the heritability of disease. In GWAS, multiple testing problem is still an intractable issue and we need more samples to find new genetic variants. One method to detect new variant is GWAS with repeated measurements. There are good examples of GWAS with repeated measurements using Framingham Heart Study data and Bogalusa Heart Study data. We have several cohorts which contain repeated measurements with great follow-up rate through the Korean Genome and Epidemiology Study. However, most GWASs using our cohort data perform association analysis without repeated measurements. Recently, there was a research that performed GWAS with repeated measurements using KARE cohort. This study intends to introduce the result of effective GWAS.


Ⅰ. 들어가는 말


  질병의 대부분은 다양한 환경적 요인과 유전적 요인이 복합적으로 작용하여 발생한다. 특정 질환의 예측 및 맞춤 치료를 위해 인간의 유전체 연구는 필수적이며, 1980년부터 유전체 연구관련 논문이 발표되기 시작하였다. 미국, 영국, 일본, 독일, 프랑스가 참여한 인간유전체프로젝트(Human Genome Project)의 결과로 2003년에 인간유전체에 대한 구조가 밝혀졌으며 이후에도 국제 반수체지도 계획(International HapMap project), 1000 유전체 프로젝트(1000 genome project)를 통해 인간의 유전체를 해독하려는 노력은 계속되어 왔다. HapMap project는 인간유전체의 하플로타입 지도를 만드는 것을 목적으로 인류전체 중 1% 이상이 갖고 있는 공통된 단일염기다형성(Single Nucleotide Polymorphism, SNP)에 초점을 맞추었으며, 1000 genome project는 다양한 인종으로 구성된 인간 1000명의 유전체의 해독을 목적으로 하였다. 미국 국립보건원의 국립 생명공학정보센터 홈페이지 (http://hapmap.ncbi.nlm.nih.gov)를 통해 HapMap 데이터를 얻을 수 있으며, 1000 genome project의 1차 결과는 2010년 Nature에 소개 되었고 향후 26개 인종으로 2,600명의 유전체 정보를 포함할 계획이다.

최근 다양한 마이크로어레이 기법과 차세대 시퀀싱을 포함한 대용량 유전정보획득 기술이 발전하였다. 특히 단일염기다형성(Single Nucleotide Polymorphism, SNP)을 대용량으로 분석할 수 있는 기술의 발전으로 전장유전체 상관성분석연구(G enome-Wide A s s o c i at ion S t udy, GWAS)가 활발히 수행되고 있다. 질병관리본부 유전체센터에서는 추적 조사된 코호트의 역학정보 뿐만 아니라 유전체 정보를 생산하여 보유하고 있다. 대표적으로 안성안산 코호트가 있으며 안성안산 코호트를 이용한 GWAS의 결과가 2009년 Nature genetic에 게재되었다. 하지만 현재까지 GWAS에서 발굴된 유전변이가 질환에 대해 설명하는 비율은 미미하고 새로운 유전변이 발굴을 위해서는 더 많은 sample size가 요구된다.
이 글에서는 G W A S 에 대한 소개와 질병관리본부 유전체센터에서 보유한 코호트 자료에 대한 소개를 기반으로 추적 조사된 코호트 자료를 모두 이용한 GWAS를 소개하고자 한다.

Ⅱ. 몸 말


전장유전체상관성분석연구(Genome-Wide Association Study, GWAS)
  사람의 DNA 염기서열에서 하나의 염기서열(A, T, G, C)의 차이를 보이는 유전적 변이를 단일염기다형성(S i n g l e Nucleotide Polymorphism, SNP)이라고 한다. 좀 더 자세히 설명하자면 인구 집단에서 1%이상의 빈도로 존재하는 2개의 대립 염기서열(Bi-Allelic) 변이가 발생하는 위치를 SNP 이라고 하며, 빈도가 1%이하인 것은 돌연변이(mutation)라고 한다. SNP 중에서 대립유전자형이 5%이상의 빈도로 존재하는 경우 common variant라고 하며, 1%이상 5%이하인 경우 rare variant라고 한다[1]. 연관성 연구는 특정 유전형과 표현형간의 연관성이 있는지 통계적으로 검정하는 것을 말하며, 전장유전체연관성연구(Genome-Wide Association Study, GWAS)는 100,000-1,000,000개의 SNP(주로 common variant)을 역학자료 혹은 임상자료와 연계시켜 특정질환들과 연관성이 있는 유전자나 원인-유전자 위치를 찾는 통계 유전체 분석기법을 말한다.

2003년 Human Genome Project와 2005년 International HapMap project를 통해 인간 유전변이형의 약 90%이상을 차지하고 있는 SNP에 대한 정보가 밝혀진 이후로, GWAS와 같은 다양한 연관성 연구(A s s o c i a t i o n S t u d y)가 활발히 진행되었다. GWAS 연구를 통하여 여러 질환과 관련된 수많은 유전변이들이 발굴되었으며, 이런 유전변이들은 GWAS catalog(http://www.genome.gov/gwastudies)와 같은 사이트에서 확인할 수 있다. 약 10년 동안 GWAS가 성공적으로 진행되었지만 현재까지 보고된 유전변이들이 질환의 유전율(heritability)을 설명하는 비율 높지 않다는 ‘사라진 유전율(missing heritability)’ 문제가 제기되고 있으며 이에 상호작용 연구와 새로운 유전변이 발굴이 요구된다[2]. GWAS는 수십에서 수백만 개의 SNP들에 대해 연관성 분석을 수행하기 때문에 다중검정 문제가 발생하고 이 때문에 많은 수의 sample을 필요로 한다.
 
또한 지금까지 발굴되지 않은 유전변이는 effect size가 작아 발굴하지 못한 것으로 추정되기 때문에 GWAS에서 새로운 유전변이를 발굴하기 위해서는 sample size를 늘리는 노력이 요구된다. Genotyping 기술의 발달로 genotyping 비용이 감소하고 있지만 한 연구그룹에서 많은 수의 sample을 확보하는 것은 비용적인 면에서 부담이 된다. 이에 최근에는 여러 그룹의 데이터를 통합하는 메타분석(meta analysis)를 이용하여 새로운 유전변이 발굴을 위해 노력하고 있다.

한국인유전체역학조사사업(KoreanGenome and Epidemiology Study, KoGES)
  질병관리본부 유전체센터에서는 한국인에게 많이 발생하는 만성질환과 관련한 보건 지표를 개발하고, 주요 질환발생과 관련된 한국인 특이적인 환경, 유전적 위험요인을 규명하고자 한국인유전체역학조사사업(Korean Genome and Epidemiology
Study, KoGES)을 수행하고 있다. KoGES는 40-69세 일반인구 집단을 대상으로 한 7개의 대규모 코호트로 구성되어 있으며 F i g u r e 1에서와 같이 전국 대학 및 의료기관이 참여하여 조사가 진행되고 있다[3]. Figure 2에서와 같이 각 코호트는 기반 조사 이후로 현재까지 추적조사가 진행되고 있다. 특히 지역사회기반 코호트인 안성 안산 코호트(Korea Association REsource cohort)는 2001년 기반조사가 시행된 이후 6차 추적조사가 진행되고 있으며, Figure 3에서와 같이 5차 추적까지 60%이상의 추적률을 보이고 있다.

반복 측정된 형질정보를 모두 이용한 GWAS
GWAS에서 새로운 genetic variant를 발굴하기 위해 sample size를 늘리는 노력이 계속되고 있다. 이에 본 글에서 GWAS를 수행할 때 sample size를 늘리는 하나의 방안으로 반복 측정된 정보를 모두 이용한 GWAS 사례를 소개하고자 한다. 반복 측정이란 일정 시간 간격을 두고 동일한 항목에 대해 관측하는 것을 의미하며 GWAS에서의 반복 측정은 주로 형질정보의 반복 측정을 의미한다. 일반적인 통계분석 시 데이터들의 독립성이 기본가정이지만 반복 측정된 관측 값의 상관성(correlation)을 적절하게 반영하면 반복 측정된 데이터 모두를 이용한 분석이 가능하다.

반복 측정된 데이터를 분석하는 통계 기법은 이미 다양한 분야에서 적용되어 왔으며. 국외 Framingham Heart Study, Bogalusa Heart Study 데이터 등을 이용하여 반복 측정된 형질 정보를 모두 활용한 GWAS 결과가 보고되었다[4,5]. 국내에서는 추적 조사된 대규모 코호트 데이터가 있지만 주로 한번 측정된 형질 정보만을 이용한 GWAS가 수행되었고 최근에서야 국내 추적 조사된 코호트 안성안산 코호트 1-3기의 자료를 이용한 GWAS가 수행되었다[6]. 반복 측정된 형질정보를 이용해서 GWAS를 실시하는 경우, 주어진 유의수준과 검정력 하에서 필요한 sample size를 제시하였으며, 그 결과를 토대로 주어진 유의수준과 검정력 하에서 필요한 sample size는 반복 측정 횟수가 많을수록, 데이터 간의 상관계수가 작을수록 작아짐을 알 수 있었다. 또한 안성안산 코호트를 이용하여 반복 측정된 형질정보를 이용한 경우와 이용하지 않은 경우를 비교하여 실제 데이터 분석에서 반복 측정된 형질정보를 이용한 GWAS의 효과를 보여주었다. Figure 4는 유의수준이 10-8일 때 80% 검정력을 만족하기 위한 sample size를 계산한 결과이다[6]. 보통 GWAS에서는 80% power를 만족하기 위해서 8,596명이 필요하지만 형질정보가 3번 반복 측정 되었고 반복 측정된 형질정보 간의 correlation이 0.4라면 5,158명이 필요하게 된다[6]. 추적 조사된 코호트 데이터를 이용하게 되면 이 경우 3,438명의 genotyping 비용을 절약할 수 있게 된다는 의미이다. 이 계산은 sample size 계산 과정에서 사용된 가정과 추적률에 따라 결과 차이가 수 있지만 확실히 반복 측정된 형질정보를 모두 이용한 GWAS가 효과적이라는 사실을 보여준다. 실제 분석에 사용된 안성안산 코호트는 Affymetrix Genome-Wide Human SNP array 5.0을 이용하여 genotyping 되었으며 sample과 SNP quality control를 통해 8,842명의 352,228개 SNP 정보가 분석 가능하며[7], 논문에서는 8개 형질에 대해 분석하여 비교 결과를 제시하였다.

본 글에서는 8개의 형질정보 중 반복 측정간의 correlation이 약 0.4정도로 가장 작아 sample size 증가 효과가 가장 클 것으로 기대되는 Aspartate aminotransferase(AST)에 대한 결과를 소개한다. AS T는 간세포의 손상이나 간의 지방축적 정도를 측정하는 지표이며[8], 정규성 가정을 위해 로그변환 후 분석에 사용되었다. 실제 분석에 사용된 데이터의 정보는 Table 1, Table 2와 같다. Figure 5는 AST 분석 결과이며, (A)는 추적 조사된 형질정보를 이용하지 않은 GWAS 결과의 manhattan plot, (B)는 2번의 추적 조사된 형질정보를 함께 이용한 GWAS 결과의 manhattan plot, (C)는 두 GWAS 결과 비교한 scatter plot을 나타낸다. Scatter plot의 x축은 추적 조사된 형질정보 없이 수행한 GWAS의 p-value 정보를 나타내고, y축은 추적 조사된 형질정보를 함께 이용한 GWAS의 p-value 정보를 나타낸다. 각 p-value는 마이너스 상용로그로 치환하여 표시하였다. Scatter plot을 보면 10-6이하로 유의한 SNP들에 대해 모두 추적 조사된 형질정보를 함께 이용한 GWAS에서 더 유의한 것을 확인할 수 있었다. 만약 추적 조사된 형질정보의 상관계수가 1에 가깝거나 추적률이 매우 낮으면 이와 같은 효과를 기대할 수 없지만 그런 경우가 아니라면 GWAS를 통한 새로운 genetic variant를 발굴하기 위해 반복 측정된 형질정보를 이용하는 분석을 시도할 필요가 있음을 보여준다.

Ⅲ. 맺는 말


  인간 유전체 구조가 밝혀짐에 따라 genetic variant 관련 연구가 활발히 진행되었고, 특히 GWAS를 통해 많은 genetic variant를 발굴하였다. 그러나 현재까지 GWAS에서 발굴된 genetic variant들의 설명력이 높지 않아 새로운 genetic variant 발굴이 필요하고 이를 위해 sample size를 키우는 노력이 계속되고 있다.

반복 측정된 형질정보를 함께 이용한 GWAS 관련하여 주어진 검정력을 만족시키기 위한 sample size 계산 결과뿐 아니라 실제 안성안산코호트 데이터를 분석한 결과는 반복 측정된 형질정보를 함께 이용한 GWAS가 sample size를 키우는 효과가 있기 때문에 일반 GWA S 보다 효과적이라는 것을 보여준다. 질병관리본부 유전체센터에서는 이미 추적 조사된 대규모 코호트 정보를 보유하고 있고 계속해서 추적 조사를 수행하고 있기 때문에 코호트 데이터를 이용하여 GWAS를 수행할 때 sample size를 늘리는 방안으로 반복 측정된 형질 정보를 모두 이용하는 방법을 시도할 필요가 있다.

Ⅳ. 참고문헌


1. 이종극. 2010. 도서출판 월드사이언스. 질병 유전체 분석법 2.
2. Visscher PM, Brown MA, McCarthy MI, Yang J. 2012. Five years of gwas discovery. American journal of human genetics. 90:7-24.
3. 질병관리본부 홈페이지 내 한국인유전체역학조사사업 소개.
4. Zhu W, Cho K, Chen X, et al. 2009. A genome-wide association analysis of framingham heart study longitudinal data using multivariate adaptive splines. BMC proceedings. 3 Suppl 7, S119.
5. Smith EN, Chen W, Kahonen M, et al. 2010. Longitudinal genome-wide association of cardiovascular disease risk factors in the bogalusa heart study. PLoS genetics. 6(9): e1001094.
6. Won, S.H. el al. On the analysis of a repeated measure design in genome-wide association analysis. submitted to Int J Environ Res Public Health
7. Cho,Y.S. et al. 2009. A large-scale genome-wide association study of Asian populations uncovers genetic factors influencing eight quantitative traits. Nat Genet. 41: 527-34.
8. Yuan X, Waterworth D, Perry JR, et al. 2008. Population-based genome-wide association studies reveal six loci influencing plasma levels of liver enzymes. Am J Hum Genet. 83:520-528.


본 공공저작물은 공공누리  출처표시+상업적이용금지+변경금지 조건에 따라 이용할 수 있습니다 본 공공저작물은 공공누리 "출처표시+상업적이용금지+변경금지" 조건에 따라 이용할 수 있습니다.
TOP