본문으로 바로가기 주메뉴 바로가기

사용자별 맞춤메뉴

자주찾는 메뉴

추가하기
닫기

간행물·통계

contents area

detail content area

복제수변이 데이터베이스 구축 및 활용
  • 작성일2013-09-27
  • 최종수정일2013-09-27
  • 담당부서감염병감시과
  • 연락처043-719-7166
복제수변이 데이터베이스 구축 및 활용
Construction and application of copy number variation database


질병관리본부 국립보건연구원 유전체센터 형질연구과
문상훈


Ⅰ. 들어가는 말

  인간 유전체 변이 중 일부는 질환의 원인이 되거나 질환 민감성에 영향을 주는 등 질환과 높은 연관성이 있는 것으로 알려져 있다. 이러한 변이들은 크게 서열변이(sequence variation)와 구조변이(structural variation)로 나뉘며, 단일염기다형성(single nucleotide polymophism; 이하 SNP)은 서열변이에 속하고 복제수변이(copy number variation; 이하 CNV), 인델(indel), 역위(inversion) 및 전좌(translocation) 등은 구조변이에 속한다. 이 중에서 개인별로 하나의 염기(nucleotide)가 다른 변이인 SNP은 다른 변이들에 비해 상대적으로 수가 많고 각 개인이 갖는 유전자형(genotype)을 비교적 정확하고 쉽게 찾을 수 있다는 장점이 있어 전장유전체분석법(genome-wide association study; 이하 GWAS)을 통해 질환과의 연관성 분석이 활발하게 진행되고 있고, 이를 통해 많은 수의 질환연관 마커들이 발굴되고 있다. 이에 반해 복제수변이 등 구조변이들의 상당수는 유전자 기능상실(loss-of-function) 등 유전자 발현과 질환민감성에 직접적인 영향을 미치는 변이임에도 불구하고 변이 형태의 복잡성과 발굴 기술의 한계 등으로 인해 SNP에 비해 연구가 활발하지 못하다. 그러나 CNV는 SNP와 높은 상관관계를 갖고 있기 때문에 CNV 연구자 뿐 만이 아니라 질환연관 서열변이 연구자에게도 유용한 정보를 제공할 수 있다.
  질병관리본부 유전체센터 형질연구과에서는 학술용역과제를 통해 생산된 CGH array (comparative genomic hybridization array; 이하 aCGH) 데이터를 이용하여 한국인 인구집단 내에 존재하는 CNV 지역을 발굴하였다. 특히 연관성분석이 가능한 CNV 지역을 선정하였고, 선정된 CNV 및 그 지역과 높은 상관관계를 갖는 SNP을 분석하여 CNV 데이터베이스를 구축하였다.
이 글에서는 한국인 CNV 데이터베이스를 소개하고자 한다.



Ⅱ. 몸 말

  복제수변이(CNV)는 약 1Kb에서 수 Mb까지 범위의 DNA 단편이 증폭되거나 결실되는 물리적인 변화이다. 유전자의 전부 또는 일부분이 결실되거나 증폭되는 이러한 DNA의 물리적 변화들은 유전자 발현에 직접적인 영향을 미칠 수 있어 잃어버린 유전성(missing heritability)을 설명해줄 수 있는 또 다른 변이로 주목받았다. 그러나 공통(common) CNV가 질환에 미치는 영향력에 대해서는 여러 견해가 존재한다. ‘현존하는 플랫폼으로 정의된 공통 CNV는 공통 질환의 유전적 원인(genetic basis)에 크게 기여할 것 같지 않다’라는 웰컴트러스트 케이스컨트롤 컨소시엄(Welcome Trust Case Control Consortium; 이하 WTCCC)의 연구 결과가 발표되었다[1]. 그러나 Gamazon 등은 빈도가 일치된(frequency-matched) SNP 보다는 CNV와 높은 상관관계를 갖는(tagging) SNP이 유전자발현양의 변화에 더 큰 영향을 미칠 수 있다는 연구결과를 바탕으로 CNV와 복합 질환들과의 강력한 기능적 관련성을 설명하였다[3]. 이들은 또한 유전자발현과 연관된 CNV 정보와 이를 tagging하는 SNP 정보를 이용하여 SNP and CNV annotation database(SCAN)이라는 데이터베이스를 구축하였다[4]. 그러나 CNV 유전자형의 빈도가 인종 간, 인구집단 간에 다름에도 불구하고 SCAN 데이터베이스는 WTCCC의 결과를 기반으로 하고 있기 때문에 아시아인의 CNV 정보를 제공하지 않는다. 따라서 SCAN 데이터베이스를 이용한 아시아인의 CNV 연구에는 한계가 따른다.
  이에 질병관리본부에서는 학술용역사업 ‘한국인 유전체분석사업 2009-2: 지역기반 코호트의 유전체를 이용한 CNV (copy number variation) 발굴 및 질환연관성 분석’을 통해 약 4,700명의 시료로부터 CNV 지역을 발굴하였고, 연관성분석에 적합한 유전자형을 갖는 약 3,601개 CNV를 선별하였다(Table 1). 또한 CNV tagging SNP을 분석한 결과를 함께 이용하여 한국인 복제수변이 데이터베이스(Korean Genomic Variant Database3), KGVDB)를 구축하였다(Figure 1) [5]. 

  KGVDB는 사용자가 사용하기 쉬운 그래픽유저인터페이스를 제공 한다(Figure 2). 검색란(Search track)에서 CNV 지역을 입력하거나 검색을 원하는 유전자 이름을 입력함으로써 해당지역을 손쉽게 검색할 수 있다. 또한 사용자가 검색한 지역과 동일한 위치에 있는 유전자 정보를 함께 제공함으로써 관심이 있는 CNV가 유전자지역내에 존재하는지를 파악할 수 있게 하였다. CNV 정보를 제공하는 트랙은 질병관리본부에서 분석된 한국인 CNV 트랙과 이전 연구에서 보고된 변이정보를 포함하는 트랙으로 구성된다. 한국인 CNV 정보는 4,200만개 프로브를 포함하는 초고해상도 aCGH를 이용하여 50명(남 25명, 여 25명)의 시료로부터 발굴된 CNV 정보와 함께, 저빈도 및 희귀빈도로 발견되는 CNV를 발굴하기 위해 약 72만개의 프로브를 포함하는 aCGH를 사용하여 약 4,700명의 대규모인구집단 시료에서 발굴한 CNV 정보로 구성된다. 또한 1000 게놈 프로젝트(1000 genomes project)와 WTCCC 연구 등 비슷한 규모의 다른 CNV 연구에서 발굴된 변이 발생지점(break-point)도 비교분석할 수 있도록 트랙을 분리하여 정보를 제공한다(Figure 2). 이 두 트랙의 CNV 정보들을 클릭하면 해당 CNV과 높은 상관관계를 갖는 SNP의 목록 및 각 인종별 SNP의 빈도정보를 얻을 수 있다. 또한 GWAS catalog 정보를 통해 GWAS 연구로부터 발굴된 질환연관 SNP 정보도 함께 참고할 수 있다.

  연구자는 KGVDB를 이용하여 각 CNV와 상관관계를 갖는 SNP가 인종별로 어떻게 다른지를 살펴볼 수 있다. 예를 들면, Gamazon 등은 WTCCC의 CNV 연구결과를 바탕으로 하여 질환연관(disease-associated)SNP과 CNV의 상관관계를 보고하였다[2]. Table 2는 Gamazon 등이 보고한 CNV와 상관관계가 높은 SNP가 한국인 인구집단 내에서는 어떤지를 분석한 결과이다. 대부분의 CNV들은 SNP들의 상관관계가 WTCCC의 결과와 한국인 결과에서 비슷한 것을 볼 수 있다. 그러나 CNVR2841.6의 경우 WTCCC에서는 높은 상관관계를 보이는(r2 = 0.9) rs12191877에 대해 한국인 인구집단에서는 그렇지 않은 (r2 = 0.51) 결과를 보인다. 이는 다시 말해 건선(Psoriasis), 에이즈진행(AIDS progression)과 연관성이 높은 것으로 알려진 변이들이 인종 간에 빈도의 차이가 있음을 보여준다.
  또한 CNV와 질환과의 연관성을 연구하는 연구자는 KGVDB를 통해 연관성연구에서 발굴한 유의한 CNV와 높은 상관관계를 갖는 SNP 찾고, 찾은 CNV-tagging SNP를 이용하여 간접적인 CNV 재현성 연구(replication study)를 시도해 볼 수도 있고, SNP와 질환관의 연관성을 연구하는 연구자는 GWAS를 통해 발굴한 유의한 SNP과 높은 상관관계를 보이는 CNV를 KGVDB를 통해 찾아볼 수 있다.



Ⅲ. 맺는 말

  최근 GWAS의 성공과 함께 질병과 연관성이 있는 많은 수의 SNP들이 발굴되었다. 또한 차세대 염기서열 분석 비용이 하락함에 따라 더 많은 수의 변이 정보가 생산되고 있다. 그러나 아직까지는 서열변이 정보에 비해 구조변이 연구가 상대적으로 적은 실정이다. 질병관리본부에서는 연관성 분석에 사용가능한(genotypable) CNV 및 tagging SNP 정보를 분석하여 KGVDB를 구축하였고, 발굴된 변이들 중 일부는 주문제작 어레이(customized aCGH)를 사용하여 검증하였다. 또한 현재 마이크로어레이를 사용하여 발굴하기 힘든 인델(indel) 등의 작은 크기의 구조변이 정보는 엑솜시퀀싱을 이용하여 발굴 중이며, 이 모든 정보는 KGVDB에 지속적으로 추가될 예정이다. KGVDB를 통해 구조변이를 중심으로 한 국내 유전체연구 활성화에 기여할 수 있기를 기대한다.



Ⅳ. 참고문헌

1. Wellcome Trust Case Control Consortium. Genome-wide association study of CNVs in 16,000 cases of eight common diseases and 3,000 shared controls. Nature 2010;464, 713-720
2. Alkan C, et al. Genome structural variation discovery and genotyping. Nature review genetics 2011;12, 363-376
3. Gamazon ER et al. A study of CNVs as trait-associated polymorphisms and as expression quantitative trait loci. PLoS Genet 2011;7, e1001292
4. Gamazon ER et al. SCAN: SNP and copy number annotation. Bioinformatics, 2010;26, 259-262
5. Moon S et al. KGVDB: a population-based genomic map of CNVs tagged by SNPs in Koreans. Bioinformatics, 2013;29, 1481-1483

본 공공저작물은 공공누리  출처표시+상업적이용금지+변경금지 조건에 따라 이용할 수 있습니다 본 공공저작물은 공공누리 "출처표시+상업적이용금지+변경금지" 조건에 따라 이용할 수 있습니다.
TOP