본문으로 바로가기 주메뉴 바로가기

사용자별 맞춤메뉴

자주찾는 메뉴

추가하기
닫기

간행물·통계

contents area

detail content area

차세대 염기서열 분석법과 질병관련 유전자 변이의 발굴
  • 작성일2011-07-01
  • 최종수정일2012-08-24
  • 담당부서감염병감시과
  • 연락처043-719-7173

     

차세대 염기서열 분석법과 질병관련 유전자 변이의 발굴
Next generation sequencing and disease gene finding

질병관리본부 유전체센터 바이오과학정보과            
권태수           
  


Ⅰ. 들어가는 말
  최근 차세대 염기서열 분석법(Next Generation Sequencing: NGS)이 대중화되면서 많은 사람들의 관심을 받고 있다. 시간이 지남에 따라 기술은 발전하고 분석 가격은 점점 저렴해지고 있으며 몇몇 멘델성 유전질환과 희귀질환, 암등에서 차세대 염기서열 분석법을 이용해 질병의 원인 유전자를 찾는데 성공하였다. 때문에 많은 연구자들이 차세대 염기서열 분석법에 관심을 갖고 있지만 방대한 자료를 다루는 방법에 대해 어려움을 느끼고 있다. 이에 본 글에서는 차세대 염기서열 분석법을 이용하여 어떻게 질병 원인유전자를 찾을 수 있는지 그 방법과 과정을 소개하고 차세대 염기서열 분석법에 익숙하지 않은 연구자들의 이해를 돕고자 한다. 


Ⅱ. 몸 말
■ 엑솜의 포획
  질병의 원인 유전자를 찾기 위하여 차세대 염기서열 분석법을 이용해 전장유전체(Whole-genome)를 시퀀싱하거나 엑솜 1)영역 만 목표로 하여 시퀀싱할 수 있다(Targeted resequencing). 그러나 비용 측면이나 효율성면에서 전장 유전체를 시퀀싱하는 것보다는 엑솜 영역 만을 시퀀싱하는 것이 유리하다. 또한 유전자의 변화가 직접적인 질병으로 나타나는 경우가 많기 때문에 엑솜 영역에서의 염기서열의 변화를 보는 것이 원인 유전자를 찾는데 효과적이라고 할 수 있다. 때문에 이 글에서는 엑솜 영역 만을 시퀀싱하는 것으로 가정하고 글을 전개해 나가겠으나 전장유전체를 시퀀싱하는 경우에도 동일하게 적용할 수 있는 분석과정을 거치게 된다. 엑솜 만을 시퀀싱하기 위해서는 엑솜 만 포획할 수 있는 라이브러리가 필요하다. 그중 많이 사용되는 것이 SureSelect Human All Exon Kits(http:// www.genomics.agilent.com)이다(Figure 1). 이 라이브러리는 CCDS 2) 엑손을 기초로 디자인 되었으며 인간유전체의 1.22%에 해당하는 영역을 포함하고 있다.

■ 대용량 병렬 DNA 시퀀싱(Massively parallel DNA sequencing)
  현재 대중화된 차세대 염기서열 분석 플랫폼에 대한 설명은 본지 제4권 제6호 ‘의생물학 연구에서 차세대 서열 확인법과 엑솜 서열확인법의 역할’(2011년 2월)에서 확인할 수 있다.

■ 염기서열 데이터의 분석
  차세대 염기서열 분석 데이터로 부터 질병의 원인 유전자를 찾는 전체적인 과정은 Figure 2와 같다. 질병의 원인 유전자를 찾기 위하여서는 기존의 유전자 염기서열로 부터 어떤 변화가 일어났는지 조사해야 하기 때문에 개인(환자)의 염기서열 데이터(sequence reads)를 표준 염기서열(Reference Genome) 3)과 비교하는 작업을 하게 된다. 이 작업을 매핑(Mapping)이라고 한다. 매핑을 통해 개인과 표준 염기서열의 차이를 알아낸 후 이를 적당한 선택 기준을 정해 신뢰할 수 있는 염기서열 변이 정보 만 추출(Variant Calling)하게 된다. 이 변이 정보는 단일염기서열변이(SNV: Single Nucleotide Variation) 4)이거나 짧은 삽입/결실(Short Indel) 5)이다. 그런 다음 염기서열 변이 정보를 기존 데이터베이스(dbSNP)와 비교하여 이미 밝혀진 변이인지 새롭게 발견된 변이인지 판단하게 된다. 그리고 그 변이가 아미노산의 변화를 가져올 것인지 아닌지, 또한 단백질 구조에 있어서 어떤 영향을 줄 것인지 예측하게 된다. 이 과정을 주석달기(Annotation)라고 한다. 추출한 단일염기서열변이와 짧은 삽입/결실에 관한 정보는 정보의 품질을 더 높이기 위하여 Imputation 6)을 하거나 전장유전체연관분석(Genome Wide Association Study; GWAS)과 통합 연구를 통해 질병의 원인 변이를 찾는 연구를 수행할 수도 있다.
                               
                               

■ 매핑(Mapping)
  차세대 염기서열 분석 플랫폼으로부터 나온 대용량의 염기서열 데이터는 서열의 길이가 기존 Sanger 방법으로 생산한 염기서열 데이터에 비하여 현저하게 짧다. 때문에 표준염기서열과 비교하기 위하여서는 기존에 많이 사용하던 BLAST, BLAT 등의 소프트웨어로는 너무 많은 시간이 소요되므로 특별한 프로그램을 사용하여야 한다. 이러한 프로그램들 중 많이 사용되는 프로그램을 Table 1과 같이 정리하였다.

■ 염기서열변이정보 추출(Variant Calling)
  매핑 정보로 부터 염기서열변이 정보를 추출하기 위하여 많은 소프트웨어들이 개발되었지만 최근 SAMtools[5]가 가장 각광 받고 있다. 염기서열변이 정보를 추출할 때나 추출 후에 임의의 선택기준을 정하여 선택기준을 만족하는 염기서열변이 정보만을 추출할 수 있다. SAMtools를 이용하여 추출할 수 있는 염기서열변이 정보는 단일염기서열변이(SNV: Single Nucleotide Variation)와 짧은 삽입/결실(Short InDel) 정보이다. 이외에도 요즘 많은 관심을 받고 있는 복제수변이(CNV: Copy Number Variation)를 확인하기 위하여서는 전장유전체 시퀀싱(Whole Genome Sequencing)을 해야 한다.

■ 염기서열변이정보 주석달기(Annotation)
  개인 염기서열 데이터로 부터 추출된 염기서열 변이 정보는 기존 데이터베이스(dbSNP[6])와 비교하여 이미 알려진 변이인지 새롭게 발견된 변이인지 판단하여야 한다. 그리고 그 염기서열 변이가 아미노산의 변화를 가져올 것인지 아닌지, 또한 단백질 구조에 있어서 어떤 영향을 줄 것인지 예측하게 된다. 이를 위해 사용자가 직접 dbSNP 데이터베이스를 검색하여 볼 수도 있지만 차세대 염기서열 분석법으로 부터 나오는 염기서열 변이 정보는 너무 방대한 양이므로 사용자가 일일이 검색하기는 불가능하다. 때문에 염기서열변이정보에 대한 주석달기(annotation)를 자동화해주고 각 염기서열변이정보가 어떠한 기능을 하는지 해석해주는 자동화 도구들이 있다. 그중 PolyPhen[7], SIFT[8]가 유명하며 웹브라우저를 이용해 편리하게 사용할 수 있다. 그러나 네트워크와 처리능력 등을 감안하여 한 번에 분석을 의뢰할 수 있는 양이 제한되어 있다. 이러한 제한 없이 사용할 수 있는 도구로 Annovar[9], GAMES[10]등이 있으나 이 도구들은 웹브라우저 상에서는 사용할 수 없고 유닉스 또는 리눅스에서 사용해야 한다.

Ⅲ. 맺는 말


  차세대 염기서열 분석법은 상대적으로 저렴한 비용에 대용량의 염기서열 정보를 얻을 수 있다는 장점이 있다. 그러나 그러한 대용량의 정보로부터 질병의 원인 유전자를 찾는 것은 쉽지 않은 일이다. 무엇보다도 연구 전체에 대한 기획이 잘 되어져야 할 것이고 실제 분석에 앞서 각종 소프트웨어의 장단점을 파악하고 있어야 하며 한 가지 소프트웨어에만 의존해서는 안 된다. 또한 차세대 염기서열 분석법은 전산자원과 저장장치에 대한 요구도 커서 손쉽게 접근하기 어려운 단점이 있다. 반면에 분석 과정을 잘 구성하였을 때는 기존의 연구 방법으로는 찾기 어려웠던 질병관련 유전자의 염기서열 변이를 효율적으로 찾아 낼 수 있다. 결론적으로, 연구자들이 차세대 염기서열 분석법을 이용할 경우, 적절한 전산시스템과 방법론의 선택이 성공적인 연구를 위하여 매우 중요하다.

                                                                                                                                                                                          

1) 엑솜(exome): DNA 염기서열 중 단백질을 코딩하고 있는 영역인 엑손(exon)의 초칭
2) CCDS(Consensus CDS): NCBI, EBI, UCSC, Wellcome Trust Sanger Institute가 참여하여 정의한 인간 유전체의 유전자 세트
3) 표준염기서열(Reference Genome): 한 종을 대표하는 염기서열 데이터베이스를 지칭하며 인간의 경우 몇 명의 공여자 염기서열을
                                                     조합하여 만들므로 어느 한 개체의 염기서열이 아니다. 현재 인간의 reference genome은 빌드 37
                                                     (build 37: GRCh37)이다.
4) 단일염기서열변이(SNV): 단일염기서열다형성(Single Nucleotide Polymorphism)이 하나의 종내 다수의 집단에서 나타나는 단일염기의
                                      차이를 말하는 것에 비해, 하나의 서열 또는 종내 소수의 집단에서 나타나는 단일염기의 차이를 SNV라 부른다.
                                      주로 시퀀싱 데이터에서 나타나는 표준염기서열과의 차이를 말한다.
5) 삽입/결실(Indel): 짧은 염기서열이 삽입되거나 결실된 것을 가리키는 것으로 사람의 경우 1백만에서 2백만 개가 존재할 것으로
                            추정한다.
6) Imputation: 원래 통계학에서 데이터가 없는 부분을 채워 넣는 방법을 의미하며, 유전학에서는 단일염기서열변이의 유전형질 정보가
                    측정되지 않은 부분에 대하여 값을 추정하여 채우는 것을 말한다.

Ⅳ. 참고문헌

1. Li Heng et al. Mapping short DNA sequencing reads and calling variants using mapping quality scores. Genome Res. 2008 Nov; 18(11):1851-1858.
2. Langmead B et al. Ultrafast and memory-efficient alignment of short DNA sequences to the human genome. Genome Biol. 2009 Mar 4; 10(3):R25.
3. Li H and Durbin R. Fast and accurate short read alignment with Burrow-Wheeler Transform. Bioinformatics. 2009 May 18;25(14):1754-1760
4. Li R et al. SOAP2: an improved ultrafast tool for short read alignment. Bioinformatics. 2009 Aug 1; 25(15):1966-1967
5. Li Heng et al. The Sequence Alignment/Map format and SAMtools. Bioinformatics. 2009 Aug 15; 25(16):2078-2079
6. Sherry ST et al. dbSNP-database for single nucleotide polymorphisms and other classes of minor genetic variation. Genome Res. 1999 Aug;9(8):677-679
7. Ramensky V et al. Human non-synonymous SNPs: server and survey. Nucleic Acids Res. 2002 Sep 1; 30(17):3894-3900.
8. Ng PC and Henikoff S. SIFT: Predicting amino acid changes that affect protein function. 2003 Jul 1;31(13):3812-3814.
9. Wang K et al. ANNOVAR: functional annotation of genetic variants from high-throughput sequencing data. Nucleic Acid Res. 2010 Sep;38(16):e164
10. Sana ME et al. GAMES identifies and annotates mutations in next-generation sequencing projects. Bioinformatics. 2011 Jan 1;27(1):9-13

본 공공저작물은 공공누리  출처표시+상업적이용금지+변경금지 조건에 따라 이용할 수 있습니다 본 공공저작물은 공공누리 "출처표시+상업적이용금지+변경금지" 조건에 따라 이용할 수 있습니다.
TOP