본문으로 바로가기 주메뉴 바로가기

사용자별 맞춤메뉴

자주찾는 메뉴

추가하기
닫기

간행물·통계

contents area

detail content area

차세대 시퀀싱 기술 기반의 구조적 변이 검출
  • 작성일2011-09-02
  • 최종수정일2012-08-24
  • 담당부서감염병감시과
  • 연락처043-719-7173

     

차세대 시퀀싱 기술 기반의 구조적 변이 검출
Structural variants detection based on Next-Generation Sequencing Technology

질병관리본부 유전체센터 바이오과학정보과            
정광수           
  


Ⅰ. 들어가는 말
  유전체의 변이는 크게 따라 서열 변이(sequence variation)와 구조적 변이(structural variation)로 나눌 수 있다. 구조적 변이는 1000bp(base pair, 핵산의 길이) 이상의 유전적 변이-증폭(segmental duplication), 복제수변이(copy number variation), 전좌(translocation), 전위(inversion), 삽입(insertion)과 결실(deletetion)를 가리킨다[1]. 모든 구조적 변이가 질병과 연관되는 것은 아니며, 일부분만이 질병과 관련이 있다고 보고되어 있다. X 염색체 상의 500kb의 전위(inversion)에 의해서 나타나는 혈우병A (Haemophilia A.)와 Y 염색체의 800kb 결실(deletion)에 의해서 나타는 무정자증(Azospermia)이 이러한 구조적인 변이에 의해 나타나고, 복제수변이(copy number variation; CNV)에 의해서 다양한 질병이 발생할 수 있다(Table 1)[2]. 이와같이 구조적 변이 연구를 통하여 단일염기다형성(single nucleotide polymorphism; SNP) 분석으로 밝히지 못했던 질병의 원인이나 약물의 작용 메커니즘이 서서히 밝혀지고 있다.

  초기의 구조적 변이 연구는 주로 전장 유전체의 array-CGH(comparative genome hybridization)와 SNP array를 이용한 복제수 변이 발견에 집중되었다. 이 방법들은 유전체 상의 특정 영역의 복제 수 증가와 감소를 측정하는 데에 사용되었다. 칩 위에 설치된 DNA 프로브(prove)의 밀도에 따라서 결과로 예측된 변이의 양 끝단(breakpoint), 해상도(resolution)및 크기가 결정되므로, 얼마나 정확한 위치 또는 높 밀도로 프로브를 설치하였는가에 따라 분석의 성능이 좌우된다. 또한 해당위치의 프로브에 대하여 상대적인 빈도를 기반으로 계산해 내므로 전좌(translocation)나 전위(inversion)를 발견할 수 없었다.
최근에 차세대 시퀸싱(Next Generation Sequencing; NGS) 기술이 발전함에 따라서 시퀀싱 머신에서 생성된 서열조각(리드, read)을 이용하여 구조적 변이를 발굴하는 기법들이 등장하고 있고, 이중에는 array-CGH 데이터와 서열 데이터를 함께 분석하여 구조적 변이를 찾아내는 연구도 등장하고 있다[3].    이 글에서는 요즘 이슈가 되고 있는 NGS 기반의 구조적 변이 분석 방법과 이를 지원하는 소프트웨어를 소개하고자 한다.     

Ⅱ. 몸 말
  차세대 시퀀싱 기술(NGS)을 이용하여 구조적 변이를 검출하는 방법은 크게 시퀀싱 머신에서 생성된 페어드 엔드 리드(Paired-end read)를 이용하여 검출하는 방법(PEM based approach)과 리드들이 참조(reference) 유전체의 특정 자리에 달라붙는 매핑(mapping) 갯수(coverage)를 분석하는 방법(DOC-based approach)으로 나눌 수 있다. 이 절에서는 두 방법에 대하여 자세히 비교 설명하고자 한다[4].

1. Paired-end mapping(PEM)기반의 구조적 변이 검출
  PEM 기반의 구조적 변이 검출 기법들은 페어드 엔드 리드를 이용한다. 검출하고자 하는 유전체(case)에서 생성된 두 개의 짝지어진 리드(read)는 서로의 거리 정보를 가지고 있다. 두 리드가 이미 서열이 알려진 참조 유전체에 매핑하게 되면, 실제로 참조(reference) 유전체에 매핑된 거리와 case에서의 거리 차이를 계산하여 구조적 변이를 검출한다. 이때, 리드는 순방향과 역방향 모두를 고려하여 참조 유전체에 매핑하게 되므로 전위(inversion)의 검출이 가능하다. 짝을 이루는 리드를 찾고 분석하는 PEM기반의 기법들은 array 기반의 방법들보다 훨씬 높은 해상도를 지원한다. PEM 기반의 구조적 변이 검출 기법은 두 리드가 매핑 된 형태를 분석하여 특징화 하는데, 이러한 특징을 이벤트 또는 시그네쳐(signature)라고 부르기도 한다. 이 시그네쳐들의 종류와 매핑 형태에 대한 설명은 다음과 같다.

  a. 삽입(insertion) : case에서의 페어드엔드 길이보다 참조 유전체에 매핑된 길이가 짧다. 즉, 참조 유전체에서 페어드 엔드 사이에 서열이 삽입되어 더 길게 매핑되었다(Figure 1a).
  b. 결실(deletion): 삽입의 반대의 경우이다. 즉, 참조 유전체에서 페어드 엔드 내의 서열이 결실되어, case에서 더 짧게 매핑되었다(Figure 1b).
  c. 전위(inversion) : 페어드 엔드의 순서는 그대로 보존 되었지만, 매핑된 방향에 변화가 있다. case에서는 정상적으로 매핑 되었지만, 참조 유전체에서는 리드의 방향이 바뀐 채 연결되어있다(Figure 1c).
  d. 연결(Linking) : case에서 두 페어드 엔드의 말단이 서로 겹치게(linking) 생성되었다. 참조 유전체에서는 겹쳐진 두 페어드 엔드의 말단에 변화가 있다. 즉, 참조 유전체에서 A영역과 B영역사이에 결실이 일어났고, 이로 인해 연결 되어 있는 부분에 변화가 있다(Figure 1d).
  e. 연결된 삽입(Linked insertion) : 참조 유전체에 특정 영역(B) 부분이 case의 A와 C영역 사이에 삽입되었다(Figure 1e).
  f. 뒤집힌 복제(Everted duplication) : 참조 유전체의 특정 영역이 뒤집힌체 복제되어 case에 삽입되었다(Figure 1f).
  g. 분리된 매핑 리드 결실(Anchored split mapping deletion) : 리드 자체에서 서열의 짧은 결실이 일어난 경우이다. 하나의 리드이지만, 참조 유전체에서는 리드의 앞부분과 뒷부분이 따로 매핑 된 경우이다. 이 경우 리드의 길이가 짧을수록 오류가 많다(Figure 1g).
  h. 분리된 매핑 리드 삽입(Anchored split mapping insertion) : 위에서 설명한 Figure 1g의 반대의 경우이다. 한 리드가 중간 부분이 결실된 채로 앞부분과 뒷부분이 서로 연결되어 참조 유전체에 매핑되었다. 리드의 길이가 길어야 오류가 적게 나온다(Figure 1h).
  i. 매달린 삽입(Hanging insertion) : 페어드 엔드 중 하나의 리드만이 참조 유전체에 매핑된 경우이다. 즉, 두 개 중 한 리드가 삽입 영역 안에 포함되어 있다(Figure 1i).

  리드가 매핑되고 시그네쳐를 찾은 뒤 수행하는 작업은 시그네쳐가 밀집된 영역을 찾는 것이다. 이를 군집화(clustering)라고 한다. 하나의 시그네쳐를 이용하여 구조 변이가 일어난 위치를 계산하는 것보다 군집화를 함으로서 실제로 구조 변이의 후보 지역을 효과적으로 필터링 할 수 있다. 즉, 군집화을 수행함으로써 우연히 매핑되는 부분을 제거하여 예측의 신뢰도를 향상시킬 수 있을 뿐만 아니라, 구조 변이의 위치를 보다 정확히 예측할 수 있고, 매달린 삽입(Figure 1i)에서도 좋은 효과를 나타낸다. 군집화를 한 후, 하나의 군집된 영역 안 매핑된 시그네쳐들을 이용하여 그 군(cluster)을 대표할 만한 구조변이 위치를 계산한다. 이 때 변이가 일어난 양 끝단 위치를 브레이크포인트(breakpoint)라고 하며, 군(cluster)을 구성하는 시그네쳐를 결정하는 방법과 실제 브레이크포인트를 계산하는 방법에 따라서 아래 기법으로 구분 할 수 있다.
- 표준 군집화(Standard clustering approach) : 하나의 위치에만 매핑된 시그네쳐만을 이용하여 군집화 한다. 즉, 여러 군데에 매핑된 페어드 엔드들은 버린다.
- 가벼운 군집화(Soft clustering approach) : 여러 군데에 매핑된 시그네쳐들을 모두 계산하여 군집화한다. 복제가 일어난 영역(duplicate region)에 대하여 좋은 예측 성능을 가지고 있으나, 가짜 시그네쳐가 될 확률이 높다.
- 분포기반 군집화(Distribution-based clustering) : 참조 유전체에 매핑된 시그네쳐의 분포를 고려하여 클러스터를 형성한다. Figure 2는 실제(회색막대) 분포와 계산되어 맞춰진(실선) 분포를 나타내고 있다[5]. a는 변이가 없는 경우(분포의 평균은 삽입 크기인 208bp), b는 24 bp의 동형 손실(homozygous deletion)이 일어난 경우(평균 ~232 bp), c는 22 bp의 한쪽에서만 손실(hemizygous deletion)이 일어난 경우(평균은 208 bp 와 230 bp)를 나타낸다. 파란선은 변이가 없는 경우, 주황선은 변이가 있는 경우를 나타낸다.


2. Depth of coverage(DOC)기반의 구조적 변이 검출
  Depth of coverage기반의 검출은 유전체 상의 특정 영역에 리드가 매핑된 개수(커버리지 수)를 분석하여 특징화 하고, 이를 검출에 응용하여 어떤 구조적 변이가 수반 되었는지를 판단한다. 매핑 과정에서, 어떤 영역에 리드가 매핑되는 것이 프아송 분포(poisson distribution)을 따른다고 가정하면, 참조 유전체에 매핑되는 리드의 수는 시간에 비례하여 증가한다. 여기서, 이벤트가 일어난 영역(삽입 또는 결실)은 그 곳에 매핑되는 리드의 수가 보다 적거나 늘어나게 된다. Figure 3은 DOC 기반의 시그네쳐를 설명하고 있다[6]. 거리가 있는 두 지역(상,하)의 커버리지 수(점으로 찍한 영역)와 평균 커버리지 수(점선으로 구분된 영역의 평균, 가로막대로 표현됨)가 그룹화된 영역(세로 점선막대)안에 표현되어있다. 그룹화 된 윈도우 영역(세로 점선막대)은 커버리지 수가 갑자기 변한 지역을 찾아내어 정한다. DOC 기반의 연구가 탄생한 배경은 인간 유전체 상의 부분 복제(segmental duplication)영역을 검출하고, 이를 침팬지와 비교하기 위하여 사용되었으나, Campbell 등[6] 은 이를 인간에게 적용하여, 한 사람의 암 조직과 정상 조직간에 gain(유전자가 보다 많이 발현됨, 리드의 매핑된 수가 상대적으로 많음)과 loss(유전자가 상대적으로 적게 발현됨, 리드의 매핑 수가 상대적으로 적음) 영역을 검출하였고, 이를 이용하여 유전자 복제수 변이(copy number variation)를 규명하는 데 이용하였다. 하지만, DOC 기반의 분석 방법은 PEM 기반분석 방법보다 제약이 있다. 예를 들어 DOC 분석을 통하여 삽입(gain) 영역이 발견 되었다 하더라도 이를 PEM에서의 삽입(insertion) 이벤트라고는 볼 수 없다. 즉, 이 gain 영역은 단순한 duplicate sequence 가 삽입된 것으로 해석되며, 따라서 DOC 기반의 분석 방법으로는 새로운 서열의 삽입이 일어난 것을 검출 할 수 없다. 통계적인 관점으로 볼 때,  gain 과 loss가 검출된 영역은 데이터 세트의 커버리지 수와 유전자 복제수 변이의 크기에 관련이 깊다. 대부분의 DOC 기반의 기법에서는 시그네쳐를 사이즈가 큰 영역을 검출할 때 응용한다. 사이즈가 큰 영역의 이벤트는 강한 시그네쳐로 해석 될 수 있기 때문이다. PEM 기반의 기법들은 낮은 커버리지 수를 가지고 있더라도 작은 영역의 시그네쳐를 검출할 수 있지만, DOC 기반의 기법은 작은 영역의 이벤트를 검출 할 수가 없고, 브레이크포인트를 결정하는데 어려움이 있다.


3. NGS 기반의 구조적 변이 검출 소프트웨어
  지금까지 NGS 기반으로 구조적 변이를 검출하는 소프트웨어는 MoDIL[5], SeqSeq[8], PEMer[9], VariationHunter [10], Pindel[12], BreakDancer[13] 와 ABI SOLiD software Tool[14] 등이 있다. 각각의 도구마다 검출 가능한 시그네쳐와 이를 검출하기 위한 군집화 방법 또는 윈도우를 구성하고 처리하는 방법에 차이가 있다(Table 2). 또한 하나의 프레임을 선택하기 보다는 적절한 클러스터링을 혼용하거나 알고리즘을 추가하여 사용하고 있다. 예를 들어, BreakDancer는 표준 군집화와 분포기반 군집화를 결합하여 분석을 수행하고, ABI SOLiD software Tool의 경우는 표준 군집화, 분포기반 군집화 및 BCS(binary circular segmentation) 알고리즘을 혼합하여 사용하고 있다.


Ⅲ. 맺는 말


  Array-CGH를 비롯한 어레이 칩 기반 기술은 NGS를 이용하는 것보다 비용이 저렴하고, 이미 잘 알려진 변이를 기반으로 유전자 형을 결정 하기에 적합하다. 그러나 작은 영역의 이벤트 검출, 변이의 브레이크포인트를 정확히 예측하는 작업, 전위(inversion) 등의 복제수가 변하지 않는 부분을 찾고 새로운 변이를 알고자 한다면 NGS 기반의 기술이 보다 많은 장점을 가지고 있다. 또한, 복제수를 결정하는 것도 DOC 분석을 이용하면 array CGH를 이용하는 것보다 정확하다. 커버리지 수를 높임으로써, 브레이크포인트의 해상도를 높이고, 복제수의 정확도(accuracy), 특이도(specificity)와 민감도(sensitivity)를 개선시킬 수 있다.
  그러나, 아직까지 NGS 기반의 기술은 구조적 변이를 발견하는데 완벽한 해결책이 되지 못한다. 심지어 어떤 구조적 변이는 NGS를 사용해서 검출이 더욱 어려운 경우도 있다. 예를 들어, 반복 지역(repeating region)에 변이가 있는 경우는 NGS 기반 기법이 오히려 낮은 민감도(sensitivity)를 갖는다. 반복 지역은 변이가 많이 밀집한 지역에 위치하고 있기 때문이다. DOC 기반의 분석 방법으로 이러한 변이를 찾을 수 있다고는 하지만 해상도는 좋지 못하다. 또한 PEM 기반의 분석기법에서도 리드가 여러군데 매핑된 경우의 처리 문제, 보다 정확히 군(cluster)를 형성하는 문제, 매핑 커버리지 수를 높이면 시그네쳐의 수가 줄어드는 문제 등 아직 개선해야 할 부분이 많이 남아있다.

Ⅳ. 참고문헌

1. Feuk, L., Carson, A.R. and Scherer, S.W. 2006. Structural variation in the human genome. Nature Reviews Genetics 7, 85-97.
2. Freeman, J. et al. 2006. Copy number variation: New insights in genome diversity. Genome Research 16, 949-961.
3. Park, H. et al. 2010. Discovery of common Asian copy number variants using integrated high-resolution arrayCGH and massively parallel DNA sequencing. NatureGenetics 42, 400-405.
4. Medvedev, P. et al. 2009. Computational methods for discovering structural variation with next-generation sequenceing. Nature Methods Supplement 6(11), S13-S20.
5. Lee, S., Hormozdiari, F., Alkan, C. & Brudno, M. 2009. MoDIL: detecting small indels from clone-end sequencing with mixtures of distributions. Nat.Methods 6, 473-474.
6. Campbell, P.J. et al. 2008. Identification of somatically acquired rearrangements in cancer using genome-wide massively parallel paired-end sequencing. Nat. Genet. 40, 722-729.
7. Bentley, D.R. et al. 2008. Accurate whole human genome sequencing using reversible terminator chemistry. Nature 456, 53-59.
8. Chiang, D.Y. et al. 2009. High-resolution mapping of copy-number alterations with massively parallel sequencing. Nat. Methods 6, 99-103.
9. Korbel, J.O. et al. 2009. PEMer: a computational framework with simulationbased error models for inferring genomic structural variants from massive paired-end sequencing data. Genome Biol. 10, R23.
10. Hormozdiari, F. et al. 2009. Combinatorial algorithms for structural variation detection in high-throughput sequenced genomes. Genome Res. 19, 1270-1278.
11. Ye, K. et al. 2009. Pindel: a pattern growth approach to detect breakpoints of large deletions and medium sized insertions from paired-end short reads. Bioinformatics 25(21), 2865-2871.
12. Chen, K. et al. 2009. BreakDancer: An algorithm for high resolution mapping of genomic structural variation. Nat. Methods 6, 677-681.
13. McKernan, K.J. et al. 2009. Sequence and structural variation in a human genome uncovered by short-read, massively parallel ligation sequencing using two-base encoding. Genome Res. 19, 1527-1541.


본 공공저작물은 공공누리  출처표시+상업적이용금지+변경금지 조건에 따라 이용할 수 있습니다 본 공공저작물은 공공누리 "출처표시+상업적이용금지+변경금지" 조건에 따라 이용할 수 있습니다.
TOP