질병관리청

contents area

주간건강과질병

SNS공유닫기

프린트하기

detail content area

병원성 단백체 DB(PathOD)1) 구성과 활용

작성일2012-09-07
최종수정일2021-04-15
담당부서감염병관리과
연락처043-719-7173

병원성 단백체 DB(PathOD)1) 구성과 활용
The Pathogen Omics Database(PathOD): Structure and Application

질병관리본부 국립보건연구원 면역병리센터 말라리아기생충과
주정원, 김대원

Ⅰ. 들어가는 말
감염병의 효과적인 관리를 위해서는 원인 병원체의 총체적인 분석을 바탕으로 진단, 백신 및 치료제 개발에 응용될 수 있는 분자 생물학적 표적을 발굴하는 것이 중요하다[1, 2]. 최근 대용량 분석 기법의 발달로 병원체에 관한 방대한 양의 생물정보자료가 쏟아져 나오고 있다[3]. 이에 대응하여 생물정보학을 통한 생물정보의 선택적 분석과 관리 시스템 운용의 중요성이 크게 증가하고 있으며, 생물정보학적인 분석 및 관리시스템은 이제 단순한 서열비교 및 기능 예측 분석을 뛰어 넘어 후성 유전체학, 단백체 상호작용 그리고 병원체-숙주 상호작용을 총괄 분석하는 시스템 생물학(System Biology)으로의 발전을 거듭하고 있다[4, 5]. 이에 국립보건연구원에서는 ‘병원성 단백체 관리사업’을 통하여 발굴된 병원체 정보를 체계적으로 관리하고, 병원성 단백체 정보를 예측 분석할 수 있는 데이터베이스 구축을 진행해 오고 있다. 2011년에 병원성 단백체 Data Base(DB)를 구축하여 자료제공을 시작함을 알린 바 있다[6]. 이 글에서는 병원성 단백체 DB의 구성을 소개하고 그 활용을 설명하고자 한다.

Ⅱ. 몸 말
병원성 단백체 DB(Pathogen Omics Database, 이하 PathOD)의 개발 목적은 주요 감염 병원체의 서열 정보(유전체, 전사체 및 단백체)를 체계적으로 관리·분석하고, 관련 연구자들에 의한 생물정보학적 활용 기반을 제공하는 것이다. PathOD는 최근 빠르게 발전하는 생물학적 대단위(오믹스, -omics) 분석 분야 중의 하나인 생물정보학적인 기능 예측 분석들을 활용하여 주요 병원체의 대규모 서열정보를 정기적으로 수집하고, 기능을 분석하는 체계를 구축하여, 진단, 백신 및 치료제 개발의 후보 단백질을 발굴하는데 활용하고자 하는 것이다.
PathOD는 주요 병원체 서열정보 및 분석정보를 각각 유전체(Genome), 전사체(Tranome), 단백체(Proteome) 범주(Category)로 구분하여 분류·관리하고 있다(Figure 1, 2). 또한 생물정보학적인 기능 예측을 위한 분석 도구들(Prediction tools)을 탑재하고 있다. 이외에도 병원체에 대한 관련 데이터베이스링크를 제공하고 병원성 단백체 관리사업을 통해 발표된 논문들을 소개함으로써 관련 연구자들에게 효율적인 정보제공을 도모하고 있다. 이제 각 범주의 내용 및 활용법을 자세히 소개하고자 한다.

1) 유전체(Genome) 정보
유전체 정보는 각 병원체의 유전체 정보 제공을 목적으로 한다. 현재 국내에서 유행하는 간흡충(Clonorchis sinensis), 삼일열 말라리아(Plasmodium vivax), 폐렴알균(Streptococcus pneumoniae), 장출혈성대장균(Enterohemorrhagic E. coli O157:H7)등 병원성 단백체 관리사업의 주요 대상 병원체에 대한 정보를 포함하고 있다. 각 병원체에 대한 유전체 정보는 NCBI(www.ncbi.nlm.nih.gov), Ensembl(www.ensembl.org), EuPathDB(eupathdb.org/eupathdb)를 통해서 수집되며, 국내 병원체 연구자들이 필요로 하는 유전체 정보를 수집 및 가공하여 지속적으로 제공하고자 한다. 간흡충의 유전체 정보는 국외에서 수집한 전사체 정보와 자체 생산한 전사체 정보를 통합하여 131,868개의 유니진(Unigene)을 발굴한 데이터로 제공된다. 말라리아 유전체 정보는 EuPathDB에 등록되어 있는 8,467개의 전사체 및 5,435개의 단백질 정보를 제공하고 있으며 폐렴알균 및 대장균은 게놈 정보 분석 중에 있다. 지금은 국내에서 진행 중인 간흡충 게놈 정보를 분석 중에 있으며, 가공된 정보는 게놈 브라우져(Genome Browser)의 도입을 통해 사용자들이 쉽게 정보를 접하고 이용할 수 있도록 할 예정이다.

2) 전사체(Tranome) 정보
전사체 정보는 각 병원체에서 단백질 발현 정보를 가지고 있는 유전자 정보(ORF; Open Reading Frame)를 제공하고 있다. 전사체는 각 개체에서 발현하고 생물학적 기능을 갖는 기능 유전자(Functional gene)를 발굴하는데 목적을 두고 있다. PathOD의 전사체 정보는 30여개 분석 프로그램을 연결하여 유전자의 기능 및 구조, 발현 양상, DNA 표식자(DNA maker), 산업적으로 유용한 효소 및 네트워크를 분석하여 정보를 제공함으로써, 연구자들이 유전자 서열의 생물학적 의미를 보다 포괄적으로 접근하고 해석할 수 있도록 하였다. 또한 분석된 유전체정보 자원은 외부에 있는 데이터베이스와 연계를 통해서 효율적인 정보의 접근제공 및 관리, 통계분석이 가능하도록 되어 있다(Figure 3). 전사체 정보는 다음과 같이 크게 4가지로 나눌 수 있다.
i) 전처리 및 어셈블리 정보(Pre-processing and assembly reporting): 시퀀싱(Sequencing) 장비에서 생산되는 각 리드(Reads)에 대해 퀄리티(Quality) 통계 정보와 함께 어셈블리(Assembly) 결과를 한다.
ii) 어노테이션 정보(Annotation report): 어셈블리된 컨티그(Contig)의 기능상의 주석(Functional annotation)을 할당 할 때 사용된 다양한 생물정보학 프로그램들(BLAST, InterProSan, KEGG, Gene Ontology)의 결과를 테이블 및 파이챠트(Pie Chart)로 제공한다.
iii) 큐레이션 서비스(Curation service): 새로운 유전자를 동정하고 기능의 주석을 매길 때, “Hypothetical protein” 같은 애매한 주석들이 달리곤 한다. 각 유전자에 대하여 50가지 이상의 어노테이션 정보를 제공하여 사용자가 주석을 직관적으로 선택하여 이해하기 쉽도록 큐레이션 할 수 있는 기능을 제공한다.
iv) 유전자 발현 분석(Gene chip and BLAST service): 각기 다른 샘플에서 발현하는 유전자의 발현 패턴을 비교하기 위한 시스템(Gene chip)과 서열상동성 비교(BLAST)를 위한 프로그램을 제공한다.

현재는 EST(Express sequence Tags) library 분석을 통한 간흡충(Clonorchis sinensis), 고충(Spirometra erinacei)의 전사체 정보가 제공되고 있다. 간흡충 자료는 각 발육 단계별로 4개 조직의 55,736개의 유전자로 구성된 13,305개의 유니진이 제공되고 있으며, BLAST, InterProSan, KEGG, Gene Ontology 등의 분석 정보가 함께 테이블로 제공되고 있다. 또한 각 조직의 유전자 발현 정도를 다른 조직과의 비교를 통해 발현 양상을 이해할 수 있다. 고충 자료는 1개 조직 5,655개의 유전자로 구성된 1,787개의 유니진을 포함하고 있으며, 이는 간흡충 자료와 같은 기능의 유전자 기능 정보를 제공한다[7].

3) 단백체(Proteome) 정보
단백체 정보는 병원체 단백체에 대한 면역단백체(Immuno-proteomics) 및 생물정보학적 분석 결과를 제공한다. 3개의 데이터베이스(2DSpotDB, AntigenDB, SecretoryDB)를 포함하고 있으며 그 구성 내용은 다음과 같다.

i) 2DSpotDB: 병원성 단백체 사업으로 진행된 이차원 전기영동 분석을 통해 Bacillus anthracis(탄저균), Clonorchis sinensis(간흡충), Neisseria gonorrhoeae(임질균) and Streptococcus pneumoniae(폐렴알균) 의 단백체 발현지도를 구축하였다[8]. 현재 데이터베이스에는 4개의 병원체에서 생산된 14개의 발현지도가 구축되어 있으며, 이를 기반으로 동정한 387개의 단백질 스팟(Spot) 정보가 저장되어 있다. 각 발현지도에 표현되어 있는 스팟정보를 클릭하면 항원성 검증, 실험 방법 및 표적 단백질에 대한 질량분석자료, EST library 정보를 함께 제공 받을 수 있다(Figure 4a).
ii) AntigenDB: 흡충류 및 박테리아 병원체의 항원성 단백질을 저장해 놓은 데이터베이스이다. AntigenDB는 IEDB와 NCBI의 기존 서열 정보 데이터베이스를 통해 1,049개의 유전자, PubMed의 논문정보를 이용한 텍스트 마이닝(text mining)을 통해 2,856개의 단백질 서열을 발굴하였으며 중복된 항원유전자 571개를 제거한 후 최종 3,334개의 단백질을 발굴하였다. AntigenDB에 구축되어 있는 유전자의 종류는 대장균, 삼일열원충, 살모넬라, 결핵균 순으로 많이 분포했으며 총 334종에 관련된 항원단백질을 포함하고 있다. 3,334개의 단백질 정보는 생물정보학적 분석을 통해 항원성, 단백질 기능 영역, 항원작용기등의 생물정보학적 분석을 통해 데이터베이스로 구성하였다(Figure 4b).
iii) SecretoryDB: 분비단백질 및 막단백질 데이터베이스로 이 정보는 병원체에서 숙주의 면역계에 노출되는 주요한 항원 또는 면역원으로 작용할 가능성이 높은 단백질들이다. 따라서 본 데이터베이스는 단백체 관리사업에서 연구 중인 3종 병원체에 대한 분비단백질 및 막단백질을 생물정보학적 분석법을 통해 추출하고 가공하여 데이터베이스를 구축하였다(Figure 5a). 간흡충은 452개의 유전자, 삼일열 말라리아는 238개의 유전자, 폐렴알균은 215개의 유전자 후보군에 대한 정보를 제공한다. 제공 가능한 분비단백질의 정보는 테이블의 형태로 제공되며 시그널 펩타이드(Signal peptide)정보 및 단백질 국소화(Protein localization)정보를 비롯한 분비단백질의 특성 정보를 확인할 수 있다. 간흡충의 경우, 발육단계별 리드(Read)의 수를 성충(Adult), 피낭유충(Metacercaria), 충란(Egg)으로 단계별로 구분하여 표현한다(Figure 5b).

4) 생물정보학 분석 프로그램(Bioinformatics tools)
생물정보학 프로그램의 발달로 병원체 감염의 조기진단 및 백신 개발을 위한 병원성 단백체를 대량으로 분석하여 병원체 특이항원 및 면역단백질 발굴 하는 시스템의 구축이 가능해졌다. 현재 PathOD에는 면역원성 및 항원성 단백질 후보들을 발굴에 자주 사용되는 SignalP, TMHMM, TargetP, Psort, Bepipred 등의 프로그램들이 운영되고 있다. 또한 최근에 대단위 병원체 자원을 이용하여 보다 효율적이고 체계적인 면역원성 및 항원성 단백질 후보들을 발굴을 위해 EpiSYS를 구축하였다(Figure 6a). EpiSYS는 8단계의 분석 단계로 구성되어 있으며, 위해 35개의 생물정보학 프로그램이 사용되었다. 35개의 분석 프로그램은 분석에 사용되는 프로그램 및 절차가 정의될 수 있도록 유연하게 디자인 되어 있어서 사용자가 원하는 분석 단계(워크플로우, work flow)를 다양하게 설계할 수 있다. EpiSYS는 병원성 유전체로부터 단백질을 암호화하고 있는 유전자정보(ORF) 추출, 분비단백질, 당단백질, 막단백질을 발굴하고, 항원작용기(Epitope)를 자동으로 예측하며 그 결과를 웹을 통해 제공해 준다(Figure 6b).

Ⅲ. 맺는 말

최근의 연구환경은 방대한 자료의 수집, 재가공 및 목적에 따른 분석 도구의 개발 및 활용을 포함하는 생물정보 분석을 요구하는 상황이며, 이를 위한 효과적이고 강력한 정보 처리 인프라가 제공되어야 한다. 현재의 보안에 중점을 둔 공공기관 서버 관리방식은 병원체를 포함한 생물체의 생물정보 분석을 제한하는 요인 중의 하나로 변화가 필요하다. 생물 정보에 대한 원활한 연구적 접근과 활용을 가능하게 하는 유연한 보안 관리 정책이 운영되어야 하며 이는 이 분야에서 경쟁력의 척도라 할 수 있다.
현재 개발된 PathOD는 완전한 DB의 형태가 아니지만 관련 연구자들의 필요를 적극 반영하여 국내 주요 감염 병원체의 생물정보를 분석하고 축적해 나아갈 단계에 있다. 여러 가지 열악한 조건하에서도 병원체 생물정보 분석 데이터베이스의 단초를 제시하였으며, 유용한 데이터베이스로의 발전을 위해 관련 연구자들의 적극적인 참여와 협력이 필요하다. 궁극적으로 PathOD의 자료들은 국내 감염병 및 병원체 연구자들에게 활용될 유용한 생물 분자 서열 및 구조 정보를 포함할 것이며, 생물정보학적인 분석 환경 구축에 기틀을 제공할 것으로 기대한다.

1) 병원체의 오믹스(-omics) 데이터를 축적, 관리하고 생물 정보 분석을 위한 여러 프로그램을 제공하는 데이타베이스임(http://pathod.kdca.go.kr).

Ⅳ. 참고문헌

1. Ray, S., Reddy, P. J., Jain, R., Gollapalli, K., Moiyadi, A., & Srivastava, S. (2011). Proteomic technologies for the identification of disease biomarkers in serum: Advances and challenges ahead. PROTEOMICS, 11(11), 2139?2161. doi:10.1002/pmic.201000460
2. Vo, T., Godard, P., de Saint-Hubert, M., Morrhaye, G., Swine, C., Geenen, V., Martens, H. J., et al. (2010). Tranomic biomarkers of the response of hospitalized geriatric patients with infectious diseases. Immunity & Ageing, 7(1), 9. doi:10.1186/1742-4933-7-9
3. Chen, C., McGarvey, P. B., Huang, H., & Wu, C. H. (2010). Protein Bioinformatics Infrastructure for the Integration and Analysis of Multiple High-Throughput “omics” Data. Advances in Bioinformatics, 2010, 1?19. doi:10.1155/2010/423589
4. Aderem, A., Adkins, J. N., Ansong, C., Galagan, J., Kaiser, S., Korth, M. J., Law, G. L., et al. (2010). A Systems Biology Approach to Infectious Disease Research: Innovating the Pathogen-Host Research Paradigm. mBio, 2(1), e00325?10?e00325?10. doi:10.1128/mBio.00325-10
5. Bernstein, A., Pulendran, B., & Rappuoli, R. (2011). Systems Vaccinomics: The Road Ahead for Vaccinology. OMICS: A Journal of Integrative Biology, 15(9), 529?531. doi:10.1089/omi.2011.0022
6. 주정원 병원성 단백체 DB 소개: Pathogen Omics Database(PathOD). 주간 건강과 질병 2011. 4(33), 595-596
7. Kim, D.-W., Kim, D. W., Yoo, W. G., Nam, S.-H., Lee, M.-R., Yang, H.-W., Park, J., et al. (2012). SpiroESTdb: a tranome database and online tool for sparganum expressed sequences tags. BMC research notes, 5, 130. doi:10.1186/1756-0500-5-130
8. Kim, D.-W., Yoo, W. G., Lee, M.-R., Kim, Y.-J., Cho, S.-H., Lee, W.-J., & Ju, J.-W. (2011). 2DSpotDB: A Database for the Annotated Two-dimensional Polyacrylamide Gel Electrophoresis of Pathogen Proteins. Genomics & Informatics, 9(4), 197?199. doi:10.5808/GI.2011.9.4.197

첨부파일

12416_B.pdf 다운로드
바로보기

본 공공저작물은 공공누리 "출처표시+상업적이용금지+변경금지" 조건에 따라 이용할 수 있습니다.

간행물·통계

contents area

주간건강과질병

detail content area