건국대, 염색체 염기서열 조합을 위한 생물정보학 기법 개발

국내 연구진이 유전체 해독기술(차세대 시퀀싱)을 통해 나오는 아주 짧은 염기서열 단편 조각들을 바탕으로 추가적인 실험이나 물리지도정보 없이도 컴퓨터 알고리즘에 의해 완전한 염색체 수준의 염기서열을 조합할 수 있는 새로운 염색체 조합 기술(생물정보학 기법)을 개발해 유전체 기반 개인 맞춤형 의료 연구를 앞당길 수 있는 길을 열었다.

건국대 동물생명공학과 김재범 교수(생물정보학, 사진)팀은 미국 일리노이주립대 및 영국, 중국 연구팀과 공동으로 다양한 생물종에 대한 수많은 유전체 해독 데이터 조각들(차세대 시퀀싱sequencing 데이터)로부터 완성된 염색체 염기서열을 조합해내는 컴퓨터 알고리즘을 개발했다고 밝혔다.

생물체의 유전물질을 연구대상으로 하는 유전체학 분야에서 가장 어려운 문제 중의 하나는 다량의 아주 짧은 염기서열 단편들로부터 완전한 염색체 염기서열을 조합하는 작업이며 이번 연구성과는 이러한 문제를 해결하는 생물정보학 기법을 개발했다는 점이다. 특히 새롭게 개발된 알고리즘을 통해 아직 유전자지도가 만들어지지 않은 수많은 생물체의 게놈지도(유전제지도)의 완성을 앞당길 수 있을 것으로 기대를 밝혔다.

이번 연구는 한국연구재단(NRF)의 신진연구자 지원사업을 통해 이뤄졌으며 세계적인 과학학술지인 '미국 국립과학원회보 PNAS:Proceedings of the National Academy of Sciences’온라인판에 최근(1월 10일) 게재됐다.

김 교수는 생물학과 컴퓨터공학․IT를 결합한 새로운 융합학문 인 ‘생물정보학’ 분야 신진 과학자로 서울대에서 컴퓨터공학 석사와 미국 일리노이주립대에서 컴퓨터공학과 전산학 박사와 일리노이주립대 유전체 바이오연구소 박사후 연구원을 거쳐 2012년 건국대 동물생명공학과 교수로 초빙됐다.

유전체 정보는 생물체의 설계도와 같은 것으로, 진화 및 생로병사 같은 다양한 생명 현상의 원리가 담겨 있다. 특히 건강과 질병에 직결된 정보를 담고 있어 개인 맞춤형 의료 등 미래 의학 발전에 결정적 영향을 미칠 것으로 예상된다.

이러한 유전체 정보를 해독하는 시퀀싱(DNA 정보의 해독) 작업을 통해 나오는 데이터는 유전자 발현, 유전자 다양성 및 그 상호작용 등의 정보들을 분자진단과 치료영역에서 폭넓게 활용할 수 있어 매우 중요하다.

차세대 시퀀싱(NGS) 이라고 불리는 차세대 유전체 해독기술은 DNA 물질로부터 다량의 아주 짧은 염기서열 단편들을 만들어 낸다. 충분한 연구가 진행되어온 생물종의 경우에는 축적된 유전자지도 또는 물리지도 정보를 이용하여 짧은 염기서열 단편들을 이어 붙여 최종적으로 원하는 염색체 염기서열 조합을 만들어 낼 수 있다. 이는 완전한 바탕그림을 참고로 하여 퍼즐을 맞추는 것과 유사하다.

그러나 다양한 생물 종들에 대한 차세대 시퀀싱 데이터의 생성은 실험에 기반한 유전학적 연구 속도 보다 훨씬 더 빠르게 진행되고 있으며, 퍼즐에서 바탕그림의 역할을 하는 이러한 유전학적 정보의 부족은 완전한 형태의 염색체 염기서열 퍼즐의 완성을 더 어렵게 하고 있다.

다양한 생체 정보는 유전자의 DNA 염기서열로 표현되고, 개체의 완전한 DNA 염기서열 정보는 생명현상을 이해하고 질병과 관련된 정보를 얻을 수 있어 매우 중요하다. 하지만 복잡한 생물학적 실험과정, 단순하지 않은 대용량의 바이오 데이터를 다루는 생물정보학(bioinformatics) 및 방대한 유전정보의 유전학적 활용방안 등의 문제가 산적해 있다.

건국대 김재범 교수팀은 이러한 문제를 해결하기 위해 차세대 시퀀싱을 통해 생산된 데이터를 바탕으로 완전한 염색체 염기서열을 조합하는 새로운 컴퓨터 알고리즘 기술을 개발했으며 이를 통해 유전체 연구를 통한 개인 맞춤치료 연구를 더 앞당길 수 있게 됐다.

김 교수팀이 개발한 기법은 유전자지도 또는 물리지도와 같은 기존 정보에 의존하지 않고 유전체 정보해독(차세대 시퀀싱) 데이터로부터 완성된 염색체 염기서열을 조합해내는 최초의 방법이며, 유전자지도 또는 물리지도 정보가 아직 만들어지지 않은 1만 여종의 척추동물 유전체를 해독하려는 국제 프로젝트인 ‘G 10K’(게놈 10K 프로젝트) 와 같은 대규모 게놈 프로젝트가 성공적으로 수행되기 위하여 필수적인 기술이다.

말하자면 새로운 생물종에 대한 바탕그림(축적된 유전자지도 또는 물리지도 정보, 추가 실험) 없이 유전체 퍼즐을 완성하는 기술을 개발한 셈이다.

김 교수 팀이 개발한 염색체 조합 컴퓨터 알고리즘은 RACA (Reference-Assisted Chromosome Assembly) 라고 불리며 실제 생물종의 유전체 염기서열과 유사종의 유전정보체계 및 전산학과 확률, 통계학 기법들을 융합한 유전체 진화모델에 기반해 이뤄졌다.

연구팀은 새로운 알고리즘을 중국의 베이징 유전체 연구소 (Beijing Genomics Institute)에서 최근 시퀀싱된 티벳 영양(Tibetan antelope) 데이터들에 적용해 그 유용성이 검증됐다고 밝혔다. 새로운 RACA 기법을 활용해 1000개 이상의 티벳영양 유전체 단편들 만으로 티벳영양의 염색체 구조를 새롭게 조합해 완성했다.

김재범 교수는 “차세대 시퀀싱 데이터로부터, 유전자 지도 생성과 같은 고비용이면서 장시간이 필요한 실험적 단계들을 거치지 않고, 컴퓨터 알고리즘에 의해 염색체 수준의 염기서열 조합을 얻어내는 기법을 개발한 것에 의의가 있다”며 “이러한 연구결과는 고품질의 염색체 염기서열 규명에 획기적으로 이용될 것이며 이러한 연구개발로 축적되는 노하우는 곧 다가오게 될 유전체 기반 개인 맞춤형 의료 등의 분야에 중요한 부분이 될 것”이라고 말했다.

이어 김 교수는 “다양한 생명공학 기술의 발전뿐만 아니라 이에 발맞추어 시너지 효과를 극대화하기 위한 다양한 생물정보학 기법의 연구는 필수적이며 꾸준한 국가적 수준의 투자가 필요하다”고 덧붙였다.

김 교수팀의 건국대 생물정보학 연구실(www.jkimlab.org) 에서는 유전체 기반 개인 맞춤형 의료 시대에 대비하여 차세대 시퀀싱 데이터에 기반을 두고 유전체 염기서열 데이터 및 대용량 바이오 데이터의 활용과 비교분석을 위한 다양한 생물정보학 기법들을 개발하고 있다.

의약뉴스 송재훈 기자(sjh1182@newsmp.com) 다른기사 보기