Call me @ +82-10-6370-4486
Professor, School Systems Biomed. Sci., Soongsil University, Seoul, Korea
Research & Education in
-
Bioinformatics & Computational Biology
-
Genomics & Biomedical informatics
숭실대학교 崇實大學校
의생명시스템학부 교수
전문 분야
-
생명정보학 (유전체정보학)
-
임상의료정보학
Next Generation sequencing (NGS) Economy
1990년에 시작한 인간게놈프로젝트는 2000년 그 초안을 발표하였고 2003년 완성을 선언하였다. 프로젝트 초반 10년 동안에 실제 시퀀싱은 하지 않고, 게놈 지도 등을 만드는 일과 각종 기술 개발에 주력하였는데, 그 중에서도 가장 많은 노력을 쏟은 분야는 1977년 개발된 Sanger sequencing 방법을 발전시켜 고속 시퀀싱이 가능하게 하는 것이었다. 1990년대에 사용하던 Sanger sequencing은 소위 slab gel 전기영동법을 이용하였는데, 하루에 10개 전후의 DNA 조각을 분석할 수 있었고, 샘플 당 많은 양의 DNA를 소모하였고, 그 실험 준비 과정도 노동 집약적이었다. 1990년대 말에 slab gel 대신에 모세관을 이용한 전기영동 기법이 도입되면서 시퀀싱의 자동화가 촉진되었고, 당시 새로이 출시된 자동서열해독기를 사용하면 불과 1-2년만에 인간 게놈의 대부분을 시퀀싱할 수 있게 되었다. 당시로서는 아주 획기적인 기기여서, 하루 밤 사이에 약 1,000개의 DNA 조각을 500 염기씩 자동으로 시퀀싱할 수 있었다 (~500 kb/day). 인간게놈프로젝트의 목표는 30억 염기쌍의 인간게놈을 10배수로 읽는 것이었다. 즉, 300억 염기쌍을 시퀀싱하려면, 1대의 시퀀싱 기기를 사용한다면 6만일이 소요되는 것이었다. 이 프로젝트에는 전 세계에서 20 여 시퀀싱 센터가 컨소시움을 이뤄서 참여하였는데, 총 200대의 기기가 사용되었다면, 1년 정도 소요되는 양이라고 하겠다. 당시 시퀀싱에 소용된 기기값, 시약비, 인건비 등의 직접비을 종합하면 인간게놈을 시퀀싱하는데 약 1000억원이 소용되었다 (게놈 서열 조립 및 분석 등의 생명정보학적 비용은 제외). 자세한 내용을 공부하고 싶은 사람은 여기를 방문하기 바란다. 2003년 인간게놈프로젝트의 완성을 선언한 미국보건원 산하 인간게놈연구소는, $1000면 한 명의 인간게놈을 시퀀싱할 수 있는 기술을 개발하는 프로젝트를 공모한다. 아래에 그 결과가 나타나 있다.
왼쪽 그래프는 1 Mb의 염기서열을 시퀀싱하는데 소요되는 비용이 매년 줄어드는 것을 보여준다. y축이 로그스케일이라서, 첫 6-7년 사이에 비용이 1/10로 줄어든 것을 볼 수 있는데, 이는 흰색 줄로 표시된 무어의 법칙과 엇비슷하게 움직인다. 인텔사의 회장이었던 고든 무어가 발견한 법칙은 컴퓨터의 집적도는 18개월마다 2배 정도 증가한다는 것으로서, 일반적인 IT 기술의 발전 속도는 나타내는 지표로 사용된다. 천불게놈기술개발프로젝트를 시작한지 5년이 경과한 2008년을 기점으로 그 비용은 급격히 낮아지기 시작한다. 즉, 1년 사이에 1/100로 줄어든 것이다. 생거시퀀싱을 개선한 것이 아니라, 전혀 다른 개념의 시퀀싱 기술이 개발되어 가능해진 것이다. 전통적인 생거시퀀싱 기술과 차별화되는 차세대 기술이라고 하여 Next Generation Sequencing (NGS)라고 불리운다. 지금은 워낙 보편화되어서, "N" 을 "next"라고 해석하지 않고, "now"라고 해석하여 NGS를 Now Generation Sequencing이라고 해석하는 사람들도 있다. 2014년 말에 다시 한번 급격한 비용 절감이 눈에 띄는데, 이는 소위 3세대 단일 분자 실시간 시퀀싱 기법의 등장에 의한 것이다.
DNA 시퀀싱 비용이 저렴해지면, 연구자들은 비용을 절감하기보다는 더 많은 샘플 혹은 더 다양한 종을 시퀀싱하는 야심찬 계획을 세우게 된다. 또한, 새로운 종의 게놈을 시퀀싱하거나 돌연변이를 발굴하는 것을 넘어서, 유전자 발현량을 측정하는데도 시퀀싱 기법을 활용한다. 왼쪽 그래프의 오른쪽 축에는 $1로 얻을 수 있는 시퀀싱의 양을 표시하고 있는데, 이는 위 그래프의 역이라고 하겠다. NGS가 등장하기 전에는 데이터양이 19개월마다 2배 증가하였는데, NGS가 등장한 이후에는 5개월마다 2배 증가한다는 것이다. 그 부작용은, 서열 데이터를 저장할 하드디스크의 수요가 폭발적으로 증가한다는 것이다. 하드디스크도 무어의 법칙에 따라 발전하여, 같은 돈을 주고 살 수 있는 하드디스크 용량이 14개월마다 2배씩 증가하여 왔다. 그러나 2008년 이후에는 시퀀싱 비용 절감 속도가 하드디스크 비용 절감 속도를 추월하였다는 것이다. 여기까지는 연구용으로 생산된 데이터만 따지는 것이었고, 앞으로 일반인의 게놈을 해독하는 개인유전체 시대가 열리게 되면, IT 인프라가 매우 중요해 질 것으로 예상된다.
여기에서는 다루지 않았지만, NGS 기술은 생거기술보다 정확도가 떨어지는 것으로 되어 있다. 따라서, 양질의 서열 데이터를 얻기 위해서는 몇 배 더 많은 반복 실험을 해야 한다. 결과적으로 NGS 기술로 얻어지는 단위 샘플 데이터도 매우 대용량이다. 따라서, 데이터 복사 및 전송에 많은 시간이 소요되며, 분석 시간도 오래 걸린다. 생거기술보다 떨어지는 정확도는 좀 더 복잡한 분석 알고리즘을 필요로 하게 한다. 따라서, 고급 IT 기술로 무장한 생명정보학 전문가의 수요가 더욱 높아지고 있다. 컴퓨터 하드웨어적인 측면에서도 高메모리, 병렬컴퓨터 클러스터 및 클라우드를 필요로 하게 되고, 운영 체제도 원도즈 계열보다는 파이프라인 구성이 자유로운 리눅스 계열이 일반적으로 사용되고 있다.