NGS의 활용 분야 (I) DNA-seq
Sanger Sequencing과 비교할 때 Next Generation Sequencing의 가장 큰 차별점은, 많은 조각 DNA를 동시에 해독할 수 있으며, 단위 염기 당 비용도 훨씬 저렴하다는데 있다. Sanger 방법으로는 현실적이지 않던 실험들을 NGS는 가능하게 한 것들이 많으며, 앞으로도 더욱 창의적인 응용이 가능할 것으로 기대된다.
신규 게놈 해독 분야
지금까지 많은 생물 종의 게놈이 해독되었는데, 해독된 순서를 보면, 게놈 조립의 기술적인 문제와 비용적인 문제때문에 게놈 크기가 작은 것부터 해독을 해왔다. 즉, 바이러스, 박테리아, 효모, 곤충, 포유류 등의 순으로 해독하면서, 게놈 조립을 방해하는 반복서열 문제를 극복하기 위한 생명정보학적 기법을 발전시켜 왔다. 이러한 문제가 어느 정도 해결된 이후에는 경제성의 문제가 남게 되었다. 즉, 인체 생물학의 이해에 얼마나 관련이 있느냐가 판단 기준이 되곤 했다. 즉, 인간의 질병을 연구하는데 도움이 되는 모델 생물 위주로 게놈 해독이 이뤄져 왔다. 농업 분야에 관련이 있는 작물이나 가축의 게놈 해독도 시도되었지만, 아무래도 우선 순위에서 밀려 왔던 것이 사실이다. 미생물은 병원균도 많고, 산업적 활용성도 있으며, 게놈 크기가 작아서 상대적으로 적은 비용으로 해독이 가능하여 비교적 활발히 시퀀싱되어 왔다.
위와 같은 논리에 따라 게놈 해독의 우선 순위가 정해지고, 그에 따라 정부 연구비가 배분되다보니, 기초생물학적으로 중요한 진화와 관련된 이슈를 다루는 연구 주제는 상대적으로 어려움을 겪어 왔다. 예를 들면, 인간과 영장류가 다른 점을 게놈 서열의 차이로 설명할 수 있을까라는 주제를 연구하기 위해서는 다양한 영장류를 시퀀싱하여 인간만의 고유한 차이를 확인하여야 할 것이다. 2000년대 초반만 하더라도, 영장류의 게놈을 고해상도로 시퀀싱하기에는 비용이 많이 드니, 저해상도로 시퀀싱하되 대신에 여러 종을 시퀀싱하여 고해당도 인간 게놈과 비교하면 인간 고유의 차이를 발견할 수 있을 것이라는 프로젝트가 수행되었다. 이런 접근법의 문제는, 영장류에는 없던 유전자를 인간만이 획득했다는 것은 찾을 수는 있어도 확신하기 어려운 점이 있다. 반면에 영장류에는 확실히 있는데, 인간에서만 결실된 것은 비교적 자신있게 주장할 수 있을 것이다. 따라서, 영장류에서 인간으로의 진화를 gain-of-function보다는 loss-of-function으로 설명하는 연구들이 많았다. NGS의 등장으로 시퀀싱 비용이 저렴해지면서, 많은 영장류의 고해상도 시퀀싱이 가능해지고 있다. 심지어는 고양이과의 호랑이, 표범, 사자 등의 맹수를 상호 비교하고, 호랑이 중에서도 벵골호랑이, 시베리아호랑이 등 아종의 게놈적 차이도 규명하는 시대가 되었다.
유전 변이 분석
생물 종 간의 차이를 연구하는 것이 진화학이라고 한다면, 유전학은 한 생물 종 안의 개체 간의 차이를 연구하는 것이라고 하겠다. 특정 유전자의 돌연변이가 어떤 형질의 변화를 야기하는지 밝힘으로써 유전자의 기능을 알 수 있다. Reverse genetics가 특정 유전자의 인위적인 돌연변이가 어떤 형질의 변화를 가져오는지 밝히는 것이라면, 전통적인 forward genetics는 형질이 다른 개체 간의 유전자 차이를 찾는 것이라고 하겠다. 돌연변이 중에는 형질의 차이를 가져오지 않는 중성 돌연변이도 많고, 우리가 집중하고 있는 형질이 아닌 다른 형질의 차이를 가져오는 돌연변이도 많을 것이다. 이러한 문제를 해결하기 위해서는 형질의 차이를 보이는 집단별로 가능한 많은 개체의 게놈을 해독하여 통계적으로 유의한 차이를 찾아야 할 것이다.
개체 수준의 시퀀싱이 현실적이지 않았던 시대에는, 선행 연구를 통하여 한 생물 종에서 가능한 돌연변이들을 카탈로깅해 놓고, 이들의 존재 여부를 각 개체 별로 타이핑하는 방법을 사용하였다. 이러한 접근법의 대표적인 것이, 특정 돌연변이에 민간한 PCR을 시행하는 것이다. 한번에 많은 돌연변이를 타이핑하기 위해서 여러 방법이 고안되었는데, 결과적으로 SNP microarray chip이 대중적인 기술로 정착되었다. 이 방법은 인간들의 게놈에서 흔히 발견되는 돌연변이 1백만 개 정도를 샘플 당 10만원 정도에 타이핑할 수 있는 경제적인 방법이다. 하지만 선행 연구에서 카탈로깅해 놓지 않았던 것은 타이핑할 수 없는다 결정적인 단점을 가지고 있다. 즉, 인류 대대로 유전되어 온 돌연변이는 꽤 흔할 것이기에 대부분 타이핑하는데 문제가 없는데, 최근에 생긴 것이라든지, 암 세포의 체세포 돌연변이처럼 유전된 것이 아닌 것은 알아낼 수 없다는 한계를 갖고 있다.
인간처럼 표준 게놈 서열이 해독되어 있는 경우라면, 다양한 개체를 NGS로 시퀀싱하여 표준 게놈과 비교하면, 어느 부위에 차이가 있는지 쉽게 알아 낼 수 있다. 이러한 돌연변이 중에서 질병을 가진 환자군에서만 공통적으로 존재하지만, 정상인에서는 발견되지 않는 것을 찾으면 질병을 유발하는 유전자로 볼 수 있을 것이다. 이러한 방법론을 개체 별로 다시 시퀀싱한다고 하여 re-sequencing이라고 한다. 암 세포의 체세포 돌연변이 발굴에 이 방법이 많이 쓰이고 있으며, 유전성 질환의 원인유전자 발굴에도 사용된다. 반면에 많은 유전자가 관련되어 있어서 많은 환자의 데이터를 통계적으로 처리해야 하는 복잡질환의 경우에는 아직 SNP chip에 의존하는 형편이다.
식물의 품종 개량을 게놈 수준에서 연구하는 경우에도 활용되고 있다. 예를 들면, 벼의 품종들을 시퀀싱하여 벼의 원산지가 어디였는지 밝히는 것이다. 아시아에서 주식으로 하는 벼의 대표적인 품종은 동남아에서 주식으로 하는 인디카와 동북아에서 주로 먹는 자포니카로 나뉜다. 이들이 어떤 품종 개량의 역사를 거쳐왔는지를 게놈 해독 결과와 고고학적 연구를 접목하여 규명한 결과, 중국 양자강 유역에서 자포니카의 재배가 시작되었고, 그 아종 종에서 야생종과 교배를 통하여 인디카가 개발되었다는 것이다.
식물의 경우에는 종종 표준게놈이 완성되지 않은 상황에서 형질과 관련된 변이를 발굴할 필요가 있다. 이럴 때 유용한 방법이 여러 가지 제한효소로 염색체를 절단하고 절단 부위를 NGS로 시퀀싱하는 것이다. 이를 Genotype-by-Sequencing (GBS)라고 하는데, 제한효소가 인식는 부위에 돌연변이가 존재하는 품종은 절단이 되지 않을 것이고, 절단된 조각DNA의 끝부분만을 시퀀싱하여 각 품종 별로 절단되는 부위를 카탈로깅할 수 있다. 이 정보를 품종 별로 비교하여 형질과 관련이 있는 돌연변이를 찾을 수 있다.
미생물 메타게놈 종 판독
우리 몸에는 엄청난 수의 미생물이 공생내지는 기생하고 있다. 이들 균총의 프로파일이 질병과 관련성이 높다는 보고가 최신 급증하는 추세이다. 또한 토양이나 해수 등의 자연 생태계에도 엄청난 양의 미생물이 균총을 이루고 있다. 이러한 미생물 중에는 배양이 되지 않아서, 종래의 방법으로 동정하기 쉽지 않은 경우가 대부분이다. 배양하지 않고, 균총에서 게놈 DNA를 추출하여 직접 시퀀싱하고 이를 생명정보학적으로 분석하여 어떤 균이 얼마나 있었는지 알아내는 방법론을 메타게놈분석법이라고 한다. 종 판별이 목적이라면, 16S rRNA만을 추출하여 이를 시퀀싱하여 기존에 알려진 종들의 16S rRNA 서열들과 비교하면 어떤 종들이 있었는지 알 수 있을 것이다. 16S rRNA는 생명 유지에 필수적인 유전자라서 돌연변이가 잘 일어나지 않는 부위가 있다. 이런 부위를 이용하여 16S rRNA만 추출할 수 있고, 그 사이에 종특이적인 부위를 포함시켜서 시퀀싱하면 된다. 종 판별을 넘어서서 아직까지 발견되지 않았던 새로운 종의 게놈 서열을 밝히고 싶다면, 16S rRNA만 시퀀싱할 것이 아니라, 게놈 전체를 시퀀싱하고 이를 조립하여야 한다. 서로 다른 종의 게놈은 서열이 다를 것이기 때문에, 콘티그는 종 별로 조립될 것이다. 이를 Shotgun 메타게놈 시퀀싱이라고 한다.