top of page

NGS의 활용 분야 (II) RNA-seq

Transcriptomics

전사체는 DNA를 전사하여 얻어진 RNA의 총합을 의미한다. 그중에서도 가장 일찍이 연구된 분야는 단백질을 코딩하는 유전자의 갯수를 알아내기 위해서, 세포로부터 발현된 mRNA를 선별하고 이를 상보적인 cDNA로 변환하여 시퀀싱한 뒤에 중복된 서열을 제거함으로써 몇 가지 고유한 cDNA가 존재하는지 알아 보는 것이었다. 중복을 제거할 때, mRNA의 아형을 구별할 수 있게 되면 alternative splicing을 알아낼 수 있는 보너스도 있고, 각 mRNA가 시퀀싱된 빈도를 측정하면 발현량을 유추할 수 있는 흥미로운 점도 있다. 이런 연구는 표준 게놈 서열이 확보되지 않은 상태에서도 진행할 수 있기 때문에 인간게놈프로젝트가 시작된지 얼마되지 않은 1990년 초반부터 소위 Expressed Sequence Tag (EST) 프로젝트라는 이름으로 만연하였다. 세포의 종류에 상관없이 발현되는 house keeping 유전자도 있지만, 조직 특이적인 유전자도 많기때문에, 가능한 많은 종류의 세포를 대상으로 시퀀싱을 하여야 했다. 이러한 데이터를 모아서 생물 종마다 얼마나 다양한 cDNA가 발견되는지 정리한 데이터베이스가 NCBI의 UniGene이다. 이러한 작업을 소위 '전사체 조립' 이라고 하는데, 완벽하지 않아서, 후에 완성된 인간 게놈 서열과 비교해보니, 인간의 유전자 갯수를 과다하게 계상한 것으로 나타났다.

UniGene이 각 세포 별로 관찰된 빈도 수를 세면 발현량을 측정할 수 있다고 했는데, 당시에는 Sanger 시퀀싱을 사용하였기에, 한 세포에서 수천 개의 EST를 시퀀싱하는 정도였다. 그중의 상당수는 발현량이 높은 유전자가 차지하게 되어, 상대적으로 발현량이 낮은 유전자의 발현량을 정확히 산출하는데는 한계가 있었다. 이를 해결하기 위해서 등장한 방법이 microarray chip 기술이다. 각 UniGene 별로 고유한 부위를 chip에 심고, 샘플의 mRNA를 cDNA로 바꿔서 hybridize시켜 보는 것이다. 이 방법은 발현량이 높은 유전자에 의한 간섭 현상이 없어서 발현량이 좀 낮더라도 큰 무리없이 측정이 가능한 방법으로서 2000년 초반 선풍같은 인기를 끌었다. NCBI의 Gene Expression Omnibus (GEO)는 이러한 데이터세트를 수집하여 놓은 것이다. 이 방법의 결정적인 단점은 chip에 심어놓지 않은 유전자의 발현량은 측정할 수 없다는 것이다.

클릭

시퀀싱 비용만 저렴해지면, microarray 기술에 의존하지 않고 EST처럼 직접 시퀀싱을 통하여 발현량과 alternative splicing 형을 추정할 수 있는데, NGS의 등장이 이를 실현시켜 주었다. EST와 마찬가지로 RNA를 상보적인 cDNA로 변환하고, 이를 좀 더 작은 조각DNA로 자른 다음에 NGS 시퀀싱을 하는 것이다. 이렇게 얻어지 조각 서열을 표준 게놈 서열에 매핑하면, 소위 exon 부위에서만 시퀀싱이 일어났다는 것을 알게 된다. Intron은 건너 뛰게 되니까, 이를 잘 분석하면 alternative splicing 형을 알아낼 수 있다. 보통 한 샘플로부터 수억개의 조각 서열을 시퀀싱하게 되기때문에, 웬만큼 발현량이 낮더라도 시퀀싱될 기회가 많다고 하겠다. 각 서열 별로 시퀀싱되는 빈도가 높으면 추정치도 통계적으로 높은 신뢰도를 갖게 된다.

RNA-seq 실험은 얻어진 RNA의 방향을 유지한 채 시퀀싱할 수 있는 방법이 있는데, 그러면 표준 게놈에 매핑할 때, 이중나선 구조인 게놈의 정방향 가닥에서 유래한 것인지, 역방향 가닥에서 유래한 것인지도 알 수 있다. 이러한 정보를 이용하면 기존에 알려진 유전자와는 역방향으로 코딩되어 있는 소위 anti-sense RNA도 발굴할 수 있다. 또한, 단백질을 코딩하지 않는 부위에서도 많은 전사체가 얻어진다는 사실을 관찰하게 되었으며, 이러한 물질들이 어떤 기능을 하는지 알아내는 것이 현재 중요한 과제가 되고 있다. EST 프로젝트때도 단백질을 코딩하지 않는 다양한 RNA 종이 발견되었지만, 큰 신뢰를 받지는 못했던 것이 사실이다.

전사체 연구의 맹점 중에 하나는, 시퀀싱에 사용되는 샘플은 다수의 세포로 구성되어 있고, 이들의 RNA들이 모인 bulk 형태로 분석되기에 평균적인 현상만 알게 된다는 것이다. 각 세포 별로 유전자의 발현 양태가 다를 수 있는데, 이를 알 수 없다는 것이다. 특히, 암 조직같으면, 서로 다른 돌연변이에 의한 유발된 다양한 암 세포들이 혼합되어 있는 경우가 흔하다. 또한 암 주위에 모인 면역세포들도 다양한 분화 상태를 갖는데, 이들을 세포 별로 구별하여 유전자 발현량을 측정할 수 있는 기술이 single cell RNA-seq 기술이다. 이는 각 세포 별로 특이적인 DNA 바코드를 삽입하여 RNA-seq을 수행하고, 그 결과를 바코드에 따라 분류함으로써, 유전자 발현 패턴이 다른 세포 종류를 알아낼 수 있다. 이를 통하여 실제 생물학적 시스템은 매우 이질적인 것을 알게 되었다.

암을 일으키는 중요한 메커니즘 중의 하나는 유전자의 기능에 변화를 가져오는 돌연변이이다. 하나의 염기가 다른 염기로 치환된 거나 염색체의 특정 부위가 증폭 또는 결실이 일어난 것은 DNA-seq으로 분석해야 할 것이다. 염색체의 한 부분이 떨어져 나와 다른 염색체와 결합하여 생기는 translocation도 이론적으로는 Whole Genome Sequencing으로 분석할 수 있다.발암 유전자 중에는 translocation에 의해 서로 다른 유전자가 조합되어 소위 fusion gene이 된 경우가 많다. 하나의 mRNA에 서로 다른 두 유전자의 엑손들이 모인 것이다. RNA-seq을 하면, 이런 fusion gene product를 쉽게 찾을 수 있다. 왜냐하면, 이런 mRNA을 표준 게놈에 매핑하고자 하면, 하나의 조각 서열의 앞쪽과 뒤쪽이 서로 다른 유전자 부위에 매핑되기 때문이다.


Featured Posts
잠시 후 다시 확인해주세요.
게시물이 게시되면 여기에 표시됩니다.
Recent Posts
Archive
Search By Tags
아직 태그가 없습니다.
Follow Us
  • Facebook Basic Square
  • Twitter Basic Square
  • Google+ Basic Square
bottom of page