top of page

Sanger sequencing 기본원리

 

1977년 생거 등에 의해 개발된 염기서열 분석법으로서 1980년 생거가 두번째 노벨상을 받게된 계기다. 왼쪽 그림 상단에 나와있는 3'-ATGACTGAGC-5'와 같은 template DNA의 서열을 분석하는 경우에, 일반적인 d{A,C,G,T}TP (NTP)만 넣어주면 DNA polymerase는 이에 상보적인 DNA를 합성하게 된다. 하지만 dNTP 외에 소량의 dd{A,C,G,T}TP (ddNTP)를 섞어주게 되면, DNA polymerase가 template DNA에 상보적인 서열을 합성해 나가다가, 중간중간에 ddNTP가 끼어 들어간 DNA 분자가 합성되게 된다. 그러한 분자는 더 이상 길어지지 않고 합성이 중단되게 된다. 이들 ddNTP에는 각각을 구별할 수 있는 형광물질이 결합되어 있기에, 새로이 합성된 DNA 들의 마지막 염기 종류에 따라 서로 다른 형광을 띄게 된다. 여기에서 주목할 것은, 합성된 DNA 분자들은 모든 자리에서 4개 중의 어느 하나의 ddNTP가 끼어 들어간 것이기에, 정확히 한 염기씩 길이의 차이가 나는 것들이다. 이들은 전기영동법에 의해 크기 순으로 나열할 수 있으며, 레이저 빛을 각 전기영동 밴드에 쬐면, 형광물질에 따라 특이적인 파장의 빛을 발하게 되며, 이를 순서대로 읽으면 원래 염기서열과 상보적인 5'-TACTGACTCG-3'을 얻게 된다.

여기에서 다음 사항을 공부해 보세요.

  • ddNTP는 dNTP와 화학적으로 어떻게 달라서 위 그림에서와 같이 chain-terminating 반응을 할 수 있는가?

  • ddNTP와 dNTP는 어는 정도의 비율로 섞어 줘야 할까?

  • 원래 생거시퀀싱이 개발될 때는 형광물질이 아닌 燐 방사성 동위원소의 방사선을 X-선 필름에 감광하였다. 이때는 A,T,G,C를 어떻게 구별했을까?

  • DNA polymerase가 상보적인 염기를 합성하려면, 소위 primer라는 DNA 조각이 결합된 이중나선 부위가 존재하여야 그 뒤의 단일가닥 부위에 상보적인 합성이 가능하다 (참고 그림). 우리가 시퀀싱하고자 하는 DNA는 일반적으로 그 서열을 모르는데, 어떻게 primer를 합성하여 반응에 사용할 수 있을까?

  • 생거 시퀀싱에 대해 더 자세한 정보를 원하면 다음 사이트를 공부해 보세요.

Base call quality score

전기영동으로 다양한 크기의 DNA 분자를 분리하는 방법은, DNA 분자에 있는 인산결합이 음전하를 띄고 있기에 아래쪽에 양극을 배치하여 전기적으로 당기게 된다. 일반적으로 수 시간이 걸리게 되는데, 처음에는 크기에 따라 잘 구별되던 DNA 분자들이 시간이 경과하면서 확산 작용에 의해 번지게 된다. 따라서, 늦게 나오는 전기영동 밴드는 더 넓게 퍼진 상태가 되며, 심해지면 이웃 밴드와 겹치게 되어 분해능이 떨어지게 된다. 오른쪽의 일반적인 전기영동 크로마토그램을 보면 이와 같은 현상을 볼 수 있다.

이런 전기영동 크로마토그램을 분석하여 염기서열을 결정짓는 소프트웨어들은 각 위치별로 염기 서열 분석 결과의 신뢰도를 에러율의 형태로 출력한다. 즉, "T"라고 판정했으면, "그것이 틀린 확률은 1%임"이라고 보고하는 것이다. 일반적으로 에러율이 1% 넘는 염기들이 연속적으로 나오면, 그 뒷부분의 서열은 모두 도려낸다. 생거 시퀀싱은 한번에 통상 500 염기 정도의 양질의 서열을 얻을 수 있는 것으로 알려져 있다.

여기에서 다음 사항을 공부해 보세요.

  • 시퀀싱 크로마토그램의 뒷 부분뿐이 아니라, 앞부분도 봉우리가 깔끔하지 않다. 이 부분도 뒷부분과 마찬가지 방법으로 제거하는 것이 좋을까?

  • 염기 서열 분석의 정확도는 에러율의 형태로 나타내다보니까 0~1의 작은 수이기에 사용에 불편할 때가 많다. Phred라는 염기서열분석 소프트웨어는 자체적으로 변화한 값을 출력하는데, 이를 통상 phred score라고 부른다. 에러율에 상용로그를 취하고 -10을 곱한 수이다. 즉, 에러율이 1%라면 phred score는 20이 된다. 만약에 에러율이 0.1%면 phred score는 얼마인가? 또한 phred score가 40이라면 이는 에러율 얼마에 해당하는가?

생각하기

생거 시퀀싱 방법은 자동화가 가능하여, 넓은 agarose gel plate에 여러 샘플을 동시에 전기영동으로 분리하는 방법을 사용했으며, 나중에는 모세관 현상을 이용한 capillary 전기영동을 사용하게 되었다. 가는 유리관에 한 샘플 반응물을 흘려주면서 분리하기 때문에, 유리관의 갯수만큼 많은 샘플을 동시에 처리할 수 있게 된 것이다. 일반적으로 96 혹은 384 well plate 형태로 샘플을 준비하고, plate 단위로 시퀀싱을 진해하는데, 모든 과정을 로보트 팔을 이용하여 자동화된 기기가 등장하였다 (예, ABI 3700). 이런 자동화 기기 한대가 하루에 10여 plate, 즉 수천 샘플을 시퀀싱할 수 있고, 각 샘플 당 500 염기씩 읽게 되니, 약 1백만 염기 정도의 서열이 얻어진다고 보면 된다.  인간 게놈은 30억 염기이니, 한번만 읽더라도 3000일이 소요되고, 평균 10번씩 반복하여 읽어서 정확도를 높인다면, 3만일이 소요된다. 100대가 사용된다면, 1년 정도 걸릴 수 있겠다.

bottom of page