top of page

Scaffolding

 

게놈 시퀀싱 데이터를 콘티그 조립을 하면, 하나의 콘티그로 전체 게놈이 연결된 상태로 얻어지는 것이 아니고 많은 수의 콘티그로 나뉜 상태로 얻어지게 된다. 그 이유는, 앞에서 살펴봤듯이, 아무리 시퀀싱를 깊이 있게 해도 여전히 샘플링이 안되는 부위가 확률적으로 있을 수밖에 없기에, 이런 부위에서 콘티그는 연결이 되지 않고 끊어지게 된다. 또한 반복서열이 위치하는 부위에서도 콘티그가 끊어지기 쉽다. 컨티그들을 원래 게놈 구조와 일치하도록 순서와 방향을 잡아 주는 작업을 뼈대를 잡는다고 하여 스캐폴딩이라고 한다. 오른쪽 그림처럼, 원래 게놈의 구조는 Contig1, Contig2, Contig3의 순서로 늘어서 있었다고 한다면, 그림 아래쪽에 표시된 스캐폴드에서 검게 칠해진 부위는 콘티그 조립에 참여하지 못한 부위로서 갭이라고 한다. 콘티그들의 순서와 방향을 잡아주기 위해서는 붉은 색과 파란 색 화살표로 표시된 쌍끝 서열들이 필요하다. 붉은 색 쌍은 하나의 조각 DNA의 양끝에서 시퀀싱된 것을 의미한다. 이 쌍은 Contig1과 Contig2가 서로 인접하다는 것을 암시한다. 즉 조각 DNA의 길이를 알 수 있다면, 이 두 콘티그 사이의 갭의 크기를 추정할 수 있다. 일반적으로 각각의 조각 DNA 하나 하나의 길이를 분자생물학적 실험으로 정확히 측정할 수는 없고, 조각 DNA 라이브러리의 평균 길이와 그 표준편차를 유추할 수 있다.

 

  • 이 붉은 쌍끝 서열들의 각 Contig에서의 위치와 조각 DNA의 평균 길이에서부터 갭의 크기를 추정하는 공식을 유도하라. 오른쪽 그림처럼 이런 붉은 쌍끝 서열이 다수 존재한다면 공식은 어떻게 바뀔까?

 

콘티그들을 연결할 수 있는 조각 DNA들을 시퀀싱 라이브러리에서 찾아낼 수 있다면, 이들을 양끝만 시퀀싱할 것이 아니라 중간 부분도 시퀀싱하게 되면 갭을 메울 수 있게 된다. 이러한 작업을 gap filling 또는 finishing이라고 한다. 이 때 사용하는 시퀀싱 전략에는 primer walking 같은 것이 있다. 하지만 이는 긴 시간과 노력이 필요한 작업이라서 우선 순위가 뒤쳐진다. 경우에 따라서는 특정 콘티그들을 연결할 수 있는 조각DNA가 발견되지 않아서, 다수의 스캐폴드가 서로 연결되지 않는 상태로 남는 경우가 있다. 오른쪽 그림이 시사하는 바와 같이 1차 시퀀싱 라이브러리보다 좀더 길이가 긴 조각DNA를 쌍끝 시퀀싱할 필요가 있다.

contact me

Contact me via e-mail or arrange a visit to my office.

세부정보가 성공적으로 전송되었습니다!

Address

​서울 동작구 상도로 369

숭실대학교 벤처중소기업센터 610호 우06978

Soongsil University Venture Ctr Rm 610

Dongjak-gu, Sangdo-rho 369

Seoul, Korea 06978

  • w-facebook
  • google+

​© 2015 by Sangsoo Kim. Proudly created with Wix.com

bottom of page