Feature frequency profiles 공부 2010. 12. 17. 12:11

기본적인 개념은 말야..

두 책을 비교할 때 단어의 빈도를 조사하는 방법도 있겠지만..

단어나 띄어쓰기나 문장의 길이에 상관없이 l개의 시퀀스로 이루어진 l-mer로 자르고 연관되는 l-mer의 빈도수를 가지고 두 책을 비교하자는 거거든..

전체 텍스트를 일일히 살펴보지 않기 때문에 시간이 훨씬 절약되지..

여기서 중요한 parameter는 l-mer의 길이.. 그 길이로 해상도가 판가름 나.. 여기서 해상도라면 두 책이 얼마나 가깝고 다른지 판별할 수 있는 능력이 되겠지..

이것으로 코란이 KJV 역본과 가장 비슷하다는 것도 알 수 있고 셰익스피어의 작품들도 비슷한 것끼리 모으는 게 가능해 지는 거지.

이것을 full genome의 비교에 사용하자는 말인데.. 음.. 결국 파라미터 정하는 것에 따라 가능과 불가능이 판가름나겠지..