검색결과 리스트
글
기본적인 개념은 말야..
두 책을 비교할 때 단어의 빈도를 조사하는 방법도 있겠지만..
단어나 띄어쓰기나 문장의 길이에 상관없이 l개의 시퀀스로 이루어진 l-mer로 자르고 연관되는 l-mer의 빈도수를 가지고 두 책을 비교하자는 거거든..
전체 텍스트를 일일히 살펴보지 않기 때문에 시간이 훨씬 절약되지..
여기서 중요한 parameter는 l-mer의 길이.. 그 길이로 해상도가 판가름 나.. 여기서 해상도라면 두 책이 얼마나 가깝고 다른지 판별할 수 있는 능력이 되겠지..
이것으로 코란이 KJV 역본과 가장 비슷하다는 것도 알 수 있고 셰익스피어의 작품들도 비슷한 것끼리 모으는 게 가능해 지는 거지.
이것을 full genome의 비교에 사용하자는 말인데.. 음.. 결국 파라미터 정하는 것에 따라 가능과 불가능이 판가름나겠지..
RECENT COMMENT