Feature frequency profiles 공부 2010. 12. 17. 12:11

기본적인 개념은 말야..

두 책을 비교할 때 단어의 빈도를 조사하는 방법도 있겠지만..

단어나 띄어쓰기나 문장의 길이에 상관없이 l개의 시퀀스로 이루어진 l-mer로 자르고 연관되는 l-mer의 빈도수를 가지고 두 책을 비교하자는 거거든..

전체 텍스트를 일일히 살펴보지 않기 때문에 시간이 훨씬 절약되지..

여기서 중요한 parameter는 l-mer의 길이.. 그 길이로 해상도가 판가름 나.. 여기서 해상도라면 두 책이 얼마나 가깝고 다른지 판별할 수 있는 능력이 되겠지..

이것으로 코란이 KJV 역본과 가장 비슷하다는 것도 알 수 있고 셰익스피어의 작품들도 비슷한 것끼리 모으는 게 가능해 지는 거지.

이것을 full genome의 비교에 사용하자는 말인데.. 음.. 결국 파라미터 정하는 것에 따라 가능과 불가능이 판가름나겠지..

대단.. 공부 2010. 12. 10. 13:44

http://trynome.com/

허.. 참.. 잘찍네..
관심 공부 2010. 6. 25. 11:21

하일라이트

Nature vol.465 (7301), (24 Jun 2010)

해양 포식자가 먹이를 찾기 위해 이용하는 레비 및 브라운 운동

먹이 공급이 일정하지 않은 서식처에서 먹이를 찾는 가장 좋은 방법은 무엇일까? 가설에서는 먹이를 찾는 개체는 반드시 ‘레비 플라이트 수색 전략(Levy-flight search strategy)’을 취해야 한다고 보고 있다. 레비 플라이트 수색 전략은 ‘랜덤 워크(random walk)’의 변형된 형태로 짧은 거리의 수색이 가끔씩 보다 먼 거리의 수색으로 이어지는 것을 의미한다. 하지만 포식자가 자신이 풍부한 먹이들 사이에 있다는 것을 인식하는 경우에는 ‘브라운 운동(Brownian movement)’만으로도 충분한 것으로 나타났다. 실제 야생 동물이 레브 플라이트 수색을 하는지에 대한 명확한 증거는 확인하기 어려웠지만, 상어, 청새치, 그리고 참치를 포함한 해양 포식자 14종에 대한 대규모 데이터 분석을 통해서 몇 가지 증거들이 포착되었다. 전자 태그를 이용한 연구에서 어류들은 먹이가 적은 지역에서는 레비 플라이트 수색방식을 취하지만, 먹이감이 많은 곳에서는 브라운 운동 방식을 채택하는 것으로 확인되었다.

Bookmark and Share

Letters to Nature p.1066

doi:10.1038/nature09116

계란찜 공부 2010. 5. 3. 22:18
누군가 계란을 전자렌지에 넣고 돌리다 터졌다길래.. 실험해 봤다.
한쪽은 노른자를 풀어 보았고 한쪽은 노른자를 풀지 않은 채 두 개를 전자렌지에 넣고 돌렸다..
퍽 소리가 났다.. 보니 노른자를 풀지 않은 쪽이 터져 있었다..
생각해 보면 원리는 간단하다.. 노른자를 둘러싼 얇은 막 때문이다.
노른자는 팽창하려 하는데 그 막 때문에 팽창할 수가 없어서 터지는 것이다..
그러니.. 노른자를 터뜨려 주면 전자렌지로도 맛있는 계란찜을 먹을 수 있다는 사실..^^
버리기 공부 2010. 4. 20. 22:05
GTD를 내 삶에 적용하며 새로이 생각한 것은..
잘 버리기다..
정보이건 공부이건 자료이건..
일단 일에 맞지 않으면 버리기부터 시작해야 한다.
쓸 데 없는 자료가 나를 더 괴롭히지 않도록..
GTD 개념잡기 공부 2010. 4. 14. 15:00
삶의 계획을 좀 세우기 위해 GTD를 도입해 보려 한다..
기 보다..ㅋ 일단 주어진 일들을 효과적으로 계획하고 해야겠기에.
울며 겨자먹기로 억지로 내 삶에 도입된 개념이다..ㅜ_ㅜ
잘 적응되면.. 나도 계획적인 인간이 될 수 있으려나?ㅋ
불가능해 보이긴 하지만.. 이런 식으로 쪼개서 문제를 보는 것도 나름 나쁘지 않다고 생각한다..

0단계- 준비단계:
1. 수집함: 일단 닥친 걱정거리와 일을 수집하여 수집함에 넣는다..
e-mail이면 inbox를 통째로 불러와도 좋고 특정 파일이나 필요한 모든 것을 수집함에 넣는다.
2. 쓰레기통: 분류되지 않은 것 중 버려야 할 것들을 담자.. 버리는 것 중요하다.
3. 분류박스: 행동이 필요한 것은 시간단위로, 참고는 알파벳 순이나 분야별로..

1단계- 수집단계:
오늘 vs 수집함
일단 오늘 할 일에 대해 수집함에서 제외한다.
한군데에만 기록하고 적당히 자세히 기록한다.

수집함옆에 쓰레기통을 두고 수시로 비워라.

2단계- 평가단계
분류 혹은 평가단계
1. 행동이 불필요한 경우
1) 참고자료: 지속성이 있을 때
2) 대기자료: 한정 기간에 필요가 있는 자료인 경우
3) 즉시 버린다

2. 행동이 필요한 경우
1) 2개 이상의 행동이 필요한 경우: 프로젝트를 만든다.
2) 2분 이내에 처리할 수 있는 경우: 즉시 해치운다.
3) 위임할 수 있는 경우는 위임한다.
4) 특정 날짜와 시간의 행동을 기록하되 그 날짜에 실행해야 하는 것만 기록한다. 모든 것을 기록하지 않는다.
5)위 경우에 대응하지 않는 일은 어느 정도의 시점에서 마감해야 할 일들이다 (some days).

3단계- 관리단계
1. 캘린더: 날짜별로 해야할 일을 관리한다.
2. 컨택스트: 장소나 상황에 따라 해야할 일을 관리한다.
3. 프로젝트 폴더: 프로젝트 별 관리
4. 책임영역: 컨택스트와는 달리업무 결과의 책임 소재이다.
5. 참고자료: 정기적으로 분류를 체크해 둔다.
6. 향후 검토 사항 역시 분류해 두고 체크한다.

4단계- 검토단계
한주에 한번 정도 실행리스트와 대기리스트를 검토한다.

5단계 실행단계
1. 바로 포기: 문제가 지속되는데 실행할 의사가 없는 경우
2. 곧 실행
3. 자신과 협의 후 연기. 날짜를 정확히 한다.
외야수의 직관 공부 2010. 3. 10. 13:32
생각이 직관에 묻다 라는 책에서 읽은 건데..
야구에서 외야수가 공을 잡는 방법에 대한 거야..
외야수가 외야로 날아오는 공을 잡기 위해서는 공의 위치를 생각으로 예측해 내고 움직이면 이미 늦게되지..
그것보다 직관적으로 공을 잡는 법을 익혀야 하는데..
대부분 가장 먼저 익히는 방법이 눈을 들어 공을 본 다음
이 공을 쳐다보는 시선의 각도가 변하지 않도록 뛰는 거지..
떨어지는 속도를 생각한다면 시선의 각도가 변하지 않게 계속 뛰면 거의 낙하 지점까지 찾을 수 있거든..
이렇듯 생각보다 직관이 우선해야 하는 일이 생활 속에도 있다는 거야..

그래프 추상화(The Graph Abstraction)

그래프는 많은 종류의 문제를 푸는데 유효한 수학적 추상화이다. 기본적으로는 그래프는 정점과 에지로부터 구성되어 에지는 두 개의 정점을 묶는다. 좀 더 정확하게는 그래프(graph)와는 묶음(V,E)로 나타내져 V는 유한 집합으로, EV 2항 관계이다. V정점 집합(vertex set)으로 불려 그 요소를 정점(vertex) 이라고 부른다. E는 에지의 집합으로 에지(edge) 와는 (u,v)의 묶음으로 u,vV의 요소이다. 유향 그래프(directed graph)에 대해서는 에지는 순서가 있는 묶음으로 시점(source)종점(target)으로 접속한다.무향 그래프(undirected graph)에 대해서는 에지는 순서가 없는 묶음으로 2개의 정점을 양방향에 잇는다. 즉 무향 그래프에서는  (u,v)(v,u)는 같은 에지의 2가지의 쓰는 법이다.

그래프의 이 정의는 몇 개의 점에서 애매 하다. 에지나 정점이 무엇을 표현 할 지가 진술되지 않았다. 그래프의 예로서는 연락 도로나 하이퍼 링크 첨부의 웹 페이지 등을 들 수가 있다. 이러한 상세가 그래프의 정의로부터는 제외되고 있는 것은 큰 이유가 있다. 그러한 자세한 것은 그래프의 추상화 중에서는 필요한 부분은 아니다. 상세를 정의로부터 제외하는 것으로 재이용 가능한 이론을 구축할 수 있어 그것은 많은 다른 종류의 문제를 풀 때에 도움이 되는 것이다.

정의에 돌아오자. 그래프는 정점과 에지의 집합이다. 실제의 모습을 보이기 위해 정점으로 문자의 라벨이 붙은 그래프를 생각해 에지를 단순하게 문자의 묶음으로 하자. 여기서 유향 그래프의 예를 다음과 같이 쓸 수가 있다.

 

V = {v, b, x, z, a, y }
E = { (b,y), (b,y), (y,v), (z,a), (x,x), (b,x), (x,v), (a,z) }
G = (V, E)

 

이 그래프를 표시 하면 그림1 과 같이 된다. 에지(x,x)고리(self-loop)로 불린다. (b,y)(b,y)평행에지(parallel edges)이며 이것은 멀티 그래프(multigraph) 에서만 허용된다(다만 통상은 유향 그래프에서도 무향 그래프에서도 용서되지 않는다).

그림1: 유향 그래프의 예

 

다음에 비슷한 그래프를 나타내지만 이번은 무향 그래프이다. 이것은 그림2에 표시한다. 무향 그래프에서는 고리는 용서되지 않는다. 상기의 그래프(로부터 평행에지(b,y)를 제외한 것)무향판(undirected version)이다. 그것은 즉 같은 정점을 갖고 같은 에지로부터 방향을 제외한 것을 가지는 것을 의미해 (a,z)라고(z,a)말하는 2개의 에지는 하나의 에지에 퇴화 한다. 그리고 역으로 생각할 수도 있다. 무향 그래프의 유향판(directed version)은 모든 에지를 각각의 방향을 향하는 2개의 에지로 옮겨놓는 것으로 얻을 수 있다.

 

V = {v, b, x, z, a, y }
E = { (b,y), (y,v), (z,a), (b,x), (x,v) }
G = (V, E)

 

그림2: 무향 그래프의 예

 

여기서 한층 더 그래프의 용어를 정의한다. 에지(u,v)가 그래프에 포함될 때 정점v은 정점u에 도착해 인접하고 있다(adjacent)라고 말한다. 유향 그래프에서는 에지(u,v)는 정점u아웃에지(out-edge)이며 정점v인에지(in-edge)이다. 무향 그래프에서는 에지(u,v)는 정점uv접합하고 있다(incident on)라고 한다.

그림1에서 정점y는 정점b에 대해서 인접하고 있다(다만by에 대해서 인접하고 있지 않다). 에지(b,y)b의 아웃에지이며 y의 인에지이다. 그림2에서 yb에 인접하고 있고 역도 마찬가지이다. 에지(y,b)는 정점yb를 접합하고 있다.

유향 그래프에 대해 어느 정점의 아웃에지의 수는 출 차수(out-degree)로 불려 인에지의 수는 입 차수(in-degree)로 불린다. 무향 그래프에 있어 어느 정점에 대해 접합하고 있는 에지의 수는 차수(degree)로 불린다. 그림1에서 정점b의 출 차수는3이며 입 차수는 0이다. 그림2에서는 단순하게 정점b의 차수는2이다.

그래프의 패스(path)이라는 것은 에지의 열로 각각의 에지의 종점이 다음의 에지의 시점인 것이다. 정점u으로부터 시작되어 정점v에서 끝나는 패스가 있다면 정점vu으로부터 도달 가능(reachable)이라고 한다. 패스가 단순(simple)하다는 것은 에지의 열 중에서 어느 정점도 반복해 나타나지 않는 것이다. 패스 <(b,x), (x,v)>는 단순하지만 패스<(a,z), (z,a)> 는 단순하지 않다. 그리고 패스 <(a,z), (z,a)>는 최초의 정점과 마지막 정점이 일치하므로 사이클(cycle)로 불린다. 사이클이 없는 그래프는 어사이클릭(acyclic)으로 불린다.

planar graph 란 모든 에지가 교차하지 않게 평면상에 그릴 수 있는 그래프이다. 그처럼 그려진 것은 plane graph로 불린다.  plane graph(face)이란 에지에 둘러싸인 연결 성분이다.  planar graph의 중요한 특성은 면, , 정점의 수가 오일러의 정리:|F| - |E| + |V| = 2에 의해 관계 붙일 수 있는 것이다. 이것은 planar graph은 최대에서도O(|V|)개의 에지 밖에 가지지 않는 것을 의미한다.