실제 함수를 f(x)라 하고 샘플 집함 X로 추정한 모델을 g(x)라 하면 얼마나 충실한 지를 나타내는 것은 평균 제곱 오차(mean squre error: MSE)이다. N 개의 샘플을 가진 샘플 집합 Xi에 대한 SE는 (g(x;Xi)-f(x))^2이고 N개의 샘플을 가진 모든 X에 대한 평균은 Ex((g(x;Xi)-f(x))^2)이며 이것을 전개하면 
 
Ex((g(x;Xi)-f(x))^2) = (Ex(g(x;X)-f(x)))^2 + Ex((g(x;X)-Ex(g(x;X))^2)

여기서 등호 뒤의 식 중에서 앞의 식은 모델 g(x)와 f(x)의 차이를 뜻하며 이것을 바이어스라 부를 수 있고 뒤의 식은 서로 다른 샘플 집단으로 추정한 g(x)의 차이를 말하며 이것은 분산에 해당된다. g(x)가 f(x)에 근접할수록 바이어스는 줄어들고 샘플의 차이에 의한 분산은 커진다. 반대로 근접하지 않는다면 바이어스는 커지고 분산은 그리 크지 않게 된다.
또한 어떤 모형이라도 모든 샘플 집합을 고려한 평균 제곱 오차는 같다. 오차의 내용만 달라진다. 이것을 바이어스 분산 딜레마 (bias-variance dilemma) 혹은 보존 법칙(conservation law)라고 부른다.
또한 샘플 집합 N의 크기가 커지면 분산의 값이 작아진다는 사실이 밝혀져 있다. 
모형의 성능 평가 공부 2011. 8. 15. 13:59

성능 평가

 

정인식률(correct recognition rate) = c/N

기각률(reject rate) = r/N

오류율(error rate) = e/N

 

혼동 행렬(confusion matrix)

 

분류 결과

W1

W2

참 부류

W1

n11(TP)

n12(FN)

W2

n21(FP)

n22(TN)

 

거짓 긍정률(FPR, fall out) = FP/(FP+TN)

거짓 부정률(FNR) = FN/(FN+TP)

 

정확률(precision, PPV) = TP/(TP+FP)

재현률(recall, sensitivity, TPR) = TP/(TP+FN)

 

 

ROC curve

TPRFPR로 나타내는 곡선. random일 경우 기울기 1인 직선의 형태로 나타나며 AUC (Area under curve)0.5가 되며 1에 가까울수록 모형의 성능이 좋다.

 


10 Protein-Protein Interface Prediction Servers

The task of predicting the interface of a given protein using only the structure of the unbound protein, is an important goal. Many groups have attempted tackling this problem from different fronts and using different approaches. We preset here 10 popular protein-protein interface prediction servers. This might prove especially helpful to those who take part in the ongoing CAPRI round.

And the servers are (in random order):

  1. PPI-pred - Predicts protein-protein binding sites using a combination of surface patch analysis and a support vector machine (SVM) trained on 180 proteins involved in both obligate and non-obligate interactions. Cite: Improved prediction of protein-protein binding sites using a support vector machines approach.
  2. meta-PPISP - Built on three individual web servers: cons-PPISP, PINUP, and Promate. A linear regression method, using the raw scores of the three severs as input, was trained on a set of 35 nohomologous proteins. Cite: meta-PPISP: a meta web server for protein-protein interaction site prediction.
  3. cons-PPISP - A consensus neural network method for predicting protein-protein interaction sites. Given the structure of a protein, cons-PPISP will predict the residues that will likely form the binding site for another protein. The inputs to the neural network include position-specific sequence profiles and solvent accessibilities of each residue and its spatial neighbors. The neural network is trained on known structures of protein-protein complexes on a benchmark set of 22 protein complexes. Cite: Prediction of interface residues in protein-protein complexes by a consensus neural network method: Test against NMR data.
  4. PINUP - Trained on a 57-protein data set and employs: (i) effective residue-energy score and accessible-surface-area-dependent interface-propensity, (ii) isolation of functional constraints contained in the conservation score from the structural constraints through the combination of residue-energy score (for structural constraints) and conservation score and (iii) a consensus region built on top-ranked initial patches. Cite: Protein binding site prediction using an empirical scoring function. 
  5. ProMate - A set of surface dots at a constant density is extracted for the query protein. These dots serve as centers for 10A-radius circles over the protein’s surface. Using the distributions of the properties, that have been found to distinguish binding from non-binding surfaces, the predictor evaluates the probability of each circle to appear at the interface. Cite: ProMate: a structure based prediction program to identify the location of protein-protein binding sites.
  6. SPPIDER - A representation which integrates enhanced relative solvent accessibility (RSA) predictions with high resolution structural data. RSA prediction-based fingerprints of protein interactions significantly improve the discrimination between interacting and noninteracting sites. Cite: Prediction-based Fingerprints of Protein-Protein Interactions.
  7. WHISCY - primarily based on conservation, but it also takes into account structural information. A sequence alignment is used to calculate a prediction score for each surface residue of your protein. Cite: WHISCY: What information does surface conservation yield? Application to data-driven docking.
  8. ConSurf - A useful and user-friendly tool that enables the identification of functionally important regions on the surface of a protein or domain. Based on the phylogenetic relations between its close sequence homologues. Cite: ConSurf: the projection of evolutionary conservation scores of residues on protein structures
  9. InterProSurf - Predicts interacting amino acid residues in proteins that are most likely to interact with other proteins. The prediction method is based on solvent accessible surface area of residues in the isolated subunits, a propensity scale for interface residues and a clustering algorithm to identify surface regions with residues of high interface propensities. Cite: InterProSurf: a web server for predicting interacting sites on protein surfaces.
  10. ProteMot The Protemot (Protein motif) web server predicts protein binding sites based on the interaction templates automatically extracted from the compound crystals in the Protein Data Bank (PDB). Cite: Protemot: prediction of protein binding sites with automatically extracted geometrical templates

Zhou & Qin wrote a very nice review of interface prediction methods and the evaluation of such methods and compared the performance of 6 of the servers presented above. (Interaction-site prediction for protein complexes: a critical assessment) according to their assessment on two data sets the best performing server, out of those 6, is meta-PPSIP (also by Zhou & Qin).

Good luck with your predictions! Know of any good server that is not on the list ? Tell us in the comments.

t-test 공부 2011. 4. 29. 15:51

Student T- test는 continuous variable, equal variance distribution of normal distribution에 대한 평균의 비교.

  1) 정규 분포를 보이고
  2)분포도 같다고 가정

 

1. 분포가 다르다면

: 두 분포의 분산이 같은지 확인하려면 Levene's test를 사용.
Levene의 등분산 F 검정결과 p값이 0.05보다 작으면 두 집단의 분산이 서로 다르다고 판정.

 

  1) 두 분포의 분산이 같다면 student T- test

  2) 만약 두 분포의 분산이 서로 다르다면(Levene's test p value< 0.05이라면) student T- test가 아닌 Welch's t-test를 사용. ( independent sample t-test)

 

2. 정규 분포가 아니라면 비모수 통계로 들어가야 합니다. 이들에 대한 통계결과는 parametric test에 비해서 power가 낮다.

  Kolmogorov-smirnov test (K-S 검증) or Shaprio-Wilk test :: SPSS에서 분석>비모수 통계> 독립표번 검증에서 옵션

  Kolmogorov-smirnov test에서 normality가 기각된다면 non parametric test인 Mann-Whitney U test ( Wilcoxon rank sum test) 로 통계 검증.
 
Mann-Whitney U test란 두 분포를 median를 중심으로 비교했을때 A group분포에서 어느정도 떨어진 a가 B group 분포에서도 어느 정도 떨어진 b와 같은 확률로 발생가능한지 검증하는 것입니다.

 

                 정규 분포    비정규분포

2 그룹 비교  T-test       Mann-Whitney U

3 그룹 비교  ANOVA     Kruskal Wallis

Excel에서 t-test를 하는 방법
 
t-test는 2가지 표본이 서로 유의하게 다름을 보일 때 사용하는 놈입니다.
엑셀에서 시행하는 방법을 알아봅시다.
 
 
 
T test를 하기 위해서는 변수에 대한 다음 3가지 내용을 확인한다. 

1. 쌍을 이루는 변수인가? 
 - 예를 들어 다이어트를 시행한 사람들의 체중이 유의하게 줄어들었는가 확인하는 경우에는 a1과 b1, a2와 b2는 각각 쌍을 이루고 있다. 
 - 쌍을 이루면 Paired-samples T test 를 시행해야 하고, 아니면 Independent-samples T test 를 시행한다.
 - 쌍을 이루는 경우에는 당연히 두 개의 표본 개수가 같아야 한다.
 - 잘 모르면 쌍을 이루지 않는다고 보자.

2. 두 변수의 분산이 유의하게 같은가? 
 - 이는 두 변수에 대해서 F test를 시행해서 확인해봐야 하며, p >0.05 이면 각각의 변수의 분산이 같다고 볼 수 있다. (F-test를 먼저 시행해야 t-test를 시행할 수 있다)

3. 단측 분포인가, 양측 분포인가? 
 - "a가 b보다 유의하게 크다" (또는 작다) 라는 가설을 보이는 경우에는 단측 검정, "a와 b는 유의하게 다르다" 라는 가설을 보이는 경우에는 양측 검정이다.
 - 잘 모르면 양측 분포(2-tailed test)를 시행하자.


시행 순서

1. FTEST(표본1, 표본2) 라고 입력해서, 그 값이 0.05가 넘으면 분산이 같다고 보고, 0.05 이하이면 분산이 다르다고 본다.
 - 두 표본이 정규분포를 갖는 모집단에서 추출되었다고 가정하여, 두 모집단의 표본분산의 비를 계산한다. 만약 모분산이 같다면, 표본분산 비는 1에 가까운 값이 나온다.

 - 변수는 드래그하거나 shift-화살표 등으로 선택해주면 된다.

2. TTEST(표본1, 표본2, 단측or양측, t검정종류) 
 - 단측 or 양측: 단측이면 1, 양측이면 2 을 입력한다.
 - T 검정 종류: 쌍을 이루면 1, 분산이 같은 표본은 2, 분산이 다른 표본은 3 을 입력한다.

3. 이렇게 해서 나온 결과값 (p 값)이 0.05 미만이면 유의하게 다르다고 볼 수 있다.
폴라로이드 작동법 공부 2011. 2. 15. 23:54
microsoft mathematics 공부 2011. 1. 20. 16:01
파일을 읽자.. 공부 2011. 1. 18. 15:11
자주 쓰는 펄 구문인데.. 한참 생각이 안 날 때가 있어서 적어둔다.
open (filehandle name, "filename");
(쓰기라면 ">filename", append라면 ">>filename".)
close(filehandle)
그 안의 텍스트를 한줄씩 읽어 오는 기초적인 방법은

while ($name=<filehandle>){
chomp($name);
$word=<filehandle>;
chomp($word);
$words{$name}=$word;
}

조금 쉽게 얘기하자면...

많은 신경세포들의 연결에 의해 우리는 인식과 학습이 가능한데..
여기서 자극을 입력 받는 신경세포들의 레이어인 input layer와 입력 받은 자극을 출력하는 output layer 사이에 학습을 위한 hidden layer가 있다는 거야.
각각의 신경세포들은 연결되어 있고 이 연결강도는 각각의 가중치(이걸 weight이라 불러야 되나)에 따라 달라지지..


0400180505002.png

그럼 이 가중치를 어떻게 결정하냐고?
처음에는 랜덤으로 가중치를 할당해. 그럼 제일 처음 나온 ouptput layer와 input layer의 상관도는 많이 떨어지게 되는 거지. 그럼 이 때 이 output layer의 값을 다시 역전파(Back propagation)시켜서 input layer와 상관관계를 가지도록 각 연결의 가중치를 조절하게 되는 거지. 이것을 계속 반복하면서 input과 output이 허용치 이내의 상관관계를 가지도록 가중치를 조절하는 것을 back propagation neural network (BPNN)이라고 해..