개발정보/DataAnalytics

[데이터마이닝입문]D03상관분석

코리안던 2021. 3. 25.

상관분석 : 변수 2개

X1과 X2가 상관관계가 있는지 보는게 상관분석.

Scatter Plot 방향이 기울기가 위쪽으로 올라가면 양의 상관관계, 아래쪽으로 내려가면 음의 상관관계, 동그라미면 상관성이 없음. 변수들간에는 상관관계가 없는게 좋음

몸무게와 키 같은 경우, 키 크면 몸무게가 많이 나갈수 밖에 없음

 

10C2(10컴비네이션9) = 10x9/2x1(분모는 중복된 데이터) = 45

 

10개 변수에서 2개 뽑는 확률 10C2 행렬의 위치를 좌표로 치환하면, 

데이터 평균을 0으로 가지고 온다. x-u(Centering한다)

 

공분산행렬은 매우매우 중요하다. 아래 그림을 무조건 알아둘것

 

공분산 매트릭스

E 기대값이란 표현이 붙으면

 

자기변수가 얼마나 퍼져있는지 나타내는 분산
Relation을 나타내는 R, P(rho)
P(rho)12 구하는 식이 상관계수이다.
대각행렬. P12와 P21의 관계는 대칭symmetric

1. Centering

2. 공분산 

3. 로 : 상관행렬을 만든다

1. 평균 구하기 : 첫번째 변수는 2, 두번째 변수는 3. 평균에서 변수값을 다 뺀다.
센터링 끝났음. 공분산 행렬로 만들어야된다
코베리언스를 다 구했음

가설검증은 다 넘기고.

상관분석의 의미를 알아야 한다. p29

 

로의 범위는 

변수간의 선형관계만 본다.

상관성이 없다
0.5 이상에서 보면 어느 정도 상관관계가 있다. 만약 0.8이다는 높은 상관성을 본다.공학에서 나오는 문제들은 상관성이 높게 나오고 사회문제에서는 값이 크게 나오지 않는다.

 

비선형관계가 있다(2차함수) p(x1,x2) p12 = 0이 나온다. 우리는 선형관계가 있는것만 뽑아낸다. 독립이면 관계가 없다. 따라서 선형관계 값이 0이다, 상관관계가 있을 수 있다? 알수 없다. 선형에서만 0이지 비선형관계는 있을 수 있기 때ㅜㅁㄴ에
서열 상관 분석에서 10명

공분산을 매트릭스로 표현 하면? 

2x2 Matrix로 표현댐

서열로 만들어서 상관분석을 하면 ? Spear Man(첫번째 피어슨 상관분석, 두번쨰 스피어만, 세번째 켄달 타우 상관분석)

 

 

댓글