개발정보/DataAnalytics

[데이터마이닝]W05

코리안던 2021. 4. 8.

Yi는 실제 데이터값, Y의 값의 평균을 잡고 햇Yi는 예측치

 

모델의 편차

결정계수 R^2가 1에 가까울 수록 좋은 것.

양변을 제곱하면, 

SSE는 와이 아이 마이너스 와이아이의 햇의 제곱의 써메이션
SSR은 와이아이햇 마이너스 와이 바의 제곱의 써메이션(햇 와이아이는 예측치)
R스퀘어는 1에 가까울수록 좋다. 
R^2가 0.6 이상 되면 괜찮다.
에러를 plot을 해보고 모델이 잘 됬는지 검사함.
모델의 예측치(햇y)와 에러의 관계.
리그레이션 라인을 따라서 잘 들어가있으면 이상적인 예측. 에러의 합은 0이어야 한다.
에러의 합은 0이어야 한다.
조건1)에러의 합이 0이어야 한다. 평균이 0이어야한다., 조건2) var
(b) 에러의 분산이 일정하지 않음.
새로운 예측변수를 추가해야함. 
영향 관측치 : influent point, 이상치:outlier
영향 관측치를 제거하고 평균이나 중앙 값을 넣는다.
에러는 정규분포를 따른다. 평균이 0이고
stepwise방법을 가장 많이 사용함. Stepwise는 FeedForward와 Backward를 번갈아가면서 하는 것.
모델 선택이슈, 변수 선택 방법, 로지스틱 회귀 분석 

모델에서 파라메타(변수)가 많을수록 비용이 많이 들어감.

모델은 정확도도 있어야하지만 단순해야함. tradeoff
수정된 결정계수, 수정결정계수. 변수의 수를 적게 쓰는 것에 더 초점을 둔다. 
y값이 이분값일 떄 로지스틱 회귀를 쓴다.
표시한 것은 꼭 알아야 됨. 시그모이드라고 해서 신경망할 때 사용. 꼭꼭 외워야함. 분류문제를 해결하는 것은 로지스틱함수

 

F(x)의 분모에 리그레이션t가 지수승으로 들어감.
릿지 리그레이션에서는 변수를 덜 쓰는 쪽이 좋은 점수를 받게됨.(Ridge의 뜻은 능선). 모델의 에러+모델의 복잡도를 함께 최소화 시키는 것.
릿지 회귀분석. 모델의 복잡해지는것에 대해 페널티를 주는거다.

회귀분석을 배웠고

모델을 진단하기 위해서는 

모델의 잔차 산점도를 그렸을 때, 이상하다면 해결방안을 찾아야함(위에 내용있음)

에러가 정규분포를 따라야 되는데 따르는지 안 따르는지 QQ산점도를 확인해본다.

댓글