자격증/빅데이터 분석기사

[필기] (이기적) 분석 변수 처리

만땅이 2021. 1. 24. 21:27

 * 변수별 모형 분류

① 전체 모형 : 모든 독립변수 사용 ② 축소 모형 : 변수 개수 줄임 ③ 영 모형 : 독립변수 없음

 

*변수 선택방법

① 전진 선택방법: 영 모형에서 시작, 종속변수와 단순상관계수의 절댓값이 가장 큰변수를 분석모형에 포함

 - 부분 F 검정으로 유의성 검증, 한번 추가된 변수는 제거x

② 후진 선택법 : 전체 모델에서 시작, 종속변수와 단순상관계수의 절댓값이 갖아 작은 변수를 모형에서 제외

 - 부분 F 검정으로 유의성 검증, 한번 제거되면 변수 제거 x

③ 단계적 선택법 : 전진+후진 선택법

 

* 차원축소 : 변수의 양을 줄이는것

- 필요성 : ① 복잡도의 축소 ②과적합(Overfit)의 방지 ③ 해석력의 확보

 

* 차원 축소 방법

① 요인 분석 : 변수간의 상관관계분석하여 공통 차원 축약 

② 주성분 분석PCA: 데이터들의 특성을 설명할 수 있는 주성분을 찾는것

③ 특이값 분해 Singular Value Decomposition 

④ 행렬과 음수 미포함 행렬 분해 : 음수를 포함하지 않은 행렬을 음수를 포함하지 않은 두 행렬 곱으로 분해

 

* 파생변수 : 기존 변수를 조압해서 새로운 변수 만든것 ex) 주 구매매장 변수

* 요약변수 : 수집된 정보를 분석에 맞게 종합 ex) 매장 이용횟수

 

*변수 변환 : 데이터를 분석하기 좋은 형태로 바꾸는 작업, 전처리 과정중 하나

 

* 변수 변환 방법

① 범주형 변환 ② 정규화 ③ 로그변환 ④ 역수변환 ⑤ 지수변환 ⑥ 제곱근변환 ⑦ 분포형태별 정규분포변화 ⑧ 기타

 

* 정규화 종류: ①일반 정규화 ②최소-최대 정규화

 

* 불균형 데이터: 데이터 양의 차이가 큰경우, 정확도가 높아도 재현율이 급격히 작아지는 현상 발생가능

 

*불균형 데이터 처리방법

① 가중치 균형방법 : 각 클래스 별로 특정 비율로 가충치 주어 도출 - 고정비율이용, 최적 비율 이용

② 언더샘플링과 오버샘플링 

 - 언더샘플링 : 소수는 그대로, 다수는 일부만 / 오버샘플링 : 소수를 복사, 다수 수에 맞추어

 

반응형