본문 바로가기
certification/ADsP

기초분석 및 데이터관리

by LaEARN 2023. 9. 12.
반응형

데이터마트

- 데이터 웨어하우스와 사용자 사이 중간층에 위치

 

요약변수

- 분석에 맞게 종합한 변수, 데이터마트에서 가장 기본적인 변수

- 데이터 분석을 위해 만들어지는 변수

ex) 총 구매 금액, 금액 횟수, 구매 여부 등

 

파생변수

- 사용자(분석가)가 특정 조건을 만족하거나, 특정 함수에 의해 값이 만들어 의미를 부여한 변수

ex) 구매지수 

 

<데이터 변경 및 요약>

[resahpe 패키지] : melt(), cast()

[sqldf 패키지] : sql명령어 사용 가능하게 해주는 패키지

[plyr 패키지] : apply함수 기반, 데이터와 출력변수를 동시에 배열로 치환하여 처리해주는 패키지

[data.table 패키지] : 데이터 핸들링 패키지

- 큰 데이터의 탐색, 연산, 병합에 유용

- 기존의 data.frame 보다 월등히 빠른 속도

- 특정 column 을 key 값으로 색인을 지정한 후 데이터를 처리 함

- 빠른 그루핑과 Ordering, 짧은 문장 지원 측면에서 데이터프레임보다 유용

 

<데이터 가공>

[klaR 패키지] : 특정 변수 주어졌을 때 클래스가 어떻게 분류 되는지에 대한 에러율 계산, 그래픽으로 결과 보여주는 기능

- greedy.wilks() : 세분화를 위한 stepwise forward 변수선택을 위한 패키지, 종속변수에 가장 영향력을 미치는 변수를 wilks lambda를 활용하여 변수의 중요도를 정리

 

<변수 구간화>

구간화 방법

① Binning : 신용평가모형의 개발에서 연속형 변수(부채비율 등)를 범주형 변수로 구간화 하는데 자주 활용

② 의사결정나무 : 세분화 또는 예측에 활용되는 의사결정나무 모형을 사용하여 입력변수들을 구간화 

 

<결측값 인식>

 - 결측값 : NA, 999999999, ' '(공백), Unknown, Not Answer 으로 표현

 - 결측값 처리방법

1) 단순 대치법(Single Imputation)

   ① Completes Analysis : 결측값 존재하는 레코드 삭제 / complete.cases()

   ② 평균대치법(Mean Imputaiton) : 관측, 실험을 통해 얻어진 데이터의 평균으로 대치 / centralImputation()

       - 비조건부 : 관측데이터의 평균으로 대치

       - 조건부 평균대치법(Regression Imputation) : 회귀분석을 활용한 대치법

   ③ 단순확률 대치법(Single Stochastic Imputation) / knnImputation()

       - 평균대치법 추정량 표준오차, 과소 추정문제 보완

       - Hot deck, Nearest Neighbor 방법 등 있음

2) 다중 대치법(Multiple Imputation)

  - 단순대치법을 m번의 대치를 통해 m개의 가상적 완전 자료 만듦 / ameila()

  - 1단계 : 대치 → 2단계 : 분석 → 3단계 결합

complete.cases() 결측값 있으면 FALSE, 없으면 TRUE 반환
is.na() 결측값을 NA로 인식
결측값 있으면 TRUE, 없으면 FALSE 반환
DMwR패키지의 centralImputation() NA값 가운데(Central Value) 로,
숫자는 중위수,
요인(Factor)은 최빈값 대치
DMwR패키지의 knnImputation() NA값을 k최근 이웃 분류 알고리즘 사용하여 대치,
k개 주변 이웃까지의 거리를 고려하여 가중 평균한 값 사용
Amelia패키지의 amelia() RandomForest 패키지의 rfImputeS() 함수활용하여
NA 결측값 대치 후 알고리즘에 적용

<이상값 Outier>
- 의도하지 않게 잘못 입력한 경우(Bad Data)
- 설명변수의 관측이 비해 종속변수 값이 상이한 값
- 통상 평균으로부터 표준편차의 3배까지 되는 점
- 사용 분야 : 사기 탐지, 의료, 네트워크침입, 부정사용방지 시스템

<이상값 인식방법>
1) ESD(Extreme Studentized Deviation) : 평균으로 부터 3 표준편차 떨어진 값(각 0.15%)
2) 기하평균 - 2.5*표준편차 < data < 기하평균 + 2.5*표준편차
3) 사분위수 이용한 제거방법(상자 밖 outer fence밖 있는 값 제거)
- 이상값 정의 : Q1 - 1.5(Q3-Q1) < data < Q3 + 1.5(Q3-Q1)

<극단값 절단(Trimming) 방법>
1) 기하평균을 이용한 제거 : geo_mean
2) 하단, 상단 % 이용한 제거 :  10% 절단(상하위 5%에 해당되는 데이터 제거)

<극단값 조정(Winsorizing) 방법>
- 상한값, 하한값을 벗어나는 값들을 하한, 상한값으로 바꾸어 활용

반응형

'certification > ADsP' 카테고리의 다른 글

통계분석의 이해  (0) 2023.09.13