데이터마트
- 데이터 웨어하우스와 사용자 사이 중간층에 위치
요약변수
- 분석에 맞게 종합한 변수, 데이터마트에서 가장 기본적인 변수
- 데이터 분석을 위해 만들어지는 변수
ex) 총 구매 금액, 금액 횟수, 구매 여부 등
파생변수
- 사용자(분석가)가 특정 조건을 만족하거나, 특정 함수에 의해 값이 만들어 의미를 부여한 변수
ex) 구매지수
<데이터 변경 및 요약>
[resahpe 패키지] : melt(), cast()
[sqldf 패키지] : sql명령어 사용 가능하게 해주는 패키지
[plyr 패키지] : apply함수 기반, 데이터와 출력변수를 동시에 배열로 치환하여 처리해주는 패키지
[data.table 패키지] : 데이터 핸들링 패키지
- 큰 데이터의 탐색, 연산, 병합에 유용
- 기존의 data.frame 보다 월등히 빠른 속도
- 특정 column 을 key 값으로 색인을 지정한 후 데이터를 처리 함
- 빠른 그루핑과 Ordering, 짧은 문장 지원 측면에서 데이터프레임보다 유용
<데이터 가공>
[klaR 패키지] : 특정 변수 주어졌을 때 클래스가 어떻게 분류 되는지에 대한 에러율 계산, 그래픽으로 결과 보여주는 기능
- greedy.wilks() : 세분화를 위한 stepwise forward 변수선택을 위한 패키지, 종속변수에 가장 영향력을 미치는 변수를 wilks lambda를 활용하여 변수의 중요도를 정리
<변수 구간화>
구간화 방법
① Binning : 신용평가모형의 개발에서 연속형 변수(부채비율 등)를 범주형 변수로 구간화 하는데 자주 활용
② 의사결정나무 : 세분화 또는 예측에 활용되는 의사결정나무 모형을 사용하여 입력변수들을 구간화
<결측값 인식>
- 결측값 : NA, 999999999, ' '(공백), Unknown, Not Answer 으로 표현
- 결측값 처리방법
1) 단순 대치법(Single Imputation)
① Completes Analysis : 결측값 존재하는 레코드 삭제 / complete.cases()
② 평균대치법(Mean Imputaiton) : 관측, 실험을 통해 얻어진 데이터의 평균으로 대치 / centralImputation()
- 비조건부 : 관측데이터의 평균으로 대치
- 조건부 평균대치법(Regression Imputation) : 회귀분석을 활용한 대치법
③ 단순확률 대치법(Single Stochastic Imputation) / knnImputation()
- 평균대치법 추정량 표준오차, 과소 추정문제 보완
- Hot deck, Nearest Neighbor 방법 등 있음
2) 다중 대치법(Multiple Imputation)
- 단순대치법을 m번의 대치를 통해 m개의 가상적 완전 자료 만듦 / ameila()
- 1단계 : 대치 → 2단계 : 분석 → 3단계 결합
complete.cases() | 결측값 있으면 FALSE, 없으면 TRUE 반환 |
is.na() | 결측값을 NA로 인식 결측값 있으면 TRUE, 없으면 FALSE 반환 |
DMwR패키지의 centralImputation() | NA값 가운데(Central Value) 로, 숫자는 중위수, 요인(Factor)은 최빈값 대치 |
DMwR패키지의 knnImputation() | NA값을 k최근 이웃 분류 알고리즘 사용하여 대치, k개 주변 이웃까지의 거리를 고려하여 가중 평균한 값 사용 |
Amelia패키지의 amelia() | RandomForest 패키지의 rfImputeS() 함수활용하여 NA 결측값 대치 후 알고리즘에 적용 |
<이상값 Outier>
- 의도하지 않게 잘못 입력한 경우(Bad Data)
- 설명변수의 관측이 비해 종속변수 값이 상이한 값
- 통상 평균으로부터 표준편차의 3배까지 되는 점
- 사용 분야 : 사기 탐지, 의료, 네트워크침입, 부정사용방지 시스템
<이상값 인식방법>
1) ESD(Extreme Studentized Deviation) : 평균으로 부터 3 표준편차 떨어진 값(각 0.15%)
2) 기하평균 - 2.5*표준편차 < data < 기하평균 + 2.5*표준편차
3) 사분위수 이용한 제거방법(상자 밖 outer fence밖 있는 값 제거)
- 이상값 정의 : Q1 - 1.5(Q3-Q1) < data < Q3 + 1.5(Q3-Q1)
<극단값 절단(Trimming) 방법>
1) 기하평균을 이용한 제거 : geo_mean
2) 하단, 상단 % 이용한 제거 : 10% 절단(상하위 5%에 해당되는 데이터 제거)
<극단값 조정(Winsorizing) 방법>
- 상한값, 하한값을 벗어나는 값들을 하한, 상한값으로 바꾸어 활용
'certification > ADsP' 카테고리의 다른 글
통계분석의 이해 (0) | 2023.09.13 |
---|