반응형
<통계분석>
- 불확실한 현상을 대상으로 자료를 수집 → 대상 집단에 대한 정보를 → 적절한 통계분석 방법을 이용해 의사결정
- 기술통계(Descriptive Statistic)
- 통계적 추론(추측통계, Inference Statistics)
<기술통계(Descriptive Statistic)>
- 통계집단들의 여러 특성을 수량화하여 객관적인 데이터로 나타내는 통계분석 방법론
- sample에 대한 특성인 평균, 표준편차, 중위수, 최빈값, 그래프, 왜도, 첨도 등을 구함
※ 편차(Deviation) = 값 - 평균 ※ 분산(Variance) = 편차²의 평균 = 편차²의 합 ÷ 편차²의 개수 ※ 표준편차(Standard Deviation) = 분산의 제곱근 |
※ 정규분포 : 일정한 종모양의 형태를 가지며, 평균과 표준편차에 의해 모양이 결정됨 - 평균이 μ, 표준편차가 σ인 그래프 - μ, σ 값에 따라 천차만별의 종모양 그래프가 나타남 - 서로다른 그래프를 비교할 수 있게 μ = 0, σ = 1 로 바꾸는게 '표준정규분포' ※ 표준정규분포 : 평균이 0이고, 표준편차가 1인 경우 ※ 표준화 : 편차 ÷ 표준편차 ※ 확률밀도함수(PDF) - 정규분포의 확률밀도함수는 연속형 변수에서 해당 값에 대한 확률을 나타냄 - 곡선 아래 영역은 전체 확률을 나타내며, 적분값이 1이 됨 ※ Z-점수(Z-score) - 주어진 값이 평균으로부터 얼마나 떨어져 있는지를 나타내기 위해 사용됨 - Z-점수를 계산하여 해당 값이 분포에서 어느 위치에 있는지 판단할 수 있음 |
<통계적 추론(추측통계, Inference Statistics)>
- 수집된 자료를 이용해 대상 집단(모집단)에 대한 의사결정을 하는 것으로 Sample 을 통해 모집단을 추정
모수추정 | 표본집단으로 부터 모집단의 특성인 모수(평균, 분산 등)을 분석하여 모집단 추론 | ex. 점추정, 구간추정 |
가설검정 | 대상집단에 대한 특정한 가설 설정 후, 그 가설이 옳은지 그른지에 대한 채택여부를 결정하는 방법론 |
ex. 귀무가설, 대립가설 |
예측 | 미래의 불확실성을 해결해 효율적인 의사결정을 하기 위해 활용 | ex. 회귀분석, 시계열분석 등 |
<확률>
- 표본공간 S에 부분집합인 각 사상에 대해 실수값을 가지는 함수의 확률값이 0과 1사이에 있고
- 전체 확률의 합이 1인 것을 의미 함
- 표본공간(Sample Space, Ω) : 어떤 실험 실시할 때 나타날 수 있는 모든 결과들의 집합
- 사건(Event) : 표본공간의 부분집합
- 원소(Element) : 나타날 수 있는 개별의 결과들
- 확률변수(Random Variable)
- 특정값이 나타날 가능성이 확률적으로 주어지는 변수
- 정의역(Domain)이 표본공간, 치역(Range)이 실수값(0<y<1) 인 함수
1) 이산형 확률변수(Discrete Random Variable) :
2) 연속형 확률변수(Continuous Random Variable)
<확률분포>
1) 이산형 확률변수 : 0이아닌 확률값을 갖는 확률 변수, 셀 수 있는 경우(확률질량함수)
베르누이 확률분포 | 결과가 2개만 나오는경우 ex.동전던지기, 합격/불합격 |
이항분포 | 베르누이 시행 n번 반복했을 때 k번 성공할 확률 |
기하분포 | 성공확률이 p인 베르누이 시행에서, 첫 번째 성공이 있기까지 x번 실패할 확률 |
다항분포 | 이항분포를 확장한 것으로 세가지 이상의 결과를 가지는 반복 시행에서 발생하는 확률 분포 |
포아송분포 | 시간, 공간 내에서 발생하는 사건의 발생 횟수에 대한 확률분포 ex.책에 오타가 5p당 10개씩 나올 때, 한 페이지에 오타가 3개 나올 확률 |
2) 연속형 확률변수 : 가능한 값이 실수의 어느 특정구간 전체에 해당(확률밀도함수)
균일분포 | 모든 확률변수 X가 균일한 확률을 가지는 확률분포 ex.다트의 확률분포 |
정규분포 | 평균이 μ고, 표준편차가 σ 인 x의 확률밀도함수, 표준편차가 클 경우 퍼져보이는 그래프가 나타 |
지수분포 | 어떤 사건이 발생할 때까지 경과 시간에 대한 연속확률분포 |
t-분포 | 표본정규분포처럼 평균이 0 중심으로 좌우 동일한 분포 따름, 표본이 커지면(30개 이상) 표준정규분포와 거의 같은 분포 됨, 데이터가 연속형일 경우 사용, 두 집단의 평균이 동일한지 알고자 할 때 검정통계량으로 활용 |
X²-분포 | 모평균, 모분산 모를 때 모집단의 모분산에 대한 가설 결정에 사용, 두 집단 간 동질성 검정에 활용 |
F-분포 | 확률변수 항상 양의 값, χ²분포와 달리 자유도를 2개 가짐, 자유도가 커질수록 정규분포에 가까움, 두 집단 간 분산의 동일성 검정 |
※ 최소-최대 정규화 : (X-Min)/(Max-Min), 원데이터의 분ㅍ를 유지하면서 0~1사이 값이 되도록 정규화 함
※ Z-점수 표준화 : (X-평균)/표준편차, 원데이터를 표준정규분포에 해당되도록 표준화 함
※ t-분포, 카이제곱분포, F-분포가 가설검정시 많이 활용됨
728x90
반응형