본문 바로가기
카테고리 없음

통계분석, 확률분포

by LaEARN 2023. 9. 13.
반응형

<통계분석>

- 불확실한 현상을 대상으로 자료를 수집 → 대상 집단에 대한 정보를 → 적절한 통계분석 방법을 이용해 의사결정

- 기술통계(Descriptive Statistic)

- 통계적 추론(추측통계, Inference Statistics)

 

<기술통계(Descriptive Statistic)>

- 통계집단들의 여러 특성을 수량화하여 객관적인 데이터로 나타내는 통계분석 방법론

- sample에 대한 특성인 평균, 표준편차, 중위수, 최빈값, 그래프, 왜도, 첨도 등을 구함

※ 편차(Deviation) = 값 - 평균

※ 분산(Variance) = 편차²의 평균 = 편차²의 합 ÷ 편차²의 개수 


※ 표준편차(Standard Deviation) = 분산의 제곱근
※ 정규분포 : 일정한 종모양의 형태를 가지며, 평균과 표준편차에 의해 모양이 결정됨 
 - 평균이 μ, 표준편차가 σ인 그래프
 - μ, σ 값에 따라 천차만별의 종모양 그래프가 나타남
 - 서로다른 그래프를 비교할 수 있게 μ = 0, σ = 1 로 바꾸는게 '표준정규분포' 

※ 표준정규분포 : 평균이 0이고, 표준편차가 1인 경우

※ 표준화 : 편차 ÷ 표준편차

※ 확률밀도함수(PDF)
- 정규분포의 확률밀도함수는 연속형 변수에서 해당 값에 대한 확률을 나타냄
- 곡선 아래 영역은 전체 확률을 나타내며, 적분값이 1이 됨

※ Z-점수(Z-score)
- 주어진 값이 평균으로부터 얼마나 떨어져 있는지를 나타내기 위해 사용됨
- Z-점수를 계산하여 해당 값이 분포에서 어느 위치에 있는지 판단할 수 있음

 

<통계적 추론(추측통계, Inference Statistics)>

- 수집된 자료를 이용해 대상 집단(모집단)에 대한 의사결정을 하는 것으로 Sample 을 통해 모집단을 추정

모수추정 표본집단으로 부터 모집단의 특성인 모수(평균, 분산 등)을 분석하여 모집단 추론 ex. 점추정, 구간추정
가설검정 대상집단에 대한 특정한 가설 설정 후,
그 가설이 
옳은지 그른지에 대한 채택여부를 결정하는 방법론
ex. 귀무가설, 대립가설 
예측 미래의 불확실성을 해결해 효율적인 의사결정을 하기 위해 활용  ex. 회귀분석, 시계열분석 등

<확률>

- 표본공간 S에 부분집합인 각 사상에 대해 실수값을 가지는 함수의 확률값이 0과 1사이에 있고

- 전체 확률의 합이 1인 것을 의미 함

  • 표본공간(Sample Space, Ω) : 어떤 실험 실시할 때 나타날 수 있는 모든 결과들의 집합
  • 사건(Event) : 표본공간의 부분집합
  • 원소(Element) : 나타날 수 있는 개별의 결과들
  • 확률변수(Random Variable) 
    - 특정값이 나타날 가능성이 확률적으로 주어지는 변수
    - 정의역(Domain)이 표본공간, 치역(Range)이 실수값(0<y<1) 인 함수
    1) 이산형 확률변수(Discrete Random Variable) : 
    2) 연속형 확률변수(Continuous Random Variable)

<확률분포>

1) 이산형 확률변수 : 0이아닌 확률값을 갖는 확률 변수, 셀 수 있는 경우(확률질량함수)

베르누이 확률분포 결과가 2개만 나오는경우 ex.동전던지기, 합격/불합격
이항분포 베르누이 시행 n번 반복했을 때 k번 성공할 확률
기하분포 성공확률이 p인 베르누이 시행에서, 첫 번째 성공이 있기까지 x번 실패할 확률
다항분포 이항분포를 확장한 것으로 세가지 이상의 결과를 가지는 반복 시행에서 발생하는 확률 분포
포아송분포 시간, 공간 내에서 발생하는 사건의 발생 횟수에 대한 확률분포 ex.책에 오타가 5p당 10개씩 나올 때, 한 페이지에 오타가 3개 나올 확률

 

2) 연속형 확률변수 : 가능한 값이 실수의 어느 특정구간 전체에 해당(확률밀도함수)

균일분포 모든 확률변수 X가 균일한 확률을 가지는 확률분포 ex.다트의 확률분포
정규분포 평균이 μ고, 표준편차가 σ 인 x의 확률밀도함수,
표준편차가 클 경우 퍼져보이는 그래프가 나타
지수분포 어떤 사건이 발생할 때까지 경과 시간에 대한 연속확률분포
t-분포 표본정규분포처럼 평균이 0 중심으로 좌우 동일한 분포 따름,
표본이 커지면(30개 이상) 표준정규분포와 거의 같은 분포 됨,
데이터가 연속형일 경우 사용,
두 집단의 평균이 동일한지 알고자 할 때 검정통계량으로 활용
X²-분포 모평균, 모분산 모를 때 모집단의 모분산에 대한 가설 결정에 사용,
두 집단 간 동질성 검정에 활용
F-분포 확률변수 항상 양의 값, χ²분포와 달리 자유도를 2개 가짐,
자유도가 커질수록 정규분포에 가까움,
두 집단 간 분산의 동일성 검정

※ 최소-최대 정규화 : (X-Min)/(Max-Min), 원데이터의 분ㅍ를 유지하면서 0~1사이 값이 되도록 정규화 함

※ Z-점수 표준화 : (X-평균)/표준편차, 원데이터를 표준정규분포에 해당되도록 표준화 함

※ t-분포, 카이제곱분포, F-분포가 가설검정시 많이 활용됨

728x90