Post

확률 및 통계학 2. 대표값과 기술통계

대표값(representative value)

  • 데이터를 대표할 수 있는 값
  • 평균, 중앙값, 최빈값, 중앙범위 등이 있음

평균(mean, average)

average=sumcount
  • 평균 = (데이터의 합) / (데이터의 개수)
  • 모평균(μ): 모집단의 평균
  • 표본평균(x¯): 표본의 평균
  • 평균의 단점
    • 이상치(outlier)의 영향을 받음

      1123100
      • 평균: 1+1+2+3+1005=21.4
      • 대부분 1, 2, 3이지만 이상치 100 때문에 평균이 커짐

중앙값(median)

  • 크기순으로 배열 했을 때 중간에 위치한 값
    • n이 홀수: n+12번째
    • n이 짝수: n2번째와 n2+1번째의 평균
  • 이상치의 영향을 거의 받지 않음
  • 예)

    1123100
    • n=5이므로 5+12=3, 3번째 값인 2가 중앙값

최빈값(mode)

  • 가장 빈도가 많은 값
  • 질적 자료에 사용
  • 최빈값이 2개일 경우 이봉자료라고 함
  • 예)

    1123100
    • 가장 많이 관측되는 값: 1

중앙범위(central range)

midrange=max+min2
  • 중앙범위 =최대값과 최소값의 평균
  • 예)

    1123100
    • 중앙값: 1+1002=50.5

백분위수(percentile)

  • 위치점 p%: 비율 p만큼이 그 값보다 작고 (1p)만큼이 큰 값
  • 백분위수 pn: 위치점 n%
  • 예)

    34469436789501157789600447715888984688
    • 백분위수 p25
      • 32×25%=8, 8번째 수: 48
      • 32×75%=24, 24번째 수: 49
      • 따라서 p25=48+492=48.5
    • ×p% 했을 때 정수면 (1p)%​도 계산, (정수가 아닌) 실수면 올림만 하면 됨

사분위수(quantile)

  • 제1사분위수(Q1): p25
  • 제2사분위수(Q2): x¯, p50
  • 제3사분위수(Q3): p75

십분위수(decile)

  • 제1십분위수(D1), 제2십분위수(D2), …, 제9십분위수(D9)
  • D1=p10, D2=p20, …, D9=p90

산포도(scatter)

  • 자료들이 대표값 주위에서 어느 정도 분포되어 있는지를 나타내는 통계값

범위(range)

R=maxmin
  • 범위 = 최댓값 - 최솟값
  • 사분위수의 범위(IQR)

    IQR=Q3Q1

분산(variance)

  • 모집단 분산

    σ2=i+1N(xiμ)2N
    • N: 모수의 개수
    • xiμ: 편차
    • 간편식

      i=1kfi(xiμ)2=i=1kfixi2Nμ2
      • fi: xi의 빈도
  • 표본 분산

    s2=i=1n(xix¯)2n1
    • 모분산과 비슷하게 하기 위해 n이 아닌 n1로 나눔
  • 도수분포표에서의 근사 분산

    σ2=i+1Nfi(xiμ)2N

체비셰프 정리(Chebyshev Inequality)

  • 분포 상관 없이, 적어도 (11k2)100%의 자료가 μ±kσ 사이에 존재
  • 예)
    • 전체의 90%, x¯=0.26, s=0.005

      11k2=0.9k=103.16
      • 0.26±3.16×0.005 범위에 90%의 자료가 존재
    • 적어도 몇 %가 0.20, 0.32 사이에 존재

      • 0.20과 0.32의 평균이 0.26=x¯이므로 둘 중 하나면 계산하면 됨
      0.26k×0.005=0.20k=1211k20.99305
      • 99.305% 사이에 존재

변이 계수(coefficient of variation)

Vc=sx¯×100%
  • Vc: 변이 계수
  • Vc2: 상대 분산
  • 변이 계수가 높을 수록 변동성이 높다는 의미
  • 예)
    • A주식: 76,300, 77,400, 77,900, 77,200, 76,900, 78,800
      • x¯=77416.6669, s=861
      • 변이 계수: Vc=86177417×100=1.1121
    • B주식: 6,400, 7,000, 7,400, 6,900, 7,300, 7,600
      • x¯=7100, s=429
      • 변이 계수: Vc=4297100×100=6.0422
    • B주식의 변동성이 A주식보다 높음

왜도(skewness)와 첨도(kurtosis)

  • 왜도(a3)

    a3=μ3σ3
    • 비대칭성의 의미
      • a3<0: 좌측에 치우쳐짐
      • a3>0: 우측에 치우쳐짐
  • 첨도(a4)

    a4=μ4σ4
    • a4<3: 완첨(완만)
    • a4>3: 급첨(뾰족)

표준점수(z-score)

Z=xiμσ
  • 자료의 i번째 측정값 xi의 표준점수
  • 표준점수는 단위를 없애주기 때문에 서로 다른 자료를 비교하기에 용이
  • 예)
    • A의 점수: 700점, μ: 500점, σ: 100점
      • 표준점수: Z=700500100=2
    • B의 점수: 24점, μ: 18점, σ: 6점
      • 표준점수: Z=24186=1
    • A가 B보다 시험을 잘봄

이상치 검출

  • 이상치(outlier): 일반적이지 않은 값
    • 데이터의 일반적인 범위에서 벗어난 값
  • 일반적으로 Q11.5IQR보다 작거나 Q3+1.5IQR보다 크면 이상치

  • 예)

    12.8114.9515.8315.9719.9018.3419.8219.9420.6236.7320.8820.9320.9821.1522.2423.1622.2423.1623.5635.78
    • Q1=18.34+19.822=19.08, Q3=23.16+22.242=22.70, IQR=22.7019.08=3.62
    • Q11.5IQR=19.085.43=13.65, Q3+1.5IQR=22.70+5.43=28.13
    • 따라서 12.8135.78, 36.73은 이상치

상자그림(box plot)

  • 사분위수와 측정값의 최대값, 최소값을 이용해 그린 그림
    • 주식 차트에서 볼 수 있음
  • 그리는 방법

    1. M(최대값)과 m​(최소값)을 탐색
      • 혹시 이상치일 수도 있으니 2, 3개씩 탐색
    2. Q1, Q2, Q3, IQR, Q11.5IQR, Q3+1.5IQR 계산
    3. 2를 바탕으로 이상치 탐색
    4. 상자 그림에 표시

      box_plot

      • 주의: Q2는 비율에 따른 위치에 그려야 함(Q1=1, Q2=2, Q3=4이라면 Q2Q1Q31:2로 내분하는 곳에 위치)
    5. 이상치에 대한 정보 서술
      • 있는 경우: “이 자료에는 n개의 이상치(a, b, …)가 존재한다.”
      • 없는 경우: “이 자료에는 이상치가 없다.”

이변량 자료의 분석

  • 이변량 자료: 변수가 2개인 자료
  • 2차원 히스토그램

    2d_histogram

  • 산점도(scatter)

    scatter

  • 리그레쏘그램(regressogram)

    rigressogram

상관 분석

  • 공분산

    sXY=1n1(xix¯)(yiy¯)
  • 표본상관계수

    rXY=sXYsXsY=1n1(xix¯sX)(yiy¯sY)=(xix¯)(yiy¯)(xix¯)2(yiy¯)2
    • rXY이 1에 가까울 수록 선형
    • 1rXY1
      • 1rXY<0: x가 증가할 때, y 감소
      • rXY=0: 선형성 없음
      • 0<rXY1: x가 증가할 때, y 증가
    • 예)

      X3652785365Y70807565709580708580
      • 평균: x¯=5, y¯=77
      • 표준편차: sX=1.886, sY=8.882
      • 공분산: SXY=12.778
      • 표본상관계수: rXY=sXYsXsY=0.763
        • 상관계수가 0.763으로 양의 상관계수이므로 두 변량 사이에 상력한 양의 상관관계가 있다.
This post is licensed under CC BY 4.0 by the author.