확률 및 통계학 2. 대표값과 기술통계
대표값(representative value)
- 데이터를 대표할 수 있는 값
- 평균, 중앙값, 최빈값, 중앙범위 등이 있음
평균(mean, average)
- 평균 = (데이터의 합) / (데이터의 개수)
- 모평균(
): 모집단의 평균 - 표본평균(
): 표본의 평균 - 평균의 단점
이상치(outlier)의 영향을 받음
- 평균:
- 대부분 1, 2, 3이지만 이상치 100 때문에 평균이 커짐
- 평균:
중앙값(median)
- 크기순으로 배열 했을 때 중간에 위치한 값
이 홀수: 번째 이 짝수: 번째와 번째의 평균
- 이상치의 영향을 거의 받지 않음
예)
이므로 , 3번째 값인 2가 중앙값
최빈값(mode)
- 가장 빈도가 많은 값
- 질적 자료에 사용
- 최빈값이 2개일 경우 이봉자료라고 함
예)
- 가장 많이 관측되는 값: 1
중앙범위(central range)
- 중앙범위 =최대값과 최소값의 평균
예)
- 중앙값:
- 중앙값:
백분위수(percentile)
- 위치점
: 비율 만큼이 그 값보다 작고 만큼이 큰 값 - 백분위수
: 위치점 예)
- 백분위수
, 8번째 수: 48 , 24번째 수: 49- 따라서
했을 때 정수면 도 계산, (정수가 아닌) 실수면 올림만 하면 됨
- 백분위수
사분위수(quantile)
- 제1사분위수(
): - 제2사분위수(
): , - 제3사분위수(
):
십분위수(decile)
- 제1십분위수(
), 제2십분위수( ), …, 제9십분위수( ) , , …,
산포도(scatter)
- 자료들이 대표값 주위에서 어느 정도 분포되어 있는지를 나타내는 통계값
범위(range)
- 범위 = 최댓값 - 최솟값
사분위수의 범위(
)
분산(variance)
모집단 분산
: 모수의 개수 : 편차간편식
: 의 빈도
표본 분산
- 모분산과 비슷하게 하기 위해
이 아닌 로 나눔
- 모분산과 비슷하게 하기 위해
도수분포표에서의 근사 분산
체비셰프 정리(Chebyshev Inequality)
- 분포 상관 없이, 적어도
의 자료가 사이에 존재 - 예)
전체의
, , 범위에 의 자료가 존재
적어도 몇
가 0.20, 0.32 사이에 존재- 0.20과 0.32의 평균이
이므로 둘 중 하나면 계산하면 됨
사이에 존재
- 0.20과 0.32의 평균이
변이 계수(coefficient of variation)
: 변이 계수 : 상대 분산- 변이 계수가 높을 수록 변동성이 높다는 의미
- 예)
- A주식: 76,300, 77,400, 77,900, 77,200, 76,900, 78,800
, - 변이 계수:
- B주식: 6,400, 7,000, 7,400, 6,900, 7,300, 7,600
,- 변이 계수:
- B주식의 변동성이 A주식보다 높음
- A주식: 76,300, 77,400, 77,900, 77,200, 76,900, 78,800
왜도(skewness)와 첨도(kurtosis)
왜도(
)- 비대칭성의 의미
: 좌측에 치우쳐짐 : 우측에 치우쳐짐
- 비대칭성의 의미
첨도(
) : 완첨(완만) : 급첨(뾰족)
표준점수(z-score)
- 자료의
번째 측정값 의 표준점수 - 표준점수는 단위를 없애주기 때문에 서로 다른 자료를 비교하기에 용이
- 예)
- A의 점수: 700점,
: 500점, : 100점- 표준점수:
- 표준점수:
- B의 점수: 24점,
: 18점, : 6점- 표준점수:
- 표준점수:
- A가 B보다 시험을 잘봄
- A의 점수: 700점,
이상치 검출
- 이상치(outlier): 일반적이지 않은 값
- 데이터의 일반적인 범위에서 벗어난 값
일반적으로
보다 작거나 보다 크면 이상치예)
, , ,- 따라서
과 , 은 이상치
상자그림(box plot)
- 사분위수와 측정값의 최대값, 최소값을 이용해 그린 그림
- 주식 차트에서 볼 수 있음
그리는 방법
이변량 자료의 분석
상관 분석
공분산
표본상관계수
이 1에 가까울 수록 선형 : 가 증가할 때, 감소 : 선형성 없음 : 가 증가할 때, 증가
예)
- 평균:
, - 표준편차:
, - 공분산:
- 표본상관계수:
- 상관계수가 0.763으로 양의 상관계수이므로 두 변량 사이에 상력한 양의 상관관계가 있다.
- 평균:
This post is licensed under CC BY 4.0 by the author.