본문 바로가기
카테고리 없음

통계학 (2) 자료의 표,도표 요약

by 나루씨 2022. 1. 5.

1. 범주자료의 요약

 

-1강에서 배운 4가지 자료 중, (순서)범주자료에 적용가능한 유일한 연산은 카운팅임.

-카운팅한 결과는 도수분포표, 막대도표, 파이도표와 같은 형태로 나타낼 수 있다

 

1) 도수(frequency) : 어떤 범주에 속하는 지료의 수

2) 도수분포표(frequency distribution table) : 범주별 도수를 정리한 표

3) 상대도수(relative frequency) : 도수/전체자료수. 따라서1보다 작음. 100을곱하면 백분율이됨

   - 상대도수나 백분율은 전체에서 해당 부분이 차지하는 비율을 확인하거나 서로 비교할 때 유용함

4) 막대도표 : 범주별로 막대간 간격을 두고 나타냄. 

*히스토그램과 막대그래프는 다름. (히스토그램:연속변수를 구간으로 나눔,막대간 간격 없음→도수분포다각형)

5) 파이도표 :  도수분포표의 상대도수를 시각적으로 더 명확히 전달가능. 상대량 비교시 적합

 

 

2. 정량자료의 요약 

 

-정량자료의 요약은 표, 도표, 숫자 등을 이용함.

-관측값의 수가 적은 경우 계급구간이 없는 도수분포표, 막대그래프 또는 선그래프로 나타내며

-관측값의 수가 많은 경우 계급구간이 있는 도수분포표나 히스토그램으로 나타냄. 

 

1) 누적도수(cumulative frequency)

2) 역누적도수(decumulative frequency)

3) 누적상대도수(cumulative relative frequency)

4) 역누적상대도수(decumulative relative frequency)

 

계급이 사용된 도수분포표의 경우,

5) 계급(class) : 전체 자료를 아우를 수 있는, 중복되지 않는 계급을 가지는 이웃한 구간
6) 계급구간(class interval) : 계급으로 사용되는 구간
7) 계급상한(class upper limit), 계급하한(class lower limit)
8) 계급경계(class boundaries)
9) 계급폭(class width) : 계급구간의 상한-하한 
10) 계급값(class mark) = 중간점(mid point) 계급구간의 중간위치(상한+하한/2)

11) 히스토그램(histogram) : x축에 계급구간, y축에 (상대)도수를 기입하고 그린 도수분포 그림 
*도수분포표 작성법은 중간고사 정리글 참조. 

12) 도수다각형 (frequency polygon) : 중간점끼리 연결.분포의 윤곽이 명확, 2개이상 그래프 겹쳐비교가능

13) 누적백분율곡선(cumulative percentage curve) : (계급상한,누적백분율)의 점을 이은 그림. 겹쳐비교 용이

14) 줄기-잎 그림(stem-and-leaf plot) : 정보손실 없이 분포도를 확인하기에 용이함

   - 잎은 일반적으로 관측값의 마지막 자릿수, 자료는 오름차순, 잎 없는 줄기 생략x

   - 분포가 너무 많거나 적은 경우 두 줄기를 하나로 합치거나 한 줄기를 둘로 나눠 나타낼 수 있음

 

 

3. 정량자료 분포의 형태 

 

1) 대칭(symmetric) / 비대칭(asymmetric)
2) 오른쪽꼬리(right-skewed) / 왼쪽꼬리(left-skewed) = 꼬리가 있는쪽이 낮은 모양의 분포 
3) 왜도(skewness): 분포의 비대칭적인 정도를 수치로 나타냄. 양의 값이면 right-skewed(꼬리방향기준+/-)
4) 봉우리(mound): 단봉, 양봉, 다봉이 있음

5) 첨도(kurtosis): 뾰족한 정도를 숫자로 나타낸 것. 저첨,평첨(-)<중첨,정규분포형(0)<고첨,급첨(+)

 

4. 두 변수의 관련성 요약

 

1) 교차표 (cross-tabulation) : 두 범주변수를 하나의 표에 나타냄.

2) 산점도 (scatterplot) : x축 변수에 대응하는 y축 변수값에 점을 찍어 나타낸 그림으로, 경향성을 파악할 수 있음. 

댓글