1. 범주자료의 요약
-1강에서 배운 4가지 자료 중, (순서)범주자료에 적용가능한 유일한 연산은 카운팅임.
-카운팅한 결과는 도수분포표, 막대도표, 파이도표와 같은 형태로 나타낼 수 있다
1) 도수(frequency) : 어떤 범주에 속하는 지료의 수
2) 도수분포표(frequency distribution table) : 범주별 도수를 정리한 표
3) 상대도수(relative frequency) : 도수/전체자료수. 따라서1보다 작음. 100을곱하면 백분율이됨
- 상대도수나 백분율은 전체에서 해당 부분이 차지하는 비율을 확인하거나 서로 비교할 때 유용함
4) 막대도표 : 범주별로 막대간 간격을 두고 나타냄.
*히스토그램과 막대그래프는 다름. (히스토그램:연속변수를 구간으로 나눔,막대간 간격 없음→도수분포다각형)
5) 파이도표 : 도수분포표의 상대도수를 시각적으로 더 명확히 전달가능. 상대량 비교시 적합
2. 정량자료의 요약
-정량자료의 요약은 표, 도표, 숫자 등을 이용함.
-관측값의 수가 적은 경우 계급구간이 없는 도수분포표, 막대그래프 또는 선그래프로 나타내며
-관측값의 수가 많은 경우 계급구간이 있는 도수분포표나 히스토그램으로 나타냄.
1) 누적도수(cumulative frequency)
2) 역누적도수(decumulative frequency)
3) 누적상대도수(cumulative relative frequency)
4) 역누적상대도수(decumulative relative frequency)
계급이 사용된 도수분포표의 경우,
5) 계급(class) : 전체 자료를 아우를 수 있는, 중복되지 않는 계급을 가지는 이웃한 구간
6) 계급구간(class interval) : 계급으로 사용되는 구간
7) 계급상한(class upper limit), 계급하한(class lower limit)
8) 계급경계(class boundaries)
9) 계급폭(class width) : 계급구간의 상한-하한
10) 계급값(class mark) = 중간점(mid point) 계급구간의 중간위치(상한+하한/2)
11) 히스토그램(histogram) : x축에 계급구간, y축에 (상대)도수를 기입하고 그린 도수분포 그림
*도수분포표 작성법은 중간고사 정리글 참조.
12) 도수다각형 (frequency polygon) : 중간점끼리 연결.분포의 윤곽이 명확, 2개이상 그래프 겹쳐비교가능
13) 누적백분율곡선(cumulative percentage curve) : (계급상한,누적백분율)의 점을 이은 그림. 겹쳐비교 용이
14) 줄기-잎 그림(stem-and-leaf plot) : 정보손실 없이 분포도를 확인하기에 용이함
- 잎은 일반적으로 관측값의 마지막 자릿수, 자료는 오름차순, 잎 없는 줄기 생략x
- 분포가 너무 많거나 적은 경우 두 줄기를 하나로 합치거나 한 줄기를 둘로 나눠 나타낼 수 있음
3. 정량자료 분포의 형태
1) 대칭(symmetric) / 비대칭(asymmetric)
2) 오른쪽꼬리(right-skewed) / 왼쪽꼬리(left-skewed) = 꼬리가 있는쪽이 낮은 모양의 분포
3) 왜도(skewness): 분포의 비대칭적인 정도를 수치로 나타냄. 양의 값이면 right-skewed(꼬리방향기준+/-)
4) 봉우리(mound): 단봉, 양봉, 다봉이 있음
5) 첨도(kurtosis): 뾰족한 정도를 숫자로 나타낸 것. 저첨,평첨(-)<중첨,정규분포형(0)<고첨,급첨(+)
4. 두 변수의 관련성 요약
1) 교차표 (cross-tabulation) : 두 범주변수를 하나의 표에 나타냄.
2) 산점도 (scatterplot) : x축 변수에 대응하는 y축 변수값에 점을 찍어 나타낸 그림으로, 경향성을 파악할 수 있음.
댓글