데이터 분석: 통계적 계산
통계적 계산은 원시 데이터를 의미 있는 요약, 시각화 및 예측으로 변환합니다. 데이터를 빈도표 및 상자 그림으로 정리하고, 백분위수 및 Z-점수를 계산하는 것과 같이, 이러한 기법은 학생들이 패턴을 설명하고, 데이터 세트를 비교하고, 결론을 도출하는 데 도움이 됩니다. 이러한 기술은 과학, 비즈니스, 스포츠 분석 및 일상적인 의사 결정에 사용됩니다.
통계적 계산의 구성 요소
이 섹션에서는 필수적인 통계 도구 및 기법을 다룹니다.
- 빈도표 및 히스토그램: 데이터를 그룹(구간)으로 정리하여 각 범위 내에 값이 얼마나 자주 나타나는지 보여줍니다.
- 상자 그림 (5개 숫자 요약): 최소값, Q1 (25번째 백분위수), 중앙값, Q3 (75번째 백분위수) 및 최대값을 사용하여 데이터를 요약합니다.
- 백분위수 및 사분위수: 백분위수는 데이터를 100개의 동일한 부분으로 나눕니다. 사분위수는 데이터를 4개의 부분으로 나눕니다. 50번째 백분위수는 중앙값입니다.
- Z-점수: 값이 평균에서 얼마나 많은 표준 편차만큼 떨어져 있는지 측정합니다. 공식: z = (x - 평균) / 표준 편차.
통계적 계산의 예시
빈도표 예시
- 시험 점수: 72, 85, 91, 68, 77, 84, 95, 73, 88, 80. 구간으로 그룹화: 60-69 (1), 70-79 (3), 80-89 (4), 90-99 (2).
- 주당 학습 시간 조사: 0-2시간 (5명), 3-5시간 (12명), 6-8시간 (8명), 9시간 이상 (3명).
- 주사위를 30번 굴려 결과를 빈도표에 기록하면, 각 면에서 예상되는 빈도 5와 비교하여 관찰된 빈도를 비교할 수 있습니다.
상자 그림 예시
- 데이터: 2, 5, 7, 8, 12, 14, 18, 20, 25. 최소값 = 2, Q1 = 7, 중앙값 = 12, Q3 = 18, 최대값 = 25.
- 두 학급의 시험 점수를 나란히 상자 그림으로 표시합니다. A 학급의 상자 그림은 좁고 (작은 IQR, 일관된 점수), B 학급의 상자 그림은 넓습니다 (큰 IQR, 다양한 점수).
- 상자 그림은 이상치를 보여줍니다. Q1보다 1.5 × IQR만큼 작거나 Q3보다 1.5 × IQR만큼 큰 값은 이상치로 표시됩니다. Q1 = 20이고 Q3 = 40이면, IQR = 20이므로 -10보다 작거나 70보다 큰 값은 이상치입니다.
백분위수 예시
- 학생이 표준화된 시험에서 85번째 백분위수를 받았다면, 이는 해당 학생이 시험 응시자 중 85%보다 높은 점수를 받았다는 의미입니다.
- 50개의 값으로 구성된 데이터 세트를 순서대로 정렬하면, Q1 (25번째 백분위수)은 대략 13번째 값이고, Q3 (75번째 백분위수)는 대략 38번째 값입니다.
- 60번째 백분위수에 해당하는 아기는 동일한 연령의 아기 중 60%보다 무겁습니다.
Z-점수 예시
- 시험의 평균은 75이고 표준 편차는 10입니다. 90점은 z = (90 - 75) / 10 = 1.5이므로, 평균보다 1.5 표준 편차만큼 높습니다.
- 동일한 시험에서 60점은 z = (60 - 75) / 10 = -1.5이므로, 평균보다 1.5 표준 편차만큼 낮습니다.
- 두 개의 다른 시험에서 얻은 점수를 비교합니다. A 학생은 평균 80점, 표준 편차 5인 시험에서 85점을 받았습니다 (z = 1.0). B 학생은 평균 85점, 표준 편차 10인 시험에서 92점을 받았습니다 (z = 0.7). A 학생은 원시 점수가 낮음에도 불구하고 상대적으로 더 좋은 성적을 거두었습니다.