从数据中提取信息:统计计算
统计计算将原始数据转化为有意义的摘要、可视化图表和预测。从将数据整理成频率表和箱形图,到计算百分位数和 z 分数,这些技术可以帮助学生描述模式、比较数据集并得出结论——这些技能应用于科学、商业、体育分析和日常决策。
统计计算的组成部分
本节介绍基本的统计工具和技术:
- 频率表和直方图:将数据组织成组(区间),以显示每个范围内值的出现频率。
- 箱形图(五数概括):使用最小值、Q1(25% 百分位数)、中位数、Q3(75% 百分位数)和最大值来概括数据。
- 百分位数和四分位数:百分位数将数据分成 100 个相等的部分;四分位数将数据分成 4 个部分。50% 百分位数是中位数。
- Z 分数:衡量一个值与平均值的标准差:z = (x - 平均值) / 标准差。
统计计算示例
频率表示例
- 考试分数:72、85、91、68、77、84、95、73、88、80。分组:60-69(1 个)、70-79(3 个)、80-89(4 个)、90-99(2 个)。
- 一项关于每周学习时间的调查:0-2 小时(5 名学生)、3-5 小时(12 名学生)、6-8 小时(8 名学生)、9 小时以上(3 名学生)。
- 掷骰子 30 次并记录结果在频率表中,有助于将观察到的频率与每个面的预期频率(5 次)进行比较。
箱形图示例
- 数据:2、5、7、8、12、14、18、20、25。最小值 = 2,Q1 = 7,中位数 = 12,Q3 = 18,最大值 = 25。
- 两门课程的考试分数以并排的箱形图显示。A 班的箱形图较窄(较小的 IQR,分数一致),而 B 班的箱形图较宽(较大的 IQR,分数差异较大)。
- 箱形图显示异常值——任何低于 Q1 或高于 Q3 1.5 × IQR 的值都会被标记。如果 Q1 = 20 且 Q3 = 40,则 IQR = 20,因此任何低于 -10 或高于 70 的值都是异常值。
百分位数示例
- 一名学生在标准化测试中获得了 85% 的百分位数,这意味着他的分数高于 85% 的考生。
- 在一个按顺序排列的包含 50 个值的数据集中,Q1(25% 百分位数)大约是第 13 个值,Q3(75% 百分位数)大约是第 38 个值。
- 一个体重处于 60% 百分位数的婴儿比同龄的 60% 的婴儿更重。
Z 分数示例
- 一项测试的平均分为 75,标准差为 10。分数 90 的 z 分数为 (90 - 75)/10 = 1.5,这意味着高于平均值 1.5 个标准差。
- 在同一项测试中,分数 60 的 z 分数为 (60 - 75)/10 = -1.5,这意味着低于平均值 1.5 个标准差。
- 比较两项不同测试的分数:学生 A 在平均分为 80,标准差为 5 的测试中获得了 85 分(z = 1.0)。学生 B 在平均分为 85,标准差为 10 的测试中获得了 92 分(z = 0.7)。尽管原始分数较低,但学生 A 的表现相对更好。