データのばらつき:範囲と標準偏差
データの中心値を示す指標は、典型的な値を表しますが、データのばらつきを示す指標は、データ値がその中心からどれだけ離れているかを示します。範囲は、最も高い値と最も低い値の間の差という、最も単純な指標です。一方、標準偏差は、各データ点が平均からどれだけ離れているかの平均距離を定量化し、データのばらつきをより詳細に理解できるようにします。
範囲と標準偏差の要素
このセクションでは、データのばらつきを示す主要な指標について説明します。
- 範囲: データセット内の最大値と最小値の差:範囲 = 最大値 - 最小値。
- 分散: 平均からの各値の差の二乗の平均値であり、全体のばらつきを測定します。
- 標準偏差: 分散の平方根であり、指標を元のデータの単位に戻します。
- ばらつきの解釈: 標準偏差が小さい場合、データは平均値の近くに集中しています。標準偏差が大きい場合、データは広く分散しています。
範囲と標準偏差の例
範囲の例
- テストの点数:65、72、88、91、95。範囲 = 95 - 65 = 30点。
- 毎日の気温:58°F、62°F、65°F、70°F、72°F。範囲 = 72 - 58 = 14°F。
- 2つのクラスの平均点はどちらも80点ですが、クラスAの範囲は10(データの集中度が高い)であるのに対し、クラスBの範囲は40(データのばらつきが大きい)です。
分散の例
- データ:4、8、6、2、10。平均 = 6。差の二乗:(4-6)² + (8-6)² + (6-6)² + (2-6)² + (10-6)² = 4 + 4 + 0 + 16 + 16 = 40。分散 = 40/5 = 8。
- データ:5、5、5、5。平均 = 5。すべての差は0であるため、分散 = 0(ばらつきは全くない)。
- データ:1、10、1、10。平均 = 5.5。差の二乗の合計は81であり、分散 = 81/4 = 20.25(ばらつきが大きい)。
標準偏差の例
- 最初の分散の例(分散 = 8)から:標準偏差 = √8 ≈ 2.83。
- テストの点数:80、82、78、84、76。平均 = 80。差の二乗:0 + 4 + 4 + 16 + 16 = 40。分散 = 8。標準偏差 = √8 ≈ 2.83点。
- 身長(cm):160、165、170、175、180。平均 = 170。差の二乗:100 + 25 + 0 + 25 + 100 = 250。分散 = 50。標準偏差 = √50 ≈ 7.07 cm。
ばらつきの解釈の例
- 機械Aは、平均10mm、標準偏差0.1mmのボルトを製造します。機械Bは同じ平均値ですが、標準偏差は0.5mmです。機械Aの方が一貫性があります。
- 試験の点数の平均が75点、標準偏差が10点の場合、約68%の学生が65点から85点の間にいます(標準偏差1つ分の範囲内)。
- 2人のバスケットボール選手の平均得点はどちらも1試合あたり20点です。一方は標準偏差が2(一貫性がある)、もう一方は標準偏差が8(ばらつきが大きい)です。