Home - Topics -「次世代教育研究レビュー」No.11

データの「顔」を読む技術:「分布」で解き明かすデータドリブン思考

デジック次世代教育研究所 Updated:2025.09.12 読み終える目安:10分
   
[PR]研究成果のオープンアクセスを支えるため、閲覧体験に配慮の上で広告を掲載しています。

目次

  1. はじめに
  2. 相対的な位置関係が意味を決める
  3. 観測の視点が分布の形を決める
  4. 分布の個性を明らかにする
  5. 教育とビジネスにおける分布的思考
  6. おわりに:より豊かな正確な理解に向けて
  7. 参考文献

Abstract

The review introduces key statistical concepts to describe these distributional shapes, including central tendency (mean, median), skewness, and kurtosis, which is crucial for identifying the "heavy tails" common in real-world phenomena like financial markets. Through practical applications in education and business, it demonstrates how analyzing distribution patterns—whether normal, skewed, or bimodal—enables more effective, data-driven decision-making. Ultimately, this review advocates for "distributional thinking" as an essential literacy for navigating a complex world, allowing us to move beyond simplistic numbers to appreciate a more nuanced and accurate picture of reality.


1. はじめに

みなさんは「日本の世帯平均貯蓄額は約2,000万円」という数字を聞いて、どのようなイメージを持つだろうか。総務省の家計調査(2024)を見ると、日本の二人以上世帯の平均貯蓄額は約1,984万円とされているが、実際には貯蓄額平均未満の世帯が全体の約7割を占めている[1]。この場合、多くの世帯の実感に近いのは平均値よりもむしろ、データを大きさ順に並べた際の中央値1,189万円である。極端に高い貯蓄額を持つ富裕層が平均値を押し上げてしまうため、平均値だけを見ていると現実とのズレが生じてしまうのだ。

この現象は「平均の罠」と呼ばれ、データの分布(shape)を理解することの重要性を物語っている。

本稿では、このような平均値の限界を出発点として、データの「分布」という概念について考察していく。分布とは、データがどのような形で散らばっているかを示すものであり、統計学において極めて重要な概念である。データの分布を理解することで、私たちは数字の向こう側にある現実をより正確に読み解くことができるようになる。

2. 相対的な位置関係が意味を決める

データの個々の値が持つ意味は、その絶対的な大きさよりも、他のデータとの関係性によって決まることが多い。この点を理解するために、具体的な例から考えてみよう。

富士山の標高は3,776mで、日本の最高峰である。一方、エベレストの標高は8,849mで、富士山の2倍以上の高さを持つ[2]。しかし、関東平野から富士山を見上げる人が感じる「高さ」の印象と、ヒマラヤ山脈でエベレストを見る登山者の印象を比較すると、必ずしもエベレストの方が「圧倒的に高い」とは感じられないことがある。これは、周囲の環境、つまりデータの「文脈」が大きく影響するためだ。富士山は標高数百メートルの丘陵地帯から突然そびえ立っており、周囲の地形と比較して突出した存在感を示す。一方、エベレストは8,000m級の高峰がひしめくヒマラヤ山脈の一部であり、相対的には「多くの高峰の中の最高峰」という位置づけになっている。

統計学的に表現すると、富士山は関東地方というデータ群における「外れ値(outlier)」として機能している。外れ値とは、他の多くのデータから大きく離れた値のことで、その特異性によってデータを見る人に強いインパクトを与える。一方、エベレストはヒマラヤの高峰群という平均から大きく離れた値が比較的起こりやすい「裾の重い分布」の一部として存在している。統計学で「基準化(standardization)」と呼ばれる概念があるが、これは、各データ点を「平均からの偏差を標準偏差で割った値」として表現する手法で、これで分析すると、富士山の場合、関東地方の地形における標準化得点は極めて高くなるが、エベレストのヒマラヤ山脈における標準化得点は相対的に低くなる。

この現象は、私たちが日常的に接する統計情報の解釈にも重要な示唆を与えてくれる。統計学者の西内啓は『統計学が最強の学問である』において、データは必ず文脈の中で生まれ、文脈の中で意味を持つとその重要性を述べっている[3]。例えば、ある都道府県の大学進学率が全国平均を上回っているという情報があったとしても、その地域が首都圏なのか地方なのか、どのような経済的・社会的背景を持つ地域なのかという文脈を理解しなければ、その数値の真の意味を把握することはできないのである。



[PR]参考文献をより詳しく知りたい方はこちらから

3. 観測の視点が分布の形を決める

同一のデータであっても、どの次元で切り取るか、見る角度によって、あるいはどのような尺度で測定するかによって、全く異なる「物語」が浮かび上がる。

経済学者のトマ・ピケティが著書『21世紀の資本』で示したように、所得格差の分析において「年収」で見るか「資産」で見るかによって、その格差の実態は大きく異なって見える[4]。年収での格差は比較的緩やかに見えても、資産での格差は極めて深刻な状況を示すことがある。

また、時間軸の設定も分布の見え方に大きな影響を与える。株式市場の日々の値動きは極めて不安定で予測困難に見えるが、10年、20年という長期的な視点で見れば、明確なトレンドや周期性が見えてくることがある(下図参照)。これは、短期的な「ノイズ」と長期的な「シグナル」を区別する統計学的思考の重要性を示している[5]。


1970年1月からの日経平均株価のグラフ/ Nikkei_225(1970-)
図:1970年1月からの日経平均株価のグラフ
By Monaneko. CC BY 3.0, via Wikimedia Commons

4. 分布の個性を明らかにする

ここまで見てきたように、データの分布は多様な「顔」を持っている。これらの個性を客観的に記述し、他の人と共有するためには、統計学の共通言語が必要である。

まず「中心傾向」について考えてみよう。これは「データ群の代表的な値はどこか」を示す指標である。最も一般的な平均値に加えて、中央値、最頻値という選択肢がある(詳しく知りたい方は研究レビューNo.7をご参考ください)。先に紹介した総務省の家計調査の事例では、日本の世帯の平均貯蓄額は約1,901万円だが、実際に多くの世帯が実感する水準とは大きく乖離している[1]。この差は、「分布の歪み」から生まれたものである。データが左右対称に分布している場合、平均値と中央値はほぼ一致する。しかし、貯蓄分布のように一方向に偏っている場合は、両者の間に大きな差が生まれる。

分布の形状が左右対称でない場合、それは「歪んだ分布」と呼ばれる。この歪みの方向と程度を測る指標が「歪度(skewness)」がある。日本の企業規模分布は、歪度の概念を理解する良い例である。中小企業庁の統計によれば、日本の企業数の99.7%が中小企業であり、大企業はわずか0.3%に過ぎない[6]。この分布を従業員数で表現すると、大部分の企業が左側(従業員数の少ない側)に集中し、右側に向かって長い裾を引く形になる。

この歪度の概念は、社会現象を理解する上で極めて重要で、例えば、所得分布の右への歪みは、資本主義経済における富の集中メカニズムを反映していることなどがその典型例である。これは「パレートの法則」や「べき乗則」として知られる現象とも密接に関連している。

また、データが中心からどの程度散らばっているかを表す「ばらつき(variability)」は標準偏差や分散といった指標で測定される。単純なばらつきの大小だけでなく、「極端な値がどの程度起こりやすいか」という性質も重要だからである。この点で注目すべきは「尖度(kurtosis)」という概念で、この尖度は、分布のピークの鋭さと、より重要なこととして、分布の「裾の重さ」を表現する指標となっている。

実は、金融市場のデータは、この裾の重さの重要性を示す典型例である。2008年のリーマンショックや2020年のコロナショックのような極端な市場変動は、もし株価の変動が正規分布に従うとすれば、何千年に一度しか起こらないはずの出来事である。しかし実際には、このような「想定外」の事象が数年から数十年に一度の頻度で発生している[7]。これは、金融市場の変動が「裾の重い分布」に従っているためである。裾の重い分布では、平均から大きく離れた極端な値が、正規分布で予測されるよりもはるかに高い確率で発生する。この認識の欠如が、金融危機を予測・回避できない一因となっていると考えられている。


図:さまざまな分布の形(赤は標準正規分布)
図:さまざまな分布の形(赤は標準正規分布)
By Inductiveload, Public domain, via Wikimedia Commons

5. 教育とビジネスにおける分布的思考

学校のテストを設計する際、教員はしばしば「良いテスト」とはどのようなものかを悩む。この悩みに対する答えは、テストの目的によって異なる。基礎的な学習内容の定着度を確認したい場合、理想的な得点分布は平均点を中心とした左右対称の形、つまり正規分布に近い形状であることが望ましい。文部科学省の全国学力テストでは、この考え方に基づいて問題が設計されており、実際に多くの科目で正規分布に近い得点分布が観察されている[8]。

ビジネスの現場でも、分布的思考の恰好の応用対象がある。例えば、ある小売チェーンの月別売上データが12月に大きなピークを持つ分布を示していたとしよう。これはすぐに年末商戦の効果として理解する方も少なくない。しかし、より詳細に分析すると、この分布には複数の重要な情報が隠されている可能性がある。まず、12月以外の月の売上が比較的安定しているか、それとも大きくばらついているかによって、その効果は本当に年末商戦によるものかどうかは分かる。例えば、同じ小売チェーンであっても、百貨店の売上は12月と8月(中元・お歳暮シーズン)に明確なピークを持つ二峰性分布を示す一方、コンビニエンスストアの売上分布は比較的平坦で、季節変動の影響を受けにくい安定した事業構造を示していることが容易に理解できる。

このような分布の特性を理解することで、企業は適切な在庫管理、人員配置、マーケティング戦略の立案と検証に役に立つ。さらに、競合他社との分布パターンの比較により、自社の競争優位性や改善すべき点を客観的に把握することも可能になる。ビジネス・アナリティクスの専門家である河本薫は、著書『データ分析・AIを実務に活かす データドリブン思考』において、このような視点は、現代のデータドリブン経営において不可欠となっていると述べている[9]。



[PR]参考文献をより詳しく知りたい方はこちらから

分布的思考には限界もいくつかある。まず、分布の形状は測定方法や集計方法に大きく依存するため、客観的な「唯一の分布」というものは存在しないと考えるべきである。同じデータでも、階級幅の設定方法やサンプリング方法によって、全く異なる分布が観察される可能性があるからだ。また、分布分析は基本的に「過去の記述」に留まるため、将来の予測には慎重な判断が必要である。特に、社会情勢や技術環境が急速に変化する現代において、過去のデータから得られた分布パターンが将来も維持される保証はないことに留意したい。

6. おわりに:より正確な現実理解に向けて

本稿を通じて、データの「顔」である分布を読み解くための基本的な考え方と手法を検討してきた。分布的思考の最も重要な価値は、単純化された平均値の向こう側にある、複雑で多面的な現実を捉える能力を私たちに与えてくれることである。

現代社会では、日々膨大な統計情報が生産・発信されている。その中には、意図的か無意識かを問わず、平均値や単一の指標だけを強調し、データの全体像を見えなくしているものも少なくない。分布的思考は、そのような情報の背後にある真実を見抜き、より公正で建設的な議論を可能にする重要なリテラシーだ。ただし、分布分析は強力なツールではあるが、万能ではない。データは常に何らかの文脈の中で生み出されるものであり、その文脈を無視した分析は誤った結論へと導く。

21世紀を生きる私たちにとって、統計学的思考はもはや専門家だけのものではない。それは、複雑化する社会の中で適切な判断を下し、民主的な社会を維持していくための基礎的な素養であると思う。データの分布を通じて現実をより正確に理解することは、その第一歩になるのである。



参考文献

  1. 総務省統計局. 家計調査報告(貯蓄・負債編)令和6年(2024年)平均結果.
    https://www.stat.go.jp/data/sav/sokuhou/nen/index.html
  2. 国土地理院. 数値地図(国土基本情報).
    https://www.gsi.go.jp/kibanjoho/kibanjoho40027.html
  3. 西内啓. 『統計学が最強の学問である』. ダイヤモンド社, 2013.
  4. Piketty, T. (2014). Capital in the Twenty-First Century. Harvard University Press.(山形浩生・守岡桜・森本正史訳『21世紀の資本』みすず書房, 2014)
  5. Silver, N. (2012). The Signal and the Noise. Penguin Books.(川添節子訳『シグナル&ノイズ 天才データアナリストの「予測学」』日経BP社, 2013)
  6. 中小企業庁. 2023年版中小企業白書.
    https://www.chusho.meti.go.jp/pamflet/hakusyo/2023/PDF/chusho.html
  7. Mandelbrot, B. B. (2004). The Misbehavior of Markets: A Fractal View of Risk, Ruin, and Reward. Basic Books.(高安秀樹監訳『禁断の市場 フラクタルでみるリスクとリターン』東洋経済新報社, 2008)
  8. 国立教育政策研究所. 令和5年度全国学力・学習状況調査報告書.
    https://www.nier.go.jp/23chousakekkahoukoku/
  9. 河本薫. 『データ分析・AIを実務に活かす データドリブン思考』. ダイヤモンド社, 2022.