Home - Topics -「次世代教育研究レビュー」No.7

その数字、信じて大丈夫?統計学における代表値選択の意義と課題

デジック次世代教育研究所 Updated:2025.09.05 読み終える目安:10分
   
[PR]研究成果のオープンアクセスを支えるため、閲覧体験に配慮の上で広告を掲載しています。

目次

  1. はじめに
  2. 身近な事例で「代表値」を考えてみよう
  3. 現代的課題:AI時代の代表値と実務への応用
  4. まとめと今後の研究展望
  5. 参考文献

Abstract

This study reviews representative values as a key concept in statistics for summarizing data. While the average is a familiar measure, others like the median and mode offer vital insights. We show that selecting the appropriate value is critical for avoiding misinterpretation, as no single number tells the whole story. The review also discusses current challenges brought by AI and big data, such as the demand for explainable models and the rise of ensemble averages. Ultimately, we argue that representative values should be viewed not just as tools for calculation but as lenses for comprehending data's underlying reality.


1. はじめに

「データの特徴を一つの数字で代表する」という問題は、統計学の基礎的でありながら、同時に奥深い課題の一つである。私たちは日常的に「平均年齢」「平均気温」「平均収入」といった言葉をよく使うが、実はこの「平均」という概念も、「代表値」の一種である。

本稿では、代表値(representative value)の概念を整理し、特にその選択がもたらす影響について検討する。統計学が初めての皆さんにも理解いただけるよう、できるだけ身近な事例を用いながら進めていきたい。

統計学における代表値の概念は、19世紀からの長い研究蓄積がある。東京大学教養学部統計学教室が編纂した『統計学入門』では、代表値を「データ全体の特徴を端的に表現する値」と定義している[1]。この本は1991年の出版以来、統計学教育の金字塔として位置づけられている。

総務省統計局が運営する「なるほど統計学園」のサイトでも、代表値として平均値、中央値、最頻値の3種類を基本として紹介している[2]。これらに加えて、現代の複雑な統計解析では、幾何平均、調和平均、切断平均など、より専門的な代表値が重要な役割を果たしている。



[PR]参考文献をより詳しく知りたい方はこちらから

2. 身近な事例で「代表値」を考えてみよう

私たちが最も信頼している算術平均(arithmetic mean)が「代表値」の一種であるが、実はデータの「代表」として適切でない場合もある。

厚生労働省の『国民生活基礎調査』(2019年)によると、全世帯の平均所得は552.3万円であるが、中央値は437万円と100万円以上の差がある[3]。中央値とはデータを小さい順に並べた時の「真ん中の値」を指す。この現象は、高所得層の存在が算術平均を押し上げているためである。また、所得分布において最頻値は200~300万円に位置すると推定され、これは「最も多くの世帯が該当する所得層」を示している。つまり、平均所得552.3万円、中央値437万円、最頻値200~300円という3つの代表値が、それぞれ異なる「現実」を映し出している。平均値は全体の規模感を、中央値は典型的な世帯の実態を、そして最頻値は最も多くの所得層を表現しているのである。このような分布の歪み(skewness)がある場合、平均値は実態を十分に表現できないのである。

投資や金融の世界でも、算術平均がしばしば誤解を招く結果をもたらす。具体例で見てみよう。

ある投資商品が1年目に+100%(2倍)、2年目に-50%(半減)の成績を記録したとする。算術平均の結果は、年平均リターンが+25%となる。しかし、100万円を実際に投資した場合:

  • スタート:100万円
  • 1年後:100万円×2.0 = 200万円
  • 2年後:200万円×0.5 = 100万円

つまり、投資の結果は、元本と同じ100万円のままである。実は、本当の年平均リターンは、幾何平均で計算すべきで、√(1.0 × 1.0) - 1となり、結果が0%となるのである。実は、企業年金連合会の用語集では、この幾何平均を「再投資を前提とした複利の計算に用いられる計算方法」と定義している[4]。このことを理解していないと、投資判断において重大な誤りを犯す可能性があることを肝に銘じたい。

また、積立投資で知られる「ドルコスト平均法」の効果を理解するためには、調和平均(harmonic mean)という概念も不可欠である。ピクテ投信投資顧問の解説事例によると、毎月一定額を投資する場合の平均購入価格は調和平均で計算される[6]。例えば、投資信託の基準価額が月ごとに8,000円、12,000円、10,000円と変動した場合、毎月1万円ずつ投資すると:

  • 1か月目:1万円÷8,000円 = 1.25口
  • 2か月目:1万円÷12,000円 = 0.833口
  • 3か月目:1万円÷10,000円 = 1.0口

つまり、平均購入価格は調和平均で計算すると約9,231円となり、算術平均の10,000円より低くなる。これがドルコスト平均法の「安い時に多く買い、高い時に少なく買う」効果の数学的根拠である。

もう一つの興味深い代表値が切断平均(trimmed mean)である。これは極端な値を除外してから計算する平均で、体操競技やフィギュアスケートの採点で使用されている[7]。

例えば、7人の審判が採点したにもかかわらず、最高点と最低点を除いた5人の平均を取る方法がこれに当たる。これにより、審判の主観的バイアスや採点ミスの影響を軽減できる。実際の統計分析でも、外れ値の影響を受けにくい頑健な(robust)推定量として重要視されているのである。

3. 現代的課題:AI時代の代表値と実務への応用

実は、文部科学省の学習指導要領では、高校数学Iで代表値を扱うことが定められているが[10]、多くの生徒が「計算はできるが使い分けの理由がわからない」という状態にある。この問題の根本原因は、「なぜその代表値を選ぶのか」という判断基準の説明不足にあると思う。

実際、筆者が大学で統計学を教える際も、この概念的理解を促すことが最も手間がかかる課題の一つである。単なる計算技術としてではなく、「データの背後にある現実を理解するための道具」として代表値を捉えることができれば、統計学への理解は格段に深まるはずである。

近年のビッグデータ普及により、代表値研究にも新たな課題が生まれている。総務省の『情報通信白書』(2022年)では、膨大なデータから意味のある代表値を抽出する技術の重要性が指摘されている[8]。特に機械学習分野では、従来の単一代表値ではなく、複数の代表値を組み合わせた「アンサンブル平均」の概念が注目されている。これは、異なる計算方法による複数の代表値を統合して、より安定した推定値を得る手法である[9]。

AI時代を迎えた現在、統計学でも「説明可能性」の重要性がますます高まっている。日本統計学会の機関誌『日本統計学会誌』では、「なぜその代表値を選択したか」を客観的に説明する手法の研究が活発化している[11]。特に注目すべきなのは、データの性質を自動的に判定し、最適な代表値を推奨するアルゴリズムの開発である。これにより、統計学の専門知識がなくても適切な代表値選択が可能になると期待されている。

実際に、企業の人事評価において、従来は算術平均ベースの評価が主流だったが、最近では中央値ベースの評価を導入する企業が増加している。その理由は「一部の突出した成果が全体の評価を歪めることを防ぐため」である。

また、文化的背景による代表値選択の違いも無視できない。日本では「出る杭は打たれる」という文化的側面から中央値が重視されがちだが、米国では個人の突出を評価する文化から算術平均が好まれる傾向がある。これは統計学が価値中立的ではなく、社会文化と密接に関連していることを示している証拠である。

代表値の概念は、気象分野でも重要な役割を果たしている。気象庁の気温統計では、地球温暖化の進行を評価するために、従来の算術平均に加えて中央値やパーセンタイル値を併用している[12]。パーセンタイル値とは、データを小さい順に並べたときの位置を百分率で表した値であるが、これが併記される理由は、極端気象の増加により、単純な平均値では実態を把握できなくなったためである。


図:1956年から1976年までのベースライン平均と比較した2011年から2021年までの世界平均気温
図:1956年から1976年までのベースライン平均と比較した2011年から2021年までの世界平均気温
By NASA’s Scientific Visualization Studio, Key and Title by uploader (Eric Fisk), Public domain

5. まとめと今後の展望

本稿では、代表値という一見単純な概念が、実は極めて奥深く、多面的な性質を持っているということを検討してきた。算術平均、中央値、最頻値、幾何平均、調和平均、切断平均のそれぞれが、データの異なる側面を照らし出す。

そして何より重要なのは、「どの代表値が正しいか」だけではなく、「どの代表値が問題解決に最も適しているか」を判断する能力を身につけることである。この判断力こそが、データが溢れる現代社会を生き抜く上で不可欠なスキルなのではないだろうか。

代表値研究の今後の方向性として、以下の3つの領域が特に注目されている。

第一に、「時空間代表値」の研究である。時系列データと地理的データを同時に考慮した代表値の概念が模索されている。気候変動研究や人口動態分析において特に重要な意味を持つ。

第二に、「確率的代表値」の研究である。従来の確定的な値ではなく、不確実性を含む確率分布として代表値を表現する手法の開発も進んでいる。

第三に、「倫理的代表値」の研究である。AI時代において、代表値の選択が社会的公正性に与える影響を考慮した統計手法の開発が求められている。

繰り返すが、代表値の選択は、単なる計算技術の問題ではない。そこには、データの背後にある現実をどう理解し、どう表現するかという、統計学の根本的な考え方が込められている。今後も、この分野の研究発展を注視していきたい。



参考文献

  1. 東京大学教養学部統計学教室編 (1991). 『統計学入門』 東京大学出版会.
  2. 総務省統計局. 「なるほど統計学園」.
    https://www.stat.go.jp/naruhodo/
  3. 厚生労働省 (2020). 「2019年 国民生活基礎調査の概況」.
    https://www.mhlw.go.jp/toukei/saikin/hw/k-tyosa/k-tyosa19/index.html
  4. 企業年金連合会. 「幾何平均」用語集.
    https://www.pfa.or.jp/yogoshu/ki/ki20.html
  5. All About (2004). 「算術平均と幾何平均」資産運用の理論を学ぼう.
    https://allabout.co.jp/gm/gc/8947/
  6. ピクテ投信投資顧問 (2021). 「積立効果とは」投資を始める前に知っておきたいこと.
    https://www.pictet.co.jp/basics-of-asset-management/new-generation/before-you-start-investing/20210902.html
  7. 統計学習サイト「統計WEB」. 「代表値の種類」.
    https://bellcurve.jp/statistics/course/4317.html
  8. 総務省 (2022). 『情報通信白書』.
    https://www.soumu.go.jp/johotsusintokei/whitepaper/
  9. 日本統計学会 (2023). 『日本統計学会誌』第53巻.
  10. 文部科学省 (2018). 「高等学校学習指導要領」.
    https://www.mext.go.jp/a_menu/shotou/new-cs/1407074.htm
  11. りそな銀行. 「企業年金用語集:幾何平均」.
    https://www.resonabank.co.jp/nenkin/401k/yougo/unyou/yougo_401k_unyou_0042.html
  12. 気象庁 (2023). 「気候変動監視レポート」.
    https://www.jma.go.jp/jma/press/2403/22b/ccmr2023.html