Home - Topics -「次世代教育研究レビュー」No.9

「普通じゃない」データが教えてくれること:データの極端値(外れ値)分析の課題と可能性

デジック次世代教育研究所 Updated:2025.09.07 読み終える目安:9分
   
[PR]研究成果のオープンアクセスを支えるため、閲覧体験に配慮の上で広告を掲載しています。

目次

  1. はじめに
  2. 極端値が引き起こす三つの重要な影響
  3. 現代社会における極端値分析の実践例
  4. おわりに:極端値分析の課題と可能性
  5. 参考文献

Abstract

This review explores the crucial role of outliers in data analysis, moving beyond the common practice of dismissing these extreme values as mere noise. The study identifies three key ways outliers can impact data: they can skew measures of central tendency, extend the boundaries of data distributions, and reveal hidden patterns within datasets. Drawing on examples from finance and climate science, the review demonstrates how outliers can signal critical events and emerging trends. Rather than automatically discarding them, the findings recommend carefully analyzing what outliers mean. This approach enriches our understanding of complex data and uncovers valuable insights that might otherwise be missed.


1. はじめに

データ分析において「極端値」あるいは「外れ値」と呼ばれる現象は、研究者にとって実に興味深い存在である。時として厄介者扱いされることもあるが、よく観察してみると、データの奥に隠された重要な情報を教えてくれる貴重な存在でもある。

極端値とは、簡単に言えば「他のデータから大きくかけ離れた値」のことである。例えば、クラスメイト30人の身長を測ったとき、ほとんどが150~175cmの範囲にあるのに、一人だけ200cmを超えている、といったケースを思い浮かべてもらえばよい。この200cm超の身長が、まさに極端値である。

なぜ私たちはこうした極端値について理解を深める必要があるのだろうか。実は、極端値こそが私たちの判断を大きく左右し、時には誤った結論に導く可能性があるからである。統計学の発展に大きく貢献したロナルド・フィッシャーが1956年に著した『統計的方法と科学的推論』[1]で指摘したように、データ分析において異常な観測値の取り扱いは、統計的推論の根幹に関わる重要な問題なのである。

2. 極端値が引き起こす三つの重要な影響

2.1 平均値と中央値の乖離——見えない落とし穴

まず最初に取り上げたいのは、極端値が平均値と中央値の関係に与える影響である。この問題について考えるとき、次のような例が分かりやすい。

ある小さな会社で、従業員10人の年収を調査したとしよう。9人の年収が400万円前後だったが、社長一人だけが5000万円だったとする。この場合、平均年収は約860万円となる一方で、中央値は400万円程度にとどまる。もしメディアが「この会社の平均年収は860万円!」と報じたらどうだろう。読者の多くは「なんと給与水準の高い会社なのだろう」と思うに違いない。しかし実際には、従業員の90%は決して高給取りではないのである。一般的に「平均」と聞くと、私たちは「典型的な値」を想像するが、極端値が存在する場合、平均値はむしろ「非典型的な値」を示すことがある。つまり、平均値が高いからといって、必ずしもその集団の多くが高い値を持っているとは限らないのである。

元ヘッジファンド経営者・リスク工学研究者のナシーム・ニコラス・タレブは著書『ブラック・スワン』[2]の中で、こうした予測困難な極端事象について詳細に論じ、現代社会における意思決定の危険性について警鐘を鳴らしている。日本語版も早川書房から出版されており[3]、一般読者にも広く読まれている。



[PR]参考文献をより詳しく知りたい方はこちらから

2.2 データ分布の変容——境界線の拡張がもたらす認識の変化

極端値の二つ目の重要な影響は、データ分布のパラメータ、特に範囲(レンジ)を変化させ、私たちの認識の「境界線」を押し広げる点である。

例えば、人間の寿命について考えてみよう。長らく人間の寿命の上限は80~90歳程度と考えられていた。しかし、フランスのジャンヌ・カルマンさんが122歳という記録的な長寿を達成したことで[4]、人間の寿命の可能性に対する認識は大きく変わった。ただし、近年この記録の信憑性について学術的な議論も生じている[5]が、いずれにしても超長寿記録は人間の生物学的可能性の境界を広げる重要な指標となっている。

企業の時価総額においても同様である。1990年代には、時価総額1000億ドルを超える企業は珍しい存在だった。しかし現在では、Apple、Microsoft、Amazonといった企業が2兆ドルを超える時価総額を達成している。これらの「極端値」は、単なる数字の変化ではなく、デジタル経済の可能性と企業価値創造の新たな境界を示している。

従来、一般的に極端値は「排除すべき異常なデータ」と考えられがちだが、実際には「可能性の拡張を示す重要な指標」として機能することが多い。ハーバード・ビジネススクールのクレイトン・クリステンセン教授が『イノベーションのジレンマ』[6]で論じたように、破壊的イノベーションの多くは、従来の「常識的な範囲」を大きく超えた極端値として現れる。

2.3 異なる母集団の混在——隠れた複雑性の発見

極端値の三つ目の役割は、データに異なる集団が混在している可能性を示唆する点である。これは統計学における最も基本的でありながら、最も見落とされやすい問題の一つである。

第二次世界大戦中の興味深い事例がある。ダレル・ハフが『統計でウソをつく法』[7]で紹介した例によると、アメリカ軍の募兵広告には「ニューヨーク市の死亡率は年16‰だが、海軍の死亡率は9‰である。軍隊の方が安全だ!」というスローガンが使われた。一見すると説得力があるデータに見える。しかし、この比較には重大な欠陥があることをすでにお気づきだと思う。ニューヨーク市民には乳児から高齢者まで全年齢層が含まれる一方、海軍は健康な若年男性のみで構成されていたのだ。この事例は、異なる集団のデータを混同することの危険性を明確に示しており、極端値がこうした集団の混在を発見する重要な手がかりとなる。



[PR]参考文献をより詳しく知りたい方はこちらから

現代の医療分野でも同様の問題が生じている。新型コロナウイルスの致死率を論じる際、年齢層や基礎疾患の有無によって大きく異なる数値が報告された。WHOの報告書[8]では、母集団の違いを考慮せずに全体の平均値のみを報告することの危険性が指摘されている。

日本の統計学者の竹内啓氏は『数理統計学の考え方』[9]の中で、外れ値の分析こそが統計学の核心的課題の一つであると述べている。つまり、極端値は「データの品質を損なう邪魔者」ではなく、「データの複雑性を教えてくれる教師」として捉えることができるのである。

3. 現代社会における極端値分析の実践例

前述の金融市場の例では、極端値は「ブラック・スワン」と呼ばれる予測困難な重大事象として注目されている。1987年のブラックマンデー、2008年のリーマンショック、2020年のコロナショックなど、いずれも従来のリスクモデルでは予測困難な極端値として現れた。これらの極端値を単純に「異常」として排除するのではなく、むしろ市場の本質的リスクを理解するための重要な情報として活用する研究が進んでいる。日本銀行の『金融システムレポート』[10]でも、金融システムの安定性を評価する際に、極端値の分析が重要な役割を果たすことが指摘されている。

気候変動研究においても、極端値は重要な意味を持つ。IPCC(気候変動に関する政府間パネル)の第6次評価報告書[11]では、極端な気象現象の頻度と強度の変化が、地球温暖化の影響を理解する上で重要な指標として位置づけられている。極端な気象現象は「例外的な出来事」として扱われることが多かったが、近年の研究では、これらの極端値こそが気候システムの変化を最も敏感に反映する指標であることが明らかになっている。気象庁の『気候変動監視レポート』[12]でも、極端気象現象の分析を通じて、長期的な気候変動の傾向を把握する手法が詳しく紹介されている。


図:NASAによる観測温度と1850-1900年の平均値の比較(IPCCによる産業革命前の気温の定義に基づく)
図:NASAによる観測温度と1850-1900年の平均値の比較
注:工業化時代の世界の気温上昇の主な要因は人間の活動(赤線)であり、自然の力(緑線)が変動を加えている。
(IPCCによる産業革命前の気温の定義に基づく)
By Efbrazil, CC BY-SA 4.0



極端値の検出には様々な統計的手法が開発されている。最も基本的なのは、ジョン・テューキーが提案した箱ひげ図による方法である[13]。より高度な手法としては、マハラノビス距離を用いた多変量外れ値検出や、機械学習を活用した異常検知アルゴリズムなどがある。東京大学の杉山将教授らは『異常検知と変化検知』[14]において、これらの最新技術について詳細に解説している。

実は、日本における極端値研究の蓄積は多く、特に品質管理の分野で独自の発展を遂げた。統計学者の田口玄一氏が開発した「田口メソッド」[15]では、製品の品質向上において極端値の分析が重要な役割を果たすことが示された。また、石川馨氏の『QC的ものの見方考え方』[16]では、品質管理における外れ値の取り扱いについて実践的な指針が示されている。



[PR]参考文献をより詳しく知りたい方はこちらから

4. おわりに:極端値分析の課題と可能性

もちろん、極端値の分析には限界もある。まず、極端値の定義自体が主観的な側面を持つことである。「どの程度離れていれば極端値とするか」という基準は、研究者や分析目的によって異なる。

さらに、ビッグデータ時代における新たな課題も浮上している。膨大なデータの中から真に意味のある極端値を識別することは、従来以上に困難になっている。機械学習やAIの発達により、極端値の検出技術は向上しているが、その解釈には依然として人間の専門知識が不可欠である。特に、センサーデータやWebデータなど、自動収集されるデータが増加する中で、機器の故障や通信エラーによる「偽の極端値」と、真に意味のある「真の極端値」を区別することの重要性が高まっている。

私たちは往々にして「平均的であること」を良しとし、「極端であること」を避けようとする。しかし統計学的視点から見ると、極端値は、データの背後にある複雑な構造、隠れた因果関係、そして新たな可能性を教えてくれる貴重な存在である。重要なのは、極端値を単純に排除するのではなく、その意味を慎重に読み解き、適切に活用することであろう。



参考文献

  1. Fisher, R. A. (1956). Statistical Methods and Scientific Inference. Oliver and Boyd, Edinburgh.
  2. Taleb, N. N. (2007). The Black Swan: The Impact of the Highly Improbable. Random House, New York.
  3. ナシーム・ニコラス・タレブ(著)、望月衛(訳) (2009). 『ブラック・スワン:不確実性とリスクの本質』早川書房.
  4. Guinness World Records (2024). "Oldest person ever: 122-year-old Jeanne Calment's extraordinary life".
    URL: https://www.guinnessworldrecords.com/news/2024/2/oldest-person-ever-122-year-old-jeanne-calments-extraordinary-life-765016
  5. Zak, N. (2019). Evidence That Jeanne Calment Died in 1934—Not 1997. Rejuvenation Research, 22(1), 3-12.
    URL: https://www.liebertpub.com/doi/10.1089/rej.2018.2167
  6. Christensen, C. M. (1997). The Innovator's Dilemma. Harvard Business Review Press, Boston.
  7. Huff, D. (1954). How to Lie with Statistics. W. W. Norton & Company, New York. 日本語版:ダレル・ハフ(著)、高木秀玄(訳) (1968). 『統計でウソをつく法』講談社ブルーバックス.
  8. World Health Organization (2022). WHO Coronavirus Disease (COVID-19) Situation Reports.
    URL: https://www.who.int/emergencies/diseases/novel-coronavirus-2019/situation-reports
  9. 竹内啓 (1989). 『数理統計学の考え方:推測理論の基礎』岩波書店.
  10. 日本銀行 (2023). 『金融システムレポート』.
    URL: https://www.boj.or.jp/research/brp/fsr/
  11. IPCC (2021). Climate Change 2021: The Physical Science Basis. Cambridge University Press, Cambridge.
    URL: https://www.ipcc.ch/report/ar6/wg1/
  12. 気象庁 (2022). 『気候変動監視レポート 2022』.
    URL: https://www.data.jma.go.jp/cpdinfo/monitor/2022/pdf/ccmr2022_all.pdf
  13. Tukey, J. W. (1977). Exploratory Data Analysis. Addison-Wesley, Reading, MA.
  14. 杉山将 (2015). 『異常検知と変化検知』講談社.
  15. 田口玄一 (1976). 『実験計画法(上)』丸善.
  16. 石川馨 (1988). 『QC的ものの見方考え方』科学技術連盟出版社.