平均値は、現実を映さない。
総務省の家計調査(2024年)によれば、二人以上世帯の平均貯蓄額は約2,000万円だ 。だが、この数字に「自分も近いはず」と感じる人は少ない。実際、貯蓄額が平均を下回る世帯は全体の約7割を占める。平均値より実態に近いのは、データを大きさ順に並べたときの中央値——約1,189万円だ。富裕層の突出した数字が平均を引き上げ、多くの家庭の現実を隠している。これを「平均の罠」という。数字は嘘をつかない。でも、数字の「形」を読まなければ、現実は見えない。
山の話をしよう
富士山の標高は3,776m。エベレストは8,849m。数字だけ見れば、エベレストの方が圧倒的に「高い」はずだ。ところが、関東平野から富士山を見上げた人が感じる「高さ」は、ヒマラヤ山脈でエベレストを見る登山者が感じるそれとは、根本的に違う。富士山は標高数百メートルの丘陵地帯からいきなりそびえ立つ。周囲との落差が、そのまま迫力になる。エベレストは8,000m峰がひしめく山脈の「最高峰」という文脈の中にある。データの統計学的な言葉を借りれば、富士山は関東地方という集団における「外れ値」だ。エベレストは、外れ値が頻出する「裾の重い分布」の一部に過ぎない。
絶対値ではなく、周囲との関係性が意味を決める。これがデータを読む第一歩だ。
同じデータでも別の顔を見せる
経済学者ピケティが『21世紀の資本』で示したのは、所得格差を「年収」で見るか「資産」で見るかで、格差の深刻さが全く異なって見えるという事実だ。年収のグラフは穏やかに見えても、資産のグラフは別の現実を映し出す。時間軸も同じで、株式市場の日々の値動きは予測不能に見えるが、20年単位で見ると明確なトレンドが浮かび上がる。短期の「ノイズ」と長期の「シグナル」を区別する——それが分布的思考の核心だ。
図:1970年1月からの日経平均株価のグラフ
By Monaneko. CC BY 3.0, via Wikimedia Commons
|
|
データの「分布」はどう読めばいいか
日本の企業規模を例に取ろう。中小企業庁の統計では、国内企業数の99.7%が中小企業で、大企業はわずか0.3%だ。従業員数でこれをグラフにすると、左側に大量の企業が積み上がり、右に向かって長い裾を引く非対称な形になる。この「歪み」こそが、日本経済の構造を映している。貯蓄額の分布も、所得の分布も、同じ形をしている。一方向に偏った歪みは、社会の中にある「富の集中メカニズム」そのものだ。また、リーマンショックやコロナショックのような市場の激変は、もし株価変動が正規分布に従うなら「数千年に一度」の出来事のはずだ。現実には数十年に一度の頻度で起きる。金融市場は「裾の重い分布」に従っており、この認識の欠如が危機を招く一因になった。
図:さまざまな分布の形(赤は標準正規分布)
By Inductiveload, Public domain, via Wikimedia Commons
分布を読む力は新しい素養
あるコンビニチェーンの売上分布は年間を通じて比較的平坦だ。百貨店は12月と8月に明確なピークを持つ二峰性の分布になる。この違いを知るだけで、在庫計画も人員配置もマーケティング戦略も、根拠のある判断ができる。データ分析の専門家・河本薫が著書『データドリブン思考』で指摘するように、分布の読み方こそが現代の経営判断の土台だ。
数字の平均値だけを見ていると、現実は霧の中に隠れる。その霧を晴らす道具が、分布という「データの形」だ。「平均2000万円」に一喜一憂する前に、その形を疑う。その習慣が、情報に騙されない思考の起点になる。
21世紀を生きる私たちにとって、統計学的思考はもはや専門家だけのものではない。それは、複雑化する社会の中で適切な判断を下し、民主的な社会を維持していくための基礎的な素養であると思う。データの分布を通じて現実をより正確に理解することは、その第一歩になるのである。
|
|
トピック一覧を見る