データは現実を映さない — 選択バイアスとAIモデルの限界

7リアクション

はじめに

私たちは、目に見える数字や集められた情報を、そのまま世界の縮図であると捉えがちです。特に人工知能（AI）が高度に発達した現代において、大量のデータに基づいた推論は、客観的で誤りのない真実であるかのような錯覚を与えます。

しかし、データとは常に、特定の網によって掬い上げられた断片に過ぎません。網の目が粗ければ小さな魚は逃げ、特定の海域に網を投げればその場所に住む生き物しか観測できません。これをシステム設計の視点で見れば、入力段階で既に情報の欠落や偏りが生じていることを意味します。

1章. データが多ければ、賢くなるか

AIモデルの性能を上げたいとき、まず「データを増やす」という発想が浮かびます。学習データが多いほど汎化性能が上がる。ビッグデータが競争優位の源泉になる。この考え方は、AIに関わる人間の間でほぼ常識として定着しています。

間違ってはいません。ただし、一つの前提が隠れています。増やすデータが、予測したい現実を代表しているという前提です。

この前提が崩れているとき、データをいくら増やしても、モデルは賢くなりません。偏った鏡を大きくしても、映る世界の歪みは変わらないどころか、モデルが確信を持って間違えるようになるという、やっかいな副作用が生まれます。

選択バイアスという言葉があります。観察されたデータが、予測したい対象の全体を代表していないという問題です。この問題は、教科書的な定義よりずっと身近な場所に潜んでいます。

2章. モデルは世界を学ぶのではなく、記録を学ぶ

例えば、健康診断の数値を使って「この人が将来病気になる確率」を予測するモデルを作るとします。データは豊富です。年齢、血圧、体重、血糖値、問診票の回答。しかし、このデータには致命的な偏りがあります。健康診断を受けた人のデータしかないことです。

健康診断を受けない人がいます。忙しくて行けない人、費用を払えない人、健康への不安を直視したくない人。まさにリスクが高い可能性がある層が、データから欠落していることがあります。モデルは受診者の傾向を精緻に学習しますが、非受診者に適用しようとすると、前提が崩れます。

似た構造は至る所にあります。採用試験の合否データを使って「この候補者は採用すべきか」を学習するモデルは、面接まで進んだ人のデータしか持っていません。書類選考で落ちた人がどうなったかは知りません。金融機関の融資審査データは、銀行口座を持っていた人だけの記録です。口座を持たない人の信用リスクはモデルに存在しないのです。

モデルは、与えられたデータを誠実に学習します。しかしそのデータは、記録されることを許された事象の集積です。記録されなかった事象、観察されなかった対象、システムに乗らなかった人々は、モデルの世界には存在しません。

3章. 消えているデータが語ること

第二次世界大戦中、帰還した爆撃機の弾痕を分析して装甲を強化しようとした事例があります。翼や胴体に弾痕が多く見つかったため、そこを補強しようとした。しかし統計学者のアブラハム・ウォールドはそれを止め、弾痕がほとんどない場所、エンジン周辺を補強すべきだと主張しました。

理由は聞けばシンプルです。帰還した機体だけが分析対象になっていたからです。エンジンを撃たれた機体は帰ってこなかった。したがって、帰還機のエンジンに弾痕がないのは「撃たれなかった」からではなく、「撃たれると落ちた」からです。

サバイバーシップバイアスと呼ばれるこの問題は、AIモデルの設計においても同じ形で現れます。予測したい事象が発生したケースは記録されますが、発生しなかったケース、あるいは別の経路で消えたケースは記録から落ちやすいのです。

スポーツや競技の結果予測を例にとると、記録に残るのは試合が行われた場合です。悪天候での中止、選手の体調不良による欠場、記録が公式に残らない試合。これらの状況は訓練データの外にあります。モデルは「試合が行われた通常の条件」を学習しますが、現実の予測場面にはそれ以外の条件も混在します。

欠損データは、単に情報が足りないことではありません。その欠損が起きた理由が、予測したいことと相関していることがあります。消えているデータそのものが、現実について語っています。

4章. 設計者が問うべきこと

選択バイアスはデータ収集の失敗ではなく、観測という行為に本質的に伴う制約です。完全に偏りのないデータは存在しません。問題は偏りがあることではなく、その偏りを把握しているかどうかです。

モデルを作る側が問うべきは、「データがあるか」ではなく「データがないのは誰か」です。どの集団が記録されていないか。どのような状況が観察されていないか。どの事象が記録システムの外に落ちているか。この問いを持たずにモデルを展開すると、モデルは観測された世界を自信を持って語りますが、観測されなかった世界には沈黙したまま、あるいは誤った答えを返し続けます。

実務においてこれが顕在化するのは、モデルを新しい文脈に適用した瞬間です。訓練データと異なる集団、異なる状況、異なる時代。ここでモデルの予測精度は急激に落ちることがあります。それは過学習の問題でも、モデルの設計の問題でもなく、データが代表していた世界が変わったという問題です。

モデルが「学んだ」と感じさせる精度の高さは、危険なことがあります。精度が高いとき、私たちはモデルが世界を正しく理解したと錯覚しやすいのです。しかし実際には、訓練データの中のパターンを正確に記憶しただけかもしれません。記録の外にある現実に対しては、何も学んでいないことがあります。いわゆる過学習ですね。

地図は領土ではない、という表現があります。地図は作った人が測量できた範囲を描いています。測量されなかった土地は空白になるか、推測で埋められます。AIモデルも同じです。データが収集できた範囲の地図を描きます。その地図を持って、未測量の土地に出ていくとき、地図と現実のずれが生まれます。

実務でAIを使う側に求められるのは、高精度のモデルを手に入れることよりも、そのモデルがどの地図を持っているかを把握することです。モデルの訓練データを作った観測の条件を理解し、現在の適用場面がその条件とどのくらい一致しているかを評価する。これは技術者の仕事である前に、モデルを使う意思決定者の仕事です。

結論. AIを「正しく疑う」知性

「地図は領土ではない」という言葉通り、AIモデルはあくまで過去の観測範囲を描いた地図に過ぎません。その地図の端がどこにあるのかを知ることこそが、AIを道具として使いこなすための真の「知性」と言えます。

データが映し出すのは現実そのものではなく、「記録というフィルターを通ったあとの残滓」であることを忘れてはなりませんね。

このブログ一覧は

メンバー投稿記事

です

メンバー登録すると、限定記事の閲覧やメンバー同士の交流、限定イベントへの参加などができます。

CDLEコミュニティサイトβ版

JDLA（一般社団法人日本ディープラーニング協会）が実施する、G検定・E資格の合格者のみが参加できる、10万人を超える日本最大級のAIコミュニティ「CDLE」の紹介サイトです。 CDLEでは、ディープラーニングの社会実装の日本代表として、社会を発展させるエバンジェリストたちが集まり、学び合い・アウトプットする場を提供しています。

詳細を見る

CDLEメンバー

¥55/月(税込)

登録情報を確認の上、事前登録された方へ本登録のご案内メールを送信します。もっとみる閉じる

登録情報を確認の上、事前登録された方へ本登録のご案内メールを送信します。

このプランに入会する

その他のプランもみる

7リアクション

メンバーの方はこちらからログイン

ツールを使う知性と、道具に使われる知性

初心者🔰がAIチャットbot作ってみた②