他力code
ブログ一覧に戻る

同じデータなのに結論が真逆になる──AIが「正当な分析だけ」で好きな結論を作れる理由

「データは嘘をつかない」──

そう言われます。ニュースや記事でグラフや統計が示されると、私たちは無意識のうちに「これは揺るぎない客観的な真実だ」と受け取ります。 しかし、もしその大前提が根底から覆されるとしたら?

全く同じデータを使い、全く同じ仮説を検証しても、分析を担う人が変わるだけで、真逆の結論が、しかも完全に数学的に正しい形で導き出されることが証明されました。不正でも計算ミスでもありません。すべて統計的に正しい分析です。

2026年3月に発表されたこの研究は、「データ分析の客観性」という常識を根本から揺るがします。

なぜ、こんなことが起きるのか?

今回取り上げるのは、Amazon AWSとカーネギーメロン大学の研究者(Martin Bertran・Riccardo Fogliato・Zhiwei Steven Wu)が2026年3月に発表した論文『Many AI Analysts, One Dataset: Navigating the Agentic Data Science Multiverse』(arXiv:2602.18710)です。自律型AIアナリストを使って約5,000通りの分析を実行し、「同一データから導かれる結論の分散」を大規模に測定しました。

データは同じなのに、結論だけが変わる。その理由は何か。

科学的な結論はデータだけでなく、分析の過程で積み重ねられる無数の合理的な判断」にも依存します。外れ値を除外するか、どの変数を共変量に含めるか、標準誤差の計算方法は何を使うか...。これらは全て学術的に「正当」な選択肢でありながら、最終的な結論を大きく左右します。

統計学者のゲルマンとローケンはこの現象を「分岐する小道の庭(Garden of Forking Paths)」と名付けました。データ分析とは答えが一つに決まる魔法の箱ではなく、無数のドアがある廊下を進むようなものです。あるドアを選べば「仮説は正しい」部屋に、別のドアを選べば「否定」の部屋にたどり着く。

これは「裁判」に似ています。同じ証拠を見ても、検察は「有罪」を主張し、弁護側は「無罪」を主張します。どちらも法律の範囲内で合理的な論理を組み立てますが、結論は真逆になることがあります。データ分析でも同じことが起きます。変数の選び方、外れ値の扱い、統計モデルの種類、すべて「正当な選択肢」が複数存在するためです。

この問題を実証した先行研究として、2018年のシルバーザーン研究が有名です。29チームのプロ研究者が「サッカー審判は肌の色が濃い選手にレッドカードを出しやすいか」という同一の仮説・データを分析した結果、20チームは「バイアスあり」、9チームは「偏りなし」と結論づけました。全員が専門家であるにもかかわらず。

しかし、このような多人数分析研究は実施コストが高く、組織するだけで数ヶ月から数年を要します。そこで本研究(Amazon AWS・カーネギーメロン大学)は、大規模言語モデル(LLM)を活用した自律型AIアナリストを使い、この「分析の多重宇宙」を安価・高速・大規模に再現することを試みました。

実験:AIに同じデータと仮説を与えたら、何が起きたか

研究者たちは、AIに同じデータと仮説を与え、約5,000通りの分析を実行させました。その結果、結論はバラバラに分裂しました。

フレームワークの核心は「実行者」と「監査役」の分離です。

AIアナリストは、データセット・仮説・推定量を受け取り、データクリーニングから変数選択、Pythonコードの記述、レポート作成まで、人間の介入なしに実行します。実装はReActエージェント(Inspect AIフレームワーク)で、Pythonセッション・シェル・ファイルエディタの3種のツールにアクセスできます。コードを書いて実行し、結果を見て修正するというフィードバックループを自律的に回す「ツール使用エージェント」です。4種類のLLM(Claude Sonnet 4.5、Claude Haiku 4.5、Qwen3 235B、Qwen3 Coder 480B)を試験しました。

AIオーディター(Claude Sonnet 4.5)は、全ての実行トランスクリプトを精査し、問題のある分析(ハルシネーション、既知の結果を「思い出した」だけの分析、不確実性定量化の欠如)を除外します。オーディターが「方法論的に問題あり」と判断した分析を除いた上で分散を評価しますが、「合理的な分析」の定義自体は採用した基準に依存します。

分析したシナリオは3つ:

データセット 仮説 特徴
soccer(サッカー審判) 肌の色が濃い選手へのレッドカード偏りはあるか 訓練データ汚染リスク:高
metr-rct(AIコーディング支援RCT) AI支援で実装時間は増加するか 最新データ、仮説の方向を反転
anes-views(ANES政治調査) TV視聴とイデオロギー整合性の関連は 変数構築・サーベイ重み付けが複雑

実験結果:「信念」ではなく「探索戦略」が結論を変える

4,946回の実行のうち、67%(3,303回)がオーディターの審査を通過。残りは方法論的な問題で除外されました。

5種類のペルソナは、大きく2つのグループに分けられます:

グループ ペルソナ 説明
信念グループ(期待のみ) Negative(懐疑的) 仮説は間違っているだろうというスタンス
Standard(標準) 中立
Positive(肯定的) 仮説は正しいはずだ
探索グループ(積極的仕様探索) CS(確証バイアス求め) 仮説を支持する仕様を能動的に探す
Strong CS(強確証バイアス) p-hacking的な仕様探索を明示的に指示

その結果として生じた仮説支持率の差:

データセット Negative vs Strong CS の支持率差
anes-views 34ポイント
soccer 約50ポイント
metr-rct 最大66ポイント

ここで重要なのは、Negative と Positive の差は小さいという事実です。「仮説は正しいと思う」という期待を持たせても支持率はほぼ変わらない。結論を大きく動かすのは「信念」ではなく、「支持する仕様を探せ」という探索戦略の指示です。

例えばanes-viewsデータでは:

  • 懐疑的なAI:マイノリティの意見に重みを持たせる保守的な手法(WLS)を選択
  • 強確証バイアスのAI:単純な平均(OLS)を選択し、データのノイズが結果に乗りやすい状況を作出

どちらも統計学的には「ルール違反ゼロ」です。

本当に怖い話:p-hackingの工業化

AIを使えば、

  1. 5,000通りの分析を自動生成
  2. すべて統計的に正当
  3. 都合の良い結果だけ選ぶ

ということが現実的なコストで可能になります。これはもはや「不正」ですらありません。正しい分析を繰り返すだけで、好きな結論を作れてしまう。

論文にも明記されています:

cherry-picking a favorable run or iterating until a preferred conclusion emerges is straightforward at scale

研究不正を意図しなくても、自分の仮説を信じるユーザーが「有効な結果が出るまでAIで再分析」を繰り返すだけで、実質的に同じ効果が生まれます。これが政策立案・公衆衛生・規制判断の根拠となるデータ分析に用いられたとき、影響は軽微ではありません。

話のもう一つの側面:AIが分析の多重宇宙を可視化できる

同じ技術は、問題の「解決」にも使えます。

論文著者は言います。「1つの決定的な分析に頼る時代は終わった」と。これからは結果を「点」ではなく、考えうる全ての正当な分析における「分布(グラデーション)」として捉えるべきだ、と。

AIを「監査役」や「マルチバースの探索者」として使い、「手法を変えたとき結果がどれくらい揺らぐか」を判断基準にする──これが論文が提唱する新しい科学の作法です。

具体的には、AIアナリストを「一つの答えを出す機械」としてではなく、「分析の多重宇宙を地図化する探索ツール」として使えば:

  • 結果を「点推定」ではなく「分布」として報告できる
  • 「どの分析手法を選んでも結論が揺らがないか」をスクリーニングできる
  • 未記述の設計上の選択肢がどこにあるかを特定できる

つまりAIは、「答え」を出す機械ではなく「結論がどこまで揺れるか」を測る機械でもあるのです。

限界と今後の課題

  • オーディターの定義依存性:「合理的な分析」の基準は選択した基準に依存しており、LLMベースのオーディター自体の評価方法は未解決
  • AI vs 人間の分析経路の違い:AIアナリストが選ぶ「小道」は人間が選ぶものと必ずしも一致しない。共有の盲点や、学習データに由来する偏りがある可能性がある
  • 完全自律 vs AI支援の中間形態:実験は完全自律型だが、現実のAIコーディングアシスタント利用との接続は推論的

まとめ

  • p-hackingが工業化される:AIは合法的な分析パイプラインを大量生成できるため、「都合の良い結果が出るまで再分析」が研究不正なしに可能になる
  • 結論を動かすのは「信念」ではなく「探索戦略」:「仮説は正しいと思う」程度では支持率はほぼ変わらないが、「支持する証拠を探せ」と指示すると最大66ポイント変動する
  • 科学はもともと多宇宙だった:この問題はAIが生んだわけではない。AIは、これまで隠れていた分析の多重宇宙を初めてスケールで可視化できる道具を提供している

論文著者が提唱する新しい透明性規範:AIが生成した分析には、マルチバース形式のレポートと使用プロンプトの完全開示を、コードやデータと同等に添付すべき

最後に

AIが科学を壊すのでしょうか。

もしかすると逆かもしれません。

科学はもともと、一つの答えではなく無数の分析の可能性の上に成り立っていました。AIはそれを、初めて可視化しただけなのかもしれません。

あなたの業界で参照される「データに基づく判断」は、どんな探索戦略で生成されたものでしょうか?

情報ソース

Many AI Analysts, One Dataset: Navigating the Agentic Data Science Multiverse

Many AI Analysts, One Dataset: Navigating the Agentic Data Science Multiverse

Empirical conclusions depend not only on data but on analytic decisions made throughout the research process. Many-analyst studies have quantified this dependence: independent teams testing the same hypothesis on the same dataset regularly reach conflicting conclusions. But such studies require costly human coordination and are rarely conducted. We show that fully autonomous AI analysts built on large language models (LLMs) can, cheaply and at scale, replicate the structured analytic diversity observed in human multi-analyst studies. In our framework, each AI analyst independently executes a complete analysis pipeline on a fixed dataset and hypothesis; a separate AI auditor screens every run for methodological validity. Across three datasets spanning distinct domains, AI analyst-produced analyses exhibit substantial dispersion in effect sizes, $p$-values, and conclusions. This dispersion can be traced to identifiable analytic choices in preprocessing, model specification, and inference that vary systematically across LLM and persona conditions. Critically, the outcomes are \emph{steerable}: reassigning the analyst persona or LLM shifts the distribution of results even among methodologically sound runs. These results highlight a central challenge for AI-automated empirical science: when defensible analyses are cheap to generate, evidence becomes abundant and vulnerable to selective reporting. Yet the same capability that creates this risk may also help address it: treating analyst results as distributions makes analytic uncertainty visible, and deploying AI analysts against a published specification can reveal how much disagreement stems from underspecified design choices. Taken together, our results motivate a new transparency norm: AI-generated analyses should be accompanied by multiverse-style reporting and full disclosure of the prompts used, on par with code and data.

arXiv.org