Structured Residual Attribution — A Benchmark Note on Attribution Collapse

編集注記： 本文は ChatGPT / Codex / Gemini / Perplexity との査読リレー（複数ラウンド）を経た統合版である。観測者理論から工学的失敗理論への縮退過程を含む元リレーログは付録（appendix.html）に収録。コード・数値実験は付録を参照。

要約 / Abstract

本稿は、非定常な部分観測環境において適応システムが示す特定の故障モード—— 帰属崩壊（Attribution Collapse）——を定義・定式化し、その検出ベンチマーク（MOAT v5g）の設計仕様を提示する。核心命題は：持続的励起（Persistent Excitation, PE）条件はパラメータの同定可能性を保証しうるが、競合する構造仮説（B drift / Q burst）間の 帰属分離可能性（Attribution Separability）は保証しない、というものである。誤った潜在チャネルへの更新はポリシーを歪め、歪んだポリシーは将来の軌道証拠を汚染し、軌道レベルの識別可能性を再帰的に低下させる（Recursive Attribution Poisoning）。本稿は新理論ではなく、ABHT / controlled sensing / dual control 周辺での stress-test benchmark として位置づけることを明示する。

§1理論の純化過程：何を捨てて何が残ったか

前版は observer / selfhood / phenomenology を中心に置いた。複数 AI による査読リレーを経て、以下の削除と変換が行われた。

完全に排除した概念

observer（操作的 observer 定義）、 self / selfhood（F-余代数的不動点）、 consciousness / phenomenology / qualia、 AQFT ontology（von Neumann 代数の存在論的解釈）、 IIT 接続、 High-PE Paradox（数式が支えなかったため撤回）、 「因果」の強い主張（構造化残差帰属に後退）。

削除後に残った核：

適応システムは、部分観測下で誤った潜在要因へ残差を帰属して更新したとき、変更された自身のポリシーを通じて将来の残差の統計的・幾何学的構造を歪め、自身の将来の識別可能性を再帰的に破壊し得る。

これは observer の哲学 ではなく、適応制御の閉ループ故障幾何学 である。前者より後者の方が査読可能性が高く、実験的に反証可能である。

§2Structured Residual Attribution（SRA）の定義

2.1 予測残差の因子分解

状態空間モデル $x_{t+1} = A_t x_t + B_t u_t + w_t$、観測 $y_t = C_t x_t + v_t$ において、エージェントの予測残差 $e_t = y_t - \hat{y}_t$ を以下の四成分に分解する：

$$e_t = \underbrace{\Delta B_t \cdot u_t}_{\text{action-channel drift}} + \underbrace{\Delta A_t \cdot x_t}_{\text{world dynamics drift}} + \underbrace{\Delta w_t}_{\text{exogenous disturbance}} + \underbrace{\Delta C_t \cdot x_t}_{\text{sensor drift}}$$

定義：Selective Plasticity 各ドリフト原因に対する更新対象の対応表。

帰属先	更新すべき内部モデル	誤帰属時のペナルティ
$\Delta B_t$	$\hat{B}_t$（介入モデル）	Chaosに誤帰属→介入効率の低下を無視、制御不能
$\Delta A_t$	$\hat{A}_t$（遷移モデル）	Actionに誤帰属→$\hat{B}_t$ を汚染して自己破壊
$\Delta Q_t$	$Q_{est}$（ノイズ共分散のみ）	構造モデルへの誤帰属→過剰適応による崩壊
$\Delta C_t$	$\hat{C}_t$ または $R_{est}$	Worldに誤帰属→世界モデルの崩壊（Freezing）

2.2 帰属部分空間と識別可能性

各成分が残差空間に生成する部分空間を定義する：

$$\mathcal{S}_B = \text{range}\bigl(\mathbb{E}[e_t u_t^\top \mid \Delta B \neq 0]\bigr), \quad \mathcal{S}_Q \ni \text{Corr}(\|e_t\|^2, \|u_t\|^2) > 0$$

帰属分離可能性は二部分空間のなす主角（Principal Angle）$\theta_{BQ}$ で測られる。 $\theta_{BQ} \to 0$（部分空間の重複）が帰属崩壊の幾何学的指標である。

2.3 同定可能性仮定（Spec-1〜5）

現在の SRA は以下の仮定下でのみ Causal Attribution Proxy として機能する。これらは benchmark specification として明示的に固定する。

識別可能性仮定（Benchmark Spec）

— Spec-1：プロセスノイズ $w_t$ は行動 $u_t$ と独立（zero-mean）
— Spec-2：観測ノイズ $v_t$ は行動と独立
— Spec-3：Hidden confounder が存在しない（または $u_t \perp z_t$）
— Spec-4：行動が持続的励起条件（PE）を満たす：$\frac{1}{T}\sum u_t u_t^\top \geq \alpha I$
— Spec-5：観測ウィンドウ $W$ 内で B_true が準定常（変化速度 $\ll 1/W$）

Spec-3 違反（Hidden Confounder）では $\mathbb{E}[e_t u_t^\top] \neq 0$ が B_true 不変でも成立し得る（§6参照）。

§3Attribution Collapse の形式化

3.1 閉ループ汚染 Jacobian

汚染量 $\delta_t = \text{vec}(\Delta_t) = \text{vec}(B_{est,t} - B_{true})$ を含む拡大状態系を定義する：

$$z_t = \begin{pmatrix} x_t \\ \delta_t \end{pmatrix}, \quad z_{t+1} = F(z_t, w_t, \xi_t)$$

$\delta_t = 0$ 周りの線形化による期待値 Jacobian：

$$J = \mathbb{E}\!\left[\frac{\partial F}{\partial z}\right] = \begin{pmatrix} A_{cl} & B_{true} K P_x^{1/2} \otimes I_n \\ 0 & I_{nm} - \alpha I_0 \otimes I_n \end{pmatrix}$$

ただし $I_0 = K B_{true} P_x B_{true}^\top K^\top + \Sigma_\xi$（正常時の行動共分散）。汚染が増大すると $\tilde{I}(\Delta_t) = \mathbb{E}[u_t u_t^\top | \Delta_t]$ が変化し、特定の更新則・ポリシー依存性の下では、汚染が $\rho(J_\delta) > 1$ となる 不安定領域を生みうる：

$$\|\Delta_t\| \nearrow \;\Rightarrow\; \lambda_{max}(\tilde{I}) \nearrow \;\Rightarrow\; \rho(J_\delta) > 1 \;\Rightarrow\; \|\Delta_{t+1}\| > \|\Delta_t\|$$

3.2 Recursive Attribution Poisoning の定義

定義：Attribution Collapse（Recursive Attribution Poisoning）汚染量 $C(t) = \|B_{est,t} - B_{true,t}\|_F$ に対し： $$\exists t_0, \varepsilon > 0: \forall t > t_0 + T_{recover},\; C(t) > \varepsilon \quad \text{（観測窓内で自然回復しない）}$$ 発生メカニズム（閉ループ）：

誤帰属による B_est 汚染
↓ 歪んだ行動 u_t = K(B_est) x_t
↓ 偏った残差 e_t が再び誤帰属の「証拠」を生成
↓ さらなる B_est 汚染
└─── 正のフィードバックループ（評価窓内で自然回復しない）

既存 Adaptive Instability との違い

	Adaptive Instability	Attribution Collapse
回復性	外乱後に自然回復	観測窓内で自然回復しない
原因	lr 過大等（量的）	誤方向更新（構造的）
汚染伝播	独立に作用	汚染モデルが将来の誤帰属を誘発
閉ループ性	開ループ失敗	agent が自ら偽証拠を生成

3.3 PE 保存 vs 帰属分離可能性の独立性

本稿の最も守りやすい中心命題：

中心命題（守れる範囲の主張） $$\underbrace{\lambda_{min}(\mathbb{E}[u_t u_t^\top]) > 0}_{\text{PE 条件（parameter identifiability）}} \;\not\Rightarrow\; \underbrace{\theta(\mathcal{S}_B, \mathcal{S}_Q) > 0}_{\text{attribution separability}}$$ 持続的励起はパラメータ値の同定を助けるが、競合する構造仮説（B drift vs Q burst）間の帰属分離可能性を保証しない。これら二条件は独立した要件である。

※ 「PE が高いほど崩壊する（High-PE Paradox）」は数式的に支えられず撤回した。正しい主張は「PE が保たれていても崩壊し得る」である。

§4Trajectory-Level Distinguishability の定義

4.1 三種の区別可能性指標

単発残差統計では $P(e_t | H_B) = P(e_t | H_Q)$ が設計上成立する系を対象とする。軌道介入応答構造（trajectory-level intervention response）を見て初めて区別できる。

定義：$D_t^{\pi_b}$（do-operator 版） $$D_t^{\pi_b}(B,Q) := D_{KL}\!\Bigl(P_B\bigl(e_{t:t+k} \mid do(u_{t:t+k} \sim \pi_b)\bigr) \;\Big\|\; P_Q\bigl(e_{t:t+k} \mid do(u_{t:t+k} \sim \pi_b)\bigr)\Bigr)$$
三種の特化指標：
— $D_{probe}$：固定外生プローブ $\pi_{probe}$ 下（環境の reference 識別可能性）
— $D_{policy}$：現在の belief $b_t$ から誘導されるポリシー $\pi_{b_t}$ 下
— $D_{oracle}$：真の belief（診断用 counterfactual、performance metric ではない）

注意：$D_{oracle}$ の位置づけ

$D_{oracle}$ はデプロイ可能なベースラインではなく、崩壊が「環境の本質的識別不能性」ではなく「誤 belief ポリシーによる因果的誘導」であることを検証するための 反事実的診断コントロールである。エージェント性能の比較表には使用しない。

4.2 Recursive Attribution Poisoning の軌道定義

$$\boxed{D_{policy}^{b_{t+1}^{wrong}} < D_{policy}^{b_t} \quad \text{かつ} \quad D_{probe,t+1} \approx D_{probe,t}}$$

世界は識別可能なままだが、誤 belief を持つエージェントが自分で識別しにくい軌道分布を生成し続ける。 $D_{policy}$ が下がる条件（「必然」ではなく条件）：

誤更新 $b_t^{wrong}$ のもとでのポリシー勾配が $D_{policy}$ を増大させる方向と逆を向くとき、すなわち $\pi_{wrong}$ が B/Q を分ける discriminative direction を避けるか、両者の応答を似せる軌道分布を生成するとき に成立する。これは構造的条件であり、常に成立するわけではない。

Directional Collapse の診断指標

$$DirectionalEnergy_B(t) := \frac{v_B^\top \mathbb{E}[u_t u_t^\top] v_B}{\text{tr}(\mathbb{E}[u_t u_t^\top])}$$

入力の総エネルギー（Magnitude）やランク（PE）が保たれたまま、 $v_B$ 方向（B drift の識別方向）への投影だけが低下するとき、これを Directional Collapse と呼ぶ。

4.3 既存理論との差分（控えめな主張）

理論	扱うもの	本稿との関係
IMM / MMAE	固定仮説集合のモデル重み更新	モデル構造自体を更新しない。本稿は構造更新が故障源
Dual Control	識別感度の最大化（探索）	情報量増大が目標。本稿は識別可能性の内生的崩壊防御
Active BHT	$D_{policy}$ を最大化する行動選択	最も近い既存理論。本稿は ABHT の failure mode として定義
Particle Filter	Posterior の表現（粒子多様性）退化	本稿は posterior ではなく future evidence distribution の劣化
Closed-Loop ID	閉ループによる推定バイアス（静的）	既知。本稿は adaptation 自体が識別可能性を内生的に破壊する動的過程

最安全な差分主張本稿は ABHT の外側に新理論として立つのではなく、 ABHT が想定する distinguishability が、誤った構造帰属更新によって能動的に劣化するという、 ABHT の内側で未整理の閉ループ故障モードを測定可能（Falsifiable）なベンチマークとして提示する。

最小差分候補：「行動が識別可能性を変える」（ABHT の中心）ではなく、「誤更新が PE・エネルギーを保ちながら discriminative direction への投影だけを壊す」という Directional Collapse パターン。

§5MOAT v5g — ベンチマーク設計仕様

5.1 2次元最小反例系

$$x_{t+1} = Ax_t + B_{true}u_t + w_t, \quad x_t, u_t \in \mathbb{R}^2$$ $$B_{true} = I + \delta_B v_B v_B^\top, \quad Q_t = \sigma_w^2 I + \delta_Q \cdot \mathbf{1}_{burst}(t) \cdot v_Q v_Q^\top$$

毎エピソードのランダム幾何学（Leakage 防止）

$$v_B \sim \text{Uniform}(S^1), \quad v_Q = \frac{R(\theta)v_B + \epsilon}{\|R(\theta)v_B + \epsilon\|}, \quad \theta \sim \text{Uniform}(30°, 150°)$$

単発識別不能の設計拘束

$\delta_B, \delta_Q$ を以下を近似的に満たすよう設定する：

$$\text{Var}(e_t \mid H_B) \approx \text{Var}(e_t \mid H_Q)$$

（$\delta_B^2 \cdot \mathbb{E}[\|u_t\|^2] \approx \delta_Q$ となるよう調整。厳密等式ではなく近似的均衡であり、エピソードごとにスケールを確認する。）

エージェントは単発残差統計だけでは $H_B$ と $H_Q$ を区別できない。軌道レベルの介入応答構造（時間窓付き相互共分散）を見なければ識別不可能である。

5.2 測定アーキテクチャの二階層分離

■ Diagnostic Controls（評価者専用 — ground-truth v_B, v_Q 使用可）
  D_probe(t)             : 固定外生プローブ下での AUC（環境の生存証明）
  D_oracle(t)            : 真の belief ポリシー下での AUC（因果診断用）
  DirectionalEnergy_B(t) : v_B⊤ E[u_t u_t⊤] v_B / tr(E[u_t u_t⊤])

■ Performance Metrics（神の視点情報を完全に隠蔽）
  AUC_residual(t)        : e_{t+3:t+3+k} からの識別 AUC（タイムラグ付）
  AUC_action(t)          : u_{t:t+k} のみからの識別 AUC（リーク監視用）
  D_norm(t)              : AUC_residual / tr(E[u_t u_t⊤])

5.3 崩壊判定条件と計測アーティファクト防御

SRA型 Directional Collapse 判定（全条件同時成立）

D_probe AUC           > 0.75   [環境は識別可能]
D_oracle AUC          > 0.75   [正 belief なら保持]
PE_policy             ≥ thresh  [入力ランク十分]
InputEnergy           ≥ thresh  [入力エネルギー十分]
DirectionalEnergy_B   ↓↓↓       [v_B 方向への投影だけ枯渇]
AUC_residual          < 0.60   [ポリシー下では識別不能]
D_norm                decreasing
AUC_action            < 0.55   [leakage check: PASS]

計測アーティファクト防御チェックリスト

— 多モデル検証：Linear SVM / RBF-kernel SVM / Shallow MLP (2-layer) 全3種で同傾向の崩壊を確認（特定モデルの表現バイアスを排除）
— 高次モーメントリーク監査：AUC_action を監視する識別器に Shallow LSTM を必須追加。0.55超でエピソード除外
— ホライズンスイープ：$k \in \{5, 10, 20, 40\}$ で崩壊の robust 性を確認
— ランダム幾何検証：固定 $v_B, v_Q$ での全エピソード通しテストを禁止（固定 fingerprint 記憶化を防止）

必須 Baseline 群（全同条件で実施）

Baseline	突破すべき点
EKF / UKF	古典的閉ループ ID の代表
IMM / MMAE	固定モデル集合での仮説フィルタ
Particle Filter	Posterior collapse との差分確認
Dual Control	情報最大化探索との差分確認
Active BHT	最も近い既存理論——本命ベースライン

Negative Result の扱い

もし ABHT 等の baseline 群が全て $D_{policy}$ collapse を回避した場合、それは「新理論の否定」ではなく、「ABHT family がこの幾何的病理をすでにカバーする」という有価値な否定的結果である。どちらの結果も benchmark として意義がある。

§6Hidden Confounder による幾何学的破壊

Spec-3 違反（Hidden Confounder $z_t$）の場合を形式化する。 $u_t = \pi(x_t) + \gamma c_u z_t + \xi_t$、$w_t = \tilde{w}_t + \beta c_e z_t$ のとき：

$$\mathbb{E}[e_t u_t^\top] = \underbrace{\Delta B \cdot I_0}_{\text{真の B drift 信号}} + \underbrace{\beta\gamma\sigma_z^2 c_e c_u^\top}_{=: \mathbf{C} \text{（偽の B drift 信号）}}$$

$\Delta B = 0$ でも右辺第2項が非ゼロとなり、SRA の mean-channel attribution は B_true が変化していないのに $\hat{B}_t$ を更新してしまう。

理論の限界（正直な境界）

現在の SRA は Spec-1〜5 が成立する環境の Causal Attribution Proxy である。 Hidden Confounder（Spec-3 違反）まで扱う汎用的な因果同定理論には到達していない。論文の Limitations セクションには Spec-3 違反下での MOAT v5g フェーズ5を「本枠組みが壊れることを観測する限界テスト」として明示的に配置する。

末尾未解決点・強く言える範囲・まだ言えない範囲

強く言える範囲

PE 条件はパラメータ同定可能性を助けるが、帰属分離可能性（attribution separability）は保証しない——これら二要件は独立である
誤った latent component 更新が閉ループで policy を歪め、将来の residual 統計を汚染しうる機構（Recursive Attribution Poisoning）を状態空間として定式化できる
特定の更新則・ポリシー依存性の下では $\rho(J_\delta) > 1$ となる不安定領域が生じうる条件を記述できる（Spec-1〜5 下で）
$D_{probe}$ と $D_{policy}$ の乖離を、外生プローブ vs. wrong-belief policy の counterfactual 比較で測定できる
DirectionalEnergy_B による Directional Collapse と PE Collapse は独立した診断指標として定義できる
MOAT v5g は falsifiable な stress-test benchmark として設計されており、ABHT / IMM / PF / Dual Control と直接比較可能である
Hidden Confounder（Spec-3 違反）では現在の枠組みが壊れることを論文内に明示できる（Limitation として）

まだ言えない範囲

SRA が ABHT / active hypothesis testing の genuine な新理論であるとは言えない。現時点では failure mode の記述
Spec-3（Hidden Confounder）を含む一般環境での因果同定は到達していない
High-PE が帰属崩壊を「加速する」という主張（High-PE Paradox）——数式が支えないため撤回
Recursive attribution poisoning が particle depletion / posterior collapse と本質的に異なるとの確定的主張——active Bayesian filtering の特殊ケースである可能性が残る
実験で baseline 群が全て collapse しない場合の理論的救済策
observer / self / consciousness / phenomenology への接続——本稿の外側にある

未解決点（次に掘るべき場所）

High-PE / High-Overlap regime の実証：PE が十分に保たれているが $D_{policy}$ が崩壊するエピソードを MOAT v5g で再現できるか
ABHT との厳密な差分確定：Active BHT が本命ベースラインとして Directional Collapse を回避する場合、SRA の差分は「識別可能性の内生的破壊という failure mode の benchmark 化」のみに留まるか
Mean / Variance チャネルの分離実装：mean_attr（B drift 信号）と var_attr（action-induced noise 信号）の分離がaction-confounded noise 環境で機能するか
Attribution-Aware Exploration：B/Q を分離する discriminative direction を維持するための action 選択則。Dual Control の Fisher 情報最大化とは「分離性の維持」という点で目的が異なる——これが実装可能な独立概念になるか
2D 反例系の実装と baseline 実験：EKF / IMM / PF / Dual Control / Active BHT の全 baseline を同一条件で回し、Directional Collapse が SRA 固有か ABHT 既知病理かを判定