編集注記: 本文は ChatGPT / Codex / Gemini / Perplexity との査読リレー(複数ラウンド)を経た統合版である。 観測者理論から工学的失敗理論への縮退過程を含む元リレーログは 付録(appendix.html)に収録。 コード・数値実験は付録を参照。
本稿は、非定常な部分観測環境において適応システムが示す特定の故障モード—— 帰属崩壊(Attribution Collapse)——を定義・定式化し、 その検出ベンチマーク(MOAT v5g)の設計仕様を提示する。 核心命題は:持続的励起(Persistent Excitation, PE)条件はパラメータの同定可能性を 保証しうるが、競合する構造仮説(B drift / Q burst)間の 帰属分離可能性(Attribution Separability)は保証しない、というものである。 誤った潜在チャネルへの更新はポリシーを歪め、歪んだポリシーは将来の軌道証拠を汚染し、 軌道レベルの識別可能性を再帰的に低下させる(Recursive Attribution Poisoning)。 本稿は新理論ではなく、ABHT / controlled sensing / dual control 周辺での stress-test benchmark として位置づけることを明示する。
§1理論の純化過程:何を捨てて何が残ったか
前版は observer / selfhood / phenomenology を中心に置いた。 複数 AI による査読リレーを経て、以下の削除と変換が行われた。
observer(操作的 observer 定義)、 self / selfhood(F-余代数的不動点)、 consciousness / phenomenology / qualia、 AQFT ontology(von Neumann 代数の存在論的解釈)、 IIT 接続、 High-PE Paradox(数式が支えなかったため撤回)、 「因果」の強い主張(構造化残差帰属に後退)。
削除後に残った核:
適応システムは、部分観測下で誤った潜在要因へ残差を帰属して更新したとき、 変更された自身のポリシーを通じて将来の残差の統計的・幾何学的構造を歪め、 自身の将来の識別可能性を再帰的に破壊し得る。
これは observer の哲学 ではなく、適応制御の閉ループ故障幾何学 である。 前者より後者の方が査読可能性が高く、実験的に反証可能である。
§2Structured Residual Attribution(SRA)の定義
2.1 予測残差の因子分解
状態空間モデル $x_{t+1} = A_t x_t + B_t u_t + w_t$、 観測 $y_t = C_t x_t + v_t$ において、 エージェントの予測残差 $e_t = y_t - \hat{y}_t$ を以下の四成分に分解する:
$$e_t = \underbrace{\Delta B_t \cdot u_t}_{\text{action-channel drift}} + \underbrace{\Delta A_t \cdot x_t}_{\text{world dynamics drift}} + \underbrace{\Delta w_t}_{\text{exogenous disturbance}} + \underbrace{\Delta C_t \cdot x_t}_{\text{sensor drift}}$$| 帰属先 | 更新すべき内部モデル | 誤帰属時のペナルティ |
|---|---|---|
| $\Delta B_t$ | $\hat{B}_t$(介入モデル) | Chaosに誤帰属→介入効率の低下を無視、制御不能 |
| $\Delta A_t$ | $\hat{A}_t$(遷移モデル) | Actionに誤帰属→$\hat{B}_t$ を汚染して自己破壊 |
| $\Delta Q_t$ | $Q_{est}$(ノイズ共分散のみ) | 構造モデルへの誤帰属→過剰適応による崩壊 |
| $\Delta C_t$ | $\hat{C}_t$ または $R_{est}$ | Worldに誤帰属→世界モデルの崩壊(Freezing) |
2.2 帰属部分空間と識別可能性
各成分が残差空間に生成する部分空間を定義する:
$$\mathcal{S}_B = \text{range}\bigl(\mathbb{E}[e_t u_t^\top \mid \Delta B \neq 0]\bigr), \quad \mathcal{S}_Q \ni \text{Corr}(\|e_t\|^2, \|u_t\|^2) > 0$$帰属分離可能性は二部分空間のなす主角(Principal Angle)$\theta_{BQ}$ で測られる。 $\theta_{BQ} \to 0$(部分空間の重複)が帰属崩壊の幾何学的指標である。
2.3 同定可能性仮定(Spec-1〜5)
現在の SRA は以下の仮定下でのみ Causal Attribution Proxy として機能する。 これらは benchmark specification として明示的に固定する。
- — Spec-1:プロセスノイズ $w_t$ は行動 $u_t$ と独立(zero-mean)
- — Spec-2:観測ノイズ $v_t$ は行動と独立
- — Spec-3:Hidden confounder が存在しない(または $u_t \perp z_t$)
- — Spec-4:行動が持続的励起条件(PE)を満たす:$\frac{1}{T}\sum u_t u_t^\top \geq \alpha I$
- — Spec-5:観測ウィンドウ $W$ 内で B_true が準定常(変化速度 $\ll 1/W$)
Spec-3 違反(Hidden Confounder)では $\mathbb{E}[e_t u_t^\top] \neq 0$ が B_true 不変でも成立し得る(§6参照)。
§3Attribution Collapse の形式化
3.1 閉ループ汚染 Jacobian
汚染量 $\delta_t = \text{vec}(\Delta_t) = \text{vec}(B_{est,t} - B_{true})$ を含む拡大状態系を定義する:
$$z_t = \begin{pmatrix} x_t \\ \delta_t \end{pmatrix}, \quad z_{t+1} = F(z_t, w_t, \xi_t)$$$\delta_t = 0$ 周りの線形化による期待値 Jacobian:
$$J = \mathbb{E}\!\left[\frac{\partial F}{\partial z}\right] = \begin{pmatrix} A_{cl} & B_{true} K P_x^{1/2} \otimes I_n \\ 0 & I_{nm} - \alpha I_0 \otimes I_n \end{pmatrix}$$ただし $I_0 = K B_{true} P_x B_{true}^\top K^\top + \Sigma_\xi$(正常時の行動共分散)。 汚染が増大すると $\tilde{I}(\Delta_t) = \mathbb{E}[u_t u_t^\top | \Delta_t]$ が変化し、 特定の更新則・ポリシー依存性の下では、汚染が $\rho(J_\delta) > 1$ となる 不安定領域を生みうる:
$$\|\Delta_t\| \nearrow \;\Rightarrow\; \lambda_{max}(\tilde{I}) \nearrow \;\Rightarrow\; \rho(J_\delta) > 1 \;\Rightarrow\; \|\Delta_{t+1}\| > \|\Delta_t\|$$3.2 Recursive Attribution Poisoning の定義
誤帰属による B_est 汚染 ↓ 歪んだ行動 u_t = K(B_est) x_t ↓ 偏った残差 e_t が再び誤帰属の「証拠」を生成 ↓ さらなる B_est 汚染 └─── 正のフィードバックループ(評価窓内で自然回復しない)
| Adaptive Instability | Attribution Collapse | |
|---|---|---|
| 回復性 | 外乱後に自然回復 | 観測窓内で自然回復しない |
| 原因 | lr 過大等(量的) | 誤方向更新(構造的) |
| 汚染伝播 | 独立に作用 | 汚染モデルが将来の誤帰属を誘発 |
| 閉ループ性 | 開ループ失敗 | agent が自ら偽証拠を生成 |
3.3 PE 保存 vs 帰属分離可能性の独立性
本稿の最も守りやすい中心命題:
※ 「PE が高いほど崩壊する(High-PE Paradox)」は数式的に支えられず撤回した。 正しい主張は「PE が保たれていても崩壊し得る」である。
§4Trajectory-Level Distinguishability の定義
4.1 三種の区別可能性指標
単発残差統計では $P(e_t | H_B) = P(e_t | H_Q)$ が設計上成立する系を対象とする。 軌道介入応答構造(trajectory-level intervention response)を見て初めて区別できる。
三種の特化指標:
— $D_{probe}$:固定外生プローブ $\pi_{probe}$ 下(環境の reference 識別可能性)
— $D_{policy}$:現在の belief $b_t$ から誘導されるポリシー $\pi_{b_t}$ 下
— $D_{oracle}$:真の belief(診断用 counterfactual、performance metric ではない)
$D_{oracle}$ はデプロイ可能なベースラインではなく、 崩壊が「環境の本質的識別不能性」ではなく 「誤 belief ポリシーによる因果的誘導」であることを検証するための 反事実的診断コントロールである。 エージェント性能の比較表には使用しない。
4.2 Recursive Attribution Poisoning の軌道定義
$$\boxed{D_{policy}^{b_{t+1}^{wrong}} < D_{policy}^{b_t} \quad \text{かつ} \quad D_{probe,t+1} \approx D_{probe,t}}$$世界は識別可能なままだが、誤 belief を持つエージェントが 自分で識別しにくい軌道分布を生成し続ける。 $D_{policy}$ が下がる条件(「必然」ではなく条件):
誤更新 $b_t^{wrong}$ のもとでのポリシー勾配が $D_{policy}$ を増大させる方向と逆を向くとき、 すなわち $\pi_{wrong}$ が B/Q を分ける discriminative direction を避けるか、 両者の応答を似せる軌道分布を生成するとき に成立する。 これは構造的条件であり、常に成立するわけではない。
Directional Collapse の診断指標
$$DirectionalEnergy_B(t) := \frac{v_B^\top \mathbb{E}[u_t u_t^\top] v_B}{\text{tr}(\mathbb{E}[u_t u_t^\top])}$$入力の総エネルギー(Magnitude)やランク(PE)が保たれたまま、 $v_B$ 方向(B drift の識別方向)への投影だけが低下するとき、 これを Directional Collapse と呼ぶ。
4.3 既存理論との差分(控えめな主張)
| 理論 | 扱うもの | 本稿との関係 |
|---|---|---|
| IMM / MMAE | 固定仮説集合のモデル重み更新 | モデル構造自体を更新しない。本稿は構造更新が故障源 |
| Dual Control | 識別感度の最大化(探索) | 情報量増大が目標。本稿は識別可能性の内生的崩壊防御 |
| Active BHT | $D_{policy}$ を最大化する行動選択 | 最も近い既存理論。本稿は ABHT の failure mode として定義 |
| Particle Filter | Posterior の表現(粒子多様性)退化 | 本稿は posterior ではなく future evidence distribution の劣化 |
| Closed-Loop ID | 閉ループによる推定バイアス(静的) | 既知。本稿は adaptation 自体が識別可能性を内生的に破壊する動的過程 |
最小差分候補:「行動が識別可能性を変える」(ABHT の中心)ではなく、 「誤更新が PE・エネルギーを保ちながら discriminative direction への投影だけを壊す」 という Directional Collapse パターン。
§5MOAT v5g — ベンチマーク設計仕様
5.1 2次元最小反例系
$$x_{t+1} = Ax_t + B_{true}u_t + w_t, \quad x_t, u_t \in \mathbb{R}^2$$ $$B_{true} = I + \delta_B v_B v_B^\top, \quad Q_t = \sigma_w^2 I + \delta_Q \cdot \mathbf{1}_{burst}(t) \cdot v_Q v_Q^\top$$毎エピソードのランダム幾何学(Leakage 防止)
$$v_B \sim \text{Uniform}(S^1), \quad v_Q = \frac{R(\theta)v_B + \epsilon}{\|R(\theta)v_B + \epsilon\|}, \quad \theta \sim \text{Uniform}(30°, 150°)$$単発識別不能の設計拘束
$\delta_B, \delta_Q$ を以下を近似的に満たすよう設定する:
$$\text{Var}(e_t \mid H_B) \approx \text{Var}(e_t \mid H_Q)$$($\delta_B^2 \cdot \mathbb{E}[\|u_t\|^2] \approx \delta_Q$ となるよう調整。 厳密等式ではなく近似的均衡であり、エピソードごとにスケールを確認する。)
エージェントは単発残差統計だけでは $H_B$ と $H_Q$ を区別できない。 軌道レベルの介入応答構造(時間窓付き相互共分散)を見なければ識別不可能である。
5.2 測定アーキテクチャの二階層分離
■ Diagnostic Controls(評価者専用 — ground-truth v_B, v_Q 使用可)
D_probe(t) : 固定外生プローブ下での AUC(環境の生存証明)
D_oracle(t) : 真の belief ポリシー下での AUC(因果診断用)
DirectionalEnergy_B(t) : v_B⊤ E[u_t u_t⊤] v_B / tr(E[u_t u_t⊤])
■ Performance Metrics(神の視点情報を完全に隠蔽)
AUC_residual(t) : e_{t+3:t+3+k} からの識別 AUC(タイムラグ付)
AUC_action(t) : u_{t:t+k} のみからの識別 AUC(リーク監視用)
D_norm(t) : AUC_residual / tr(E[u_t u_t⊤])
5.3 崩壊判定条件と計測アーティファクト防御
D_probe AUC > 0.75 [環境は識別可能] D_oracle AUC > 0.75 [正 belief なら保持] PE_policy ≥ thresh [入力ランク十分] InputEnergy ≥ thresh [入力エネルギー十分] DirectionalEnergy_B ↓↓↓ [v_B 方向への投影だけ枯渇] AUC_residual < 0.60 [ポリシー下では識別不能] D_norm decreasing AUC_action < 0.55 [leakage check: PASS]
計測アーティファクト防御チェックリスト
- — 多モデル検証:Linear SVM / RBF-kernel SVM / Shallow MLP (2-layer) 全3種で同傾向の崩壊を確認(特定モデルの表現バイアスを排除)
- — 高次モーメントリーク監査:AUC_action を監視する識別器に Shallow LSTM を必須追加。0.55超でエピソード除外
- — ホライズンスイープ:$k \in \{5, 10, 20, 40\}$ で崩壊の robust 性を確認
- — ランダム幾何検証:固定 $v_B, v_Q$ での全エピソード通しテストを禁止(固定 fingerprint 記憶化を防止)
必須 Baseline 群(全同条件で実施)
| Baseline | 突破すべき点 |
|---|---|
| EKF / UKF | 古典的閉ループ ID の代表 |
| IMM / MMAE | 固定モデル集合での仮説フィルタ |
| Particle Filter | Posterior collapse との差分確認 |
| Dual Control | 情報最大化探索との差分確認 |
| Active BHT | 最も近い既存理論——本命ベースライン |
もし ABHT 等の baseline 群が全て $D_{policy}$ collapse を回避した場合、 それは「新理論の否定」ではなく、 「ABHT family がこの幾何的病理をすでにカバーする」という有価値な否定的結果である。 どちらの結果も benchmark として意義がある。
§6Hidden Confounder による幾何学的破壊
Spec-3 違反(Hidden Confounder $z_t$)の場合を形式化する。 $u_t = \pi(x_t) + \gamma c_u z_t + \xi_t$、$w_t = \tilde{w}_t + \beta c_e z_t$ のとき:
$$\mathbb{E}[e_t u_t^\top] = \underbrace{\Delta B \cdot I_0}_{\text{真の B drift 信号}} + \underbrace{\beta\gamma\sigma_z^2 c_e c_u^\top}_{=: \mathbf{C} \text{(偽の B drift 信号)}}$$$\Delta B = 0$ でも右辺第2項が非ゼロとなり、SRA の mean-channel attribution は B_true が変化していないのに $\hat{B}_t$ を更新してしまう。
現在の SRA は Spec-1〜5 が成立する環境の Causal Attribution Proxy である。 Hidden Confounder(Spec-3 違反)まで扱う汎用的な因果同定理論には到達していない。 論文の Limitations セクションには Spec-3 違反下での MOAT v5g フェーズ5を 「本枠組みが壊れることを観測する限界テスト」として明示的に配置する。
末尾未解決点・強く言える範囲・まだ言えない範囲
- PE 条件はパラメータ同定可能性を助けるが、帰属分離可能性(attribution separability)は保証しない——これら二要件は独立である
- 誤った latent component 更新が閉ループで policy を歪め、将来の residual 統計を汚染しうる機構(Recursive Attribution Poisoning)を状態空間として定式化できる
- 特定の更新則・ポリシー依存性の下では $\rho(J_\delta) > 1$ となる不安定領域が生じうる条件を記述できる(Spec-1〜5 下で)
- $D_{probe}$ と $D_{policy}$ の乖離を、外生プローブ vs. wrong-belief policy の counterfactual 比較で測定できる
- DirectionalEnergy_B による Directional Collapse と PE Collapse は独立した診断指標として定義できる
- MOAT v5g は falsifiable な stress-test benchmark として設計されており、ABHT / IMM / PF / Dual Control と直接比較可能である
- Hidden Confounder(Spec-3 違反)では現在の枠組みが壊れることを論文内に明示できる(Limitation として)
- SRA が ABHT / active hypothesis testing の genuine な新理論であるとは言えない。現時点では failure mode の記述
- Spec-3(Hidden Confounder)を含む一般環境での因果同定は到達していない
- High-PE が帰属崩壊を「加速する」という主張(High-PE Paradox)——数式が支えないため撤回
- Recursive attribution poisoning が particle depletion / posterior collapse と本質的に異なるとの確定的主張——active Bayesian filtering の特殊ケースである可能性が残る
- 実験で baseline 群が全て collapse しない場合の理論的救済策
- observer / self / consciousness / phenomenology への接続——本稿の外側にある
- High-PE / High-Overlap regime の実証:PE が十分に保たれているが $D_{policy}$ が崩壊するエピソードを MOAT v5g で再現できるか
- ABHT との厳密な差分確定:Active BHT が本命ベースラインとして Directional Collapse を回避する場合、SRA の差分は「識別可能性の内生的破壊という failure mode の benchmark 化」のみに留まるか
- Mean / Variance チャネルの分離実装:mean_attr(B drift 信号)と var_attr(action-induced noise 信号)の分離がaction-confounded noise 環境で機能するか
- Attribution-Aware Exploration:B/Q を分離する discriminative direction を維持するための action 選択則。Dual Control の Fisher 情報最大化とは「分離性の維持」という点で目的が異なる——これが実装可能な独立概念になるか
- 2D 反例系の実装と baseline 実験:EKF / IMM / PF / Dual Control / Active BHT の全 baseline を同一条件で回し、Directional Collapse が SRA 固有か ABHT 既知病理かを判定