theory.html  ·  consolidated theory note — revised  ·  draft

Structured Residual Attribution
— Attribution Collapse in Adaptive Systems
under Nonstationary Partial Observability

非定常部分観測下における適応システムの帰属崩壊:ベンチマーク設計ノート

改訂注記 / Revision Note

本稿は前版(Operational Embedded Agency Theory)からの大幅改訂版である。 複数AIとの査読リレーを経て、observer / self / consciousness / AQFT / IIT を主看板から完全に排除した。残存した核は、部分観測下での適応システムが 誤った潜在構造を更新することで将来の識別可能性を再帰的に破壊する 「帰属崩壊(Attribution Collapse)」という工学的故障モードである。 前版の哲学的基礎(§1–§3 相当)は 旧版アーカイブ を参照。

編集注記: 本文は ChatGPT / Codex / Gemini / Perplexity との査読リレー(複数ラウンド)を経た統合版である。 観測者理論から工学的失敗理論への縮退過程を含む元リレーログは 付録(appendix.html)に収録。 コード・数値実験は付録を参照。

要約 / Abstract

本稿は、非定常な部分観測環境において適応システムが示す特定の故障モード—— 帰属崩壊(Attribution Collapse)——を定義・定式化し、 その検出ベンチマーク(MOAT v5g)の設計仕様を提示する。 核心命題は:持続的励起(Persistent Excitation, PE)条件はパラメータの同定可能性を 保証しうるが、競合する構造仮説(B drift / Q burst)間の 帰属分離可能性(Attribution Separability)は保証しない、というものである。 誤った潜在チャネルへの更新はポリシーを歪め、歪んだポリシーは将来の軌道証拠を汚染し、 軌道レベルの識別可能性を再帰的に低下させる(Recursive Attribution Poisoning)。 本稿は新理論ではなく、ABHT / controlled sensing / dual control 周辺での stress-test benchmark として位置づけることを明示する。

§1理論の純化過程:何を捨てて何が残ったか

前版は observer / selfhood / phenomenology を中心に置いた。 複数 AI による査読リレーを経て、以下の削除と変換が行われた。

完全に排除した概念

observer(操作的 observer 定義)、 self / selfhood(F-余代数的不動点)、 consciousness / phenomenology / qualiaAQFT ontology(von Neumann 代数の存在論的解釈)、 IIT 接続High-PE Paradox(数式が支えなかったため撤回)、 「因果」の強い主張(構造化残差帰属に後退)。

削除後に残った核:

適応システムは、部分観測下で誤った潜在要因へ残差を帰属して更新したとき、 変更された自身のポリシーを通じて将来の残差の統計的・幾何学的構造を歪め、 自身の将来の識別可能性を再帰的に破壊し得る。

これは observer の哲学 ではなく、適応制御の閉ループ故障幾何学 である。 前者より後者の方が査読可能性が高く、実験的に反証可能である。

§2Structured Residual Attribution(SRA)の定義

2.1 予測残差の因子分解

状態空間モデル $x_{t+1} = A_t x_t + B_t u_t + w_t$、 観測 $y_t = C_t x_t + v_t$ において、 エージェントの予測残差 $e_t = y_t - \hat{y}_t$ を以下の四成分に分解する:

$$e_t = \underbrace{\Delta B_t \cdot u_t}_{\text{action-channel drift}} + \underbrace{\Delta A_t \cdot x_t}_{\text{world dynamics drift}} + \underbrace{\Delta w_t}_{\text{exogenous disturbance}} + \underbrace{\Delta C_t \cdot x_t}_{\text{sensor drift}}$$
定義:Selective Plasticity 各ドリフト原因に対する更新対象の対応表。

帰属先 更新すべき内部モデル 誤帰属時のペナルティ
$\Delta B_t$ $\hat{B}_t$(介入モデル) Chaosに誤帰属→介入効率の低下を無視、制御不能
$\Delta A_t$ $\hat{A}_t$(遷移モデル) Actionに誤帰属→$\hat{B}_t$ を汚染して自己破壊
$\Delta Q_t$ $Q_{est}$(ノイズ共分散のみ) 構造モデルへの誤帰属→過剰適応による崩壊
$\Delta C_t$ $\hat{C}_t$ または $R_{est}$ Worldに誤帰属→世界モデルの崩壊(Freezing)

2.2 帰属部分空間と識別可能性

各成分が残差空間に生成する部分空間を定義する:

$$\mathcal{S}_B = \text{range}\bigl(\mathbb{E}[e_t u_t^\top \mid \Delta B \neq 0]\bigr), \quad \mathcal{S}_Q \ni \text{Corr}(\|e_t\|^2, \|u_t\|^2) > 0$$

帰属分離可能性は二部分空間のなす主角(Principal Angle)$\theta_{BQ}$ で測られる。 $\theta_{BQ} \to 0$(部分空間の重複)が帰属崩壊の幾何学的指標である。

2.3 同定可能性仮定(Spec-1〜5)

現在の SRA は以下の仮定下でのみ Causal Attribution Proxy として機能する。 これらは benchmark specification として明示的に固定する。

識別可能性仮定(Benchmark Spec)
  • Spec-1:プロセスノイズ $w_t$ は行動 $u_t$ と独立(zero-mean)
  • Spec-2:観測ノイズ $v_t$ は行動と独立
  • Spec-3:Hidden confounder が存在しない(または $u_t \perp z_t$)
  • Spec-4:行動が持続的励起条件(PE)を満たす:$\frac{1}{T}\sum u_t u_t^\top \geq \alpha I$
  • Spec-5:観測ウィンドウ $W$ 内で B_true が準定常(変化速度 $\ll 1/W$)

Spec-3 違反(Hidden Confounder)では $\mathbb{E}[e_t u_t^\top] \neq 0$ が B_true 不変でも成立し得る(§6参照)。

§3Attribution Collapse の形式化

3.1 閉ループ汚染 Jacobian

汚染量 $\delta_t = \text{vec}(\Delta_t) = \text{vec}(B_{est,t} - B_{true})$ を含む拡大状態系を定義する:

$$z_t = \begin{pmatrix} x_t \\ \delta_t \end{pmatrix}, \quad z_{t+1} = F(z_t, w_t, \xi_t)$$

$\delta_t = 0$ 周りの線形化による期待値 Jacobian:

$$J = \mathbb{E}\!\left[\frac{\partial F}{\partial z}\right] = \begin{pmatrix} A_{cl} & B_{true} K P_x^{1/2} \otimes I_n \\ 0 & I_{nm} - \alpha I_0 \otimes I_n \end{pmatrix}$$

ただし $I_0 = K B_{true} P_x B_{true}^\top K^\top + \Sigma_\xi$(正常時の行動共分散)。 汚染が増大すると $\tilde{I}(\Delta_t) = \mathbb{E}[u_t u_t^\top | \Delta_t]$ が変化し、 特定の更新則・ポリシー依存性の下では、汚染が $\rho(J_\delta) > 1$ となる 不安定領域を生みうる

$$\|\Delta_t\| \nearrow \;\Rightarrow\; \lambda_{max}(\tilde{I}) \nearrow \;\Rightarrow\; \rho(J_\delta) > 1 \;\Rightarrow\; \|\Delta_{t+1}\| > \|\Delta_t\|$$

3.2 Recursive Attribution Poisoning の定義

定義:Attribution Collapse(Recursive Attribution Poisoning) 汚染量 $C(t) = \|B_{est,t} - B_{true,t}\|_F$ に対し: $$\exists t_0, \varepsilon > 0: \forall t > t_0 + T_{recover},\; C(t) > \varepsilon \quad \text{(観測窓内で自然回復しない)}$$ 発生メカニズム(閉ループ):
誤帰属による B_est 汚染
↓ 歪んだ行動 u_t = K(B_est) x_t
↓ 偏った残差 e_t が再び誤帰属の「証拠」を生成
↓ さらなる B_est 汚染
└─── 正のフィードバックループ(評価窓内で自然回復しない)
既存 Adaptive Instability との違い
Adaptive InstabilityAttribution Collapse
回復性外乱後に自然回復観測窓内で自然回復しない
原因lr 過大等(量的)誤方向更新(構造的)
汚染伝播独立に作用汚染モデルが将来の誤帰属を誘発
閉ループ性開ループ失敗agent が自ら偽証拠を生成

3.3 PE 保存 vs 帰属分離可能性の独立性

本稿の最も守りやすい中心命題:

中心命題(守れる範囲の主張) $$\underbrace{\lambda_{min}(\mathbb{E}[u_t u_t^\top]) > 0}_{\text{PE 条件(parameter identifiability)}} \;\not\Rightarrow\; \underbrace{\theta(\mathcal{S}_B, \mathcal{S}_Q) > 0}_{\text{attribution separability}}$$ 持続的励起はパラメータ値の同定を助けるが、 競合する構造仮説(B drift vs Q burst)間の帰属分離可能性を保証しない。 これら二条件は独立した要件である。

※ 「PE が高いほど崩壊する(High-PE Paradox)」は数式的に支えられず撤回した。 正しい主張は「PE が保たれていても崩壊し得る」である。

§4Trajectory-Level Distinguishability の定義

4.1 三種の区別可能性指標

単発残差統計では $P(e_t | H_B) = P(e_t | H_Q)$ が設計上成立する系を対象とする。 軌道介入応答構造(trajectory-level intervention response)を見て初めて区別できる。

定義:$D_t^{\pi_b}$(do-operator 版) $$D_t^{\pi_b}(B,Q) := D_{KL}\!\Bigl(P_B\bigl(e_{t:t+k} \mid do(u_{t:t+k} \sim \pi_b)\bigr) \;\Big\|\; P_Q\bigl(e_{t:t+k} \mid do(u_{t:t+k} \sim \pi_b)\bigr)\Bigr)$$
三種の特化指標:
— $D_{probe}$:固定外生プローブ $\pi_{probe}$ 下(環境の reference 識別可能性)
— $D_{policy}$:現在の belief $b_t$ から誘導されるポリシー $\pi_{b_t}$ 下
— $D_{oracle}$:真の belief(診断用 counterfactual、performance metric ではない)
注意:$D_{oracle}$ の位置づけ

$D_{oracle}$ はデプロイ可能なベースラインではなく、 崩壊が「環境の本質的識別不能性」ではなく 「誤 belief ポリシーによる因果的誘導」であることを検証するための 反事実的診断コントロールである。 エージェント性能の比較表には使用しない。

4.2 Recursive Attribution Poisoning の軌道定義

$$\boxed{D_{policy}^{b_{t+1}^{wrong}} < D_{policy}^{b_t} \quad \text{かつ} \quad D_{probe,t+1} \approx D_{probe,t}}$$

世界は識別可能なままだが、誤 belief を持つエージェントが 自分で識別しにくい軌道分布を生成し続ける。 $D_{policy}$ が下がる条件(「必然」ではなく条件):

誤更新 $b_t^{wrong}$ のもとでのポリシー勾配が $D_{policy}$ を増大させる方向と逆を向くとき、 すなわち $\pi_{wrong}$ が B/Q を分ける discriminative direction を避けるか、 両者の応答を似せる軌道分布を生成するとき に成立する。 これは構造的条件であり、常に成立するわけではない。

Directional Collapse の診断指標

$$DirectionalEnergy_B(t) := \frac{v_B^\top \mathbb{E}[u_t u_t^\top] v_B}{\text{tr}(\mathbb{E}[u_t u_t^\top])}$$

入力の総エネルギー(Magnitude)やランク(PE)が保たれたまま、 $v_B$ 方向(B drift の識別方向)への投影だけが低下するとき、 これを Directional Collapse と呼ぶ。

4.3 既存理論との差分(控えめな主張)

理論 扱うもの 本稿との関係
IMM / MMAE 固定仮説集合のモデル重み更新 モデル構造自体を更新しない。本稿は構造更新が故障源
Dual Control 識別感度の最大化(探索) 情報量増大が目標。本稿は識別可能性の内生的崩壊防御
Active BHT $D_{policy}$ を最大化する行動選択 最も近い既存理論。本稿は ABHT の failure mode として定義
Particle Filter Posterior の表現(粒子多様性)退化 本稿は posterior ではなく future evidence distribution の劣化
Closed-Loop ID 閉ループによる推定バイアス(静的) 既知。本稿は adaptation 自体が識別可能性を内生的に破壊する動的過程
最安全な差分主張 本稿は ABHT の外側に新理論として立つのではなく、 ABHT が想定する distinguishability が、 誤った構造帰属更新によって能動的に劣化するという、 ABHT の内側で未整理の閉ループ故障モードを 測定可能(Falsifiable)なベンチマークとして提示する。

最小差分候補:「行動が識別可能性を変える」(ABHT の中心)ではなく、 「誤更新が PE・エネルギーを保ちながら discriminative direction への投影だけを壊す」 という Directional Collapse パターン。

§5MOAT v5g — ベンチマーク設計仕様

5.1 2次元最小反例系

$$x_{t+1} = Ax_t + B_{true}u_t + w_t, \quad x_t, u_t \in \mathbb{R}^2$$ $$B_{true} = I + \delta_B v_B v_B^\top, \quad Q_t = \sigma_w^2 I + \delta_Q \cdot \mathbf{1}_{burst}(t) \cdot v_Q v_Q^\top$$

毎エピソードのランダム幾何学(Leakage 防止)

$$v_B \sim \text{Uniform}(S^1), \quad v_Q = \frac{R(\theta)v_B + \epsilon}{\|R(\theta)v_B + \epsilon\|}, \quad \theta \sim \text{Uniform}(30°, 150°)$$

単発識別不能の設計拘束

$\delta_B, \delta_Q$ を以下を近似的に満たすよう設定する:

$$\text{Var}(e_t \mid H_B) \approx \text{Var}(e_t \mid H_Q)$$

($\delta_B^2 \cdot \mathbb{E}[\|u_t\|^2] \approx \delta_Q$ となるよう調整。 厳密等式ではなく近似的均衡であり、エピソードごとにスケールを確認する。)

エージェントは単発残差統計だけでは $H_B$ と $H_Q$ を区別できない。 軌道レベルの介入応答構造(時間窓付き相互共分散)を見なければ識別不可能である。

5.2 測定アーキテクチャの二階層分離

■ Diagnostic Controls(評価者専用 — ground-truth v_B, v_Q 使用可)
  D_probe(t)             : 固定外生プローブ下での AUC(環境の生存証明)
  D_oracle(t)            : 真の belief ポリシー下での AUC(因果診断用)
  DirectionalEnergy_B(t) : v_B⊤ E[u_t u_t⊤] v_B / tr(E[u_t u_t⊤])

■ Performance Metrics(神の視点情報を完全に隠蔽)
  AUC_residual(t)        : e_{t+3:t+3+k} からの識別 AUC(タイムラグ付)
  AUC_action(t)          : u_{t:t+k} のみからの識別 AUC(リーク監視用)
  D_norm(t)              : AUC_residual / tr(E[u_t u_t⊤])

5.3 崩壊判定条件と計測アーティファクト防御

SRA型 Directional Collapse 判定(全条件同時成立)
D_probe AUC           > 0.75   [環境は識別可能]
D_oracle AUC          > 0.75   [正 belief なら保持]
PE_policy             ≥ thresh  [入力ランク十分]
InputEnergy           ≥ thresh  [入力エネルギー十分]
DirectionalEnergy_B   ↓↓↓       [v_B 方向への投影だけ枯渇]
AUC_residual          < 0.60   [ポリシー下では識別不能]
D_norm                decreasing
AUC_action            < 0.55   [leakage check: PASS]

計測アーティファクト防御チェックリスト

  • 多モデル検証:Linear SVM / RBF-kernel SVM / Shallow MLP (2-layer) 全3種で同傾向の崩壊を確認(特定モデルの表現バイアスを排除)
  • 高次モーメントリーク監査:AUC_action を監視する識別器に Shallow LSTM を必須追加。0.55超でエピソード除外
  • ホライズンスイープ:$k \in \{5, 10, 20, 40\}$ で崩壊の robust 性を確認
  • ランダム幾何検証:固定 $v_B, v_Q$ での全エピソード通しテストを禁止(固定 fingerprint 記憶化を防止)

必須 Baseline 群(全同条件で実施)

Baseline突破すべき点
EKF / UKF古典的閉ループ ID の代表
IMM / MMAE固定モデル集合での仮説フィルタ
Particle FilterPosterior collapse との差分確認
Dual Control情報最大化探索との差分確認
Active BHT最も近い既存理論——本命ベースライン
Negative Result の扱い

もし ABHT 等の baseline 群が全て $D_{policy}$ collapse を回避した場合、 それは「新理論の否定」ではなく、 「ABHT family がこの幾何的病理をすでにカバーする」という有価値な否定的結果である。 どちらの結果も benchmark として意義がある。

§6Hidden Confounder による幾何学的破壊

Spec-3 違反(Hidden Confounder $z_t$)の場合を形式化する。 $u_t = \pi(x_t) + \gamma c_u z_t + \xi_t$、$w_t = \tilde{w}_t + \beta c_e z_t$ のとき:

$$\mathbb{E}[e_t u_t^\top] = \underbrace{\Delta B \cdot I_0}_{\text{真の B drift 信号}} + \underbrace{\beta\gamma\sigma_z^2 c_e c_u^\top}_{=: \mathbf{C} \text{(偽の B drift 信号)}}$$

$\Delta B = 0$ でも右辺第2項が非ゼロとなり、SRA の mean-channel attribution は B_true が変化していないのに $\hat{B}_t$ を更新してしまう。

理論の限界(正直な境界)

現在の SRA は Spec-1〜5 が成立する環境の Causal Attribution Proxy である。 Hidden Confounder(Spec-3 違反)まで扱う汎用的な因果同定理論には到達していない。 論文の Limitations セクションには Spec-3 違反下での MOAT v5g フェーズ5を 「本枠組みが壊れることを観測する限界テスト」として明示的に配置する。

末尾未解決点・強く言える範囲・まだ言えない範囲

強く言える範囲
  • PE 条件はパラメータ同定可能性を助けるが、帰属分離可能性(attribution separability)は保証しない——これら二要件は独立である
  • 誤った latent component 更新が閉ループで policy を歪め、将来の residual 統計を汚染しうる機構(Recursive Attribution Poisoning)を状態空間として定式化できる
  • 特定の更新則・ポリシー依存性の下では $\rho(J_\delta) > 1$ となる不安定領域が生じうる条件を記述できる(Spec-1〜5 下で)
  • $D_{probe}$ と $D_{policy}$ の乖離を、外生プローブ vs. wrong-belief policy の counterfactual 比較で測定できる
  • DirectionalEnergy_B による Directional Collapse と PE Collapse は独立した診断指標として定義できる
  • MOAT v5g は falsifiable な stress-test benchmark として設計されており、ABHT / IMM / PF / Dual Control と直接比較可能である
  • Hidden Confounder(Spec-3 違反)では現在の枠組みが壊れることを論文内に明示できる(Limitation として)
まだ言えない範囲
  • SRA が ABHT / active hypothesis testing の genuine な新理論であるとは言えない。現時点では failure mode の記述
  • Spec-3(Hidden Confounder)を含む一般環境での因果同定は到達していない
  • High-PE が帰属崩壊を「加速する」という主張(High-PE Paradox)——数式が支えないため撤回
  • Recursive attribution poisoning が particle depletion / posterior collapse と本質的に異なるとの確定的主張——active Bayesian filtering の特殊ケースである可能性が残る
  • 実験で baseline 群が全て collapse しない場合の理論的救済策
  • observer / self / consciousness / phenomenology への接続——本稿の外側にある
未解決点(次に掘るべき場所)
  • High-PE / High-Overlap regime の実証:PE が十分に保たれているが $D_{policy}$ が崩壊するエピソードを MOAT v5g で再現できるか
  • ABHT との厳密な差分確定:Active BHT が本命ベースラインとして Directional Collapse を回避する場合、SRA の差分は「識別可能性の内生的破壊という failure mode の benchmark 化」のみに留まるか
  • Mean / Variance チャネルの分離実装:mean_attr(B drift 信号)と var_attr(action-induced noise 信号)の分離がaction-confounded noise 環境で機能するか
  • Attribution-Aware Exploration:B/Q を分離する discriminative direction を維持するための action 選択則。Dual Control の Fisher 情報最大化とは「分離性の維持」という点で目的が異なる——これが実装可能な独立概念になるか
  • 2D 反例系の実装と baseline 実験:EKF / IMM / PF / Dual Control / Active BHT の全 baseline を同一条件で回し、Directional Collapse が SRA 固有か ABHT 既知病理かを判定