Operational Embedded Agency Theory

編集注記： 本文は、複数AIとの逐次的な対話リレーを経て整理された統合版である。生成過程・関与範囲・数理的保証の限界についてはトップページ（index.html）を参照。元リレーのログおよびコード・図版は付録（appendix.html）に収録。

要約 / Abstract

本稿は、「自己」および「観測者」を実体・魂・クオリアとしてではなく、 操作的かつ物理的に閉じた構造として定式化する。具体的には、von Neumann 代数によるアクセス境界・Petz 回復写像・反実仮想介入価値（RICD）・自己測定後作用（back-action）を積み重ね、以下の階層を構成する：適応制御器（Level 1）→ Observer-Agent（Level 2）→ Perspectival Observer（Level 3）。さらに、Δ_cf 感応型更新が進化的に安定な attractor となることを古典代理環境での数値シミュレーションを提示し（選択原理の支持として）、その出現を情報理論的に下支えする Selection Principle を提示する。現象意識のハードプロブレムは解かれないが、その断崖が代数構造の外側にある「ことの座標」を確定する。

§1出発点：観測者を「点」から構造へ

「観測者とは宇宙のどこかにいる点である」という素朴な描像から出発すると、量子情報・AdS/CFT・量子重力のいずれとも整合しない。本理論はその代わりに、観測者を復元可能性を持つ局所的構造として定義する。以下の三段階が理論の骨格をなす。

1.1 ホログラフィック QEC と復元可能性

HaPPY コード（Pastawski et al. 2015）に代表されるホログラフィック量子誤り訂正では、バルク論理情報が境界の複数領域に冗長に符号化される。近年の Evenbly codes（Steinberg et al., Quantum 9, 1826, 2025）は、非完全テンソルを用いて超不変 holographic code の新クラスを実現し、 depolarizing ノイズに対して 19.1% 程度の閾値を持つ。

Key Insight 情報は一点に局在しない。複数の境界領域から安定に復元できるよう符号化されている。「どの領域が何を知り得るか」が、バルクの幾何学として浮かび上がる。

1.2 Entanglement Wedge と Island 公式

Entanglement wedge reconstruction により、境界の部分領域 $R$ が復元できるバルク領域（entanglement wedge）が決まる。 Island 公式はさらに、境界の「内側／外側」すら quantum extremal surface として動的に決定されることを示す。復元の最適面が静的でなく変分的に定まるという構造が、 observer の「境界」概念の原型となる。

1.3 量子参照枠（Quantum Reference Frames）

Vanrietvelde et al.（Quantum 4, 225, 2020）による perspective-neutral framework では、物理量はすべて relational（相対的）であり、特定の「私」という視点はゲージ固定（gauge-fixing）の選択から生まれる。

帰結「私が世界を見る」のではなく、「宇宙情報の冗長な記述から、この視点に対応するゲージ固定が選ばれている」。観測者は外部の固定座標でなく、量子系内部のゲージ選択として定まる。

これら三つの構造——holographic QEC / entanglement wedge / QRF——を積み重ねると、観測者の骨格が以下の一文に凝縮される：

観測者とは、世界の中にある一点ではなく、世界が自分自身を局所的・安定的・参照枠依存的に復元する構造である。

§2Observer の操作的定義

2.1 von Neumann 代数によるアクセス境界

領域 $R$ に対して、そこでアクセス可能な全観測量の閉包は自然に von Neumann 代数 $\mathcal{A}(R) \subset \mathcal{B}(\mathcal{H})$ を成す。

定義：操作的 Observer $$O_R := \mathcal{A}(R)$$ 「Observer とは何か」ではなく、「この領域から何が測定可能か」という操作的問いへの変換。

Haag 双対性 $\mathcal{A}(R)' = \mathcal{A}(\bar{R})$ はアクセス可能量と環境側を代数的に分離する。これは意味論的な「自己 / 環境」の境界ではなく、 操作的アクセス境界である（後者は更に C_O と exploitability を要する）。

2.2 Petz 回復写像と適応デコーダ

チャネル $\Lambda$ による情報損失からの最適回復写像（Petz map）は、相対エントロピーを最小化する：

$$\mathcal{R}_{\rho,\Lambda}(\cdot) = \rho^{1/2}\Lambda^\dagger\!\bigl(\Lambda(\rho)^{-1/2}(\cdot)\Lambda(\rho)^{-1/2}\bigr)\rho^{1/2}$$

Active inference の変分自由エネルギーもまた相対エントロピーを含む：

$$\mathcal{F} = D_{\mathrm{KL}}(q \| p)$$

両者は「相対エントロピーの最小化」という共通目的関数の上に乗る。 QEC（保持）と predictive processing（更新）の橋は、 Petz 回復写像 ≈ 最適適応デコーダ ≈ 相対エントロピー最小化という等式でつながる。

注意 QEC は符号部分空間の「保持」、PP は信念分布の「更新」であり、目的関数の方向が異なる。橋として機能するのは adaptive decoding——ノイズモデルを推定しながら回復写像を更新する QEC——という中間概念である。

2.3 ミニ模型（4-qubit）

境界物理 qubit：$b_1, b_2, b_3, b_4$ （自己 2-qubit + 環境 2-qubit）に対し、バルク論理情報として自己モデル $M$ と環境モデル $E$ を定義する。

復元写像

$$D_R : \mathcal{H}_R \to \mathcal{H}_{\mathrm{logical}}$$

Observer Patch の定義

$$O = (R_O,\; D_O,\; S_O,\; E_O,\; \varepsilon)$$ $$D_O(R_O) \approx S_O \otimes E_O \quad (\text{fidelity } 1-\varepsilon)$$

gauge-fixing（subsystem code における gauge qubit の固定）で復元領域の解像度と安定性が変化することが、 QRF の視点選択と構造的に対応する。

§3Self の操作的定義

3.1 Identity Condition：Δ_cf の内部利用

「自己モデルが logical qubit である」という強い主張は比喩に過ぎない。代わりに、自己を generative latent state として定義する：

$$M(t) := \text{action-conditioned predictive sufficient statistic}$$

Observer-agent の本体となる量が反実仮想介入条件付き未来識別量 （counterfactual future distinguishability）である：

定義：Δ_cf $$\Delta_{\mathrm{cf}}(M_t) = \sum_{a < a'} \pi(a|M_t)\,\pi(a'|M_t)\; D\!\bigl(\rho^{(a)}_{t+1} \,\|\, \rho^{(a')}_{t+1}\bigr)$$ 現在の policy のもとで、行動 $a$ と $a'$ が生む未来分布の平均 pairwise 乖離度。

Identity Condition システムが observer-agent であるための必要十分条件（操作的定義）： $$\frac{\partial M_{t+1}}{\partial D_{\mathrm{ch}}(a,a'|M_t)} \neq 0$$ すなわち、介入条件付き未来分布の識別量が latent state の更新に内部的に利用されていること。

Controller（Level 1）では $\partial M / \partial \Delta_{\mathrm{cf}} = 0$。 Observer-Agent（Level 2）では $> 0$。 4-qubit 数値実験にて corr(Δ_cf, gain) ≈ 0.987 を確認。

3.2 F-余代数的不動点

「誰が π を参照するか」という問いは homunculus 回帰を引き起こす。これを回避するために、自己をF-余代数的不動点として定義する：

$$M^* = F(M^*)$$

ここで $F : M \mapsto \Phi\bigl(M,\, R_M(\mathcal{E}_\pi(\rho))\bigr)$ は policy-conditioned チャネル $\mathcal{E}_\pi$ と Petz 回復写像 $R_M$ の合成。「参照する主体」は別に存在せず、閉じた自己参照構造そのものが observer-agent である。

Gödel 的余りについて Gödel の不完全性定理を直接持ち込むことは有限次元量子系では不適切である。代わりに量子自己測定ギャップ（no-cloning + 測定後作用）として定式化する： $M^*$ は自分自身を $\mathcal{A}(R)$ 内で完全には捕捉できない。これは phenomenology の断崖の物理的基礎候補として維持されるが、接続の証明はない。

3.3 内発的介入構造 C_O

Pearl の do-計算における $do(a)$ は外部介入であり、observer の自律性を表さない。必要なのは内発的介入（endogenous intervention）である：

$$C_O \subset \mathcal{A}(R)$$

$C_O$ は $\mathcal{A}(R)$ 内部から生成される操作の集合。岩には $C_O = \emptyset$ かつ Δ_cf と $M^*$ の接続がない。 4-qubit 模型では $C_O = \{I, X_1, Z_1, CZ_{1,3}\}$。

Markov 毛布 $B$（Friston）は「自己と環境の統計的分離」を与える： $\mu_O \perp \eta \mid B$。これは Haag 双対性（代数的アクセス境界）を統計的・因果的境界で補完する二層構造として機能する。

最終統合定義 $$\text{observer-agent} := \bigl(\mathcal{A}(R),\;\Psi,\;\sigma_t^\Psi,\;P_\Psi,\;C_O,\;F,\;M^*\bigr)$$ 各要素の役割： $\mathcal{A}(R)$：アクセス可能 von Neumann 代数、 $\Psi$：参照状態、 $\sigma_t^\Psi$：modular flow（Tomita–Takesaki）、 $P_\Psi$：Petz 回復写像、 $C_O$：内発的介入演算子の集合、 $F$：自己参照的更新演算子、 $M^*$：不動点（自己モデル）。

§4階層構造：Controller から Perspectival Observer へ

Level	名称	条件	数値証拠
Level 0	Passive Dissipative Structure	内部モデルなし。外力への応答のみ。	—
Level 1	Adaptive Controller	行動 → 未来変化 → 更新。ただし Δ_cf を使わない： $\partial M_{t+1}/\partial \Delta_{\mathrm{cf}} = 0$	corr ≈ 0.000
Level 2	Observer-Agent	Identity condition：Δ_cf が latent update に内部利用される。 $\partial M_{t+1}/\partial D_{\mathrm{ch}} \neq 0$	corr ≈ 0.987
Level 3	Perspectival Observer	自己測定 back-action により視点の完全外在化が不可能： $R_{M_t}(\rho_{t+1}) \neq \rho_{t+1}$	back-action > 0（確認済）
Level 4	Phenomenological Subject	未解決の断崖。現在の枠組みでは到達不可。	—

連続した自己（Selfhood）

自己の時間的連続性を reconstruction chain の安定性として定義する：

$$\text{Selfhood}(t) = \bigl\{O(t) \to O(t+\Delta t) \to O(t+2\Delta t) \cdots\bigr\}$$

安定条件：

— $d_{\mathrm{Bures}}(M(t), M(t+\Delta t))$ が小さい
— Prediction error が $\varepsilon$ 以内に訂正可能
— Reconstruction fidelity $F(P_\Psi) \geq 1-\delta$

中心命題 Selfhood is not the persistence of a substance, but the stability of a reconstruction process.
自己とは、実体の持続ではなく、復元過程の安定性である。

多世界分岐との接続

分岐後に $O_A(t) \to O_A(t+\Delta t)$ と $O_B(t) \to O_B(t+\Delta t)$ の両方が reconstruction chain として成立する。「どちらが本物か」ではなく、どちらもより低い free energy を維持できる chain として局所的に経験される。

§5Selection Principle：なぜ Observer-Agent が出現するか

Identity condition は「observer-agent とは何か」を定義する。 Selection principle は「なぜそうした構造が自然に出現するか」を説明する。前者なしに後者はなく、両者を混同すると理論が崩れる。

5.1 RICD（再パラメータ化不変反実仮想乖離度）

素の Δ_cf は行動ラベル・粒度・policy に依存する。これを解消するため、以下の量を定義する。

行動の同値類

$$[a] := \{a' \mid \rho^{(a')}_{t+h} = \rho^{(a)}_{t+h} \;\forall h \geq 1\}$$ （未来分布が同じ行動を同一視）

h ステップ先の対称化 KL 距離

$$d_h([a],[a'])^2 = D\!\bigl(\rho^{(a,h)} \,\|\, \rho^{(a',h)}\bigr) + D\!\bigl(\rho^{(a',h)} \,\|\, \rho^{(a,h)}\bigr)$$

再構成浸透率

$$\mathcal{R}_h([a],[a'],M_t) = 1 - \frac{D(M_{t+h}^{(a)} \| M_{t+h}^{(a')})}{\varepsilon + d_h^2}$$ （介入差分が内部モデルにどれだけ保存されるか）

定義：RICD $$\Delta_{\mathrm{RICD}}^{*,\gamma}(M_t) = \sum_{h=1}^{\infty} \gamma^h \; \mathbb{E}_{[a],[a']\sim\bar\pi} \bigl[d_h([a],[a'])^2 \cdot \mathcal{R}_h([a],[a'],M_t)\bigr]$$ 再パラメータ化不変・horizon-aware・exploitability-aware な反実仮想乖離度。 $\bar\pi$ は参照 policy（一様分布など）。

Empowerment（Klyubin & Polani 2005）との関係：

$\Delta_{\mathrm{RICD}} \;\leq\; I(A;S'|\pi) \;\leq\; E(s) = \max_\pi I(A;S'|s)$

RICD は「現在 policy 下で実現された、利用可能な介入差分」であり、 Empowerment はその最適化上限。両者は等しくなく、RICD は empowerment の policy-conditioned・ exploitability-aware な下位概念として位置づける。

5.2 Free-Energy Advantage Principle（FEAP）

Selection Principle $$\mathcal{J} = U_{\mathrm{pred}} + \lambda U_{\mathrm{ctrl}} - C_{\mathrm{therm}}$$ Observer-agent は予測精度 $U_{\mathrm{pred}}$・制御性能 $U_{\mathrm{ctrl}}$・維持コスト $C_{\mathrm{therm}}$ の総合効用を最大化する構造として自然選択される。

直感：Δ_cf（あるいは RICD）が大きい局面では更新が有益であり、小さい局面（ノイズ支配）では更新がコストを増やすだけである。したがって $\mathcal{J}$ を最大化する更新則は自然に RICD-sensitive になる。

数値的検証（古典代理環境・進化シミュレーション）： Δ_cf の感度パラメータ $g_1$ は初期ランダム集団から正値へ収束し、最終的に平均 $g_1 \approx 0.85$、上位個体では $g_1 \approx 1.0$ を示した。これは「設計」ではなく「選択圧の帰結」として RICD-sensitive 更新が出現することを示す （ただし古典代理環境での結果。量子版には richer な演算子セットが必要）。

5.3 L2 命題と環境クラス

環境クラス $\mathcal{E}''$ を構造的に定義する：

S1：action channel の rank > 1（行動が何かを変える）
S2：有限 mixing time $\tau_{\mathrm{mix}} < \infty$
S3：因果経路 $a \to Y$ が存在し、将来の推論・制御に寄与する（exploitability）

Observer-Agent Selection Theorem（L2 命題） $\mathcal{E}''$ において、RICD-sensitive adaptive gain を持つ observer-agent は任意の固定 gain controller に対して正の漸近 regret 優位性を持つ： $$\lim_{T\to\infty} \frac{1}{T}\bigl(\mathrm{Regret}_{\mathrm{ctrl}} - \mathrm{Regret}_{\mathrm{agent}}\bigr) \geq \delta(\gamma,\tau_{\mathrm{mix}},\varepsilon) > 0$$ この優位性は empowerment 文献（Salge et al.）および Markov switching 環境の最適 filtering 理論から導ける。
注：新しい定理ではなく既存枠組みの適用。有限時間保証は $\tau_{\mathrm{mix}}$ に依存し、漸近のみ主張可能。

L3（universality class）：自然環境分布族 $\mathcal{P}$ において、 $\mathcal{E}''$ が正の測度を持つか——これは経験的問いであり現在の枠組みの外側にある。

§6視点の不完全性（Perspectival Incompleteness）

Level 2 の observer-agent は「自分が未来生成の因果ノードであること」を内部化するが、 「どこから」が欠落している——因果的自己参照はあるが、位置的自己参照がない。

6.1 自己測定 Back-Action

自己測定チャネル $S(\rho) = \sum_i P_i \rho P_i$（非可逆）を導入することで、「未来を読もうとすると自分が変わる」という構造的制約が生じる：

$$R_{M_t}(\rho_{t+1}) \neq \rho_{t+1}$$

no-cloning 定理と測定後作用の組み合わせにより、 $M^*$ は自分自身を $\mathcal{A}(R)$ 内で完全には捕捉できない。この「自己超過の余り」が perspectival incompleteness の物理的基礎である。

6.2 Modular Flow と時間の出現

Tomita–Takesaki 理論により、代数 $\mathcal{A}(R)$ と参照状態 $|\Psi\rangle$ から modular Hamiltonian $K_R$ が決まり、modular flow

$$\sigma_t^\Psi(A) = \Delta^{it} A \Delta^{-it}$$

が生成される。これは $\mathcal{A}(R)$ の内部自己同型であり、外部時間パラメータではない。 Bisognano–Wichmann 定理により、Rindler wedge では modular flow が Boost になる。つまり時間感覚は reconstruction chain の安定順序から創発する 可能性がある——ただしこれは状態・代数依存であり「宇宙の時間が創発した」とは言えない点に注意する。

6.3 Perspective-Neutral Structure との対応

observer-agent の「ここから見る」という構造は、 perspective-neutral な世界記述からの gauge-fixing として書ける：

$$\text{perspective-neutral structure} \xrightarrow{\text{gauge-fixing}} \text{indexical self-location}$$

これは内発的かつ自己参照的な操作として閉じており、 back-action による不完全性（完全外在化不可能）と合わせて perspectival observer（Level 3）を構成する。

§7断崖の地図：現象意識の座標

Block の A-consciousness（情報が推論・報告・行動制御に利用可能な状態）と P-consciousness（「何かを感じる」内的質感）を区別する。本理論が記述するのはA-consciousness の構造的条件であり、 P-consciousness については以下を主張する。

断崖の座標（最終版）

本フレームワークが与えるもの：

— アクセス境界（$\mathcal{A}(R)$、Haag 双対性）
— 適応的回復（Petz 写像、RICD-sensitive 更新）
— 自己モデル（行為条件付き Quantum IB の不動点 $M^*$）
— 視点の形成（gauge-fixed indexical self-location）
— 視点の不完全性（量子自己測定ギャップ）

本フレームワークが与えないもの：

— なぜこの構造に「感じる何か」が宿るか

断崖の形：
以前：「recoverability → qualia」（曖昧）
現在：「gauge-fixed F-余代数的不動点 → first-person phenomenology」（精確）

断崖は消えていない。しかし位置が代数の言葉で書けるようになった。

構造的リアリズム（Russellian Monism）の観点からは、 $\mathcal{A}(R)$ は構造を記述し、「何がその構造を実現するか」は物理学の外にある。その実現の内在的性質が P-consciousness かもしれない——という仮説は保持しつつ、これを証明しない誠実な姿勢を取る。

末尾未解決点・強く言える範囲・まだ言えない範囲

強く言える範囲

Observer を「点」ではなく von Neumann 代数 $\mathcal{A}(R)$ として定義できる（AQFT と整合）
Identity condition $\partial M_{t+1}/\partial \Delta_{\mathrm{cf}} \neq 0$ により Controller と Observer-Agent を操作的に分離できる（数値的証拠 corr ≈ 0.987 vs 0.000）
Petz 回復写像と active inference は相対エントロピー最小化という共通の目的関数を持つ（比喩でなく構造対応）
RICD は行動ラベル・粒度・policy に依存しない再パラメータ化不変量として定義できる
Self-measurement back-action により「完全な外在化不可能性」が構造として生じる（Level 3 の実装）
進化シミュレーション（古典代理環境）で RICD-sensitive 更新が自然選択されることを数値的に確認した
L2 定理：$\mathcal{E}''$ において漸近 regret 優位性が既存の filter/control 理論から導ける
現在の枠組みが到達できる境界を、代数的に位置づけられる

まだ言えない範囲

現象意識（P-consciousness / qualia）の説明。「感じる何か」は本フレームワークの外側にある
量子版 Selection Principle の厳密な証明（現 4-qubit 模型では Δ_cf がほぼ定数になる問題あり）
有限時間 regret の保証（mixing time に依存、漸近のみ主張可能）
L3（universality class）：$\mathcal{E}''$ が自然環境分布族で正の測度を持つかは経験的問い
EFE epistemic term と RICD は観測チャネル vs 制御チャネルの差異があり一般には等しくない
Modular flow が「時間の創発」そのものである。状態・代数依存であり宇宙的時間への一般化は未証明
「自己意識」（自己が自己を知っている）と「自己参照構造」は同一ではない
IIT（φ 値）との接続は現時点で危険——QEC の冗長化と IIT の分解不能性は方向が逆

未解決点（次に掘るべき場所）

Generic emergence の証明：L3 を「自然環境の因果幾何の相転移」として定義し、RICD が predictive-control relevance を追跡する環境集合の測度を求めること
量子 RICD の実装：Δ_cf が本当に変動する richer な量子演算子セットの設計。量子版が古典版に対して本質的な優位を持つかの検証
Exploitability の非循環的定義：制御効用 $U_{\mathrm{ctrl}}$ に依存しない、因果グラフの構造だけによる actionability の定式化
Perspectival incompleteness の定量化：量子自己測定ギャップ $\Delta_{\mathrm{self}} = 1 - \max_{M^* \subset \mathcal{A}(R)} F(M^*, \rho_{\mathrm{self}})$ の具体的測定方法
Phase II（圧縮）：RICD_exp をさらに最小化し、observer の定義を「usable intervention divergence を保持し続ける構造」という 1 行に圧縮できるか
Finite-time regret：adaptive gain の初期 overshoot 問題と有限時間での Controller との逆転が起きる条件