状態、スコア、そして 4 つのテスト
4 つの実験はすべて、ひとつの条件付けスキームとひとつのブロックスコアを共有する。これらは collatz_block_anomaly_score.py で定義され、下流でインポートされる。一度だけ定義し、全テストで共有することで比較可能性を担保する。
3.1 条件付けセル(状態)
各語は状態に割り当てられる:
\[ \text{state} \;=\; \text{bridge\_cluster} \;\big|\; \text{x\_K\_window} \;\big|\; \text{parity}, \]これは 3 つの座標から構成される:
- bridge_cluster ―― 経路形状のラベル。\(x(u)\) を \(u \in [0,1]\) に再パラメータ化した対数振幅部分和経路とすると、特徴量 \(z_{25} = x(0.25) - 0.25\,x(1)\) は、四分の一点が直線の弦からどれだけ上または下にあるかを測る。
\(z_{25}\) 上の三分位カット(\(q_{\text{low}}=-1.5\),
\(q_{\text{high}}=-0.25\))が
late_growth、balanced、early_growthを与える。 - x_K_window ―― \(x_K = K_\tau - (\text{power} - h)\) のウィンドウで、
exhaustion_0_31、deep_32_63、tail_64_95にバケット化される。これらのウィンドウ外の語は破棄される。 - parity ――
powerのパリティ(even/odd)。
本稿では、1 つの状態を代表的なストレスケースとして用いる:
\[ \textbf{focus state} \;=\; \texttt{late\_growth | tail\_64\_95 | even}, \]これは深い尾部・後期成長・偶数の状態であり、actual と iid の不一致が最も大きく、かつサンプリングが最も希薄な状態である。
3.2 ブロック対数比スコア
訓練分割上で、各 \((L, \text{state}, u\text{-bin}, \text{block})\) について、actual と iid のサンプルに対する平滑化済みブロック確率を推定し、そこから対数比を求める:
\[ s_L(\text{state}, u, \text{block}) \;=\; \log_2 \frac{p^{\text{actual}}(\text{block})}{p^{\text{iid}}(\text{block})}, \]ここで \(u\) は語内位置を十分位に分割したビンである。平滑化は、異常テストでは \(3^L\) 個のブロックにわたる加算 \(\alpha\) 平滑化(\(\alpha = 0.5\))であり、くりこみテストと射影テストでは一様混合 \((1-\lambda)\,\hat p + \lambda/3^L\)(\(\lambda = 0.02\))である。状態は、その訓練 iid 質量が \(10^{-7}\) を超えるときにのみ保持される(安定)。
語の長さ \(L\) におけるブロックスコアは、テスト分割上でそのスライディングウィンドウにわたり、学習段階で推定した対数比を合計する:
\[ S_L(\mathbf{k}) \;=\; \sum_{i} s_L\!\big(\text{state}, \, u\text{-bin}(i,\tau), \, \text{block}_i\big). \]訓練/テスト分割はサンプル添字のパリティで決まるので、いかなる語も自分自身から推定された確率でスコア付けされることはない。
3.3 4 つのテスト
2 つのテストは診断的(スコアは actual を iid から分離するか?)であり、2 つは生成モデルに関する(スコアは iid 測度を actual 測度へ再形成できるか?)である。
| # | テスト | 種別 | 問い |
|---|---|---|---|
| 1 | ブロック異常(B3/B4) | 診断的 | \(S_4\) は \(x_K\)・パリティ・ブリッジ・経路形状のベースラインに対し分離を改善するか? |
| 2 | ブロック長によるくりこみ | 診断的 | 分離は \(L=3,\dots,6\) で増大するか;残差は縮小するか? |
| 3 | 有限ブロック再重み付け | 生成モデル | iid を \(2^{\alpha S_L}\) で再重み付けすると actual 質量を再現するか? |
| 4 | 最大エントロピーブロック射影 | 生成モデル | ブロック周辺分布を合わせる正則化 IPF は、生/減衰再重み付けに勝るか? |
テスト 1 — ブロック異常スコア
ベースライン共変量上に重み付きロジスティック分類器(actual 対 iid)を適合させ、次にブロックスコアを加えて重み付き AUC の変化を測る。同時に、ブリッジ係数とパリティ係数が吸収されるかどうかを評価する。
テスト 2 — ブロック長によるくりこみ
\(L=3,\dots,6\) について構成を繰り返し、周辺スコア AUC、\(+\)スコアロジスティック AUC、ブリッジ/パリティ残差係数を \(L\) の関数として追跡する。さらに、focus state における十分位ごとの生存比も追跡する。
テスト 3 — 有限ブロック再重み付け
各 iid テスト語を、\(\alpha \in \{0, 0.25, 0.5, 0.75, 1\}\) について \(2^{\alpha S_L}\) で再重み付けし、予測総質量を、安定状態における actual の総質量に一致するよう再スケールした後、予測状態質量分布と actual 状態質量分布を RMSE とイェンゼン–シャノンダイバージェンスで比較する。
テスト 4 — 最大エントロピーブロック射影
iid テスト測度に対し、近似的・正則化 IPF/指数型分布族更新を実行してブロック周辺分布を合わせる。 \(L=3,\dots,6\)、正則化 \(\{0, 0.5, 0.75, 0.9\}\)について(2 反復、評価は \(40{,}000\) 個の iid 語で打ち切り)行う。射影後の状態分布を actual、およびテスト 3 で得られた最良の生/減衰再重み付け結果と比較する。
3.4 報告される量
- 重み付き AUC ―― スコアによる actual の iid からの分離(診断テスト)。
- RMSE / JS ―― 予測状態質量分布対 actual 状態質量分布(生成テスト)。
- 生存 ―― 明示的に区別された 2 つの形式で報告される:テスト 1–2 における十分位ごとの生存比 \(S = (\text{actual 質量})/(\text{iid 質量})\)と、テスト 3–4 における focus state の保持質量(モデル対 actual)。
- ブリッジ/パリティ残差 。ブロックスコアを含めた後に残るブリッジクラスタ係数とパリティ係数の大きさ。
補助解析の Δ。§4.6 では、補助的な記述統計として状態質量差
\[ \Delta(\text{state}) \;=\; \mu_{\text{actual}}(\text{state}) \;-\; \mu_{\text{iid}}(\text{state}) \]を報告し、これを state・prefix シリンダー・transition・boundary/remaining_K の各座標へ投影する。Δ は actual と iid の質量差を表す記述統計であり、生成モデルではない。これは §4.1–4.4 が検出した不一致がどの座標で局在するかを補足するためにのみ用いる。