背景と記法
本節では、比較対象――脱出語、iid な 2進参照、そして条件付けに用いる座標を固定する。ここでは新たな主張は行わず、§4 の測定を曖昧さなく行うための記法と参照モデルを整理する。
2.1 脱出語
加速版の奇数から奇数への写像を扱う。奇数 \(n\) に対し、1 ステップは \(3n+1\) から 2 の因子を取り除く:
\[ n \;\longmapsto\; \frac{3n+1}{2^{\,k}}, \qquad k = v_2(3n+1) \ge 1 . \]軌道がその層から脱出するまで辿ると、付値の有限列
\[ \mathbf{k} = (k_1, k_2, \dots, k_\tau), \qquad k_i \ge 1, \]が得られ、これを脱出語と呼ぶ。\(\tau\) はその長さである。累積付値は \(K_\tau = \sum_i k_i\)。 対数振幅の観点では、各ステップは \(\log_2 3 - k_i\) を寄与するので、\(\log_2 3 - k_i\) の部分和が軌道の下降を記述する。この経路を以下で定義する形状特徴量によって要約する。
2.2 比較される 2 つの測度
各条件付けセル内で、脱出語上の 2 つの分布を比較する:
- actual(実測) ―― 有限整数の語。
powerを \(\{24,\dots,28\}\) として、\(2^{\text{power}}\) までの奇数剰余にわたる網羅的な剰余ステータスキャッシュから列挙する。ESCAPEとフラグ付けされた軌道を辿り、その層質量で重み付ける。 - iid ―― iid な 2進参照からサンプルされた語。付値は各ステップで
独立に、傾けられた幾何分布(
tilted_k)から引かれ、層の幾何に合わせる重要度重みを伴う。tilted_kは 2進参照の付値分布を表し、重要度重みは、その iid サンプルを実測側と同じ層条件で比較するために用いる。この参照が actual と比較するための帰無モデルとなる。
2.3 付値カテゴリとブロック
生の付値は 3 つのカテゴリにバケット化される:
\[ \text{k\_cat}(k) = \begin{cases} \texttt{"1"} & k = 1 \\ \texttt{"2"} & k = 2 \\ \texttt{"3+"} & k \ge 3, \end{cases} \]そして長さ \(L\) のブロックとは、連続する \(L\) 個のカテゴリのウィンドウである。可能なブロックは \(3^L\) 通りあり、ここでは \(L \in \{3,4,5,6\}\) を用いる。粗いバケット化は、ブロックごとのサポートをサンプルから推定できる程度に小さく保ちつつ、1 ステップの視点が見落とす短距離構造をなお分解する。
2.4 そもそもなぜ有限ブロック視点なのか
先行する解析は、この不一致がいかなる単一の低次要約でも十分には捉えられないことを示唆する。すなわち \(K_\tau\) でも、\(\tau\) でも、平均付値でも累積ドリフトでもなく、しかも 1 ステップ遷移は iid にほぼ近い。
ここで用いる回帰ベースラインにおいて、これらの共変量は合わせても actual を iid からごくわずかしか分離しない(AUC \(\approx 0.50\);§4 参照)。これは自然に有限ブロックの問いへ導く。
もし乖離が 1 ステップではなく、これらのスカラーで十分には捉えられないなら、それは短い多ステップパターンの中に存在するのか、もしそうなら、そのブロック統計量を生成モデルとして用いることができるのか?
本稿の残りはこう答える。乖離は短いブロックに(診断的に)確かに現れる。しかし、ブロック統計量を生成モデルとして用いる試みは、我々が試した 2 通りの仕方で失敗する。