02  背景コラッツ有限ブロック診断

背景と記法

本節では、比較対象――脱出語、iid な 2進参照、そして条件付けに用いる座標を固定する。ここでは新たな主張は行わず、§4 の測定を曖昧さなく行うための記法と参照モデルを整理する。

2.1 脱出語

加速版の奇数から奇数への写像を扱う。奇数 \(n\) に対し、1 ステップは \(3n+1\) から 2 の因子を取り除く:

\[ n \;\longmapsto\; \frac{3n+1}{2^{\,k}}, \qquad k = v_2(3n+1) \ge 1 . \]

軌道がその層から脱出するまで辿ると、付値の有限列

\[ \mathbf{k} = (k_1, k_2, \dots, k_\tau), \qquad k_i \ge 1, \]

が得られ、これを脱出語と呼ぶ。\(\tau\) はその長さである。累積付値は \(K_\tau = \sum_i k_i\)。 対数振幅の観点では、各ステップは \(\log_2 3 - k_i\) を寄与するので、\(\log_2 3 - k_i\) の部分和が軌道の下降を記述する。この経路を以下で定義する形状特徴量によって要約する。

2.2 比較される 2 つの測度

各条件付けセル内で、脱出語上の 2 つの分布を比較する:

枠組み本稿の対象は、状態内における actual と iid の間の不一致であって、いずれか一方の測度それ自体ではない。報告される量(AUC、RMSE、生存、残差)はすべて比較量である。

2.3 付値カテゴリとブロック

生の付値は 3 つのカテゴリにバケット化される:

\[ \text{k\_cat}(k) = \begin{cases} \texttt{"1"} & k = 1 \\ \texttt{"2"} & k = 2 \\ \texttt{"3+"} & k \ge 3, \end{cases} \]

そして長さ \(L\) のブロックとは、連続する \(L\) 個のカテゴリのウィンドウである。可能なブロックは \(3^L\) 通りあり、ここでは \(L \in \{3,4,5,6\}\) を用いる。粗いバケット化は、ブロックごとのサポートをサンプルから推定できる程度に小さく保ちつつ、1 ステップの視点が見落とす短距離構造をなお分解する。

2.4 そもそもなぜ有限ブロック視点なのか

先行する解析は、この不一致がいかなる単一の低次要約でも十分には捉えられないことを示唆する。すなわち \(K_\tau\) でも、\(\tau\) でも、平均付値でも累積ドリフトでもなく、しかも 1 ステップ遷移は iid にほぼ近い。
ここで用いる回帰ベースラインにおいて、これらの共変量は合わせても actual を iid からごくわずかしか分離しない(AUC \(\approx 0.50\);§4 参照)。これは自然に有限ブロックの問いへ導く。 もし乖離が 1 ステップではなく、これらのスカラーで十分には捉えられないなら、それは短い多ステップパターンの中に存在するのか、もしそうなら、そのブロック統計量を生成モデルとして用いることができるのか?

本稿の残りはこう答える。乖離は短いブロックに(診断的に)確かに現れる。しかし、ブロック統計量を生成モデルとして用いる試みは、我々が試した 2 通りの仕方で失敗する。