Mull-Tokens: Modality-Agnostic Latent Thinking
arXiv:2512.10941

LLMに「言葉にできない思考」をさせる革命的論文です。新技術Mull-Tokensは、文字や画像に縛られない「潜在的な思考の下書き」として機能し、自由な推論を可能にします。従来の思考手法(CoT)より圧倒的に高速なわずか10〜40トークンで、難解パズルの精度を最大16%向上させました。言葉や図に頼らず頭の中で直接シミュレーションを行う、マルチモーダル推論の真のブレークスルーです。

Gemini_Generated_Image_h0alheh0alheh0al.png 5.25 MB従来のMLM(マルチモーダル言語モデル)でも画像とテキストは同じ潜在空間で扱われてきましたが、推論プロセスにおいて「テキスト」や「画像」といった特定の形式に明示的に変換・依存しなければならない点に大きな課題がありました。

Gemini_Generated_Image_6q9msh6q9msh6q9m.png 5.51 MBこの技術の延長線上には「あらゆる感覚を統合する」汎用マルチモーダル空間、テキストや画像だけでなく、音声や3D点群までもが一つの潜在的な思考回路で統合される未来が見えます。世界モデルとの融合により、AIは言葉を介さずとも世界の因果関係を直接「理解」し、物理的な閃きを伴うような高度な推論を極めて低い計算コストで実現します。