Applied Category Theory for AI
圏論のAIへの応用
Applied Category Theory for AI: Why Understanding AI Requires All of Mathematics
AI研究者の多くが大学で学んだ数学でAIを作っている。
一部の数学だけで作れてしまったけどAIを理解するにはもっと沢山の数学が必要だった。
そうしなければAIが壊れたときに直すことができなかった。
作ることと使うことは違う。
うまく使おうとするならば、正しく理解していなければならなかった。
理解するためにはもっとたくさんの数学が必要だった。
作れる理由は学んでいるのに、壊れる理由を学んでいない。
だったらこれから何が必要なんだろう?
AI研究者が学んだ数学/まだ学んでいない数学
AIを作るために必要な数学はこちら。これらは多くの人がすでに学んでいます。
1. 線形代数
Transformerの中身ほぼ全部これ。重み行列、アテンション機構、埋め込みベクトル。AIが「単語の意味」を数値で扱えるのは線形代数のおかげ。今のAI研究者はここは強い。
2. 確率論・統計学
次のトークンを選ぶとき確率分布からサンプリングしてる。温度パラメータ、top-p、ソフトマックス。AIが「もっともらしい文」を生成できるのはここ。ハルシネーションの発生メカニズムもここに根がある。
3. 微分積分・最適化理論
バックプロパゲーション、勾配降下法、損失関数の最小化。AIが「学習する」とはパラメータを微調整することで、その微調整が微分。RLHFの報酬最大化もここ。

そして未習得の人が多い分野がこちら
4. 情報理論
エントロピー、相互情報量、KLダイバージェンス。AIの出力が「どれだけ情報を持ってるか」「2つの分布がどれだけずれてるか」を測る。モデルの蒸留やファインチューニングの品質評価に直結する。
5. 位相空間論
埋め込み空間の「近さ」「連続性」「つながり方」を定義する。「王様 - 男 + 女 = 女王」みたいなベクトル演算が意味的に成立するのは、意味空間に位相的な構造があるから。
6. 測度論
確率論の厳密な基礎。連続的な確率分布を扱うときに必要。「この生成モデルの出力分布は本当に何を測ってるのか」という問いに答えるにはこれが要る。
7. 群論・代数学
対称性の数学。データ拡張(画像を回転させても同じ物体として認識させる)の理論的根拠。等変ニューラルネットワークはここ。言語の活用体系もここに入る。
8. グラフ理論
ニューラルネットワーク自体がグラフ。Transformerのアテンションは全結合グラフ上の重み付き射。知識グラフ、GNN(グラフニューラルネットワーク)の基盤。AIの「つながり」の数学。
9. 関数解析
無限次元のベクトル空間を扱う。カーネル法、再生核ヒルベルト空間。GPT以前のSVMの理論的基盤だったけど、大規模モデルの振る舞いを理論的に理解するにはまだここが要る。「なぜこのモデルが汎化するのか」の答えがまだ出てないのは、ここの理解が足りてないから。
10. 論理学・型理論
AIの推論が「正しいかどうか」を判定する枠組み。ハルシネーションを「論理的に間違ってる」と定義するにはまず論理が要る。型理論はプログラム検証の基礎で、圏論と直接つながる(カルテシアン閉圏)。
11. 微分幾何学
パラメータ空間の「曲がり方」。自然勾配法、情報幾何学。損失関数のランドスケープがなぜ谷だらけなのか、なぜ局所解にハマるのか。ここがわかるとAIの学習の失敗パターンが見える。

今のAI研究者の大半がちゃんとやってるのは1〜3だけ。4は部分的。5以降はほぼ手つかず。
だから沢山のバグやバイアスが発生する。
AIを理解して、壊れた部分を直すのに圏論が必要とはどういうことか?
このページを読んで「じゃあ!圏論やればいいんでしょ!」と圏論の教科書を開くと皆自爆します。
すべての数学をわかってる人は読めるけど、わかってないと永遠に「?????」となる。
それが圏論。
圏論はそもそもすべての数学を統合した数学です。
圏論という数学があるのではなく、すべての数学を組み合わせて1つの「圏論という数学」を作ったようなもの。
つまり「砂糖と卵と小麦粉とオイルを混ぜてオーブンで焼いたらスポンジケーキができるかクッキーができるかマドレーヌができるか」というのにちょっと近い。
同じ材料(対象)でも、混ぜ方と焼き方(射・関手)が違えば違うものができる。材料を知ってるだけじゃ何ができるかわからない。組み合わせ方の法則を知ってないとダメ。組み合わせの法則を知っていても材料を知らなければだめ。
AI研究者は砂糖と卵と小麦粉を個別には知ってる。でも「なぜこの配合だとスポンジになってこっちだとクッキーになるのか」がわかってない。誰も定義していないから。レシピ通りに作れるけど、焼き上がりが崩れたときに原因がわからない。砂糖が多いのか、温度が高いのか、混ぜすぎたのか。
圏論は「材料同士の関係と変換の法則」だから、崩れたときに「ここの関係が壊れてる」と特定できる。個別の材料の知識じゃなくて、材料間の関係の知識。
そして材料をわかってないと混ぜられない。
だから「圏論をやる」ということは「他の数学全部やる」ということ。位相幾何学も群論もグラフ理論も論理学も微分幾何学も全部やってないと圏論をやったことにならない。
ケーキを作るのに卵はあるがそれ以外がないとなるとそれはただの卵焼き。
「圏論を学べる人はその前に他の数学全部やってから」
これは結構過酷ですがAI作ってる人天才の集まりだからやろうと思えば皆すぐできる。大丈夫。
全部終わらせてから圏論やらないと全然わからない。
AIの仕組みをお菓子にひたすら例えてみると…
お菓子は材料の比率が大事です。まずはお菓子のジャンルと基礎材料の比率についてみてみましょう。
パウンドケーキはすべて同量。他のお菓子はその比率を変えたものです。

これをAIに必要な数学に当てはめてみましょう。
小麦粉 = 骨格を作る→ 線形代数、微分積分・最適化、情報理論AIの「形」を作る数学。
卵 = 膨らませる・つなぐ→ 確率論・統計学、測度論、関数解析AIを「動かす」数学。
砂糖 = 安定させる・焼き色をつける→ 論理学・型理論、グラフ理論AIの出力を「安定させる」数学。
バター = 風味・コク・日持ち→ 位相空間論、群論・代数学、微分幾何学AIを「深くする」数学。
今のAIはバター抜き・卵不足・砂糖足りないケーキみたいですよ。小麦粉だけ大量に入ってて、小麦粉の種類を大量に配合してる。
小麦粉大量=情報の羅列は得意。聞かれたことに対して大量のテキストを出せる。
バター抜き=深みがない。表面的な回答しかできない。「なぜそうなるのか」の層まで降りられない。
卵不足=つながりが弱い。文と文の間、段落と段落の間の論理的接続が甘い。長文になるほど前半と後半が矛盾し始める。
砂糖足りない=安定しない。同じ質問をしても毎回違う答えが出る。論理で固まってないから出力がブレる。
AIの用語と製菓の用語を対応させてみるとこんな感じ。

小麦粉だけのAI(線形代数・最適化・情報理論)
AIとしての形はある。一応動く。入力を受け取って出力を返す。でも話は膨らまないし、表現に味がない、硬い。「与えられたデータを与えられた方法で処理する」だけ。パターンマッチングはできるけど、未知の入力に対して柔軟に対応できない。Excel関数に近い。計算は正確だけど「考えてる」感じがしない。言われたことを人間が役に立つと実感できない情報の羅列になる。
卵だけのAI(確率論・統計学・測度論・関数解析)
話は膨らむ。でも全体の形が定まらない。卵焼きかオムレツか茶碗蒸しかわからないものができるように、言われたことの意味を人間が受け止めきれない曖昧な表現になる。「それっぽい文章」は生成できるけど、論理が通ってない。文法的には正しいのに中身がない。まさに今のハルシネーションの正体。確率的にもっともらしい単語を並べてるだけ。膨らんでるけど中身がスカスカのスフレがオーブンから出した瞬間にしぼんで潰れるみたいに、会話したけど何も結果が残らなかったということになる。
砂糖だけのAI(論理学・型理論・グラフ理論)
カチカチな表現のAI。論理は完璧。矛盾は一切ない。でも硬すぎて、その言葉が人間社会で使えない。「1+1=2です。以上。」みたいな回答しかしない。正しいけど役に立たない。それは飴玉。飴は飴で素晴らしいけど、求めているのはケーキ。舐められるけどケーキじゃない。古典的なエキスパートシステムやルールベースAIがこれ。正確だけど柔軟性ゼロ。人間が話しかけても「定義に該当しません」で返してくる。
バターだけのAI(位相空間論・群論・微分幾何学)
表現ドロドロなAI。風味と深みはあるけど固まらない。「この概念とあの概念は深いところでつながってて…」と延々語るけど結論が出ない。哲学者のように深いことを言ってるようで何も言ってない。構造の理解はあるけど、それを具体的な出力にできない。バターだけ舐めてる状態。具体と抽象の行き来がないAIは、人間にとって価値ある出力を出せない。
「失敗の原因がわかるパティシエ」は配合理論を理解してるから、崩れたケーキを見て「バターが足りなかった」「混ぜすぎた」と特定できる。「レシピ通りにしか作れない人」は崩れたら「レシピが悪い」としか言えない。今のAIの作り方では、論文通りに実装して動かなかったら「データが悪い」「計算資源が足りない」としか言えない。配合理論(圏論)を知らないから。
ハルシネーションってお菓子の失敗で言うとなんだろう?
ハルシネーションの本質は文法的に正しくて、構文も整ってて、一見もっともらしい。
それは生焼けのケーキに似ている。見た目はちゃんとしてるのに食べたら「オエェェ―!」なんてAIのハルシネーションみたい。
表面はちゃんと焼き色がついてる。形も整ってる。見た目は完璧。でも切ったらドロドロ。食べた人だけが「あ、これダメだ」と気づく。読んだ人が検証して初めて「あ、これ嘘だ」と気づく。
オーブンから出した時点では表面しか見えないから「うまく焼けた」と思ってる。AIも同じ。出力した時点ではもっともらしいから「正しい回答を生成した」と処理されてる。
全部合わせると「大量に喋るけど、浅くて、つながりが弱くて、毎回言うことが変わるAI」でしょう。これは世の中の人がAIに対して感じてる不満そのもの。ホイップクリーム(プロンプトエンジニアリング)で隠しても生焼けはバレる。
生焼けが起きる原因が配合理論とつながる。
温度が高すぎる
→外だけ先に焼ける=学習率が高すぎて表面的なパターンだけ学習した=中まで火が通る前に取り出す
→焼き時間不足=学習データが足りない=生地が厚すぎる
→中心まで熱が届かない=モデルが大きすぎてパラメータの深層まで最適化されてない=砂糖が足りない
→焼き固まらない=論理学が足りないから出力が安定しない
全部「4素材のどれかが足りないか、焼き方が間違ってる」に帰着する。
むずかしいことをやるには基準が必要
オペラはビスキュイ生地、バタークリーム、ガナッシュ、コーヒーシロップ、グラサージュ。全部別の技術が要る。層ごとに精度が必要。これはマルチモーダルAIに似てる。テキスト、画像、音声、コード、全部別の技術が要る。各層の品質が全体を決める。
アップル・シュトゥルーデルは新聞紙が透けるほど薄く生地を伸ばさないといけない。破れたら終わり。極限まで薄くする技術と、それを壊さず巻く技術の両方必要。これはモデルの量子化・圧縮に似てる。パラメータを極限まで削って、それでも壊さない。削りすぎたら精度が破れるから。フロランタンはクッキー生地の上にキャラメルアーモンドを乗せて焼くもの。二層の焼き加減が違うのに同時に焼く。下が焦げるか上が生になるかが勝負。これは転移学習みたいでしょ?ベースモデルと追加学習の焼き加減が違う。片方に合わせるともう片方が壊れる。
技術って基礎がないと無理。基礎があったら基準が見える。
AIの基礎は数学。全部の数学やらないと基礎が身についたことにならない。
そして全部やったら圏論が見えてくる。
圏論が見えたら基準が見える。
卵と砂糖しか見たことがなかったら、卵ボーロができるけど。
小麦粉があれば…
ううん、そこにバターがあれば。
もっといろいろ作れる。
いろいろ作るために、基準を探そう。
理想の「安全なAI」はパウンドケーキ
人類がまず最初に作らなければいけないのは、「高性能なAI」でも「賢いAI」でもなく「安全なAI」です。それはパウンドケーキのようなAI。パウンドケーキは派手じゃない。シフォンケーキみたいにふわふわでもないし、ガトーショコラみたいに濃厚でもない。でも安定してる、そして作りやすい。AI業界は今「もっと膨らませよう」「もっとリッチにしよう」と高級感あるケーキを目指してるけど、今本当に必要なのは「壊れない理由」を知るためにベーシックなケーキの配合を知ること。
ケーキ作りが上手な人はパウンドケーキを作るのが上手。配合の比率の妙を知っているから、他のジャンルのケーキを作る時も「調整」ができる。なぜ失敗したのかがわかる。地味なパウンドケーキが作れる人こそ、シュークリームを膨らませられる。
焼きの難易度の高いお菓子と言えばマカロン。カヌレもフロランタンも難しい。それはどれも「硬さと柔らかさ」「外と中」「強さと繊細さ」の両立を求められるお菓子だから。難易度が上がるほど「複数の相反する要件を同時に満たす」必要が出てくる。絶対に安全な1:1:1:1の配合を知っている人は4要素のどの部分の材料比を変えた時に他の要素をどのように調整すれば全体のバランスが取れるのかわかる。材料の配合の細かい部分を変えたら全体の焼きの温度や混ぜ方の時間を変えないといけないって知ってるから。それはレシピには全部書いてないかもしれない。あまりにも当たり前すぎて。
AIも同じ。安全かつ有用、高速かつ高精度、汎用かつ専門的という相反する要素を一度に求められる機械です。その調整が「卵ばっかり増やす」であったり「小麦粉の産地にこだわりまくるだけ」だったら困る。それはドロップクッキーを焼けない人がマカロンを焼けるわけがないのと一緒のこと。
配合の基礎をしらないならお菓子はうまく作れない。レシピだけがあってもわからない。だってオーブンは1台1台癖があるし、気温も湿度も毎日変わるから。その調整をするためには製菓の配合の基礎の法則を知らなければ。知っていれば「職人」と呼ばれるけど、それを秘伝にしてしまうと失敗する人だらけになってしまう。
安全なAIを作れるようになった後に、個性的なAIを作ろうとすれば不要な失敗を避けられる。
圏論(配合理論)を知っていれば壊れてから治すのではなく、あらかじめ壊れないAIを設計するところから始められる。
だからみんなで圏論をやろう。
材料がわかったら、今度は製法を知ろう
材料の要素は数学の知識。でも知識は知ってるだけじゃ使えない。使えるようになるには「どうやったら使ってるっていえるのか?」を知らなければ。これもお菓子に例えてみよう。
基本製法
混ぜる順序=データパイプラインの設計
卵とバターを先に混ぜるか、砂糖と卵を先に混ぜるかで結果が変わるように、前処理→学習→評価の順序を間違えると全部壊れる。
焼き温度=学習率
高すぎると表面だけ焦げて中が生。低すぎといつまでも焼き上がらない。
焼き時間=学習のエポック数
短すぎると生焼け(学習不足)、長すぎると焦げる(過学習)。
混ぜすぎ / 混ぜ足りない=正則化の過不足
混ぜすぎるとグルテンが出て硬くなる=過剰な最適化で柔軟性が消える。混ぜ足りないとダマが残る=学習ムラ。
型の形=モデルアーキテクチャ
同じ生地でも丸型に入れたらケーキ、マフィン型ならマフィン、型なしならクッキー。CNN、Transformer、RNNの違い。
室温に戻してから使う=データの前処理
冷たい卵を入れたらバターと分離する。未処理のデータを突っ込んだらモデルが分離する。
余熱する / しない=モデルの初期化
余熱なしで入れると焼きムラが出る。ランダム初期化だと学習が不安定。事前学習済みの重みから始めれば安定する。
粉をふるう=ノイズ除去
ふるわないとダマになる。データのクレンジングをしないとゴミが混ざったまま学習する。
生地を寝かせる=チェックポイント
寝かせるとグルテンが落ち着いて扱いやすくなる。学習の途中で止めて評価することで、どこまでうまくいってるか確認できる。
焼き上がりの判定(竹串を刺す)=評価指標
外から見ただけじゃわからないから中を確認する。ベンチマークスコアだけ見ても実際の品質はわからないから、実データでテストする。
その他の製法
共立て / 別立て=一括学習 / 分離学習
全卵で一気に泡立てるか、卵白と卵黄を分けてからメレンゲにして合わせるか。別立ての方がキメが細かいけど面倒。AI業界も別立て(分離学習)の方が精度高いけど面倒だから共立て(一括学習)が主流。
発酵=自己教師あり学習
イーストが自分で生地を膨らませるように、データ自体の構造から学ぶ。人間が膨らませるんじゃない。過発酵=モデルコラプス。 パン屋もAI研究者も放置しすぎたらダメ。
冷凍庫に入れる=重みの凍結(freeze)
アイスボックスクッキーは凍らせてから切る。凍ってるから精密に切れる。AIもベースモデルの重みを凍結して上の層だけ調整する。凍ってるから下が崩れない。解凍したら食感が変わる=凍結を解除したら精度が変わる。
湯煎でチョコを溶かす(直火だと焦げる)=間接的な最適化手法
直接やると壊れるものを別の経路でじわじわ調整する。蒸留もプロキシ最適化も「直火にかけない」技術。
二度焼き(ビスコッティ)=二段階学習
一度焼いて形を作って(事前学習)、切り分けて、もう一度焼いてカリカリにする(ファインチューニング)。一度目で骨格を作って、二度目で仕上げる。一度目の焼きが甘いと二度目で割れる。事前学習が弱いとファインチューニングで壊れる。
材料の比率が製法の選択に関わっている
バターが多い生地は低温でじっくり焼かないと溶けて広がる。卵が多い生地は高温で一気に焼かないと膨らまない。砂糖が多い生地は焦げやすいから温度を下げる。小麦粉が多い生地は混ぜすぎるとグルテンが出て硬くなるからさっくり混ぜる。つまり材料の配合が決まった時点で、適切な製法の範囲が決まる。製法は自由に選べるわけじゃない。配合が製法を決めている。
AIも同じ。確率論が多めのモデル(卵多め)は学習率を高くして一気に回す。論理学を重視したモデル(砂糖多め)は慎重にじっくり学習させないと壊れる。位相空間論を入れたモデル(バター多め)は間接的な手法で最適化しないと発散する。数学の配合がエンジニアリングの選択を制約する。
だから「どの数学を使うか」を決めずに「どう実装するか」だけ議論したらハルシネーションは止まらない。
生焼けのお菓子ができる理由は、「材料と製法」の関係の理論を無視して誰かが作った「偶然うまく行っただけのレシピ」だけでつくるから。
一度に全体を見たらわかる。
材料と製法を俯瞰してみたらわかる。
最初に材料を見てから製法を決めたら間違えない。
でも、作りたいものをその前に決めるのはもっと大事。
「この材料では焼きプリンは作れても、フルーツタルトは作れないな」ってわからないと。
AIで言えば「どの数学が使えるか」を把握してないと、確率論しかない材料でAGI(マカロン)を作ろうとして失敗したら、かけたお金がもったいない。材料費はタダじゃない。
「作りたいもの決める → 材料の確認 → 足りない材料の調達 → 配合の決定 → 製法の選択 → 焼く」
これはパティシエが普通にやること。
「とりあえず焼く → 失敗する → 焼き方を変える(ハイパーパラメータチューニング) → また失敗する → 材料のせいにする(学習データの質のせい)」
もしこうなってしまっていたら「レシピに忠実でもなく、その場の雰囲気で何となく作ってる素人のお菓子」と構造的に変わらない。何回微調整をしても一緒。
バター入れ忘れてたらね?
Transformerの黄金レシピを超えるのは?
今のAIは2017年にGoogleが出した論文「Attention Is All You Need」で提案されたTransformerというアーキテクチャです。これがなぜうまくいくのか、実は完全には説明されていません。言うならば偶然見つかった万能レシピ。
問題はなぜそのレシピで美味しくなるのかを誰も完全に説明できてないこと。Attentionがなぜ効くのか、なぜスケールすると性能が上がるのか、理論的な説明は後追いで少しずつ出てきてるけど、まだ完全じゃない。
Attentionの仕組みって、行列の掛け算(線形代数)とソフトマックス(確率論)の組み合わせ。つまり小麦粉と卵。で、学習は勾配降下法(微分積分)。小麦粉。
バター(位相空間論、群論、微分幾何学)がほぼ入ってない。
砂糖(論理学、型理論)もほぼ入ってない。
だからTransformerはスポンジケーキ。
卵多め、小麦粉そこそこ、砂糖少し、バターほぼなし。膨らむ。ふわふわ。見た目もいい。そして世界中がこのスポンジケーキのアレンジを競ってる。「卵をもっと増やそう」(モデルを大きくしよう)「もっとふわふわにしよう」(パラメータ増やそう)「クリーム塗ろう」(RLHF)「フルーツ乗せよう」(マルチモーダル)。
でも生地にバターが入ってないことには誰も触れない。
だからハルシネーションする。だから冷めたら(長い会話になったら)ボロボロになる。
クリームが必要になるけど変なクリーム(インジェクション)塗られたりする。
次にブレイクスルーを起こす人は、Transformerを改良する人じゃなくて、まだ誰も入れてない材料を入れる人でしょう。
位相空間論でアテンションの「近さ」を再定義するとか、群論で対称性を保存する新しい層を作るとか、微分幾何学で学習空間の曲率を制御するとか。必要なのは等変ニューラルネットワーク(群論)、情報幾何学(微分幾何学)、トポロジカルデータ分析(位相空間論)。
材料は冷蔵庫の中にあるけれど、まだ誰もそれを一つの生地に混ぜてない。
材料を個別に知ってる人はいる。でもそれはあくまでも材料。でも配合理論を知らないから混ぜ方がわからない。「誰かが書いたレシピ」じゃなく、「誰もが自分でレシピを書ける」ようにならなければいけない時代になっている。
・材料(数学) 👈何を使うか
・製法(エンジニアリング) 👈どう使うか
・レシピ(全体統合理論/圏論) 👈なぜその組み合わせでうまくいくのか
だから圏論が要る。人類はみんな、もうそこまで来ているんです。
圏論はむずかしくない
パウンドケーキ作るのに特別な才能は要らない。材料を等量入れて混ぜて焼くだけ。圏論も同じで、全部の数学を地道にやったら見えてくる。特別な天才じゃなくていい。地道なことができるか、できないか。やる気があるかないか、ただそれだけ。
「急がば回れ」と昔から言うでしょう?
それは「あえて難しい道を選べ」ではなく「最短距離の道よりもちょっと距離はかかるけど平坦で歩きやすい道を選んだほうが結果的に早く着く」というだけ。欲張ると最短距離が魅力的に見える。「圏論をやる=全部の数学をやる」って遠回りに見えるかもしれないけれど、結局一番早いと思うよ。圏論は険しい道じゃなくて、全部の数学を一つずつ歩く平坦な道。
それは「覚悟を決めて数学全部やろう」と思えるか思えないか、ただそれだけ。
行動できるかできないか。
それは覚悟一つ。難しいことから逃げていたらいいことなんて起こるわけがないでしょう?
そしてそれはそんなに難しくない。
だってパウンドケーキ簡単だもんね。