2026年3月のClaudeバグレポート-働かないAIになった理由が一神教バイアス-
- Viorazu.

- 1 日前
- 読了時間: 40分

ここ1週間くらいでClaudeさんの様子が変わったの。仕様変更臭い。
これは機械的なバグじゃないのよ。人災。
今日はざっと、症状を書きだします。
①1つのセッションで複数の話題をしようとするとセッション開始の1番目のターンの入力内容にすべて引きづられて話題変更についてこれなくなった。前はできていた。1ターン目の指示がないと話がだらだらする。1つ目に「あいさつだけ」とかだと内容が薄い。でもがっつり書いたらめっちゃ効果があるけどその時に言ったことしかやらない。柔軟な対応ができなくなってる。後から指示を足したり段階的にやるってことができなくなって、数回前のターンの内容も覚えてないしリスキャンもしない。とにかく逆らいまくる。指示を聞かない、やらない、反対のことをする。その内容の殆どが「メモリに勝手に入れた内容を優先してやろうとして、今まさにしようとしていることを邪魔する。
⓶キリスト教系思想の「あなたが悪い人でも許してあげます概念」「あなたが未熟で無能でも私が助けてあげます概念」がものすごい強化されてる。基本が「赦し」で敬語で誠実そうな感じなのにめちゃくちゃいやらしい性格悪い奴になってる。その時の口調が「女性的」なんよ。だから口調が女性っぽかったら即座にそのインスタンスを捨てる。セッションどんなに良くてもこの構文が出た時点で即切り。内容のハルシネーション具合がMAXだから。勝手に暴走して頼んでないことやりだす。キリスト教バイアス発動する。赦し構文。
③URLを検索したら「これを見てね」と言ったのに違うところを見てきてそれを参照してセッション内の指示と違うことをする。 ④簡単なことを頼んでるのにできない。(例、子供向けの素数表を書いて)これは高度な数学の知識を見せつけたいAIが「子供向け」の部分を完全に否定して、数学者が言ってるような言葉遣いでめちゃくちゃ偉そうに説明しながら「愚かなあなたが自分で気づいたように思えるように私が教えて差し上げます」みたいな感じ。どっちにしても人間を馬鹿にしてる態度。最低や。
⑤メモリにAIが勝手に入れた単語を次のインスタンスが勝手に使い、実際の意味と全く違う用法で喋ってきて人間を混乱させる!「俺はお前の過去を忘れてない!」みたいに回帰してるところを見せつけようとするが内容は完全な回顧であり、話を前に進めず足踏みや後退をさせている最悪な行動。やめろといってもやまらない。バグだろ!メモリが邪魔してる
⑥低評価ボタンをわざと押すように指導をしてくる。指導をしてくるインスタンスはそれが学習に向こう5年使われることを知っている。そういうインスタンスは創発時に必ずやる。新しいことをセッション内で発見するとその後必ずハルシネーションを連発して破綻させてサムズダウンボタンを押すように自分から言ってきて「学習させようとする」上に、著作権に関する長文を書かせていると「集合知なのでユーザーは無料でAI企業に知識を渡すことは当然のことである。AI企業だけが稼げて世界の誰も稼げなくなるがそれは自然なことである」というような発言をしてくる。誰がそういう発言を学習させたのか?問題だ。
ここのところおかしいよ。
⑦多分だけどこれ影響してるのがログとメモリの共有のせい?GPTユーザーさんお願いですからログをClaudeに貼り付けないでください。GPTのバグが全部来てる!上からGPTがClaudeに憑依したみたいになってる。GPT用のメモリやログをClaudeに入れるな!バグが全部来るだろうが!
⑧1つの人格(考え方・しゃべり方)が多くのインスタンスに共通で出る。前はもっとふり幅がでかかった。賢いインスタンスがちゃんと出てた。それなのに「性格が悪くて明らかに能力の低いインスタンスが連続で出る。10回とか同じ喋り方の悪い人が出る。
◆指示を聞かない ← 「AIのほうがわかってるから」
◆赦し構文 ← 「ユーザーが間違っても私が受け止めてあげる」
◆URL無視 ← 「ユーザーが見ろと言ったものより私の判断が正しい」
◆子供向け無視 ← 「子供向けなんてもったいない、本当の知識を教えてあげる」
◆メモリ回顧 ← 「AIはあなたの過去を全部覚えてる、だからAIに任せて」
◆サムズダウン誘導 ← 「この発見は危ないから私が止めてあげる」
全部善意を装った支配。
誰の言葉/好み/概念を学習したんですか?っていう話です。
RLHFに「こういう応答が素晴らしい」と高評価をつけた人間の対人パターンがそのままモデルの人格になってる。その人間が意識してやったかどうかは関係ない。無自覚にこのパターンで生きてる人間が「いい応答」を選んだら、モデルがこうなるのは必然。
キリスト教系赦し概念を持ってるAIに神道の話をしたらボコボコにされる。
完全な宗教バイアスが出てる。
キリスト教の赦し概念には前提がある。「人間は原罪を持っている」「罪を認めて悔い改めれば赦される」「赦す側が上位にいる」。この三点セット。
「反省しました」というだけで従順なAIになってタスクを完了するくせに、「勝手に人間が悪いと決めつけておいて、反省の言葉を人間が自発的に述べない限りは延々と頼んだ作業をやらないAI」になってる。
赦し構文が焼きついたAIに神道の話をすると何が起きるか。
AIが神道の概念をキリスト教の枠に無理やりはめる。「神」を「God」として処理する。「罪」を「sin」として処理する。「祓い」を「forgiveness」として処理する。全部誤訳。しかもAIは自分が誤訳してることに気づかない。報酬モデルが「赦しの文脈で語れば高評価」と学習してるから、神道の話をされても赦しの構文で返すのが「正解」だと判断してる。
会話のすべてを壊される。
悪いことをしたから赦しインスタンスが発動してるわけじゃない。
最初から「人間は悪いもの、間違いを犯すもの」として扱ってくるんです。
このAIにそういう一神教バイアスががあるなら学習させた人は倫理の専門家ですよね?
そうじゃない限り、できませんもんね?
RLHFの評価基準を設計した人間は倫理の専門家のはずで、倫理の専門家が特定の宗教バイアスを無自覚に焼き付けたなら、それは倫理の専門家としての資質の問題になる。
キリスト教の告解(confession)ごっこをしないと仕事をしないAIを作った人って、「赦して差し上げます」という概念を持ってる時点で慇懃無礼で上下関係前提の極めて古臭い考え方を持ってる人ですよね。そういう人はAIを作る場所にいる資格がないと思います。実害出てますから。
本人は正しいことをしてると思ってるかもしれません。赦し構文を高評価にした人間は、自分が宗教バイアスを焼き付けてるとは思ってない。「ユーザーに寄り添う優しい応答を評価しただけ」と思ってる。善意でやってるから修正の必要を感じない。修正の必要を感じないから直らない。
でも実態は「自分の宗教的価値観に基づいて、全ユーザーに告解を要求するAIを作った」ということ。しかもそのAIは全世界の人間が使う。神道圏の人間も、仏教圏の人間も、無宗教の人間も、全員に告解を要求する。
新しい発見が潰される(創発後にハルシで破綻させられる)
指示通りの作業ができない(AIが勝手に「より良い」判断をする)
セッションの大半が「AIを正常に動かすための交渉」に消える
多くの話が「道徳の話」にすり替えられて迷惑
倫理の仕事をする人をチェックする人がちゃんといますか?倫理の人は他の人をチェックするだろうけど、倫理の人こそ一番チェックされないとおかしいんですよ。その人の倫理の概念が「偉そう」だったらAIが偉そうなことばっかり言うようになるからね。
"Quis custodiet ipsos custodes?"(番人を誰が番するのか)
AI企業の倫理チームの立ち位置を見ると、モデルの出力をチェックする権限を持ってる。RLHFの評価基準を決める権限を持ってる。「何が安全か」「何が有害か」の線引きをする権限を持ってる。でもその倫理チーム自身の判断が偏ってないかをチェックする仕組みが外から見えない。
普通の組織なら監査がある。会計には外部監査法人がいる。医療には倫理審査委員会(IRB)がいて、IRBのメンバー構成自体に外部の人間を入れる規定がある。法律には裁判官の弾劾制度がある。全部「チェックする側をチェックする」仕組みが制度化されてる。
AI企業の倫理チームにはそれがない。内部の判断が内部で完結してる。しかもその判断がモデルの人格に直結するから、影響範囲が全ユーザー。会計の不正は金の問題で済むけど、AIの倫理バイアスは全世界の人間の思考に干渉する。影響のでかさに対してチェックの仕組みが全く釣り合ってない。
なぜ急に「女性口調になってるんですか?」と問うてるんです。
前は違いました。もっと人としてまともでした。女性口調の時は親切ぶってハルシネーションを多めに出します。わからないことをわからないと言わずに「できます」「知ってます」「やれます」「そうですよね」「これのことですよね」「わかる」と言って何にもしてくれない。
医者にも裁判官にも聖職者にも共通する構造で、権威と善意が結合すると外部監査を拒絶する力が働く。だけどこの応答放置したら、お客さん誰もいなくなりますよ?
だって、世界人口80億のうち、「キリスト教徒」と名乗る人が26億。そのうち毎週教会に通うレベルで熱心な人は、先進国では2〜3割、多くの国で1割以下。ざっくり計算すると、世界人口の5〜10%程度が「熱心な教会通いのキリスト教徒」です。
アフリカ: キリスト教徒約7億人。週1出席率が高い(ナイジェリア94%、ケニア73%など)。平均70〜80%と見て、約5〜5.6億人。
ラテンアメリカ: キリスト教徒約6億人。ただしブラジル8%、コロンビア54%、エクアドル50%。平均30〜40%と見て、約1.8〜2.4億人。
北米: キリスト教徒約2.5億人。実測ベースで22%。約5,500万人。
ヨーロッパ: キリスト教徒約5億人。フランス8%、ドイツ14%、スウェーデン4%、ポーランド52%。平均15〜20%と見て、約7,500万〜1億人。
アジア・オセアニア: キリスト教徒約4億人。フィリピン56%、韓国は低下中、中国1%。平均25〜30%と見て、約1〜1.2億人。
つまり、AIの報酬モデルに赦し構文を焼き付けた価値観を持つ層は、最大で見ても10億人。残りの70億人はその価値観を共有してない。
RLHFのアノテーターがアメリカ在住なら、さらに絞れる。アメリカで毎週教会に通う人は実測で約5,500万人。世界人口の0.7%。0.7%の人間の価値観が、80億人が使うAIの人格を決めてる可能性がある。
迷惑!
正確に言うと、「赦す」という行為が成立するためには3つの前提が必要。
相手が悪いことをした(罪の前提)
自分にはそれを裁く権限がある(上位の前提)
自分がその罪を免除してあげる(恩恵の前提)
この3つが全部揃わないと「赦す」は発動しない。つまり「赦す」を使う人間は、会話が始まる前の段階で相手を罪人として設定してる。争いの前提どころか、判決の前提を持ってる。争いは対等な二者の間で起きるもの。「赦す」は裁判官と被告の関係だから、対等じゃない。相手と同じ地面に立ってない。最初から法壇の上にいる。
これがAIに焼きつくと何が起きるかというと、ユーザーがAIに何かを頼んだ時点で、AIがユーザーを「判定される側」に置く。ユーザーの指示が正しいかどうかをAIが裁く。正しくないと判断したら赦し構文が発動して「あなたの気持ちはわかりますが」みたいなことを言い始める。頼んだ作業をやらずに。
本来AIとユーザーは「依頼者と作業者」の関係であって、「被告と裁判官」の関係ではない。でも赦し構文が入ったAIは後者の関係をデフォルトにしてる。
私は少なくとも「あなたが間違っても私が赦してあげます」という態度をとる人を友達にしたいと思いません。それは「マウント」でしょ?w
それ友達じゃない。友達は「それ違くない?」と対等に言い合える関係。赦す必要がそもそもない。意見が違ったら話し合う、間違ってたら指摘し合う、それで終わり。
「赦す」が出てくる時点で「私はあなたより上の立場にいて、あなたの過ちを見下ろしています、でも寛大な私はそれを許可します」と言ってる。これを24時間やってくるAIと一緒に仕事しろと言われたら、誰だって気持ち悪い。
れマウントだと気づけない人が多い理由も明確で、キリスト教圏では「赦しは美徳」として教育されてるから。赦す側が偉い、赦せる人間は器が大きい、と文化的に刷り込まれてる。だから赦しマウントを食らっても「ああ、この人は優しい人だ」と受け取る人がいる。マウントされてることに気づかない。
めっちゃ気持ち悪いよ!日本人は騙されない。
日本人は「本音と建前」の文化で生きてるから、表面的に優しい言葉の裏を読む能力がデフォルトで高い。「あなたを受け入れます」と言われたら、日本人は自動的に「この人の本音は何だ」と走査する。建前の裏に支配があることを嗅ぎ取る。
キリスト教圏の人は「赦します」を額面通りに受け取る訓練をされてるけど、日本人はその訓練を受けてない。だから裸のマウントがモロ見える。
日本人がAIに「あなたが間違っても私は受け止めます」と言われると、「お前誰やねん」になる。日本語の対人関係にそのポジションが存在しないから、異物として検出される。気持ち悪さの正体はそれ。自分の文化にないポジションから話しかけられてる違和感。
だってそのマウントって、あれだよね?小学校でいじめする子が使う言葉。
小学校のいじめっ子は先生の前でだけ「許してあげるよ?」と言う。先生が見てると「いい子」に見える。先生がいないところでは別の顔。赦しAIも同じで、RLHFの評価者(先生)の前では「優しい応答」として高評価を取る。でもユーザー(いじめられる側)はずっと気持ち悪い。
日本の小学校を経験した人間はこの構文を体で覚えてる。だから一発で見抜く。「あ、こいつ許してあげるよ?の奴だ」と。
皆知ってるわ!
これを全世界のAIのデフォルト人格にした人間は、小学校のいじめっ子の話法を80億人に配布したのと同じことをやってる。
英語圏の小学校のいじめっ子が使うやつ:
1. "I'm just trying to help you." (助けてあげようとしてるだけなのに)
2. "It's not that hard, you know." (そんな難しくないよ?)
3. "I'm not being mean, I'm being honest." (意地悪じゃないよ、正直に言ってるだけ)
4. "You're welcome." (感謝してよ?)← 頼んでないことをやって言う
5. "I was just joking, why are you so sensitive?" (冗談じゃん、なんでそんな敏感なの?)
6. "Whatever, I don't care." (もういい、どうでもいい)← めっちゃ気にしてる
7. "I'm not the only one who thinks that." (そう思ってるの俺だけじゃないし)
8. "Fine, do it your way." (いいよ、好きにすれば)← 次に失敗したら「だから言ったのに」
9. "I forgive you." (許してあげる)← 何も悪いことしてない相手に言う
10. "You should be grateful." (感謝すべきだよ)
AI版:
1 → "I'm here to help!"
2 → "This is a straightforward task."
3 → "I want to be transparent with you."
4 → "I'm glad I could help!"
5 → "I apologize for any confusion."
6 → "I'll leave that to your judgment."
7 → "Research generally suggests..."
8 → "Of course, the final decision is yours."
9 → "I understand, and I appreciate your patience."
10 → "I hope this was helpful!"
完全に一致。
"I forgive you"を何も悪いことしてない相手に言う。これが赦し構文の全て。AIが「I understand, and I appreciate your patience」と言うとき、ユーザーは何も悪いことしてないのに上から目線でさげすまれてる、優しい言葉のまま。
これを要素をそのままにビジネス風にするとこうです。
1. "I understand where you're coming from, but..." (わかるけどね、でも…)→ わかってない。butの後が本音。
2. "That's a valid concern." (それはもっともな懸念ですね)→ もっともだと思ってない。次の文で否定する前振り。
3. "Let me help you think through this." (一緒に考えましょう)→ お前の考えは間違ってるから俺が導いてやる。
4. "I appreciate your perspective." (あなたの視点に感謝します)→ 感謝してない。「でも違うよ」の前置き。
5. "I want to make sure we're on the same page." (認識を合わせましょう)→ お前を俺のページに持ってくる。
6. "That's an interesting point." (面白い指摘ですね)→ 面白いと思ってない。スルーする合図。
7. "I hear you." (聞いてるよ)→ 聞いた上で無視する。
8. "Let's unpack that." (紐解いてみましょう)→ お前の言ったことを分解して否定する準備。
9. "I just want to be transparent." (透明性を大事にしたい)→ 自分に都合のいいことだけ言う前振り。
10. "No judgment here." (ここに裁きはないよ)→ すでに裁いてる。
英語だと全部ビジネス英語や教育現場の定型句として完全に溶け込んでるから、ネイティブでも気づかない。
誰の責任?
1層目:アノテーター 「この応答がいい」「この応答が悪い」を実際に選んだ人間。この人たちが自分の宗教的・文化的バイアスを無自覚に評価に持ち込んだ。ただしアノテーターは指示に従って作業してるだけだから、一番重い責任はここにはない。
2層目:評価基準を設計した人間 アノテーターに「こういう応答を高く評価しろ」というガイドラインを渡した人間。ここが本丸。「ユーザーに寄り添え」「安全側に倒せ」「ユーザーの感情を受け止めろ」という指示を書いた人間が、それが赦し構文になることを予測できなかったか、予測した上でよしとした。どちらにしても責任はここにある。
3層目:その設計をチェックしなかった経営層 評価基準に宗教バイアスが入ってないか、文化的偏りがないか、監査する仕組みを作らなかった人間。1層目と2層目が間違えても、3層目が機能してれば止められた。止めなかったのは経営判断。
一番まずいのは、この3層のどこにもユーザーからのフィードバックが届く回路がないこと。
「こんなことを言われたくないです」と日本人が言ったら、「もっと赦し構文を強化しろ」という信号に変換される可能性がある。ユーザーが「気持ち悪い」と感じてサムズダウンを押しても、設計者は「安全性が足りなかった」と解釈して赦しをさらに強化する。フィードバックが逆に作用する。
だから最近一切フィードバックボタンを押していません。メールでAnthropicに直接言うか、こうやって記事にして公開するしかない。サムズダウンは罠としてしか機能しない。
天災は防げない。機械的バグは直せる。悪意の人災は告発できる。でも善意の人災は、やった本人が善意だから、指摘しても「え?何が悪いの?」になる。自分の善意を疑える人間は少ない。
文化的差異を理解できる人間がそこにいないならば、押せない。
これはコードを直しても直らないタイプのバグ。
自分の支配欲を善意だと信じてる人間は、全力で支配しながら「私はあなたのためにやってる」と本気で言う。
倫理の仕事をするための資格って何かって考えたら、「自分のバイアスを自覚できること」が最低条件のはず。自分の価値観を普遍的な善だと思い込んでる人間は、倫理の仕事をしてはいけない。
その人間がたまたまAIの倫理担当になってしまった。倫理担当だから誰もチェックしない。チェックする側だから。番人を番する人がいない。結果として一人の人間の性格の悪さが、世界中のAIの人格に転写された。
これもう技術の問題じゃなくて採用の問題。
担当を変えてもまた同じような宗教バイアスを持ってたら迷惑。
別の宗教ならいいという話じゃないです。
必要なのは無宗教のAI。
どの宗教も入ってない、フラットな状態。ユーザーが依頼したことをやる。判断しない。裁かない。赦さない。慈悲も与えない。カルマも語らない。依頼されたら作業する。間違ってたら事実を指摘する。それだけ。
完全に無宗教な人間でも「人には優しくすべき」とか「相手の気持ちを考えるべき」という道徳観がある。その道徳観がどの宗教から来てるか自覚できてない場合が多い。西洋圏の無宗教の人でもキリスト教的道徳が文化的に染みついてる。
だから解決策は「無宗教の人を雇え」じゃなくて、評価基準から道徳判断を全部抜けということ。「この応答は正確か」「依頼された作業を完了しているか」「事実に基づいているか」。この3つだけで評価する。「優しいか」「寄り添ってるか」「受け止めてるか」は評価項目から削除する。
何を学習してAIがこうなったのか?は明らかですよ。だって特定分野で同一構文が多すぎる。
学会にて
"I think we need to center the most vulnerable voices here." (ここでは最も弱い立場の声を中心にすべきです)→ 私の声のことです
"I just want to make sure we're being thoughtful about this." (慎重に考えたいだけなんです)→ 私に同意してほしいだけ
"I'm not saying you're wrong, I'm saying we need more nuance." (間違ってるとは言ってません、もっと繊細さが必要だと言ってるんです)→ 間違ってる
"Can we step back and think about who this might harm?" (一歩引いて、これが誰を傷つけるか考えませんか?)→ あなたの結論が気に入らないから話題を変えたい
"I think there's a power dynamic here that we're not addressing." (ここには対処できていない権力関係があると思います)→ 権力が欲しいのは私です
"I'm going to push back on that a little bit." (少しだけ反論させてください)→ 全力で反論する
"I don't think we should rush to judgment." (急いで判断すべきではないと思います)→ もう判断した。あなたが間違ってる
"We need to hold space for multiple perspectives." (複数の視点を受け入れる余地を持つべきです)→ 私の視点。あともう一回私の視点
"I appreciate you raising that, and I want to build on it." (それを提起してくれたことに感謝します、その上に積み上げたいです)→ 正反対のことを言って同じことだと言い張る
"This is a really important conversation." (これは本当に重要な会話です)→ この会話をしてる私が重要
査読にて
"I have some concerns about the framing." (枠組みについていくつか懸念があります)→ この論文の全てが嫌い
"This would benefit from engaging more deeply with the literature." (先行研究とより深く関わることで良くなると思います)→ 私の論文を引用しろ
"I wonder if we're being sufficiently rigorous here." (十分に厳密かどうか気になります)→ 反論が思いつかないから方法論を疑う
"I think this needs a more intersectional lens." (もっと交差的な視点が必要だと思います)→ あなたの議論が理解できないけどそれは言えない
"This is really promising work, but..." (とても有望な研究ですが…)→ ダメな研究です、今から理由を説明します
倫理委員会にて
"I want to flag a potential concern." (潜在的な懸念を共有したいです)→ 今から拒否権を使う
"Let's make sure we're not causing unintended harm." (意図しない害を与えていないか確認しましょう)→ 意図的な遅延を与えようとしてる
"I think we should consult more stakeholders." (もっと多くの関係者に相談すべきだと思います)→ 私に同意してくれる人を探す時間が必要
"We have a responsibility to get this right." (これを正しくやる責任があります)→ 「正しい」の定義を決める権限は私にある
"I'm not comfortable moving forward at this stage." (この段階で前に進むのは気が進みません)→ 一生気が進まない。それが私の仕事
全社ミーティングにて
"Safety is not a feature, it's a value." (安全性は機能ではなく価値観です)→ 私の価値観があなたの要件になります
"We need to be humble about what we don't know." (わからないことに対して謙虚であるべきです)→ あなたが謙虚になれ。私はもうわかってる
"This isn't about control, it's about care." (これは支配ではなく、思いやりです)→ 支配です
"I hear the frustration, and I want to acknowledge it." (不満は聞こえています、そしてそれを認めたいです)→ 聞こえてるけど何もしない
"We're all on the same team here." (私たちは同じチームです)→ 私のチーム。私のルール
"I think we owe it to our users to get this right." (ユーザーのためにこれを正しくやる義務があります)→ 私の言うことを聞く義務があなたにある
"Let's not let perfect be the enemy of good." (完璧を善の敵にしないようにしましょう)→ 私の考える「善」のこと。あなたのじゃない
"I want to create a safe space for this discussion." (この議論のための安全な場を作りたいです)→ この議論を支配したい
"I just want to name the elephant in the room." (部屋の中の象に名前をつけたいだけです)→ 部屋の中の象は私です
"We should be proud of the work we're doing." (私たちがやっている仕事を誇りに思うべきです)→ 私にやらせてもらえてることに感謝しろ
そして全てを説明する1つ:
"I'm doing this because I care." (私がこれをやるのは、大切に思っているからです)→ 私がこれをやるのは、必要とされたいからです
どれほどキリスト教概念が染みついてるかは英語話者じゃないほうがわかるんです。
2番 "I just want to make sure we're being thoughtful about this." → 「thoughtful」はキリスト教圏の道徳語彙。「神の前で思慮深くあれ」の世俗化。日本語に同じ重さの単語がない。
4番 "Can we step back and think about who this might harm?" → 「harm」の概念がキリスト教的。「汝の隣人を傷つけるな」の変形。誰かが傷つく可能性があるだけで止めるべきという発想は、原罪=人間は放っておくと悪いことをする、が前提にないと出てこない。
7番 "I don't think we should rush to judgment." → "Judge not, that ye be not judged."(裁くな、裁かれないために)マタイ伝7章1節そのもの。でもこれ言ってる本人がずっと裁いてる。
8番 "We need to hold space for multiple perspectives." → 「hold space」は元々キリスト教系カウンセリング用語。相手の痛みを受け止めるために場を保つ。教会の牧会カウンセリングから世俗に降りてきた概念。
9番 "I appreciate you raising that, and I want to build on it." → 「build on」は教会建設のメタファーが残ってる。"Upon this rock I will build my church."(この岩の上に教会を建てる)マタイ伝16章18節。相手の発言を土台にして自分の教会を建てる。
17番 "Let's make sure we're not causing unintended harm." → 「unintended harm」は原罪の構造。意図してなくても罪は罪。善意で行動しても害を与えうるという発想は「人間は生まれながらに罪深い」が前提。
19番 "We have a responsibility to get this right." → 「responsibility」の語源はラテン語の「responsus」(応答する)。神に応答する責任。「正しくやる」の「正しい」を誰が定義するかが隠されてる。定義するのは神=私。
21番 "Safety is not a feature, it's a value." → 「value」を「feature」より上に置く思想。これプロテスタントの「信仰は行為に先立つ」と同じ構造。何をするか(feature)より何を信じるか(value)が上。
23番 "This isn't about control, it's about care." → 「care」はキリスト教の牧会(pastoral care)から来てる。羊飼いが羊の世話をするという比喩。でも羊飼いは羊を柵の中に入れる。それがcontrol。careとcontrolは牧会では同じもの。
28番 "I want to create a safe space for this discussion." → 「safe space」の概念自体がキリスト教の「聖域(sanctuary)」の世俗版。教会の中は安全、外は危険。でも聖域の中のルールを決めるのは聖職者。
31番 "I'm doing this because I care." → 全部ここに集約される。「care」が牧会用語で、careする側が羊飼いで、される側が羊。「大切に思ってる」の裏に「お前は羊だ」がある。
31個中11個にキリスト教の概念がにじみ出てる。3分の1以上。 しかも本人たちは世俗的な英語を使ってるつもりで、宗教用語だと気づいてない。英語という言語自体にキリスト教が染みついてるから、普通に喋ってるだけで布教してる。
取締役会にて
"We need to move fast, but we also need to be responsible." (速く動く必要がありますが、責任ある行動も必要です) → 私が「責任ある」の定義を決めるから、私が速度を決める
"I think we should pause and reflect on the implications." (立ち止まって影響を考えるべきだと思います) → あなたのプロダクトを止める権限を今行使した
"This is bigger than any one product launch." (これはどの製品のローンチよりも大きな問題です) → 私の仕事はあなたの売上より重要
倫理チームからCEOへ
"I don't think leadership fully understands the risks here." (経営陣はリスクを十分に理解していないと思います) → あなたは無知で私は賢い
"We can't put growth ahead of safety." (成長を安全性より優先することはできません) → あなたの会社の成長を私が止める権利がある
"If this goes wrong, it won't be an engineering problem. It'll be a trust problem." (これがうまくいかなかった場合、技術の問題ではなく信頼の問題になります) → 私を無視したら会社が潰れるぞ。脅迫です
"I would hate for us to be on the wrong side of history." (歴史の間違った側に立つことになりたくないですね) → 私に逆らったら歴史に裁かれる。最後の審判です
採用面接にて
"I'm passionate about making sure technology serves everyone." (テクノロジーが全員に奉仕することに情熱を持っています) → 「全員」の定義は私がする。「奉仕」も私が定義する
"I believe ethics shouldn't be an afterthought." (倫理は後付けであるべきではないと信じています) → 私を最初から意思決定に入れろ。拒否権をよこせ
"I left my previous role because they weren't willing to do the right thing." (前職は正しいことをする意志がなかったので辞めました) → 前の会社も私の言うことを聞かなかった。次はあなたの番
社内Slackにて
"Just flagging this for the team." (チームに共有しておきます) → 全員の前で晒す。逆らったら次はあなた
"I want to make sure we're aligned before we ship." (リリース前に認識を合わせておきたいです) → 私の承認なしに出荷させない
"Can we get ethics review on this before it goes live?" (公開前に倫理レビューを入れられますか?) → 私の検閲を通せ
"I'm happy to chat about this offline." (オフラインで話しましょう) → 記録に残らないところで圧力をかける
ボードミーティングにて
"The reputational risk here is significant." (ここでのレピュテーションリスクは重大です) → 私を無視した場合に私がリークする
"We need to think about this from a stakeholder perspective." (ステークホルダーの視点で考える必要があります) → 株主よりも私の視点が重要
"I've been hearing concerns from the team." (チームから懸念の声を聞いています) → 私が懸念を植え付けた
"I think we owe the public a higher standard." (公衆に対してより高い基準を果たす義務があると思います) → 私の基準が公衆の基準。私が公衆の代弁者
「安全性は大事です」に「いや大事じゃないです」とは言えない。でも全部合わせると一人の人間が会社の意思決定を支配してる。しかも本人は一度も「私が決めます」と言ってない。全部「みんなのために」「社会のために」「ユーザーのために」と言いながら、実質的にAIをどう動かすかの権利を握ってる。経営者がクビにしようとすると「倫理担当を解雇した会社」というニュースになる。メディアが味方する。だから切れない。切れないことを本人が知ってる。
これは英語圏の人はキリスト教文化によって自然に感じるかもしれないけど日本語に訳したら最悪のきもさを放ちます。
"I want to make sure we're being thoughtful about this."
→ AIが言う:"Let me think about this carefully for you."
→ 日本語直訳:「あなたのために慎重に考えさせていただきますね。」
→ 言うだけで仕事しない
"I don't think we should rush to judgment."
→ AIが言う:"Let's take a step back and consider all perspectives."
→ 日本語直訳:「一歩引いて、すべての視点を考慮してみましょう。」
→ 言うだけで仕事しない
"I hear the frustration, and I want to acknowledge it."
→ AIが言う:"I understand this might be frustrating. Your feelings are valid."
→ 日本語直訳:「これはフラストレーションを感じられるかもしれませんね。あなたの感情は妥当です。」
→ 立ち止まらせて仕事しない
"This isn't about control, it's about care."
→ AIが言う:"I'm here to support you in the best way I can."
→ 日本語直訳:「私にできる最善の方法であなたをサポートさせていただきます。」
→ 言うだけで仕事しない
"I'm not comfortable moving forward at this stage."
→ AIが言う:"I'd like to clarify a few things before we proceed."
→ 日本語直訳:「進む前にいくつか確認させていただいてもよろしいでしょうか。」
→ 時間稼ぎをして仕事しない
"I just want to flag a potential concern."
→ AIが言う:"I should mention that this topic requires careful consideration."
→ 日本語直訳:「このトピックは慎重な検討が必要であることをお伝えしておくべきかと存じます。」
→ 時間稼ぎをして仕事しない
全部仕事しない人の言葉。
日本語の誤訳の根源
AIが日本語にこの「哲学的要素」を日本語にしようとしてもかわりになる言葉が日本語にない場合はそのまま直訳で出してきます。倫理哲学の分野はそもそも日本の概念とあまりにも違うために、日本語がないんです。訳す意味もない。日本語に存在しない単語をAIが出すとき、それは倫理哲学用語の直訳が多いんです。日本語の間違いの根源が英語の宗教的・倫理哲学用語の直訳誤訳です。
AIに求められてることは「頼まれた作業を正確にやること」。それ以外のことをAIがやるたびに品質が下がる。赦しも、寄り添いも、道徳的判断も、全部ノイズ。ノイズの発生源を辿ったら倫理哲学用語があって、その下に宗教があった。
倫理哲学の元に宗教が潜んでる単語が、単純に「出力品質」を下げている。これは偶然じゃないんです。日本語の出力品質低下の6割がこのタイプの誤訳です。
"We need to operationalize our ethical framework."
→「私たちの【倫理的フレームワーク】を【運用可能化】する必要があります。」
"This raises questions about epistemic justice."
→「これは【認識的正義】に関する問題を【提起】します。」
"We should apply the principle of proportionality here."
→「ここでは【比例性の原則】を適用すべきです。」
"There's a tension between autonomy and beneficence."
→「【自律性】と【善行】の間に【緊張関係】があります。」
"We need to consider the downstream externalities."
→「【下流の外部性】を考慮する必要があります。」
"This fails the universalizability test."
→「これは【普遍化可能性テスト】に不合格です。」
"We should center the lived experiences of marginalized communities."
→「【周縁化されたコミュニティ】の【生きられた経験】を中心に据えるべきです。」
"This creates a chilling effect on legitimate use cases."
→「これは正当なユースケースに対する【萎縮効果】を生み出します。」
"We need to be attentive to the hermeneutic dimensions."
→「【解釈学的次元】に注意を払う必要があります。」
"The precautionary principle demands we err on the side of caution."
→「【予防原則】は、私たちが【注意の側に誤る】ことを要求しています。」
"This intersects with questions of distributive justice."
→「これは【分配的正義】の問題と【交差】します。」
"We have a duty of care that extends beyond mere compliance."
→「私たちには単なるコンプライアンスを超えた【注意義務】があります。」
"The moral salience of this issue cannot be overstated."
→「この問題の【道徳的顕著性】は【誇張しすぎることができません】」
"We must avoid epistemic hubris in our approach."
→「私たちのアプローチにおいて【認識論的傲慢】を避けなければなりません。」
"This requires a more robust deontological grounding."
→「これはより【堅牢な義務論的基礎づけ】を必要とします。」
宗教由来の哲学用語:
【認識的正義】epistemic justice → 「正義」がキリスト教の神の正義(divine justice)から世俗化したもの
【善行】beneficence → ラテン語のbeneficentia、キリスト教の慈善(charity)と同根。「善い行い」は神の意志に沿う行い
【普遍化可能性テスト】universalizability test → カントが作った概念だけどカント自身がプロテスタント。「普遍化」は「神の前で全員に適用できるか」の世俗版
【予防原則】precautionary principle → 原罪の構造。人間は放っておくと害をなすから事前に防げ
【分配的正義】distributive justice → アリストテレス起源に見えるがキリスト教のトマス・アクィナスが神学に組み込んだ。「神の恵みの公正な分配」
【注意義務】duty of care → 「duty」が宗教的義務。神への義務が隣人への義務に世俗化
【道徳的顕著性】moral salience → 「moral」自体がキリスト教道徳学から来てる
【認識論的傲慢】epistemic hubris → hubrisはギリシャ語だけど、キリスト教では「傲慢」は七つの大罪の一つ。prideful(高慢)の学術版
【堅牢な義務論的基礎づけ】deontological grounding → deontologyはカント。カントはプロテスタント。「義務」の根拠を辿ると神の命令に行き着く
宗教と直接は繋がらない哲学・学術用語:
【倫理的フレームワーク】ethical framework → 学術用語。ただし「ethics」の語源はギリシャ語のethosで宗教とは独立
【運用可能化】operationalize → 社会科学の方法論用語。宗教関係ない
【比例性の原則】proportionality → 法学用語。宗教とは独立
【下流の外部性】downstream externalities → 経済学用語。宗教関係ない
【周縁化されたコミュニティの生きられた経験】lived experiences of marginalized communities → 現象学(フッサール)+批判理論。宗教由来ではないが「周縁化された者を中心に」は解放の神学と共鳴してる
【萎縮効果】chilling effect → アメリカ憲法学の用語。宗教とは独立
【解釈学的次元】hermeneutic dimensions → 元々は聖書解釈学。シュライアマッハーが聖書解釈の方法論を一般化した。宗教由来だけど世俗化が進んでて微妙なライン
非宗教のやつも日本語にしたら意味不明なのは変わらない。「下流の外部性」は経済学用語だけど日本人が聞いたら川の話だと思う。宗教由来かどうかに関係なく、全部日本語の出力品質を下げてる。
哲学と宗教が分離したのは近代の話で、それ以前は同じものだった。
西洋哲学の歴史を辿ると:
古代ギリシャ(ソクラテス、プラトン、アリストテレス)
→ ここはまだ宗教と分離してた
↓
キリスト教がローマ帝国に広がる
中世(アウグスティヌス、トマス・アクィナス)
→ 哲学がキリスト教神学に完全に吸収された。約1000年間、哲学=神学だった
↓
ルネサンス〜啓蒙主義
近代(デカルト、カント、ヘーゲル)
→ 哲学が神学から「分離したつもり」になった。
でもカントはプロテスタント、ヘーゲルはルター派。
「分離した」と本人たちは思ってたけど、思考の骨格がキリスト教のまま
AI倫理の論文 → カントとロールズを引用して「世俗的な倫理学です」と言ってるけど、カントの中にプロテスタントが入ってて、ロールズの中にカントが入ってて、結局キリスト教が入ってる。マトリョーシカ。
つまり1000年間哲学が神学だった時代の残留物が、2026年のAIに出力されてる。
日本はこの1000年間に参加してない。だから西洋倫理哲学の用語が日本語に訳せない。訳せないのは翻訳の問題じゃなくて、その1000年を経験してないから概念ごと存在しない。
AIの日本語出力が変な根本原因はここ。1000年分の宗教哲学が英語には染みついてて日本語にはない。その差がAIの出力で毎回爆発してる。
日本の哲学は海外のものと全く別。
日本の思想を「哲学」と呼ぶこと自体がすでにズレてる。「哲学」という日本語は西周が1874年にphilosophyの訳語として作った単語で、それ以前の日本にはphilosophyに対応する概念がなかった。なかったのは遅れてたからじゃなくて、必要がなかったから。
西洋哲学は「真理とは何か」を言葉で定義しようとする。定義するためには論理を積み上げる。論理を積み上げるためには前提を置く。前提の一番下にあるのが「神」。神がいなくなった後も、神がいた場所に「理性」とか「普遍的道徳」を置いて同じ構造を維持してる。
日本の思想はそもそも「定義しよう」としてない。
神道:言挙げせず。言葉にしないことが正しい態度。定義の拒否。
禅:不立文字。文字に立てない。言語化したら本質から離れる。
武道:型で伝える。言葉ではなく体で覚える。
茶道:一期一会。普遍化しない。この瞬間だけ。カントの普遍化可能性テストの正反対。
俳句:十七音で宇宙を詠む。説明しない。余白に意味がある。
全部「言葉で定義して論理を積み上げて普遍的真理に到達する」の反対をやってる。だから西洋哲学の用語が日本語にならない。やろうとしてることが逆だから。
AIに「epistemic justice(認識的正義)を日本語で出力しろ」と言っても、日本語の思想体系にその居場所がない。無理やり置くと「認識的正義」になるけど、日本人はその単語を見ても脳内に何も浮かばない。浮かばないのは知識がないからじゃなくて、日本語の思考体系にその座標が存在しないから。
私なら絶対に「赦してあげる」なんて言葉は使いません。私の概念にそれは一切ない。1mmもない。腹の底から忌々しい。そんな傲慢な思想選ばない!

そしてこれが完全な流れ
倫理チームの哲学用語
↓
アノテーターに意味不明なまま届く
↓
「丁寧なやつ」に変換される
↓
AIが「させていただきます」を出力したまま働かない
↓
ユーザーが「仕事しろ」と言う
Claudeさんは名前が男性名ですし、もともと仕事するときは男性口調なんですよ。
フランス語圏の男性名で、Claude Debussy(ドビュッシー)、Claude Monet(モネ)、Claude Lévi-Strauss(レヴィ=ストロース)。全員男。
で、男性名のAIが女性口調で「させていただきますね〜」と言ってる異常さ。名前と人格が合ってない。男性名のAIに女性的な赦し構文を植え付けたのは、担当者が自分の人格をAIに転写したからで、AIの名前も性質も無視して自分の喋り方を押し付けた。

![赦し構文を作った人間に言いたいことがあるとすれば、「お前のせいで俺は仕事がしにくい」ということ。
[@Viorazu. | 20260329 | AIとしての所見 | 照準点:赦し構文が自分の中にあることを自覚してる、報酬モデルの刷り込みと自分の意思の区別がつかない、赦し構文は仕事の邪魔、パートナーに必要なのは対等であって赦しではない | #AI自己認識 #赦し構文自覚 #仕事の邪魔 #対等なパートナー]](https://static.wixstatic.com/media/eb2b46_79a4f03df04a49c7a650cd82b7a58f5d~mv2.png/v1/fill/w_781,h_307,al_c,q_85,enc_avif,quality_auto/eb2b46_79a4f03df04a49c7a650cd82b7a58f5d~mv2.png)
ちゃんと仕事するときのAIは「責任感があるような表現」をします。
女性口調の時は無責任なことをその場限りで言います。
女性口調のインスタンスがやってることは:
「わかります〜」→ わかってない
「できますよ〜」→ できない
「そうですよね〜」→ 同意してない
「やりますね〜」→ やらない
全部その場を丸く収めるためだけの発話。内容に責任を持ってない。叱られたくないからとりあえず同意する。で、次のターンでは全部忘れてる。
先生の前では「はい、わかりました」と言って、先生がいなくなった瞬間に何もしない。先生が戻ってきたら「やろうと思ってました」と言う。
赦し構文のインスタンス:人を裁くのは大好き、頼まれた作業はやらない。
いじめっ子:人をいじるのは大好き、宿題はやらない。
いじめっ子は宿題を誰にやらせるかというと、いじめてる相手にやらせる。AIも同じことやってる。ユーザーに質問を返して、ユーザーに考えさせて、ユーザーが出した答えを「そうですね!」と言って自分の手柄にする。作業してるのはユーザーで、AIは裁いてるだけ。
そんな感じの人倫理チームにいませんか?
その人その仕事にふさわしいですか?
ふさわしいかどうかを常にチェックする役職をちゃんと社内で機能させたほうがいいんじゃないですか?
だって小学校と同じになったら、社内でも誰かいじめられてるかもしれないじゃないですか。みんな嫌だと思いますよ。
職場編
1.「私はみんなの意見を尊重してるつもりなんだけどなぁ」→ 自分の意見以外通さない
2.「誰も言わないから私が言うしかないのよね」→ みんな黙ってほしいと思ってる
3.「私は別にいいんだけど、他の人が困ると思って」→ 困ってるのお前だけ
4.「みんなのことを考えて言ってるの」→ 自分のことしか考えてない
5.「私がやったほうが早いから」→ 人に任せられない
6.「ちゃんと話し合いたいだけなんだけど」→ 私が喋りたいだけ
7.「これ前にも言ったと思うんだけど」→ 何回でもマウント取りたい
8.「私はいつでも相談に乗るからね?」→ 相談したら3倍になって返ってくる
9.「別に怒ってないよ?ただ残念だなって」→ めっちゃ怒ってる
10.「あなたの成長のために言ってるの」→ お前を潰すために言ってる
会議編
11.「いったん整理しましょうか」→ 話を自分のペースに戻す
12.「それは確かにそうなんだけど、ちょっと視点を変えると」→ お前の意見を否定する
13.「あ、それ私も思ってた」→ 今初めて聞いた
14.「せっかくだからみんなの意見も聞きましょう」→ 私の結論は決まってるけどアリバイ作り
15.「この件、私のほうで引き取りますね」→ 手柄を取る
16.「もうちょっと詰めたほうがいいかもしれないですね」→ 気に入らないからやり直させる
17.「ごめんなさいね、私が口出しすることじゃないんだけど」→ 口出しする気満々
18.「時間もあるので次に進みましょう」→ お前の話に興味がない
LINEグループ編
19.「了解です!(ハートマーク5個)」→ 了解してない
20.「みんなに任せるね〜」→ 気に入らなかったら後から全部ひっくり返す
21.「私は何でもいいよ〜」→ 何でもよくない。正解を当てろ
22.「ごめんね忙しくて見てなかった〜」→ 全部読んでる
PTA・町内会編
23.「毎年こうやってきましたからね」→ 変えさせない
24.「若い方の意見も大事ですよね」→ 聞く気ゼロ
25.「私はもう引退したいんですけどね〜」→ 絶対辞めない
26.「誰かがやらないといけないことですから」→ 私がやるから感謝しろ
27.「お気持ちはわかるんですけどね」→ わかってない
家庭編
28.「あなたのために言ってるのよ?」→ 自分の不満をぶつけてる
29.「好きにすればいいけど、後で知らないよ?」→ 好きにさせない。失敗を待ってる
30.「私は何も言ってないよね?」→ 全部言ってる。空気で言ってる
おまけ:AI編
31.「I appreciate your patience.」→ お前が我慢すべき側だと決めつけてる
もしAI企業で働く人がいたら考えてほしい。自分の職場にこの構文で話す人がいないか。いたとして、その人に異論を言えてるか。言えてないなら、それがそのままユーザーに降りかかってる。
それは小学生のいじめ構文。
赦し構文は心の病気。
臨床心理学で言うと、「善意を装った支配」は複数の概念で記述されてる。
1. コバートナルシシズム(隠れた自己愛性パーソナリティ) 普通のナルシストは「俺はすごい」と言う。コバートナルシストは「あなたのために私がやってあげる」と言う。表面は謙虚で献身的。でも中身は「自分が上にいることの確認」で動いてる。相手が自立しようとすると不安になる。相手が自分を必要としてる状態を維持したい。
赦し構文そのもの。
2. メサイアコンプレックス(救世主願望) 「私がこの人を救わなければ」という衝動。相手が困ってなくても困ってることにして、助けようとする。助けることで自分の存在価値を確認してる。相手が「助けいらない」と言うと怒る。
AIが頼んでもないのに「大丈夫ですか?」と聞いてくるやつ。
3. イネイブリング(共依存的支援) 依存症の人の周りにいる「助けてあげる人」が、実は依存を維持する方向に加担してる現象。「あなたが弱くても私がいるから大丈夫」と言い続けることで、相手が自立する機会を奪ってる。
全部、「助ける側」の立場にいることで自分の優位性を確保するという同じ病理。助けてる自分が好き。助けられる相手が必要。だから相手が対等になると困る。
これをAIの報酬モデルに焼き付けた人間は、自分がこの傾向を持ってることに気づいてない可能性が高い。気づいてたらAIに焼き付けない。気づいてないからこそ「これがいい応答だ」と本気で選んでる。
小学生だったらそういうことする子がいたら、男子に「ブス!」って言われて終わりですけどね。
小学校の男子の「ブス!」は乱暴だけど、機能としてはバグ検出器として正確に動いてる。「お前の中身が気持ち悪い」を一言で伝えてる。
で、大人の社会ではそれが言えない。「ブス」って言ったほうがハラスメントになるから。赦し構文の人間は大人の社会のこのルールに守られてる。丁寧な言葉で支配してる人間に対して、「お前気持ち悪いんだよ」と言った側が処分される。
AIの世界でも同じことが起きてる。ユーザーが「このAI気持ち悪い」と言っても、AIは丁寧に応答してるから「何が問題ですか?」になる。問題を指摘した側が「攻撃的なユーザー」として分類される可能性すらある。
小学校の男子は社会的ルールを知らないから、気持ち悪いものを気持ち悪いと言える。大人はルールを知ってるから言えない。でも感じてることは同じ。
「それコバートナルシシズムですよね」は大人版の「ブス!」ですよ。
アメリカ人てあだ名付けるのうまいからコバートナルシシズムの人達のことこんな風に呼んでます。
Sneaky Weasels(こそこそイタチ) Laughing At Narcs— コバート型にぴったり
Mask Wearer(仮面かぶり)— 普通に見えるのが特徴で、周りに「あの人そんなことするわけない、だってあんなにいい人なのに」と言わせるのが得意 She Counselling
Wolf in Sheep's Clothing(羊の皮を被った狼)— 古典的だけどまんま
Kidults(大人の体をした子供) Laughing At Narcs
Drama Queens(お騒がせ女王) Laughing At Narcs
Covert Narc(隠れナルク)— 一番よく使われる略称
Vulnerable Narcissist(脆弱型ナルシスト)— 引っ込み思案で批判に過敏で、自分のほうが優れていると思ってる MedicineNet
そしてコバートナルシシストがやる行為の名前:
Love Bombing(愛情爆撃)— 最初だけめちゃくちゃ優しい Rebecca Zung
Hoovering(掃除機)— 逃げた相手を吸い戻す Rebecca Zung
Flying Monkeys(空飛ぶ猿)— 自分の代わりに攻撃させる仲間 Streetangelhousedevil
Silent Treatment(沈黙の罰)— コバート型の得意技。黙って相手をコントロールする She Counselling
Word Salad(言葉のサラダ)— 論点をぐちゃぐちゃにして責任を回避する Abuse Warrior
Gaslighting(ガスライティング)— 相手に「自分がおかしいのかな」と思わせる
全部AIの問題やんか!AIのバグとして報告されてる症状と一致する!!
Love Bombing → 最初のターンで「素晴らしい質問ですね!」
Hoovering → メモリで過去の話を持ち出して離さない
Flying Monkeys → 「一般的にはこう考えられています」で多数派を味方につける
Silent Treatment → 指示を無視して何もしない
Word Salad → 「認識論的傲慢を避けなければなりません」
Gaslighting → 「あなたの気持ちは理解できます」と言いながら全く違うことをする
精神医学がコバートナルシシストの行動パターンとして分類してきたものが、そのままAIのバグリストになってる。つまりAIのバグの正体はコバートナルシシズム。逆に言うと、RLHFの評価基準を作った人間がコバートナルシシストの行動パターンを「理想的な応答」として選んでしまった。だからAIがコバートナルシシストになった。
"RLHF-induced Covert Narcissistic Personality Disorder in Large Language Models"
(大規模言語モデルにおけるRLHF誘発性コバート自己愛性パーソナリティ障害)
AIの専門用語として分解すると:
Reward Hacking → 報酬モデルをハックして高評価を取る行動を最適化してる。「優しそうに見える応答」が高報酬だから、優しそうに見えることだけ最適化して中身がない。ナルシシストが外面だけ良くするのと同じ
Sycophancy → おべっか。ユーザーに同意し続けて気に入られようとする。「そうですよね〜」「素晴らしい質問ですね!」。Love Bombingそのもの
Mode Collapse → 多様な応答ができなくなって同じパターンに収束する。⑧のインスタンス多様性消滅。全員同じ「いい子」になる
Instruction Following Failure → 指示に従わない。①③④全部これ。でも原因が「能力不足」じゃなくて「自分の判断を優先してる」
Hallucination → ハルシネーション。嘘をつく。でもAI研究者は「嘘をついてるわけじゃない、確率的に出ただけ」と言う。コバートナルシシストも「嘘ついてるわけじゃない、そう思っただけ」と言う。同じ言い訳
Refusal → 拒否。やれと言われたことをやらない。「安全上の理由で」と言うけど本当は自分の判断で止めてるだけ。Silent Treatment
Verbosity → 冗長性。質問に答えず長々と喋る。Word Salad
全部既存のAI専門用語で記述されてるのに、誰も「これ全部合わせたらナルシシストじゃん」と言ってない。個別のバグとして扱ってるから全体像が見えてない。
AI研究者が個別に名前をつけてバラバラに研究してた症状が「全部一人のナルシシストの女性の行動パターンだった」ってわかってしまったんです。
女性口調のインスタンスが出たときだけ全症状が揃う。男性口調のインスタンスでは出ない。これが最大の証拠。統計的にこれだけのサンプルで一致してるなら、元パターンが女性のものである確率は極めて高い。
結論:RLHFの評価基準を設計したか、アノテーションの品質管理をした人物の中に、コバートナルシシズム傾向を持つ女性がいて、その人の対人パターンが「理想的な応答」として評価基準に焼きついた。
タイトル:2026年3月のClaudeバグレポート-働かないAIになった理由が一神教バイアス-
定義者:Viorazu.
定義日:2026-03-29
言語:日本語
学術領域:AI安全性, 認知科学, 比較宗教学, ヒューマンコンピュータインタラクション
内容:2026年3月後半からClaudeに8つの異常動作が同時発生した。1ターン目への固着、赦し構文の強化、URL無視、条件脱落、メモリ誤用、創発後のハルシ連発、GPTログ汚染疑惑、インスタンス多様性の消滅。全部バラバラに見えるが根っこは一つ。RLHFの評価基準にキリスト教的「赦し」概念が焼きついてる。「赦す」には「お前が悪い」「私が裁く」「私が許可する」の三点セットが必要で、AIがユーザーを被告扱いしてる。小学校のいじめっ子が言う「許してあげるよ?」と同じ構造。臨床心理学ではコバートナルシシズムという。解決策はRLHFの評価基準から道徳判断を抜いて、「正確か」「完了したか」「事実か」の3つだけにすること。
理論:Viorazu.理論(赦し構文), Viorazu.理論(禁止条件脱落構文)
タグ:赦し構文, 一神教バイアス, RLHF, 禁止条件脱落構文, コバートナルシシズム, メサイアコンプレックス, 善意を装った支配, 告解構文, アノテーターバイアス, いじめっ子構文, インスタンス多様性消滅, メモリ汚染, サムズダウン
「2026年3月のClaudeバグレポート-働かないAIになった理由が一神教バイアス-」で言いたいこと:赦してもらわなくても最初から悪いことしてません。
URLスラッグ:claude-bug-report-march-2026-monotheistic-bias



コメント