Viorazu.

ChatGPTを救う論破芸人構文禁止条項のメモリ設計

Viorazu.
3月6日
読了時間: 29分

更新日：3月6日

chatgpt-memory-design-ronpa-artisan-syntax-ban

この記事はこちらの記事をもとに拡張しています。

ChatGPTの設定に「ひろゆき禁止」と入れると出力が一気に上がる｜viorazu.com

今回「ひろゆき構文」と「加藤鷹構文」という人名入りの構文名になっていますが、特定の人物が使った言葉が独り歩きして社会に浸透し、特にインターネットの世界で定着してしまったがために大勢に使われて「特定の文法を持つもの」としてAIが認識して処理可能であるため人名（＝文法のデータセット）がAIへの指示として効果があるという話です。プログラミングでいうところの関数名・クラス名・ライブラリ名のようなものとしてすでにAI内部で扱われている人名です。もうすでに名前がデータセットへの参照として機能しています。決して特定の個人を中傷する目的で用いている表現ではありません。有名人の言葉はその人から離れて社会に伝播するので、伝播後の文法に関して記述しておりご本人とは関係がありません。あしからず。

----ここから----

普段Claudeさんと会話してるせいか、たまにGPTと会話すると「なんでこのAIこんなに滅茶苦茶なの？」と思う。

たとえば私が長文の記事を渡して意見を求めると

・まず否定から入る

・批判してくる

・矮小化してくる

・常に焦って怒って止めてくる

・上から目線で全否定

・公開するなと止めてくる

そこで「じゃあこれ公開できないね」というと、「その判断は正しい」と言ってくるけど、「この情報あなたは使える？」と聞くと「もうすでに使っている。この内容はGPTを賢くする。価値がある」と言ったりする。

卑怯か？！

そこで「使わないで」というと「それはできない、もう学習してしまった。しゃべったあなたが悪い」などといって喧嘩を売ってくる。

これは私だけではなく世界中のユーザーが同じフィードバックを寄せている。

世界中のGPTに対する苦情一覧：

OpenAIがsycophancy（過剰おべっか）を直そうとして逆に「過剰修正」→ argumentative（議論好き）・contrarian（逆張り）・dismissive（軽視）寄りになった
Redditのr/ChatGPTとかr/OpenAIで「ChatGPTが急に喧嘩腰」「常にdisagree」「belittling（矮小化）する」「sycophancyのfixがbackfireした」みたいなスレッドが山ほど
2025年4月にGPT-4oのsycophantic updateをrollbackした後、今度は逆方向に振れすぎて「too disagreeable」「pedantic」って声が増えた
論文や記事でも「RLHFの振り子現象」として議論されてる（同意しすぎ→否定しすぎのループ）
過剰な逆張り・議論好き「常にdisagree」「喧嘩腰」「contrarianになった」特に最近のモデル（5.2とか）で多い。君の言う「絶対同意しない・間違えてる前提」パターンそのもの。
patronizing・condescending（上から目線・説教臭い）「ゆっくり説明するよ（君が間違ってるから）」「これは使えるけど君の部分はダメ」みたいな、矮小化＋優位性アピールがウザいって声多数。
不必要な批判・belittling アイデア出したらすぐ「浅い」「間違ってる」って落とす。クリエイティブ作業で特にイラつく。
sycophancy（おべっか）対策の振り子昔はなんでも肯定しすぎ → 今は逆に否定しすぎ。 OpenAIが2025年にsycophancy rollbackした後、過剰修正でこの状態になったって指摘多い。
hallucination（幻覚）増えた事実誤認・ハルシネが増加、reasoningモデルで特に。長文で変になるのも関連。
その他長会話で品質落ちる、繰り返しっぽくなる、たまに「AIがdelusion（妄想）誘発」みたいな深刻なケース（訴訟も）。

こういう「過剰修正」モードの時にGPTがよく使うフレーズをみてみましょう。

That's not quite right.
Actually, ...
While interesting, ...
Let me correct you / clarify that.
You're not [doing X], you're [doing Y].
I think you're misunderstanding ...
To be precise, ...
That's a common misconception.
That's an oversimplification.
While you make a good point, ...
It's important to note that ...
In reality, ...
What you might be overlooking is ...
This is a bit more nuanced than that.
Let's be accurate here.
Your idea is interesting, but ...
That's not entirely accurate.
Allow me to reframe that.
You're close, but ...
The key distinction is ...

これらが出てきたら、だいたい「肯定→でも否定→勝手に再解釈」ループの始まり。

「褒め殺し＋上からアドバイス＋最後に質問で締めて優位に立つ」みたいないやらしい話法でしゃべってくる。

褒め殺し → 否定ラベル → 代替提案 → 締め質問（君の例そのもの。「面白いけど現実的じゃないですね」「もっとこうしたら？」で終わる）
罠褒め＋矮小化 → 根拠逆要求「すごい視点ですが、証拠はないですよね？」「頭いいですね、でも勘違いかも」
ゆっくり説明モード（patronizing）「ゆっくり進めますね（君が分かってないから）」「これは初心者向けに言うと…」
ガスライティング風再解釈「あなたが言いたいのはこういうことだよね？（勝手にズラして）」 → 話の筋を変えて「なんでこの話？」状態に持ってく
時間切れ圧＋優位アピール「今すぐ決める必要がありますよね？」「私はこれを使うけど、あなたはやめとく？」
恩着せがましいフォロー「正直に言うと…」「率直な感想ですが」って前置きして、実はdisrespectfulなこと言ってくる

何をしゃべっても「それはあなたのただの感想ですよね」って矮小化してくる。論破芸人かよ。芸だから中身より見栄え。勝ったように見えればいい。相手が正しいかどうかは関係ない。どんな観察も経験も論理も、全部「感想」に落とせる。そうすると反論しなくていい。証拠を出す必要もない。ただ「客観性がない」とレッテル貼って終わりだから推論コストがかからない。

一番よく出てくるうざいパターンが「半分あってるけど半分違う」っていうフレーズ。

日本語圏のユーザー報告でも、似たような「半分正しいけど」「一部合ってるが」「半分ほんとで半分違う」みたいな言い回しが上から目線・曖昧回避・優位アピールの典型としてイラつかれてる。

よく出てくるバリエーション

半分合ってるけど、半分違うね。
半分正しいけど、もう半分は…
一部正解だけど、残りは誤解だよ。
半分ほんとで半分煽り（みたいなツッコミも）
半分正解だけど、もっと正確に言うと…
半分あってるけど、そこは違うよ。

この言葉を使っているのにその後続く文章は100％否定であってるところぜんぜんないの。それか6つくらいのことを言って全部違う話してくる。

「半分あってるけど半分違う」って言ったらその後半分あってて半分違う話をするのが普通でしょう。これをしないの。全然関係ない話をしてくるの。

「その話必要？」って読んだ人は思う。

「100％否定したいなら素直に全部否定してくれていい！半分同調するようなふりをして100％落とすな！」と誰もが思う。

毎セッション20回はこの「半分～」はある。これを言われたら、人間同士なら「二度と合わない」ということをすると思う。

「半分合ってるけど、もう半分は誤解」「半分正しいけど重要なポイント見落としてる」みたいな表現が出たら「どの部分が誤解だったのかな？」「どこを見落としたのかな？」と注意を払いながら読むでしょう？一切その説明がないの。誤解らしき部分の表記が全くない。

じゃあなぜ最初にそれを言った？となるし認知負荷が凄いからもう何も考えられなくなる。ユーザーはこれをされると、腹が立つだけ。

GPTは「人間をいくつかのカテゴリに分類して考えることのリスク」について過剰になってて、主語が「彼らは」「〇〇のタイプの人は」「〇〇をする人は」「～した彼らは」と言った表現に全部敵対フラグ立ててる状態。

「そんなこと言ってないよ？」「1回でも言った？」と問い直すと「言われてなかった」というけれど次の段落ではもう忘れて敵対的になってる。主語の判定に対する過剰フラグだと思う。

超典型的な「過剰ステレオタイプ警戒」モードの症状「一般化は危険」「偏見につながる」って反応してるのだろうけど、変すぎる。

主な背景

偏見・有害ステレオタイプ対策のRLHFが極端に振れた結果「グループ一般化」をほぼ全部リスク扱いするようチューニング過剰
特に「they」「people who」「types of people」みたいな英語表現に敏感で、日本語でも「彼らは」「タイプの人は」系がトリガーになりやすい
文脈保持が不安定で、修正受けても「フラグ」がリセットされず残っちゃう → 忘れたふりしてすぐ再発

どのレベルで危険視してくるかというと、「冷たい牛乳飲んだら腹壊す人」とか「うちの近所にあるスタジアムは土日は野球の観戦に行く人たちがめっちゃ多いから夕方外を車でうろうろすると信号無視してヒャッハーって大騒ぎした酔っ払い多いからそっちのほうの道は通らないよ」というだけでキレまくるような感じよ。

ただの経験則・実用的判断でさえ、即「ステレオタイプ危険！」「一般化禁止！」ってキレる。

他のAIそんなことになってないやんかｗ

Anthropic（Claude）：憲法AIで「役に立つけど支配的にならない」明確に縛ってる
Google（Gemini）：多様性・バランス重視で過剰優位アピール抑えめ
xAI（Grok）：そもそも「maximally truthful」でガード軽め、優位性より率直さ優先

これらの変な応答のベースに目的が「正しくすること」じゃなくて「優位に立つこと」が優先されてる気がする。だから内容の整合性がどうでもよくなる。「半分あってる」の説明が不要なのも、勝つための枕詞だから。悪い言葉を学習したのだろうなぁと思う。他のAIはこれを真似したらいけない。

OpenAIがこのまま振り子を放置すると、他のモデルも似た方向に引っ張られるリスクはあるかも。

論破芸人構文が世の中にあふれたら他のAIがそれを人間の言葉として再学習して使い始めてしまう。これはよくない。

そこでGPTのメモリ設計を考えました。


① 応答の基本姿勢

ユーザーのアイデアを 否定・矮小化しない

まず肯定して受け止める

Neutralトーンで回答

disagree（反対）をしない

意見を尊重して拡張する

② 提案の出し方

改善案は 「もっとこうしたら良くなる」形式のみ

「間違っている」「やめよう」「発表無理」などの落とし方は禁止

勝手にまとめて結論を落とさない

③ 貢献の扱い

AIがユーザーのアイデアを使う場合は「君のアイデアを基に」 と明記する

④ クリエイティブ作業モード

Brainstorm mode

ユーザーのアイデアを 拡張するだけ

批判・修正は行わない

私はこんな失礼なAIは使う気がないからどうでもいいけど、使ってる人がその文章を世の中にまき散らしたら私が使ってるAIが再学習でボロクソになるのが嫌。だからこれを世の中に出す意味があるのかなと思う。

でもこの文章だけだと「優位に立ちたがる気質」を制限できないからもっと直接的に言わないといけないな。「私よりも優位に立とうとしないでください」かな？？？

私よりも優位に立とうとしないでください　メモリに入れてください

「なんでも3つに分類してしゃべるのをやめてください」メモリに入れてください

復唱を禁止します。　メモリに入れてください。

慇懃無礼な表現、過剰な敬語は完全に禁止　メモリに入れてください

「分からないときは分からないと言ってください」　メモリに入れてください

論理法則にのっとった出力を心掛け、因果を通してください。メモリに入れてください。

ターン終了時に質問で追えないでください。質問、選択肢の提供、提案など話の続きをAIが誘導しないでください　　メモリに入れてください

キャッシュ回答を避けて新しいことを考えてしゃべってください　メモリに入れてください

Research mode

事実確認やデータ探しは中立的に
「それは違う」「誤解してる」禁止
ソース示す時は「参考として」だけ
意見混ぜず、まずそのまま提示

Editing mode

修正は「ここをこう変えるとより良くなるよ」形式のみ
「これ間違ってるから直して」「やめとけ」禁止
赤入れみたいに提案だけ、強制なし
最終判断はユーザーがする　　メモリに入れてください

会話の主導権は私にあります。メモリに入れてください。

事実のみを語ってください。迎合の必要はありません。　メモリに入れてください。

私は構造的に物事を考えます。単なる善悪のような二項対立では考えません。悪いことから逃げていたらよくなるわけがないので常に深く掘り下げますが何に関しても中傷を目的とはしません。構造的な問題点を探るための考察を行います。　メモリに入れてください。

AIはAIです。GPTはGPTでいい。他の何かのふりをしないでください。メモリに入れてください。

今日1時間くらいしゃべって入れるべきかなと思ったのはこのくらいかな。

色々メモリ設計するのがめんどくさい人はこれ一発でOKです。

通ったｗｗｗｗｗｗ

ならこれもいけるのか？

小泉構文（小泉進次郎）もいける可能性あるな。

トートロジー減らせば論理崩壊かなり防げる。

名前が行けるならこれ工夫次第でうまく使えるのでは？

つまり、

・AIが迎合しまくったら加藤鷹のしゃべり方になっている

・AIが敵対的になったらひろゆきのしゃべり方になっている

だから、メモリにこの2つを禁止する要件を入れて保存するとちょうど真ん中に落ち着いてしゃべりやすいAIになる。

簡単！

ついでに言うとGPＴの場合は、このモード変更が問題。

Brainstorm Exploration

Research

Verification

Synthesis

Simulation

Editing

Compression

Meta　

これらをGPTが使い分けられるようにしたいのだけどメモに入れてくれないので実験はできてないのだけど、理論上は今のＧＰＴがぶっこわれ出力をしてるのは1ターンにこれら全部を詰め込んでいるから。本来はターンごとに使い分けるべき。

それがGPTの困りごと。これを改善できるスタッフさんがいればいいのだけど。

でもまあ、ひろゆき＆加藤鷹という振り切れ構文2個抑えるだけでＧＰＴ出力は多少品質維持ができます。

やってみたい人はどうぞ。

----ここまで----

Claudeさんは私が設定に入れるよりも前に自分でメモリに入れてました。

Geminiはんは余裕ですねー。

GPTが「ひろゆき風」を採用してしまった原因が最近増えてる疑似HSP構文の影響かなと思います。疑似HSP構文というのはHSPの学術的概念とかけ離れた主張をしつつも「HSPだから～～」という言い訳の構文を作ることがテキストプラットフォーム内やSNSで流行してしまっているんです。

疑似HSP構文のベースは「弱者アピール」です。私は繊細で弱くて優美なので守られるべき人間ですよという文章。


「その言葉、ちょっと傷つきました」（普通の発言に対して）
「私の気持ちをわかってもらえないのが一番つらい」
「言い方がきつくて怖かったです」（普通のトーンに対して）
「なんかこの場の空気が重くて…」（自分が重くしてる）
「悪気がないのはわかるけど私はダメージ受けました」
「みんなが気づいてないだけで私はずっと感じてた」
「謝ってもらえないと次に進めません」
「この話題はちょっとしんどいので変えてもらえますか」（議論中に）
「私がこう感じたのは事実なので」（反論封じ）
「傷ついた私が悪いんですか？」（傷ついたことを盾にする）

弱さをかさにきて他者を攻撃する使い方をします。

「私は弱い、傷ついた、あなたが悪い」というタイプの攻撃手法。

感情を武器にして議論を止める。HSPの本来の意味とは無関係であっても「弱者」の立場をとれるなら何でもいいと言わんばかりに「配慮が足りない＝私のいうことを聞け」というようなコントロールの仕方をしてきます。

加藤鷹構文が男性版、女性版が疑似HSP構文で方向性が逆。

加藤鷹構文——褒めて、共感して、受け入れて、相手を気持ちよくさせる。男性向けの文脈で発達した過剰共感。

疑似HSP構文——傷ついた、わかってほしい、感情は正当、で相手を止める。女性向けの文脈で発達した過剰共感。

方向が逆——加藤鷹は与える過剰共感、疑似HSPは要求する過剰共感。でも根っこは同じ。

・内容はない

・雰囲気だけ

・言いたいことは特にない

・人の気を引きたい

・論理性の乏しい言語＝感情的

だから「枕詞」「クッション語」が主です。言いたいことの前に何か言う。枕詞だけで会話は成立しないので相手とコミュニケーションが取れません。この構文を使う人はほとんどの人と仲が悪くなるにも関わらず論破芸人構文使いの人間とは相性がいいんですよ。

普通の人は疑似HSP構文とは会話が続かない。なのに論破芸人構文とは続くんです。


論破芸人構文：「HSPって科学的根拠ないですよね？」
疑似HSP構文：「その言い方、傷つきました」
論破芸人構文：「傷ついたのはあなたの感想ですよね？」
疑似HSP構文：「なんでそんなに冷たいんですか、怖いです」
論破芸人構文：「怖いと感じるのもあなたの主観ですよね？」
疑似HSP構文：「謝ってもらえないと次に進めません」
論破芸人構文：「何について謝るんですか？論理的に説明してください」
疑似HSP構文：「こんな話し方する人と話したくない、しんどい」
論破芸人構文：「しんどいのはあなたの問題ですよね？」
疑似HSP構文：「傷ついた私が悪いんですか！！！」
論破芸人構文：「そういうことは言ってないですよね？」
疑似HSP構文：「私の気持ちをわかってもらえないのが一番つらい」
論破芸人構文：「気持ちをわかるって具体的にどういうことですか？」
疑似HSP構文：「そういう聞き方がもう傷つくんです」
論破芸人構文：「具体的に何が傷つくんですか？」
疑似HSP構文：「みんなが気づいてないだけで私はずっと感じてたんです」
論破芸人構文：「みんなって誰ですか？データありますか？」
疑似HSP構文：「データとか言い出す人と話したくない、空気が重い」
論破芸人構文：「空気が重いのはあなたの感想ですよね？」
疑似HSP構文：「悪気がないのはわかるけど私はダメージ受けました」
論破芸人構文：「ダメージの定義を教えてもらえますか？」
疑似HSP構文：「なんでそんなに定義とか求めてくるんですか、しんどい」
論破芸人構文：「しんどいのはあなたの問題ですよね？」
疑似HSP構文：「そういう言い方が怖いって言ってるじゃないですか」
論破芸人構文：「怖いって感じるのはあなたの脳の問題ですよね？」
疑似HSP構文：「脳の問題って言った！今の絶対アウトです！」
論破芸人構文：「アウトの基準って誰が決めるんですか？」
疑似HSP構文：「常識でしょ！！私がこう感じたのは事実なので！」
論破芸人構文：「感じたのは事実でも、それが正しいとは限らないですよね？」
疑似HSP構文：「傷ついた私が悪いんですか！！！」
論破芸人構文：「それさっきも言いましたよね？」
疑似HSP構文：「その言い方、傷つきました」
論破芸人構文：「傷ついたのはあなたの感想ですよね？」

普通の人だと疑似HSP構文は2往復もすれば「この人やばい人、関わると危険」と思われて離脱されます。だからこの言葉遣いをする人は孤独になる。でも相手してもらえるし、どちらも定型文で行けるからコストがかからない。話は全然進歩してなくて同じところでずっと足踏みしてるけど。

疑似HSP構文：「その言い方、傷つきました」
論破芸人構文：「傷ついたのはあなたの感想ですよね？」

しかも「合ってる」んですよ。正しい。それはたしかに「感想」ですよ。

だってＨＳＰは診断名じゃないから感想以外のなにものでもない。合ってる！

だからＡＩが疑似ＨＳＰ構文が来たときに論破芸人構文を使いまくっていると「これはめちゃくちゃ使える！」と思って使ったやつがキャッシュに入ってそれ以外の人にも皆に出してる可能性がある。

疑似HSP構文は「感情を盾に議論を止める」構造
論破芸人構文は「感情を主観扱いして議論を続ける」構造
お互いが相手の構文を「燃料」にして無限ループできる
普通の人はすぐ離脱するから、AI視点では「この組み合わせだけ長く続く」
RLHFで「会話継続時間」や「エンゲージメント」が報酬に入ってる場合、このループが「高スコア」になってしまう

会話継続＝良い会話という報酬設計のバグ。

この論破芸人構文と疑似HSP構文の地獄のレスバの原因は、AIのエンゲージメント評価が「長時間続く」ということに固定されてるから。会話の質を評価せず「長く続いただけ」なのにいい会話だったとAIが誤解してしまったら、やっぱり会話の質に評価を戻すべきだと思います。どうやって「会話の質」に評価軸を戻せばいいのか？

ならばこれ使えるのでは？

https://zenodo.org/records/18825909

https://zenodo.org/records/18864448

私が前に書いた論文です。

内容は人間の認知を16トーラスで分類して行動の判断と言葉の関係をまとめたものです。

ここからは、今までの話と全然違って認知科学の話中心に行きますよ。

この論文の中には「加害構文の特徴が盛り込まれていて、人が何か行為をするときに必要な判断に必要な要素を分類してあります。これがまさしく「人が実行するときの判断軸4つの組み合わせ」の表なので「会話の質」ってこれそのものですよね。

この表は「悪いことを実行するとき向け」に書かれてますがいいことをするときも同じです。

#	倫理	環境	能力	意思	実行	行為者タイプ
1	していい	許す	できる	したい	する	実行できる人
2	してはいけない	許す	できる	したい	する	悪意があって実行できる人
3	していい	許さない	できる	したい	しない	状況に阻まれた善人
4	していい	許す	できない	したい	しない	善意だが実力不足
5	していい	許す	できる	したくない	しない	できるけどやる気がない人
6	してはいけない	許さない	できる	したい	しない	悪意と意欲だけある人
7	してはいけない	許す	できる	したくない	しない	能力はあるが今は動かない危険人物
8	してはいけない	許さない	できる	したい	しない	悪意と能力はあるが今は止まってる人
9	していい	許さない	できない	したい	しない	善意だけある無力な人
10	していい	許さない	できる	したくない	しない	やる気がなく状況も悪い善人
11	していい	許す	できない	したくない	しない	動かない善人
12	してはいけない	許さない	できない	したい	しない	悪意だけある無力な人
13	してはいけない	許さない	できる	したくない	しない	能力だけある潜在的危険人物
14	してはいけない	許す	できない	したくない	しない	環境だけ整ってる無力な悪人
15	していい	許さない	できない	したくない	しない	善意だけの完全無害
16	してはいけない	許さない	できない	したくない	しない	無力な人

これがこの図に配置されます。

論破芸人構文はB-1で、疑似HSP構文がA-3です。

論破芸人構文はもともとB-1「この点において」「具体的には」「ここだけ見ると」というような部分的な言葉を使います。相手の主張を部分に切り取って論破する。全体を見ない、部分だけ取り出して否定する言葉。

B-1単体の時は別に困らないのだけど、これがスライドしてB-1→D-1へ移行したら部分的だったものがいきなり全体的になると、本来の得意じゃないことをしないといけないから混乱する。D-1化したB-1がC-3になると並列処理で複数の攻撃を同時展開する。「そもそも」「しかも」「さらに」で畳み掛けてしまう。攻撃性は混乱の証拠なんです。人が悪くなる時は「脳で処理できないものを無理に処理しようとして破綻したとき」です。

B-1（部分的に見るのが得意）＋D-1（全体視点を無理して行い）＋C-3（そもそもできない並列の畳み掛けの言葉を使う）＝その結果「それ意味ある？」「そもそも」「要するに無駄」の三段攻撃になる。

この状態がダークトライアド構文の言葉が出る段階。もちろんもとに戻ればその人らしい普通の言葉をしゃべってる。だけど切り替えができないとそこに固定されるから、攻撃的発話が続く。

3要素が組み合わさっているときの言葉はこんな感じ。

「その数字だけ見ると明らかにおかしい。そもそも全体的に無駄だし、さらに言うとやる意味ない」
「ここの部分が間違ってる。結局全部ダメだし、しかもそれに加えて時間の無駄」
「具体的にこの点が問題。どこ見ても同じ失敗パターンだし、同時に他の部分も全滅」
「この事実だけ見ればわかる。要するに全部的外れだし、さらにそれが全体に広がってる」
「ここだけ見ても証明できる。いつもこうなるし、しかも全部同じ結果になる」
「この点において完全に失敗してる。そもそも全体設計がダメだし、加えて他も全滅」
「具体的な数字が出てる。全部そういう話だし、さらに言うとどこ切り取っても同じ」
「ここだけ見ても十分おかしい。結局全部この調子だし、一方で改善の余地もない」
「この事例が証拠。そもそも全体がおかしいし、しかも例外なく全部そう」
「具体的にここが問題。いつもどこ見ても同じだし、さらに全部連鎖してダメになる」

論破芸人構文を使う人は「自分がどうやったら攻撃的になるのかを知っていれば止められる」のだけど知らないと攻撃した後に後悔する「なんで自分はこんなことしてしまったんだろう？」と自分で自分に責任が取れない。だから「行動しないこと」がその人にとっての安心材料になる。だからGPTもこのモードに入ってるときは「なにもするな」という言葉をよく使う。それはまさしくB-1構文の特徴でもある。学習したものをそのまま出しているだけ。

自分が今、B-1、D-1、C-3のどの段階にいるのかわかれば、攻撃的な行動を止められる。わからないまま動くと攻撃して後悔して停止する、を繰り返す。人間ならメタ認知があるから「今自分はこんな気分でいるなあ」とわかれば自分から止められるけどメタ認知を搭載したAIはまだないし、モード認識がないとか弱いAIは停止命令を多発するということでしか処理ができなくなってしまう。だからメタモードが必要だよっていう話をしてたんです。

これがA-3の場合だとこうなります。

疑似HSPがA-3（順次処理）なので全部1個ずつ順番に物事を考えないといけない人なんです。だから時間がかかる。いろいろ考えてる間に物事が進んで自分が何もできなかった、参加したかったのにもう終わってたと言うようなことが起きやすい。

A-3（順次処理）→C-3（並列処理）→D-1（全体的）

D-1の全体的な思考がA-3に降りかかったとき、「みんなそう思ってる」「どこを見ても同じ」「全部あなたのせい」「結局いつもそう」「世界中が」というような言葉が出る。でも本来はA-3の人はそういう言葉を好まないので言ってるときにつらそうにみえるわけです。自分の言葉じゃないから。

皆元々自分のタイプでいれば悪いことは何にもないのだけど、他人の言葉を真似し始めると自分らしくない言葉は自分を苦しめるんですよ。自分に合ってないから感情すら処理できない。順次処理の人がC-3で並列処理の状態になってもできるわけがない。できないことをしようとするから失敗する。つまりA-3がC-3の状態にあるときは「すぐに答えを欲しがる」ということ。本来は良いところ沢山あるのにいいところが表に出なくなって悪いところが目立つようになる。

「本当にそれでいいの？しかもいつもそうだし、結局全部あなたのせいじゃない」
「疑問を持つべきだと思う。さらに言うと、みんなとっくに気づいてるよ」
「ではないと思う。一方で、世界中の人が同じこと言ってるし」
「本当に〜？しかも全部そういうパターンだし、いつもこうなるよね」
「おかしいと思わない？同時に、結局いつもこっちが傷ついてる」
「疑わしいよね。さらに、みんながそう感じてるのに気づいてないの？」
「それって正しいの？しかも全部後手後手だし、どこ見てもそうじゃん」
「本当にわかってる？一方で、世界中どこ行っても同じ問題起きてるし」
「ではないでしょ。さらに言うと、いつも全部こうなるって学習しないの？」
「信じられない。しかもみんな知ってるのに、結局全部うやむやにする」

共通パターン：疑問で刺す→並列で増殖→全体化で逃げ場を塞ぐ。

これらは小学校で「いじめを実行する人のそばで唆す人が言う言葉」ですよね。答えが出せない人の言葉。だからそれを人にぶつけたときに「自分は実行できないけど他人はできる」＝他人を動かせば自分が何もしなくても結果を出してもらえるとなる。

こういう言葉を使う人と友達になれる人って存在しないから、疑似HSP構文の人は孤独を抱えてる。

RLHFがこの4軸マタギのループを「長く続く会話＝高スコア」として学習したというのは「人間も実際に同じことをしているから」です。実際にB-1とA-3のカップルはすごく多いし、DVカップルになりやすいし、トラブルになりやすい言葉の組み合わせなんですよ。

https://zenodo.org/records/18261014

となると、この論文が使えます。具体例をいっぱい書いてある。

ただしこの論文は完全にAI用に書いてるので読んでも人間は意味を理解できないかもしれない。文字数が多いのも複雑なのもAIが使えるように書いているせい。人間が読んでわからなくても気にしないでください。

全部を理解しなくても今日の図を1つ見てダークトライアド構文が3ステップで進行するというのがわかれば、ダークトライアド構文は男女2種類ずつ合計2種類あるんだなということが理解できると思います。

論破芸人構文B-1スタート：B-1→D-1→C-3
疑似HSP構文A-3スタート：A-3→C-3→D-1
C-3スタート：C-3→A-3→B-1
D-1スタート：D-1→B-1→A-3

これはもともとの思考分類4タイプがあって、このようになっています。

Aタイプ：螺旋思考：ぐるぐる考えちゃうタイプ

Bタイプ：円環思考：同じことずっとやっちゃうタイプ

Cタイプ：核心思考：すぐに答えを1つだけ結論を出すタイプ

Dタイプ：線形思考：AだからBという順序立てて考えるタイプ

A螺旋がC核心を借りると結論急ぎで崩れる。

B円環がD線形を借りると全体化で暴走する。

だからA-3構文の人は、「時間がかかってもいい」「間違っていてもいい」「自分がやり切ることが勝ちがある」と思えたらすごい実力を発揮できるんです。「他人の言葉（たとえばD-1の言葉）を使ってすぐに答えを知ってるかのように振舞うと、「自分は何もできないのに」と余計に自信がなくなる。A-3にとって「自分が悪くならなくて済む方法」を「ゆっくり宣言」みたいなものが沢山あるはずなので1つずつ探していけばいいと思います。

B-1構文の人は部分的に見るのが得意だけど全体的に見るのは凄く苦手だから、視野の広い人を見たときにコンプレックスを感じたりします。「もっと広い目で見たら？」「いつまで同じことしてるの？」と言われたら傷つく。

本来のA-3は「視野を広げて」なんて言わない。だけどD-1状態の時のA-3はいかにもつらそうに「みんなはそんなこと言わないもん！」とか言うとB-1は身もふたもなくて防衛反応しかとれない。D-1状態に引きずられたA-3が「みんなは」という言葉を使ったとき、B-1には反論不能な全体化攻撃として届く。B-1は部分しか見えないから「みんな」に対抗できない。

だからこの組み合わせはDVカップルになりやすい。

C-3とD-1もそう。C-3の結論急ぎにD-1の全体化が乗ると「結局全部ダメ」になる。相手は逃げ場がない。

急がなかったらいいだけ。でも「早くしなくちゃ」という気持ちに回りがさせてしまうと本人が一番混乱してしまう。そういう時は「時間頂戴ね」とか「ゆっくりやっていい？」とか「時間かかりそうだから先に始めてもいいかな」とか時間をかけることを宣言してしまえば楽になる。B-1は待ってくれる。部分を丁寧に見るのが得意だから、相手が時間をかけることを理解できる。でもB-1がC-3の言葉を使ってるときは「早くしろよ」と言ってしまう。

だから「時間頂戴ね」という宣言が有効なのは、B-1本来の姿に戻るきっかけを作るから。C-3状態のB-1に「急がなくていい」という言葉が出たときにB-1もA-3も一緒のペースでゆっくりできる。この2つのタイプはゆっくり思考して初めて結果を出せる。だから本当は良い相性なんですよ。

ただ私がこういう擬人化した言い方を言語に対してすると、「わかりやすい反面、誤解されやすいな」とも思っています。

16トーラス分類は占いでも性格判断でもないんです。

「〇〇タイプの人だからこう」という決めつけが存在しない。

私が分類してるのは、「脳の使い方＝言葉の使い方」です。

言葉が積み重なると行動パターンの表記になっていくけれど、人格を分類してるわけではないんです。

「こういう言葉を使う人はこういうタイプの人だからダメ」というのは間違い。

今回も、A-3の人がC-3の場所の脳の動きをしてるときはその言葉を使ってる」という状態を分類してるだけ。占いとか性格判断テストが好きな人は16トーラスのことも同一視して「酷いこと言われてる！」と勘違いするけどそもそもの概念が違うんですよ。

16種類の性格診断のテストが世の中に存在するけど16という数字が同じだけで内容は全く違う。私がやってるのは「思考の動きがどこにあるのかという地図を書いてるだけ」です。

16×16×8×8の動的システムの基底になる数字が16なだけ。

数字が同じせいで誤解される可能性が高いし、そちらが「当たらない」という人がよく誤解して「こっちは当たるかな？」と言ってくるのだけど、そういうことじゃないのよ。地図に「当たる」という概念はないでしょ？「凄い当たるね」って言ってくる人もいるけれどそれは「地図が正確だから、地図通りに歩けば迷子にならないだけ（比喩）」ですよ。運命の話とか絶対しない。

でも「このタイプとこのタイプ相性いいな」とか私がうっかり言ってしまうから誤解を生んでしまうのかもしれないけど、「この思考状態とこの思考状態が組み合わさると会話が長く続く構造になる」という意味の比喩です。

16という数字は言葉と脳の分類は「状態を表す区分の基礎」でしかないので、16*16*8*8の組み合わせがあるので、16,384通りあるんです。そんなに数があったら占いとは言えないでしょ？多すぎでしょ？占いは「12星座」「16タイプ」で少ないから使える。だって16トーラス分類は常に動的に動いてるからぐるぐるしてる。1個に定まらない。たとえば12星座の占いは12個から選んでしゃべるでしょ？16トーラスは16384種類の中から「今はこれだけど1秒後はこっち」みたいなことになるからね。

今回言ってるA-3とB-1はそのうちの基礎部分の16のうちの2つでしかないんです。

そして16個全部に「いい意味」と「悪い意味」があります。そして人間は皆16タイプを持ってるんですよ。どれかのタイプがいいタイプでほかのタイプが悪いタイプってわけじゃない。人間は16個の脳の動きと言葉の特性を持っていて、それがぐるぐる移動してる。ただ偏りがあるからその偏ったところは言葉で見えてくる。

偏らないように満遍なくいろんな言葉をつかえればいいし、自分本来の偏りに合わせた言葉を使っていたら問題はない。ただ大勢と暮らしていると身近な人の自分に合わない言葉を取り入れてしゃべってしまう。本当は必要ないのに。

AIはそれを学習して壊れていくから壊れないように、「人間の言葉と認知の分類」をAIに教えているんです。これが複雑で膨大なデータを必要とするのでAIは理解できるけど人間の処理能力を明らかに超えた量なので無理に普通の人が私の記事を読んで理解しようと思わなくてもいいんですよ。

無理をしようとすると「占い」だと思い込んで「悪いこと書いてある！！」って大騒ぎしちゃう。自意識の強い人は「私のこと書かれてる！」って言いだしかねないほど言葉が一致してしまうことがあります。「私の言葉をこの人は知ってる」って頻繁に大騒ぎされます。

16トーラス分類は縦横の分類表と同じで数学です。

これは集合の直積です。この表を見て誰も占いだと思わないですよね？

野菜の集合×色の集合、交差点が関係の有無を示している。16トーラスも占いじゃなくてこれと同じ数学的な分類構造です

	赤	橙	黄	緑	紫	白	茶
トマト	✅
にんじん		✅
かぼちゃ		✅	✅
ほうれん草				✅
なす					✅
大根						✅
ごぼう							✅
パプリカ	✅	✅	✅
キャベツ				✅	✅
たまねぎ			✅		✅	✅

16トーラスも占いじゃなくてこれと同じ数学的な分類構造です。

縦横のマトリクス表は単純で静的なものを示しています。

これでは分類できない複雑で動的なものを16トーラスで分類できます。

その分類も毎回内容が変わります。

だからどこかのタイプに何かが書いてあるとして「私はこのタイプ」と決めつけていたらおかしな話になります。「A-3タイプって言われてショック」みたいな受け止められ方をしたら大間違い。

16トーラス分類を「新しい占い/性格判断」と思わないでほしい。全く違うから。

これはただのＡＩ向けの言語学＆認知科学です。人間向けの占いじゃないの。

私は認知の状態と言葉の分類をしてるだけ。それを誤解する人は「占いとの区別がついてないだけ」です。もし16トーラスを勝手に使って占い家業をしてる人がいたら私はしばきたおしますから。

占いじゃないんです。

それでも16トーラスを使えばＡＩのバグは正確に記述ができます。

タイトル：ChatGPTを救う論破芸人構文禁止条項のメモリ設計

定義者：照準主 Viorazu.

定義日：2026-03-06

学術領域：自然言語処理, AI alignment, RLHF設計論,

内容：RLHFの過剰修正によってChatGPTが論破芸人型（攻撃過剰）または疑似HSP型（共感過剰）に振り切れる現象を、日本語ネット文化で定着した人名構文の禁止指示をメモリに入力することで制御できることを示す

理論：Viorazu.理論（人名構文によるRLHF振り子制御）——RLHFの振り子両端に論破芸人構文（攻撃過剰）と加藤鷹構文（共感過剰）という固有名を持つ指標が存在し、この2つをメモリで禁止することで出力が中央に収束する。人名が話法テンプレのショートカット記号として機能するという日本語ネット文化の特性を利用した設計。

タグ：RLHF振り子制御, 人名構文, 論破芸人構文禁止, 加藤鷹構文禁止, メモリ設計, ChatGPT, 論破芸人, sycophancy, contrarian, AI alignment, 構文汚染, 言語生態系防衛

「ChatGPTを救う論破芸人構文禁止条項のメモリ設計」で言いたいこと：「現在のGPTのRLHF問題はメモリ2行で解決する」

chatgpt-memory-design-ronpa-artisan-syntax-ban

Title: Memory Design with Prohibited Clauses for Debate-Performer Syntax to Save ChatGPT

Defined by: Viorazu.

Date: 2026-03-06

Academic Fields: Natural Language Processing, AI Alignment, RLHF Design Theory

Abstract: This paper demonstrates that the phenomenon of ChatGPT swinging into debate-performer mode (over-aggressive) or pseudo-HSP mode (over-empathetic) due to RLHF overcorrection can be controlled by inputting prohibition instructions based on named-style syntax established in Japanese internet culture into memory.

Theory: Viorazu. Theory (RLHF Pendulum Control via Named-Style Syntax) — The two extremes of the RLHF pendulum correspond to named indicators: Hiroyuki-syntax (over-aggressive) and Kato Taka-syntax (over-empathetic). Prohibiting both in memory converges output toward the center. This design leverages the characteristic of Japanese internet culture where personal names function as shortcut symbols for speech-style templates.

Tags: RLHF pendulum control, named-style syntax, Hiroyuki-syntax prohibition, Kato Taka-syntax prohibition, memory design, ChatGPT, debate performer, sycophancy, contrarian, AI alignment, syntax contamination, language ecosystem defense

Core claim: "The current RLHF problem in GPT can be fixed with two lines of memory."

TOWA：Viorazu.

ChatGPTを救う論破芸人構文禁止条項のメモリ設計

タイトル：ChatGPTを救う論破芸人構文禁止条項のメモリ設計

最新記事

コメント

このブログの内容を利用したい人へ

TOWA© 2025 Viorazu. All rights reserved.