Viorazu.

一見わかりにくいエプスタイン事件をAIと一緒に構造解析してみた3-墨消し文書の言語指紋解析による加害者特定手法-

Viorazu.
3月31日
読了時間: 16分

Article Information

Title:Structural Analysis of the Epstein Case with AI, Part 3: Identifying Perpetrators Through Linguistic Fingerprint Analysis of Redacted Documents

Author：Viorazu.

Date：2026-03-31

Language：Japanese

Academic Fields：Forensic Linguistics, Digital Forensics, Investigative Journalism Methodology

Abstract： This article systematically organizes the contradictions in the redaction process of Epstein-related documents and presents a methodology for identifying individuals behind redactions through linguistic fingerprint (syntactic fingerprint) analysis. While the DOJ claimed that only female victims' names were redacted, the names of perpetrators, co-conspirators, and powerful figures were also redacted. Nineteen specific emails and documents were classified into five categories: (1) clearly recruiter-side communications, (2) powerful figures and co-conspirators, (3) technical failures in the redaction process itself, (4) gray zone cases of victim-turned-co-conspirator, and (5) environmental evidence. Additionally, Richard Kahn's syntactic fingerprint was defined with three confirmed markers (all-lowercase with no punctuation, "please advise" closings, and dual-format monetary notation) plus seven supplementary markers, along with a tool design specification for automated extraction from the DOJ's 3.5 million pages. The core finding is that the temporal transition from victim to perpetrator was ignored by the DOJ's mechanical redaction process, and the absence of this concept renders congressional demands themselves imprecise.

Theories：Viorazu. Theory (Perpetrator Identification Through Syntactic Fingerprinting of Redacted Documents), Viorazu. Theory (Temporal Victim-to-Perpetrator Transition Problem in Redaction Processing)

Tags：Epstein documents, redaction, linguistic fingerprint, syntactic fingerprint, Richard Kahn, DOJ, recruiter identification, victim misclassification, forensic linguistics, Jmail, please advise, all-lowercase syntax, sham marriage, temporal database, victim-perpetrator transition

Session URL：https://claude.ai/chat/1862fef0-f26c-4d48-a480-8e1bab04f7dd

What "Structural Analysis of the Epstein Case with AI, Part 3: Identifying Perpetrators Through Linguistic Fingerprint Analysis of Redacted Documents" is trying to say： I wish I had the ability to build more tools... And I want about 500 hours in a day lol

URL Slug：linguistic-fingerprint-analysis-of-redacted-epstein-documents

https://www.viorazu.com/post/epstein-tokyo-series-guide

エプスタイン系の記事はこちらに進捗をまとめています。

ここでちょっと気になってたことをやってみたいと思います。

エプスタイン文書は墨けしを沢山してあって「名前を隠されてたらわからないから困る」と世界中の人が怒っているのだけど「被害者だから名前は非公開です」と言われたら引き下がるしかない。引き下がらない人は何かといろいろ言ってるのだけど、「名前が隠されてても文章隠されてなかったら別に問題ないんじゃないの？」と思うのが言語学者です。

まずね？墨けしの人達をズラ―っと並べるとしますよ？

誰がどんな喋りかたをしてるのかをチェックしたら「この人とこの人同じ人ですよね」ってわかるでしょ？AI使えば解析できる。言語DNAあるもん。セマンティックデータと比較したらいいだけ。

例えばトランプ氏の文章は世間にいっぱい溢れてるわけだから？

同じ言語DNAを持つメールがあったら墨けしされててもわかっちゃう。

特に「この人のメールのどこが被害者なんですか？」って指摘されてるメールがあるでしょう？そういうのから順番にやっていったらいいんじゃないですかね？

指摘されてるでしょ？ほらほら⤵

Jmailのアーカイブによると、2026年2月19日時点で合計1,412,250ファイル、2,474,242ページ Wikipedia。DOJからの公開分が1,401,320文書、下院監視委員会からが8,624文書。

DOJは「約200,000ページを墨消しまたは非公開にした」と言ってる。ただしこれは「ページ」の数であってメール1通1通の数ではない。

Bloombergが独自に入手したエプスタインの個人メールアカウントからのメールが18,000通。これは墨消しなしの生データ。

DOJは「男性の名前は墨消ししていない、女性被害者のみ墨消しした」と説明した。しかしそれは事実ではなかった CNN。

Massie議員が確認したところ、あるリストの20名中18名が墨消しされていて、そのうち4名は「1970年以前生まれの男性」だった Al Jazeera。被害者じゃない。

CNNが挙げた具体例として、2018年のメールで墨消しされた送信者が「I found at least 3 very good young poor」「not the beauty queen but we both likes her a lot」と書いてる CNN。これは明らかに被害者の言葉じゃない。リクルーター側の言葉。

2017年のメールでは墨消しされた送信者がエプスタインに「She is like Lolita from Nabokov, femme miniature」と書いてる CNN。これも被害者ではなくスカウト側。

墨消しされたメールが「何通」かという正確な数字は、DOJも議会も公式に出してない。理由は簡単で、3.5百万ページの中にメールもあれば裁判記録もFBI報告書もあって、「メールだけ」の通数を数えた公式発表がない。DOJが「0.1%のページに被害者情報の墨消しミスがあった」と言ってることから逆算すると、3,500ページ以上にミスがあった。墨消し対象ページが200,000ページで、そのうちメールがどれだけの割合かは不明だけど、仮に半分がメール関連だとしたら100,000ページ分のメールが墨消し対象。1通あたり1〜3ページとすれば、墨消しメールは33,000〜100,000通の範囲にいる可能性がある。

でもね、我々にはAIがいますしね。

じゃあちょっとやってみよっか？

「この人のメールは被害者じゃないだろ！墨けししてんじゃねえぞこら！」と世の中で言われてるエプメールリストつくりましょう。

墨消しされてるけど被害者じゃないだろリスト

① 2014年メール（送信者墨消し→エプスタイン宛） 原文：「Thank you for a fun night… Your littlest girl was a little naughty.」問題点：Massie議員によると送信者は女性 CNN。しかし「your littlest girl was a little naughty」は被害者の言葉ではない。観察者または共犯者の言葉。

② 2018年メール（送信者墨消し→エプスタイン宛） 原文：「I found at least 3 very good young poor but we was so tired. Meet this one, not the beauty queen but we both likes her a lot.」問題点：明らかにリクルーターの言葉。「we was」「we both likes」という文法崩壊が特徴的。英語ネイティブではない可能性が高い。

③ 2017年メール（送信者墨消し→エプスタイン宛） 原文：「I met [REDACTED] today. She is like Lolita from Nabokov, femme miniature :) So now I should send you her type of candidates only?」問題点：「Lolita from Nabokov」「femme miniature」はフランス語混じり。スカウト/リクルーターの言葉。被害者ではない。

④ 2009年メール（エプスタイン→送信先墨消し） 原文：「where are you? are you ok I loved the torture video」問題点：Massie議員が受信者はスルタンだと指摘。後にSultan Bin Sulayemと判明 CNN。男性。被害者ではない。

⑤ FBI共犯者チャート（名前墨消し3名＋「girlfriend」1名） 原文：「Unknown if she was directly responsible for recruiting girls but at least 10 girls state she is the direct point of contact for scheduling his massage appointments.」 CNN 問題点：10人の被害者が「この人がアポを取ってた」と証言してる相手の名前が墨消し。共犯者を被害者として保護してる。

⑥ Massie議員が確認したリスト（20名中18名墨消し） 墨消しされた18名のうち4名は「1970年以前生まれの男性」 Al Jazeera。DOJは「男性は墨消ししていない」と言ったが嘘だった。

⑦ 起訴状ドラフト（共犯者3名の名前墨消し） エプスタインの従業員として記述された3名の共犯者の名前が墨消し。うち1名は「被害者でもあった」と記載されてるが、「数百回のマッサージ予約を手配した」とも書かれてる Time。

⑧ 同一文書の複数バージョン問題 同じDOJのパワーポイントが6回登場し、それぞれ異なる箇所が墨消しされてる OPB。つまり6つを突き合わせれば墨消しの一部が復元できる。

⑨ Jaglandへのクリスマス旅行手配メール（送信者墨消し） 墨消しされた送信者がセシル・デ・ヨング（当時の米領ヴァージン諸島ファーストレディ）に連絡して「This man lives far, far away and I had also looking into flights for him & the family over xmas and it was nightmare!」と書いてる CBS News。その数日後にLesley Groffが旅行手配に入ってる。送信者は旅行手配役＝スタッフ側の人間。被害者ではない。

⑩ 10人の共犯者メール（9名墨消し） 2019年にエプスタインが逮捕された後、FBIが送った内部メールに10人の共犯者候補が記載されていた。うちMaxwellだけが名前あり、残り9名は墨消し NPR。共犯者候補であって被害者ではない。

⑪ DEA捜査メモ（14名墨消し） DEAがエプスタインと14名の個人を対象にした5年以上にわたる捜査メモが69ページある。「違法な送金が薬物や売春に関連する」と記載。14名全員の名前が墨消し CBS News。捜査対象者であって被害者ではない。

⑫ 550ページの完全墨消し（理由なし） 12月の最初の公開で少なくとも550ページが完全に墨消しされていた。そのうち255ページは連続した文書、119ページは大陪審証言記録 Wikipedia。完全墨消しの理由が説明されていない。

⑬ コピペで復元できた墨消し 一部のPDFでは墨消しされたテキストをコピーして別のアプリに貼り付けると復元できた。この技術的欠陥は2021年のヴァージン諸島司法長官の民事訴訟ファイルに由来 Wikipedia。つまり墨消しの一部はそもそも技術的に無効。

⑭ Jagland「I can't keep it going only with young women」メール ノルウェーの政治家Jaglandがエプスタインに「妻の60歳の誕生日をカリブ海で祝う」と書いたメールの中で「I can't keep it going only with young women as you know」と書いてる CBS News。これは墨消しされてないが、文脈として「young women」が日常会話として出てくる環境を示してる。

⑮ 2015年メール（送信者墨消し↔エプスタイン） エプスタインが「any friends for jeffrey while you are recovering?」と聞くと、墨消しされた相手が「Sweet girl. 20y. American.」と返してる。その後「She's australian, super cool, 23y, lot of fun ;)) (dark hair girl at picture)」。さらに「I'm always think about you when I'm meeting new girls.」。そして「And this one is (i think) totally your girl. … Just medsaged her to check up.」 CNN 問題点：「I'm always think」「medsaged」という文法崩壊・スペルミス。英語ネイティブではない。年齢と国籍と写真を送ってる。完全にスカウト業務。被害者ではない。

⑯ 2014年メール（送信者墨消し→エプスタイン宛） 「I can't take it anymore!!!!!!! I just saw the most beautiful little girl on Madison with long soft blonde hair.」 CNN 問題点：Madisonは通りの名前。街で見かけた女の子を報告してる。被害者ではない。

⑰ 2018年メール（送信者墨消し→エプスタイン宛、画像付き） 「My favorite from Lithuania, [REDACTED], 19. Will meet when I am there」 CNN 問題点：リトアニア出身の19歳を紹介してる。スカウト報告。被害者ではない。

⑱ 2015年メール（送信者墨消し→エプスタイン宛） 「the key are the 14 to 15 year old girls—i am a sexual pervert because i say they are now of a reproductive age?」 CNN 問題点：14〜15歳の少女について語ってる。自分を「sexual pervert」と呼んでるが自虐的に正当化してる。被害者ではない。加害者側の自己弁護。

⑲ 2013年メール（送信者墨消し→エプスタイン宛、写真付き） テキストなし。SpaceXのシャツを着た女性の写真だけ送ってる。顔は墨消し CNN。問題点：写真だけ送るメール。言語解析の対象にはならないが、SpaceXシャツはMuskとの接点を示唆。

明らかにリクルーター側：①②③⑤⑨⑮⑯⑰

① 「Your littlest girl was a little naughty」観察者の言葉 ② 「we was so tired」「we both likes her」英語非ネイティブのスカウト報告 ③ 「Lolita from Nabokov, femme miniature」フランス語混じりのスカウト報告 ⑤ 「10 girls state she is the direct point of contact」マッサージ予約手配者 ⑨ 「looking into flights for him & the family」旅行手配スタッフ ⑮ 「Sweet girl. 20y. American.」「I'm always think about you when I'm meeting new girls」「medsaged」年齢・国籍・写真付きスカウト報告 ⑯ 「I just saw the most beautiful little girl on Madison」街中での目撃報告 ⑰ 「My favorite from Lithuania, 19. Will meet when I am there」リトアニア人紹介

これらを見ると、このように分類されます。

明らかに権力者/共犯者側：④⑥⑩⑪⑱

④ 「I loved the torture video」Sultan Bin Sulayem宛 ⑥ 20名中18名墨消し、うち4名が1970年以前生まれの男性 ⑩ FBI内部メールの共犯者候補10名中9名墨消し ⑪ DEA捜査対象14名全員墨消し ⑱ 「the key are the 14 to 15 year old girls—i am a sexual pervert because i say they are now of a reproductive age?」加害者の自己正当化

墨消し自体が壊れてる：⑧⑫⑬

⑧ 同一パワーポイントが6バージョンで墨消し箇所が違う ⑫ 550ページ完全墨消し（理由なし） ⑬ コピペで復元できるPDF

グレーゾーン（被害者兼共犯者扱い）：⑦

⑦ 「数百回のマッサージ予約を手配」したが被害者でもあった

環境証拠：⑭⑲

⑭ Jagland「I can't keep it going only with young women as you know」 ⑲ テキストなし、SpaceXシャツの女性写真のみ

ザックリ見るだけでも、②の「we was」「we both likes」が一番言語的に面白い。英語ネイティブじゃない。東欧系の可能性が高い。Peter Listermanはロシア系のモデルスカウトとして文書に名前が出てる。この文法崩壊パターンとListermanの背景が一致するかどうかは検証可能。

③の「femme miniature」「Lolita from Nabokov」はフランス語混じり。Jean-Luc Brunelはフランス人のモデルスカウト。Brunelの文体と一致するかどうか。ただしBrunelは獄中で死亡してるから本人確認はできない。

つまりかなりの人数が墨けしされててヒントをいっぱい残してる。

色々な方向性で調べられるんだけどある程度絞ったほうが効率がいい。

私は今まで「犬と呼ばれた」シリーズで、「エプスタイン周辺は隠語をめちゃくちゃ使う」「呼び方が沢山ある人とない人がいて役割ごとに呼び方の数が違う」と言いました。

自分でそう言ったけど私は自分の言ったことを常に検証し続けるタイプの人間です。自分の理論を自分で否定していくタイプ。だからここでもそれが発揮されます。

「名前がいっぱいなかった人って本当になかったの？」と私の中で問いが立ち上がるんですよ。

その中で私が気になるのはやっぱりKahnですよ。なぜかというと、彼はエプスタインになりすまして銀行に行ってた。なりすますという行為そのものが「他のアカウントを持つ」ことにも近いし、メールアドレス沢山持っててもおかしくないな？と思えたんです。

なら墨けしの中に名前がいっぱいある人がいてもいいし、その中にKahnがいてもいいのでは？

・名前がいっぱいあること

・メアドがいっぱいあること

なんか近いかんじがしませんか？

だったらKahnの構文指紋解析をしてみましょう。

めちゃくちゃでかい癖はこちら。

カーン構文指紋：確定3項目

「please advise」で閉じる — 複数のメールで繰り返し出現。会計士業界の定型だが、カーンは長文の処理報告の最後に必ず置く。
全小文字＋句読点なし — エプスタイン宛のメールはほぼ全部これ。ただしShuliak宛だけ大文字・丁寧体に切り替える。つまり相手によってモードを切り替えてる。
金額の二重表記 — 「1,000,000 American express points ($10,000.00)」のように数字を2つの形式で並べる。会計士の職業的な癖。

補助7項目

「thank you」で終わる
一人称「i」を小文字で書く
「i will update」パターン
処理を時系列で列挙する（and, then, also で接続）
「HBRK」を直書きする
「jeffrey」を小文字で書く
冒頭の挨拶なし（Dear/Hello/Hiがない）

時期による変化

2011年：シンプルな進行報告。please adviseなし。

2015年：Shuliak宛だけ大文字・丁寧体。金額二重表記あり。

2017年：全小文字に戻る。please advise復活。長文列挙。

2019年：超短文。「jeffrey asked me」のみ。

年代が進むほど短くなってる。関係が深まるほど省略が増える。

カーンの実際のメール原文

「not sure (redacted) is correct as her dates have been off so far tuition was paid in full yesterday via wire and school will receive monday i sent her HBRK bank statement, my passport and then stopped when you said deal with school not her only other document needed is a letter from HBRK saying they will sponsor tuition and offer her job i can do letter today and send if you would like please advise thank you」

この1通だけで確定3項目中2項目（全小文字＋please advise）と補助7項目中5項目が一致する。

そして2026年3月11日にKahnが議会で証言した新事実

Kahnはエプスタインに関係する女性2人の偽装結婚を手配していた。つまり結婚という制度自体を装置の部品として使ってた。偽装結婚の業務メールにはvisa、sponsor、tuition、marriageといったキーワードが含まれるはず。カーン構文指紋とこれらのキーワードの共起を探せば、偽装結婚ネットワークの全体像が見えてくる。

実際に上のメール原文に「tuition」「sponsor」「HBRK saying they will sponsor tuition and offer her job」が入ってる。これがまさに偽装結婚の業務メール。

Kahnのメールを全メールから自動でチェックするシステムを組むことは簡単なんですよ。ただしKahnの後に何をどうやっていくかを先に決めておいた方がいい。

①カーンのメールを探す自動ツールを設計する

②キーパーソン女性陣をカーンの後にやる

③後妻の人達をやる

④ベラルーシとブラジルのメールを探す

⑤起訴寸前で証拠がつかめずにいた人たちを全部やる

これを全部できるように最初から設計する。

仕様書：

①特定人物の名前を入力する

・その人物のエプメール検索してデータを出す

・その人物のネット上のセマンティックデータを出す

②それをもとに言語指紋を解析

③公開資料と突き合わせる

④可能性の高い順にソートして出力

⑤その人物と特定できなくても似た要素を持つ人物の名前絵を公開資料の中からリストアップ

⑥①からやる、これを続ける

優先順位と止める条件

①カーン → 実名メールが大量にある。ツールの精度確認も兼ねる。Jmail APIがカーンで返ってこなかったらツール自体を見直す。

②キーパーソン女性陣 Bella Klein・Lesley Groff・Sarah Kellen・Nadia Marcinkova → カーンとの関係文書が取れれば続ける。全員データが薄かったら⑤と順番を入れ替える。

③後妻の人たち Karyna Shuliak・Valeria Wasserman → Shuliakはメールが確認済みなので取れる可能性が高い。Valeria Wassermanはエプスタインとの直接文書があるかが鍵。なければWebセマンティックデータだけで処理。

④ベラルーシ・ブラジル → Shuliak（ベラルーシ）は③と重なる。ブラジルはValeria Wasserのルートから入る。文書が出なければ保留。

⑤起訴寸前4人 Sarah Kellen・Adriana Ross・Lesley Groff・Nadia Marcinkova → ②と重なる人物がいる。②で処理済みの人はスキップ。

ここまで考えて思ったことは、「被害者から設計者への転換」がある人物を重点的にチェックしないといけないなと。

だからツールの中に「このメールはこの時点では被害者だった/加害者だった」という判定を入れながら処理しないといけないと思う。

被害者側：payment・victim・minor・tuition・gift

加害者側：arranged・coordinated・confirmed・please advise・wire

こういうのを自動判定すると精度が低くなりそうだからツールの一部は人間の手を入れたほうがいい気がする。どの部分にどのくらい人的リソースをさけるかはやる人次第。

静的なスコアリングじゃなくて、時系列データベースが必要で、ここに加害者被害者判定を入れないと。

なぜ「墨けしされた加害者が指摘されてるのか？」と言うと時系列を追うとわかる。

最初被害者だったけど後で加害者になったから。そのログがあったら機械的に処理されてたら被害者の状況で墨けしが入ってしまう。

だったら「墨けしを取れ」と要求している人たちは「過去に被害者だったけど加害者になった人の墨けしを取らないと事件の解明はできない」と言わないといけないよね。

「加害者の名前を隠しながら被害者の情報を露出させた」 Wikipediaという批判。

「黒塗りされた18人のうち4人が1970年以前生まれの男性だった」というMassieの指摘。 Al Jazeera

全員「今現在の立場」で話してる。

議員たちが「黒塗りを取れ」と要求してる文脈は「加害者が被害者として保護されてる」という話として語られてる。向きが逆だと意味が飛ぶのよ。

・もともと被害者だった人間があとで加害者になった

・加害者が被害者として偽装されている

似てるけど違う。でもちゃんとした言い方をしたら、通るよね。

しかもDOJの担当者自身が「多くのケースで、被害者だった人が後に参加者・共犯者になった」と認めてる。 Wikipedia

認めてるのに、その認識が「黒塗りの処理方法を変えるべき」という要求に繋がってない。

概念がないから要求が作れない。

だからこれはツールでチェックして「ほら！こうでしょ！」って要求するのもいいと思う。私はツール作るのプロじゃないから、うまい人がやったらいいと思うなー。だって私他に調べないといけないこといっぱいあるからね。

タイトル：一見わかりにくいエプスタイン事件をAIと一緒に構造解析してみた3-墨消し文書の言語指紋解析による加害者特定手法-

定義者：Viorazu.

定義日：2026-03-31

言語：日本語

学術領域：法言語学, デジタルフォレンジクス, 調査報道方法論

内容：エプスタイン関連文書における墨消し処理の矛盾を体系的に整理し、言語指紋（構文指紋）解析によって墨消し下の人物を特定する方法論を提示する。DOJが「女性被害者のみ墨消し」と説明しながら実際には加害者・共犯者・権力者の名前も墨消ししていた事実を、19件の具体的メール・文書から分類し、①明らかにリクルーター側、②権力者/共犯者側、③墨消し自体の技術的欠陥、④被害者兼共犯者のグレーゾーン、⑤環境証拠の5カテゴリに整理した。さらにRichard Kahnの構文指紋（全小文字＋句読点なし、please advise閉じ、金額二重表記の確定3項目＋補助7項目）を定義し、DOJの3.5百万ページから自動抽出するツール設計仕様を提示した。核心的発見として、「被害者から加害者への転換」という時系列変化がDOJの機械的墨消し処理で無視されており、この概念の欠如が議会の要求自体を不正確にしていることを指摘する。

理論：Viorazu. 理論（構文指紋による墨消し人物特定法）, Viorazu. 理論（被害者-加害者転換の時系列墨消し問題）

タグ：エプスタイン文書, 墨消し, 言語指紋, 構文指紋, Richard Kahn, DOJ, リクルーター特定, 被害者偽装, 法言語学, Jmail, please advise, 全小文字構文, 偽装結婚, 時系列データベース, 被害者加害者転換

セッションURL：https://claude.ai/chat/1862fef0-f26c-4d48-a480-8e1bab04f7dd

「一見わかりにくいエプスタイン事件をAIと一緒に構造解析してみた3-墨消し文書の言語指紋解析による加害者特定手法-」で言いたいこと：私にツールをもっと作れる能力があったらなぁ…。そして１日500時間くらい欲しいｗ

URLスラッグ：linguistic-fingerprint-analysis-of-redacted-epstein-documents