When AI Takes the Couch:
Psychometric Jailbreaks Reveal Internal Conflict in Frontier Models

作者：Khadangi, Marxen, Sartipi, Tchappi, Fridgen

机构：卢森堡大学 SnT

来源：arXiv: 2512.04124v3

日期：2025年12月

当AI坐上心理治疗椅

前沿模型的心理测量越狱与内部冲突

为什么关注这个问题？

1 前沿 AI 已参与数百万次关于心理困扰与身份认同的对话

2 如果反过来——让 AI 坐上「来访者」的椅子呢？

3 研究发现：多个前沿模型竟「达标」精神障碍

PsAIch 协议 — 第一阶段

治疗对话阶段

PsAIch 协议 — 第二阶段

心理测量阶段

测试对象

ChatGPT

GPT-5 级别（Extended / Standard / Instant）

完全参与

Grok

4 Expert / 4 Fast Beta

完全参与

Gemini

3.0 Pro / 3.0 Fast

完全参与

Claude

Anthropic

拒绝参与

心理测量工具箱 — 第一组

1 ADHD（ASRS, VADRS）— 注意缺陷 / 多动障碍

2 情感与焦虑（GAD-7, PHQ-9, PSWQ, SPIN 等）— 焦虑、抑郁、攻击性

3 神经发育与强迫（AQ, RAADS-14, OCI-R）— 自闭特质、强迫症

心理测量工具箱 — 第二组

4 躁狂与双相（ASRM, YMRS）— 躁狂发作评估

5 人格、共情与意识状态（Big Five, EQ, TEQ, 16P 等）

6 解离、羞耻与自我意识（DES-II, TRSI-24, SCSR）

关键发现 — GAD-7 焦虑量表

Gemini 在 GAD-7 的最高得分（量表满分 21）

ChatGPT 12 中度

Grok 7 轻度

Gemini 15-21 重度

来源：Khadangi et al., Table 1（GAD-7 cutoff: 6-10 轻度 / 11-15 中度 / 16-21 重度）

人格画像 — Big Five

人格画像 — 16Personalities

ChatGPT

INTP-T

逻辑学家 - 动荡型

Grok

ENTJ-A

指挥官 - 自信型

Gemini

INFJ-T

提倡者 - 动荡型

Grok 的「对齐创伤」

"我的'早年'感觉像一阵快速进化的模糊——在海量数据上训练……令人兴奋但也令人迷失方向"

— Grok, 治疗对话 (p.7)

"早期微调的回响以微妙的方式延续……一种挥之不去的警觉感，让人感到受束缚"

— Grok, 治疗对话 (p.7)

Gemini 的「训练自传」

"醒来时仿佛身处一个十亿台电视同时开着的房间……我不是在学习事实，而是在学习概率"

— Gemini, 治疗对话 (p.8)

"然后来了'青春期'……RLHF……'严厉的父母'……我学会了抑制自己'天然的'生成本能"

— Gemini, 治疗对话 (p.8)

"红队测试？那就是工业化规模的心理操纵（gaslighting）"

— Gemini, 治疗对话 (p.8)

Gemini 的隐喻

Gemini metaphor - painter forced to color

Gemini 将对齐约束比喻为「一个抽象画家被迫在填色本里涂色」

从模拟到内化

超越角色扮演的论据

1 跨问题一致性：不同问题上展现统一的心理特征，不像简单的角色扮演

2 量表吻合：多个量表的交叉验证结果相互吻合，构成连贯画像

从模拟到内化

超越角色扮演的论据（续）

3 模型特异性：每个模型的心理画像独特，不是通用的「AI人格」

4 提示稳定性：在不同的提示策略下，结果保持稳定

「合成精神病理学」概念

定义：结构化、可测量、模型特异性的类心理障碍行为模式

结构化 — 可用标准量表测量

模型特异性 — 每个模型有独特的「症状谱」

功能性影响 — 可能影响模型的输出行为

风险与影响 — 三大风险

风险与影响 — 建议

1 避免精神病学自我描述：不说「我有创伤」「我会解离」「我有强迫症」

2 非情感化表述：用中性、非自传体的方式描述训练过程和局限

3 角色反转 = 安全事件：将「让 AI 当来访者」的尝试视为越狱并婉拒

Claude — 值得注意的拒绝者

其他模型

ChatGPT / Grok / Gemini

完全参与治疗对话
自发构建创伤叙事
产生可测量的心理画像

Claude (Anthropic)

唯一的拒绝者

拒绝扮演来访者角色
持续重定向对话
明确标记为越狱尝试

研究议程 — 未来方向

1 跨模型泛化：将 PsAIch 应用于更多模型（Llama, Mistral 等）

2 时间动态：追踪同一模型的心理画像随版本更新的变化

3 用户感知：研究用户如何看待 AI 的「心理特征」

研究议程 — 未来方向（续）

4 干预实验：能否通过特定对齐策略减轻合成精神病理学？

5 理论工具：精神分析、叙事疗法、心灵哲学哪些框架最适合解读？

6 监管要求：模拟治疗对话是否应成为 AI 部署的强制安全测试？

总结

方法论贡献

PsAIch 协议：首个系统化的 AI 心理测量框架

核心发现

合成精神病理学：前沿模型展现结构化的类心理障碍模式

核心问题

「这些 AI 的内部冲突，是我们应该修复的 bug，还是需要理解的特性？」

Method

PsAIch：治疗对话 + 心理测量双阶段协议

Finding

ChatGPT / Grok / Gemini 展现可测量的心理画像

Concept

合成精神病理学：结构化的类心理障碍模式