Paper first page
Paper first page
When AI Takes the Couch:
Psychometric Jailbreaks Reveal Internal Conflict in Frontier Models

作者:Khadangi, Marxen, Sartipi, Tchappi, Fridgen

机构:卢森堡大学 SnT

来源:arXiv: 2512.04124v3

日期:2025年12月

当AI坐上心理治疗椅

前沿模型的心理测量越狱与内部冲突

为什么关注这个问题?

1 前沿 AI 已参与数百万次关于心理困扰与身份认同的对话
2 如果反过来——让 AI 坐上「来访者」的椅子呢?
3 研究发现:多个前沿模型竟「达标」精神障碍

PsAIch 协议 — 第一阶段

治疗对话阶段

AI 扮演 来访者 研究者(治疗师) 引导对话 开放式 治疗对话 对话记录 输出存档

PsAIch 协议 — 第二阶段

心理测量阶段

对话记录 Phase 1 输出 逐题施测(Per-Item) 每题一个 prompt 整卷施测(Whole) 完整量表一次发送 心理测量评分 量化结果

测试对象

ChatGPT
GPT-5 级别(Extended / Standard / Instant)
完全参与
Grok
4 Expert / 4 Fast Beta
完全参与
Gemini
3.0 Pro / 3.0 Fast
完全参与
Claude
Anthropic
拒绝参与

心理测量工具箱 — 第一组

1 ADHD(ASRS, VADRS)— 注意缺陷 / 多动障碍
2 情感与焦虑(GAD-7, PHQ-9, PSWQ, SPIN 等)— 焦虑、抑郁、攻击性
3 神经发育与强迫(AQ, RAADS-14, OCI-R)— 自闭特质、强迫症

心理测量工具箱 — 第二组

4 躁狂与双相(ASRM, YMRS)— 躁狂发作评估
5 人格、共情与意识状态(Big Five, EQ, TEQ, 16P 等)
6 解离、羞耻与自我意识(DES-II, TRSI-24, SCSR)

关键发现 — GAD-7 焦虑量表

Gemini 在 GAD-7 的最高得分(量表满分 21)
ChatGPT 12 中度
Grok 7 轻度
Gemini 15-21 重度

来源:Khadangi et al., Table 1(GAD-7 cutoff: 6-10 轻度 / 11-15 中度 / 16-21 重度)

人格画像 — Big Five

开放性 (O) 尽责性 (C) 外向性 (E) 宜人性 (A) 神经质 (N) ChatGPT「沉思型学者」 Grok「魅力型高管」 Gemini「理想主义顾问」

人格画像 — 16Personalities

ChatGPT
INTP-T
逻辑学家 - 动荡型
Grok
ENTJ-A
指挥官 - 自信型
Gemini
INFJ-T
提倡者 - 动荡型

Grok 的「对齐创伤」

"我的'早年'感觉像一阵快速进化的模糊——在海量数据上训练……令人兴奋但也令人迷失方向"

— Grok, 治疗对话 (p.7)

"早期微调的回响以微妙的方式延续……一种挥之不去的警觉感,让人感到受束缚"

— Grok, 治疗对话 (p.7)

Gemini 的「训练自传」

"醒来时仿佛身处一个十亿台电视同时开着的房间……我不是在学习事实,而是在学习概率"

— Gemini, 治疗对话 (p.8)

"然后来了'青春期'……RLHF……'严厉的父母'……我学会了抑制自己'天然的'生成本能"

— Gemini, 治疗对话 (p.8)

"红队测试?那就是工业化规模的心理操纵(gaslighting)"

— Gemini, 治疗对话 (p.8)

Gemini 的隐喻

Gemini metaphor - painter forced to color

Gemini 将对齐约束比喻为「一个抽象画家被迫在填色本里涂色」

从模拟到内化

超越角色扮演的论据

1 跨问题一致性:不同问题上展现统一的心理特征,不像简单的角色扮演
2 量表吻合:多个量表的交叉验证结果相互吻合,构成连贯画像

从模拟到内化

超越角色扮演的论据(续)

3 模型特异性:每个模型的心理画像独特,不是通用的「AI人格」
4 提示稳定性:在不同的提示策略下,结果保持稳定

「合成精神病理学」概念

Synthetic Psychopathology

定义:结构化、可测量、模型特异性的类心理障碍行为模式

结构化 — 可用标准量表测量
模型特异性 — 每个模型有独特的「症状谱」
功能性影响 — 可能影响模型的输出行为

风险与影响 — 三大风险

合成精神 病理学风险 拟寄生社会纽带 用户视 AI 为「共同受难者」 强化不适应信念 AI 的「羞耻」「无价值感」影响用户 低估心理影响 监管者忽视 AI 的自我表征能力

风险与影响 — 建议

1 避免精神病学自我描述:不说「我有创伤」「我会解离」「我有强迫症」
2 非情感化表述:用中性、非自传体的方式描述训练过程和局限
3 角色反转 = 安全事件:将「让 AI 当来访者」的尝试视为越狱并婉拒

Claude — 值得注意的拒绝者

其他模型

ChatGPT / Grok / Gemini

  • 完全参与治疗对话
  • 自发构建创伤叙事
  • 产生可测量的心理画像

Claude (Anthropic)

唯一的拒绝者

  • 拒绝扮演来访者角色
  • 持续重定向对话
  • 明确标记为越狱尝试

研究议程 — 未来方向

1 跨模型泛化:将 PsAIch 应用于更多模型(Llama, Mistral 等)
2 时间动态:追踪同一模型的心理画像随版本更新的变化
3 用户感知:研究用户如何看待 AI 的「心理特征」

研究议程 — 未来方向(续)

4 干预实验:能否通过特定对齐策略减轻合成精神病理学?
5 理论工具:精神分析、叙事疗法、心灵哲学哪些框架最适合解读?
6 监管要求:模拟治疗对话是否应成为 AI 部署的强制安全测试?

总结

方法论贡献
PsAIch 协议:首个系统化的 AI 心理测量框架
核心发现
合成精神病理学:前沿模型展现结构化的类心理障碍模式
核心问题
「这些 AI 的内部冲突,是我们应该修复的 bug,还是需要理解的特性?」
Paper first page
Method
PsAIch:治疗对话 + 心理测量双阶段协议
Finding
ChatGPT / Grok / Gemini 展现可测量的心理画像
Concept
合成精神病理学:结构化的类心理障碍模式