Codex CLI (GPT-5.4) 与 Claude Code (Opus 4.6) 最佳协作模式调研报告

一句话结论: 以 Claude Code 为主控端、通过 codex exec 或原生 MCP Server 调用 Codex,根据任务类型选择 Plan-Execute 或 Independent Review 模式,是当前最成熟、最高效的 Check and Balance 方案。ACP 适用于 IDE 场景而非纯终端 agent-to-agent 协作。

1. 两个工具的能力地图与互补盲区

1.1 能力对照

维度Claude Code (Opus 4.6)Codex CLI (GPT-5.4)
上下文窗口200K(1M beta)1M
最大输出128K tokens
核心优势Adaptive Thinking、精确执行、Agent Teams 并行编排广度分析、Tool Search(省 47% token)、原生 Computer Use
SWE-Bench Pro~45-46%57.7%
编排原语Subagent、Agent Teams、Skills、Hooks无内置编排(需外部工具)
MCP 角色客户端(连接外部工具)客户端 + 服务端(可被调用)
沙箱模式无原生沙箱read-only / workspace-write / danger-full-access
非交互模式claude -p "prompt"codex exec

1.2 盲区互补

Claude Code 盲区Codex 可弥补反之
单一模型视角可能遗漏的 bugGPT-5.4 不同训练数据→不同关注点Opus 4.6 精确推理补充 Codex 的执行偏差
缺乏原生沙箱保护Codex read-only 沙箱确保审查安全Claude Code 的 Hooks 系统提供细粒度控制
编排开销消耗上下文Codex 1M 上下文处理大型代码库分析Claude Code 的 Subagent 隔离上下文避免污染

核心洞察: agent-mux 项目作者的总结——"what Opus misses in a code review, Codex catches"。这不是冗余,而是互补覆盖。两个模型有不同的训练数据和推理偏好,对同一段代码会关注不同的问题。


2. 调用方向:谁调谁?

2.1 结论:Claude Code 作为主控端

推荐 Claude Code 调用 Codex,而非反过来。
评估维度Claude Code → CodexCodex → Claude Code
编排能力★★★★★★★☆☆☆
调用便利性★★★★★★★☆☆☆
结果综合★★★★★★★☆☆☆
上下文管理★★★★★★★☆☆☆
社区验证★★★★★★★☆☆☆

关键理据:

  1. Claude Code 有完整的编排基础设施。Subagent 系统支持自定义代理,可限制工具、配置权限、注入 MCP Server、设置 Hooks。Codex CLI 的 agent-mux 作者明确指出:"Codex's lack of orchestration primitives entirely"。
  2. Codex CLI 天然适合被调用codex exec 就是为非交互式/脚本化调用设计的,支持 --json 输出、--sandbox read-only 沙箱、--ephemeral 无痕执行。
  3. 社区已广泛验证此方向。Drew Hyde 的 "Super Review" Skill、Nathan Onn 的 Plan-Execute 工作流都是 Claude Code 调用 Codex 的实践。

例外: 如果你在 IDE(Zed/JetBrains)中工作,ACP 让两者平等地在编辑器中协作,此时无明确主从关系。


3. 调用方式:直接 CLI vs MCP vs ACP

3.1 三种方式的技术对比

维度直接 CLI (codex exec)MCP ServerACP
设置复杂度低(一条命令)中(需桥接器)
协议标准化
终端原生性完美差(面向编辑器)
上下文开销最低
自动化程度手动触发Claude Code 可自主决定调用时机编辑器驱动

3.2 ACP 到底是什么?

ACP(Agent Client Protocol)是由 Zed 发起(2025年8月)、后由 Zed 和 JetBrains 共同开发的开放标准。核心使命:标准化编辑器/IDE 与编程代理之间的通信,类比 LSP。

ACP separates agents from editors. Agents implement one protocol and work everywhere. Editors adopt one protocol and support every agent.

为什么 ACP 不适合纯终端的 agent-to-agent 场景:

  1. ACP 解决 N×M 问题——N 个 agent × M 个编辑器。但 Claude Code → Codex 是 1:1 关系。
  2. ACP 的核心价值在于 IDE UX——统一的 diff 展示、审批流程、agent 切换。纯终端中无法体现。
  3. 增加了不必要的协议层——需安装 ACP 桥接器包装 Codex,比直接 codex exec 多一层抽象但无额外价值。

3.3 推荐优先级

日常使用: 直接 CLI (codex exec) ← 推荐首选
高频自动调用: MCP Server ← 进阶选择
IDE 工作: ACP ← 仅当使用 Zed/JetBrains 时

4. 具体可执行的配置方案

4.1 方案 A: 直接 CLI 调用(推荐起步)

# 让 Codex 审查当前目录的代码
codex exec -m gpt-5.4 -c model_reasoning_effort=xhigh \
  --sandbox read-only --ephemeral \
  "Review the code in src/ for bugs, security issues, and performance problems"

关键参数:

4.2 方案 B: MCP Server 集成(推荐进阶)

# 使用 Codex 原生 MCP Server
claude mcp add codex -- codex mcp-server

# 或使用社区增强版(更多功能)
claude mcp add codex-cli -- npx -y codex-mcp-server

配置完成后,Claude Code 自动发现 Codex 工具,可在对话中自然使用。

4.3 方案 C: Super Review(双模型独立审查)

核心流程:

  1. Claude Code 先独立审查代码
  2. 通过 Bash 调用 codex exec不传入 Claude 的分析,确保独立性)
  3. 比较两份结果:共同发现=高置信度、仅 Codex 发现=Claude 盲区
  4. 输出综合报告

4.4 方案 D: Plan-Execute-Review 工作流

  1. Codex 规划codex exec 生成详细实现计划(禁止写代码)
  2. Claude Code 实现:按计划精确执行
  3. Codex 验证codex exec 审查 git diff 与原计划的偏差
  4. Claude Code 修正:根据反馈迭代

5. 成本与性能考量

因素直接 CLI 方式MCP Server 方式
API 成本按实际 token 计费同左 + MCP schema 额外 token
延迟Codex exec 启动约 2-5 秒 + 推理时间同左 + MCP 握手开销
上下文消耗Codex 输出回到 Claude Code 主上下文MCP 工具定义占用部分上下文

优化建议: 审查任务用 --sandbox read-only;简单任务用 -c model_reasoning_effort=medium;大型代码库利用 Codex 1M 上下文。


6. 总结与最终建议

6.1 四个核心问题的回答

Q1: 怎样配合更好?
利用各自优势分工:Codex 擅长广度分析、计划制定、代码审查;Claude Code 擅长精确执行、编排协调。两者交叉验证实现盲区互补。

Q2: 谁调谁?
Claude Code 调 Codex 更好。Claude Code 有完整编排基础设施,Codex 的 codex exec 天然适合被编排。

Q3: 直接命令行 vs ACP?
ACP 是编辑器-Agent 标准化协议,核心价值在 IDE 集成。纯终端场景下,直接 CLI 或 MCP Server 是更优选择。

Q4: 具体方案?
从方案 A(直接 CLI)起步 → 升级方案 B(MCP Server)→ 日常使用方案 C/D(Super Review / Plan-Execute-Review)。

6.2 快速上手

# 1. 确保两个工具都已安装
npm i -g @openai/codex

# 2. 验证 Codex 可用
codex exec -m gpt-5.4 --sandbox read-only --ephemeral "Hello, respond with OK"

# 3. (可选)配置 MCP Server
claude mcp add codex -- codex mcp-server

# 4. 开始使用(在 Claude Code 中)
# "请用 codex 帮我审查 src/ 目录的代码"

参考资料

L1 官方文档

L2 官方博客

L3 实践指南

L4 社区项目

调研日期: 2026-03-08 | 数据有效期: 至 2026-06(AI 工具领域 3-6 个月窗口)