如果你把 Hermes Agent 当成又一个 AI 编程助手,就会低估它。
这两年 GitHub 上最不缺的,就是各种 agent。名字一个比一个响,演示一个比一个热闹。点进去看,往往也是差不多的配方:会调工具,会写代码,会跑命令,偶尔还能替你点点网页。看多了,你很容易形成一种条件反射:哦,又来一个。
Hermes 一开始也很容易被扔进这个筐里。
但我看了一圈之后,感觉不太对。它想做的,不只是把眼前这一轮任务干漂亮,而是想让同一个 agent 过几天回来还能接着干,别又从头认人、从头交代、从头铺背景。README 里那句 self-improving AI agent,说白了就是这个意思:它在意的不是这一次答得漂不漂亮,而是下一次见面时,能不能少让我重复。
真正让我停下来的,也不是仓库主页上那串会变动的数字,而是我顺着项目主页和官方架构文档一路看下去之后,心里冒出来的那个念头:这东西想解决的,已经不是“聊天框里多塞几个工具”了。
我们看一个新工具,第一反应往往都很像。
它比我手头那个强在哪?代码改得更快吗?命令跑得更稳吗?网页操作更像人吗?这些问题当然都重要,但它们有个共同前提:我们默认 agent 的价值,发生在“这一轮”。
也就是说,你给它一个任务,它接住了,做完了,这事就算交代了。
Hermes 偏偏不是顺着这个路子往下走的。
在它的 README 里,最显眼的自我描述不是“最强 coding agent”,而是 self-improving AI agent。它反复提 memory、skills、session search、user modeling 这些词。你当然可以把它们当功能点看,但我更在意的是它们背后的心思:它不想做一个用完就散的工具,它想做一个会慢慢记住你的东西。
这一点,正好能接上我以前写过的 《3步辨别真 AI 智能体:定义、工具到成本避坑指南》。那篇文章里我真正想分开的,不是“会不会聊天”,而是“会不会接任务”。聊天机器人最擅长的是把这一句答好。智能体更难的地方,是把这件事接住、往下推、别丢、别忘。
你拿这个尺子回头看 Hermes,就会明白为什么它值得多看一会儿。它明显不满足于“这一轮做完就算了”。
也正因为我这段时间一直在 Claude Code 和 OpenClaw 这些东西之间来回切,Hermes 的位置反而更容易看清。
Claude Code 这类工具,最强的地方是顺。你让它改代码、跑命令、接着上下文往下做,那个手感是顺的。很多时候你要的不是宏大叙事,你要的就是今天这轮别卡、别乱、别拖泥带水。Claude Code 在这一点上很有竞争力。
OpenClaw 吸引人的地方则不太一样。它更像一个调度台。你想怎么编排模型,怎么拆角色,怎么让几个 agent 配合起来,空间很大。你要是喜欢搭系统、做路由、折腾工作流,它很好玩。
Hermes 打动我的,不是这两头里的任何一头。它既不是单纯追求“这一轮更顺”,也不是单纯追求“我能拼出更多机器人”。它更像是在问另一个问题:如果 agent 不只是今天帮我一下,而是以后还要继续跟我配合,那它该怎么活下去?
这个问题一旦问出来,很多东西就都变了。记忆不是锦上添花,而是必须有;技能沉淀不是彩蛋,而是迟早要碰到的事;入口也不该只有命令行一个地方,而应该是我在哪儿找它,它都还能接上。
今天我们拿 Remotion Video 生成视频这件事,其实就很能说明这个区别。那不是一个“让 agent 帮我写一段代码”就结束的动作。前面要先把需求说清,确认要走哪套视频生成路径;中间要调用已有技能、整理素材、改脚本、跑命令、看结果;后面往往还会回过头来继续改字幕、调时长、补资源,甚至换个入口接着追问。这样的任务,如果只看单轮执行,Claude Code 那种“这一轮很顺”的手感会特别好;如果你想自己把多模型、多角色编排成一套生产线,OpenClaw 的空间也更大。但像今天这种会跨步骤、跨工具、跨回合,甚至隔一段时间还要继续追的活,反而更能看出 Hermes 这条路的意思。
因为 Hermes 想接的,本来就不是“这一轮把代码吐出来”这么窄的事,而是把这条工作链尽量接住:你在本地终端里做了一半,回头在 Telegram 里补一句,它最好知道你在说哪一段视频;你今天已经把 Remotion 的路径、偏好和踩坑记下来,下次再做相似任务,它最好别又从零开始。今天这个例子让我更确定,Hermes 真正在争的,不是单次爆发力,而是长期协作里的连续性。
所以如果把选择说得粗一点,其实很好分:
你要把单轮 coding 做顺,优先看 Claude Code。
你要把多机器人、多模型编排起来,优先看 OpenClaw。
你要的是一个跨入口、带记忆、隔几天回来还能接着干的 agent,Hermes 才是更值得优先看的方向。
它不一定更省事。甚至可以说,它大概率更麻烦一点。但它想解决的,也确实不是同一层的问题。
如果 Hermes 真想成为一个长期协作对象,那它就不能只活在命令行里。这也是我觉得它很有意思的第二个地方。
README 里写得很清楚:它支持 CLI,也支持 Telegram、Discord、Slack、WhatsApp、Signal,甚至 Email 这类消息入口。你再顺着文档往下看,会发现消息网关不是随手补上的小功能,而是项目里很认真在搭的一部分。
这事听起来像“多支持几个平台”,但我觉得重点不在“多”,而在“怎么活”。
一个真正会被长期用下去的 agent,不应该只在一台电脑、一个终端窗口里等你。你在手机上丢给它一句话,它最好能接住;你明天回到另一台机器前,它最好也别装作不认识你。否则它再强,也还是一次性的工具。
我自己现在越来越在意的,其实也是这种感觉:别让我老是重来。别每次都重新交代。别刚用顺一点,换个入口就又清零。Hermes 对我有吸引力,很大程度上就是因为它明显在往这个方向使劲。
也正因为它想解决的是这个层面的问题,我看完官方的 Architecture 页之后,才更愿意把它看成一个能长期跑的东西,而不是一个临时拼起来的 demo。
下面这张局部截图,主要是证明一件事:官方确实把 Architecture 和 System Overview 单独拎出来讲了,这不是 README 里随口带过的一段说明。

但光有这张证据图,还不够让人一下子抓住重点。所以我更愿意再把它翻译成一张更好懂的图。
我看完那个架构页之后最大的感受,其实不是“名词真多”,而是它想把东西收在一起。入口很多:命令行、Telegram、Slack、Discord……但它不想让这些入口各玩各的。它想让同一个 agent,在不同地方都还是同一个 agent。
再往下看,也能看出这种意思。浏览器、终端、网页、MCP、文件这些能力,不是散着摆的。记忆、技能、会话搜索、定时任务这些东西,也不是后来硬贴上去的。整个项目在努力做的,是别让 agent 每次都像一张白纸。
从这个角度说,我对 Hermes 最在意的,反而不是它“功能多”。功能多不稀奇。真正稀奇的是,它不像很多项目那样只顾着演示今天这一把有多能打,而是在想:明天怎么办?后天怎么办?换个地方继续用,怎么办?
这也是为什么我会更认真地看它。它显然不是在做一个一次性的炫技项目。
当然,值得看,不等于已经成熟。
Hermes 的麻烦,其实也正出在这里。它想要的东西更大,所以它天然就比“单轮工具”更复杂。入口多了,状态就会多;后端多了,排错就会烦;运行环境一多,很多边角问题也会跟着冒出来。
所以,如果你期待的是一个装上就万事大吉、最好别让我多想的消费级产品,Hermes 可能未必符合那种想象。它给你的不是省心,而是空间。空间越大,折腾的成本通常也越高。
这一点我反而愿意说重一点:它不是一个省心项目。
但也正因为这样,它才更值得被认真看。因为很多项目都只愿意做那种最容易被喜欢的部分,Hermes 却在往那些更难、也更麻烦的地方伸手。
所以,回到最初那个问题:我为什么会认真看 Hermes Agent?
不是因为它已经无可挑剔,也不是因为它现在就比所有同类都更好用。
恰恰相反,我认真看它,是因为它想解决的那个麻烦,确实比“这一轮更会写代码”大得多。
今天很多 agent 项目,仍然在围绕一件事打转:怎么把眼前这轮做得更漂亮。Hermes 当然也关心这一轮,但它明显不想只停在这里。它在意的是,过几天以后,这个 agent 还认不认得你;换个入口以后,它还接不接得上;做成过的事,下次还能不能少走一点回头路。
如果你的需求就停在一次任务,那 Hermes 未必是最短路径。你完全可以选更顺手的工具。
但如果你真的受够了每次都从头教一个 agent,受够了它只在一个窗口里聪明,换个地方就又变傻,那 Hermes 至少在认真朝另一个方向走。
我觉得,这就已经足够值得多看两眼了。