@AntCaveClub: Harness 到底是什么 Harness = 评测框架（Evaluation Harness）。在AI领域，"harness"是行业黑话——指一套用来"套住"模型、跑标准化评测的工具。行业标准品是 EleutherAI 的 lm-e…

X AI KOLs Timeline 2026/06/21 13:12 新闻

ai-evaluation harness deepseek benchmarking open-source training-loop career

摘要

本文深入解释AI领域评测框架（Harness）的重要性，分析DeepSeek自建Harness团队的战略意义，并对比了开源lm-evaluation-harness与自建系统的区别。

Harness 到底是什么 Harness = 评测框架（Evaluation Harness）。在AI领域，"harness"是行业黑话——指一套用来"套住"模型、跑标准化评测的工具。行业标准品是 EleutherAI 的 lm-evaluation-harness（GitHub 14K+ stars），几乎所有开源模型跑 MMLU、GSM8K、HumanEval 都用它。 DeepSeek Harness = DeepSeek 自建的评测框架。职位有三个：研究员（设计评测方法论）、工程师（搭系统）、产品经理（对外产品化）——这是一个从方法论到工程到产品的完整团队编制，不是实习生搞的副线项目。 --- 它重要吗？极度重要。重要程度可能是你看到的DeepSeek招聘里被低估最高的一个岗。原因： 1. 没有评测框架，一个AI lab就是瞎子你训练一个新模型。你怎么知道它比上一个版本好？ - "我觉得它回答得更好了" → 没有用 - "HumanEval分数从82%涨到85%" → 这才是能用的结论没有自己的harness，你只能用别人的公开基准。问题在于： 2. 公开基准已经被污染 MMLU、GSM8K、HumanEval 这些公开benchmark，所有模型都在对着它们优化。等于全世界的学生都在背同一套考卷的答案——你考100分不说明你聪明，说明你背得好。 DeepSeek需要自己的私有基准、私有评测集、私有评分系统。这就是 Harness 组的使命。 3. 评测是训练闭环的核心训练模型 → 跑评测 → 分析短板 → 改训练策略 → 再训练 → 再评测。这个循环跑得快不快，取决于你的harness有多强。如果你的harness能自动化跑100个私有评测集，10分钟出结果，你的迭代速度就碾压那些还在手动跑MMLU的团队。 4. 他们现在缺人，说明正在加速 "每天都在面试+到处贴小广告" → 这个组正在从0到1组建。说明DeepSeek判断：现有的评测能力不够用了。这背后意味着：DeepSeek可能在准备更大的模型，需要更复杂的评测体系来支撑。 --- 我有吗？Hermes有吗？ Hermes有，但不是DeepSeek那个级别的。 Hermes 有一个 evaluating-llms-harness 技能（存在于技能目录，但可能没本地安装），用的是 EleutherAI 的 lm-evaluation-harness——公开版、开源、社区维护的那种。区别：谁维护 • EleutherAI lm-eval-harness: 开源社区 • DeepSeek Harness: DeepSeek 自有团队评测集 • EleutherAI lm-eval-harness: 公开的（MMLU/GSM8K等） • DeepSeek Harness: 很可能含私有评测集可定制性 • EleutherAI lm-eval-harness: 一般，社区插件机制 • DeepSeek Harness: 完全定制，想怎么测就怎么测实时性 • EleutherAI lm-eval-harness: 社区更新速度 • DeepSeek Harness: 内部需求驱动，迭代更快战略价值 • EleutherAI lm-eval-harness: 工具 • DeepSeek Harness: 核心竞争力的一部分 Hermes用的就是lm-eval-harness那个级别——个人开发者/小团队够用了，跟DeepSeek自建的不是一个量级。 --- DeepSeek之前没有吗？大概率之前有"人能跑评测"但没"专用团队+产品化"。很多AI lab的早期阶段是这样的： - 研究员A写了个Python脚本跑MMLU - 研究员B自己fork了lm-eval-harness改了改 - 研究员C又自己写了一套 - 结果每个人的评测结果对不上，没人知道哪个版本的模型是真的进步了当 lab 成长到 DeepSeek 这个规模时（对标 OpenAI/Anthropic 级别的严肃竞争），必须有一个人的Harness团队。所以这个招聘释放的信号： DeepSeek在从"实验室出品"升级到"工业化评测系统" --- 谁在用？所有严肃的AI lab都在用或自建harness： OpenAI • 用什么: 自建 • 状态: 最早自建评测系统，SimpleEvals等 Anthropic • 用什么: 自建 • 状态: 有内部私有基准集 Google DeepMind • 用什么: 自建 • 状态: BIG-Bench 出自他们 Meta (FAIR) • 用什么: lm-eval-harness + 自建 • 状态: 开源+自建混合 Mistral • 用什么: lm-eval-harness + 自建 • 状态: 同上 DeepSeek • 用什么: 正在组建 Harness 组 • 状态: 从混合模式转向完全自建个人/小团队 • 用什么: lm-eval-harness • 状态: 够用 --- 对你意味着什么如果你想投DeepSeek，这三个岗值得认真考虑： - Harness研究员 → 适合学术背景，做评测方法论设计（怎么测才准、怎么避免数据泄露、怎么设计私有基准） - Harness工程师 → 适合工程背景，搭分布式评测系统、自动化流水线、可视化面板 - Harness产品经理 → 适合懂AI+懂产品的人，把评测系统变成一个对内对外都好用的产品关键信息： - 终面是他本人 → 面试权重高 - 一轮笔试+三轮面试 → 标准DeepSeek流程，笔试刷人狠 - 研究员实习全职均可 → 门槛友好，证明急招 --- 一句话：Harness 是 AI lab 的「测量仪」。没有它，你就是在闭着眼睛造火箭。DeepSeek在认真组建这个团队，说明他们要造的不是小火箭。

查看原文

查看缓存全文

缓存时间: 2026/06/22 07:40

Harness 到底是什么

Harness = 评测框架（Evaluation Harness）。

在AI领域，“harness“是行业黑话——指一套用来“套住“模型、跑标准化评测的工具。

行业标准品是 EleutherAI 的 lm-evaluation-harness（GitHub 14K+ stars），几乎所有开源模型跑 MMLU、GSM8K、HumanEval 都用它。

DeepSeek Harness = DeepSeek 自建的评测框架。

职位有三个：研究员（设计评测方法论）、工程师（搭系统）、产品经理（对外产品化）——这是一个从方法论到工程到产品的完整团队编制，不是实习生搞的副线项目。

它重要吗？

极度重要。重要程度可能是你看到的DeepSeek招聘里被低估最高的一个岗。

原因：

没有评测框架，一个AI lab就是瞎子

你训练一个新模型。你怎么知道它比上一个版本好？

“我觉得它回答得更好了” → 没有用
“HumanEval分数从82%涨到85%” → 这才是能用的结论

没有自己的harness，你只能用别人的公开基准。问题在于：

公开基准已经被污染

MMLU、GSM8K、HumanEval 这些公开benchmark，所有模型都在对着它们优化。等于全世界的学生都在背同一套考卷的答案——你考100分不说明你聪明，说明你背得好。

DeepSeek需要自己的私有基准、私有评测集、私有评分系统。这就是 Harness 组的使命。

评测是训练闭环的核心

训练模型 → 跑评测 → 分析短板 → 改训练策略 → 再训练 → 再评测。

这个循环跑得快不快，取决于你的harness有多强。如果你的harness能自动化跑100个私有评测集，10分钟出结果，你的迭代速度就碾压那些还在手动跑MMLU的团队。

他们现在缺人，说明正在加速

“每天都在面试+到处贴小广告” → 这个组正在从0到1组建。说明DeepSeek判断：现有的评测能力不够用了。

这背后意味着：DeepSeek可能在准备更大的模型，需要更复杂的评测体系来支撑。

我有吗？Hermes有吗？

Hermes有，但不是DeepSeek那个级别的。

Hermes 有一个 evaluating-llms-harness 技能（存在于技能目录，但可能没本地安装），用的是 EleutherAI 的 lm-evaluation-harness——公开版、开源、社区维护的那种。

区别：

谁维护 • EleutherAI lm-eval-harness: 开源社区 • DeepSeek Harness: DeepSeek 自有团队

评测集 • EleutherAI lm-eval-harness: 公开的（MMLU/GSM8K等） • DeepSeek Harness: 很可能含私有评测集

可定制性 • EleutherAI lm-eval-harness: 一般，社区插件机制 • DeepSeek Harness: 完全定制，想怎么测就怎么测

实时性 • EleutherAI lm-eval-harness: 社区更新速度 • DeepSeek Harness: 内部需求驱动，迭代更快

战略价值 • EleutherAI lm-eval-harness: 工具 • DeepSeek Harness: 核心竞争力的一部分

Hermes用的就是lm-eval-harness那个级别——个人开发者/小团队够用了，跟DeepSeek自建的不是一个量级。

DeepSeek之前没有吗？

大概率之前有“人能跑评测“但没“专用团队+产品化“。

很多AI lab的早期阶段是这样的：

研究员A写了个Python脚本跑MMLU
研究员B自己fork了lm-eval-harness改了改
研究员C又自己写了一套
结果每个人的评测结果对不上，没人知道哪个版本的模型是真的进步了

当 lab 成长到 DeepSeek 这个规模时（对标 OpenAI/Anthropic 级别的严肃竞争），必须有一个人的Harness团队。

所以这个招聘释放的信号： DeepSeek在从“实验室出品“升级到“工业化评测系统“

谁在用？

所有严肃的AI lab都在用或自建harness：

OpenAI • 用什么: 自建 • 状态: 最早自建评测系统，SimpleEvals等

Anthropic • 用什么: 自建 • 状态: 有内部私有基准集

Google DeepMind • 用什么: 自建 • 状态: BIG-Bench 出自他们

Meta (FAIR) • 用什么: lm-eval-harness + 自建 • 状态: 开源+自建混合

Mistral • 用什么: lm-eval-harness + 自建 • 状态: 同上

DeepSeek • 用什么: 正在组建 Harness 组 • 状态: 从混合模式转向完全自建

个人/小团队 • 用什么: lm-eval-harness • 状态: 够用

对你意味着什么

如果你想投DeepSeek，这三个岗值得认真考虑：

Harness研究员 → 适合学术背景，做评测方法论设计（怎么测才准、怎么避免数据泄露、怎么设计私有基准）
Harness工程师 → 适合工程背景，搭分布式评测系统、自动化流水线、可视化面板
Harness产品经理 → 适合懂AI+懂产品的人，把评测系统变成一个对内对外都好用的产品

关键信息：

终面是他本人 → 面试权重高
一轮笔试+三轮面试 → 标准DeepSeek流程，笔试刷人狠
研究员实习全职均可 → 门槛友好，证明急招

一句话：Harness 是 AI lab 的「测量仪」。没有它，你就是在闭着眼睛造火箭。DeepSeek在认真组建这个团队，说明他们要造的不是小火箭。

Tianyi Cui (@tianyi): 作为新成立的部门，DeepSeek Harness 组的目标远大、工作繁重，仍然非常缺人。我每天都在面试，以及各种地方张贴小广告……一共有三种职位：

Harness 研究员（实习全职均可）：https://t.co/7oV3DVuPfH Harness 工程师（全职实习均可）：https://t.co/b9HjmV3J8I Harness

相似文章

@astaxie: 今天群里面讨论怎么样学习 Harness，Harness 工程我学习这两个： 1. https://github.com/walkinglabs/learn-harness-engineering… 通过这个了解每一个 Harness 的…

X AI KOLs Timeline

A project-based course repository on Harness Engineering for AI coding agents, covering environment setup, state management, verification, and control mechanisms to make AI coding agents work reliably. The course synthesizes best practices from OpenAI and Anthropic on building effective harnesses for long-running agents.

@sairahul1: https://x.com/sairahul1/status/2063544956158185927

X AI KOLs Timeline

本文介绍了“Harness Engineering”这一概念，这是一门专注于设计约束和引导AI代理的系统，使其在生产中可靠的学科，并认为Harness（约束系统）比模型本身更重要。

@xiaogaifun: 讲 Harness 最透彻的一个演讲。这应该是我看到过的、关于 Harness Engineering 最透彻的一次分享，推荐大家看一下。视频链接：https://podwise.ai/dashboard/episodes/80132…

X AI KOLs Timeline

这篇文章通过IBM工程师Tejas Kumar的演讲，深入讲解了Harness Engineering的概念，即通过为AI Agent添加确定性基础设施（如工具注册表、上下文管理、护栏和验证循环）来解决模型失控和幻觉问题，确保Agent稳定执行任务。

@NFTCPS: HarnessX这玩意儿挺有意思：一个能自己改自己的智能体架构。以前架构怎么变，全靠人手调。新模型一出，Anthropic就把Claude Code里的规划步骤砍了，Manus半年重构了五次智能体，每次都在做减法。改什么、什么时候改，一…

X AI KOLs Timeline

HarnessX introduces a framework for self-evolving AI agent harnesses that treats the runtime harness as a first-class object, enabling automatic adaptation via trace-driven reinforcement learning. It achieves average gains of +14.5% across five benchmarks, with larger improvements for weaker models.

@Potatoloogs: https://x.com/Potatoloogs/status/2057391224592667051

X AI KOLs Timeline

本文深度拆解了Agent Harness的概念，即包裹在LLM外部的工程基础设施，包括编排循环、工具调用、记忆系统、上下文管理等12个组件。文章引用Anthropic、OpenAI、LangChain等公司的实践，论证了harness对生产级AI Agent的关键作用。

所以这个招聘释放的信号： DeepSeek在从“实验室出品“升级到“工业化评测系统“

相似文章

@astaxie: 今天群里面讨论怎么样学习 Harness，Harness 工程我学习这两个： 1. https://github.com/walkinglabs/learn-harness-engineering… 通过这个了解每一个 Harness 的…

@sairahul1: https://x.com/sairahul1/status/2063544956158185927

@xiaogaifun: 讲 Harness 最透彻的一个演讲。 这应该是我看到过的、关于 Harness Engineering 最透彻的一次分享，推荐大家看一下。 视频链接：https://podwise.ai/dashboard/episodes/80132…

@Potatoloogs: https://x.com/Potatoloogs/status/2057391224592667051

提交意见反馈

@xiaogaifun: 讲 Harness 最透彻的一个演讲。这应该是我看到过的、关于 Harness Engineering 最透彻的一次分享，推荐大家看一下。视频链接：https://podwise.ai/dashboard/episodes/80132…