HoWToBench:基于写作树结构的全方位 LLM 人类级写作评估
摘要
研究者发布 HoWToBench,一个涵盖 12 种文体、1302 条指令的大规模中文写作基准;同时提出 Tree-of-Writing(ToW)树状评估法,与人工评分的 Pearson 相关系数达 0.93,显著降低 LLM 写作评估中的偏差。
查看缓存全文
缓存时间: 2026/04/22 08:30
# HoWToBench:基于写作之树的大模型人类级写作能力整体评估
来源:https://arxiv.org/html/2604.19071
Andrew Zhuoer Feng∗α‡, 王存祥∗βα†, 罗宇α, 范琳β, 周艺霖β, 王子康β, 顾晓涛β, 唐杰α, 王宏宁α, 黄民烈α†
α清华大学计算机系,βZ.ai
{fze22, aihuang}@tsinghua.edu.cn,[email protected]
###### 摘要
评估大语言模型(LLM)的写作能力仍面临巨大挑战:写作技能本身多维度,且现有指标存在局限。传统基于参考的指标或新兴的“LLM 作裁判”方法,都难以充分评估千字级、开放式写作。我们提出“写作之树”(Tree-of-Writing,ToW),解决 LLM 作裁判在聚合子特征时隐含的“协商不一致”问题。ToW 以树状工作流显式建模子特征权重。我们还发布 HoWToBench,一个大规模中文写作基准,涵盖 **12** 种文体、**1302** 条指令,分“情境补全”“提纲引导”“开放式生成”三类任务。ToW 将偏差降至最低,与人类评分的皮尔逊相关系数达 **0.93**。实验发现,基于重叠的生成指标与主流 LLM 裁判均易受文本扰动影响,而 ToW 保持鲁棒;同时,Guide 任务中输入长度与内容得分呈负相关,说明简单堆叠输入信息并不能提升质量。
HoWToBench:基于写作之树的大模型人类级写作能力整体评估
Andrew Zhuoer Feng∗α‡, 王存祥∗βα†, 罗宇α, 范琳β, 周艺霖β, 王子康β, 顾晓涛β, 唐杰α, 王宏宁α, 黄民烈α†
α清华大学计算机系,βZ.ai
{fze22, aihuang}@tsinghua.edu.cn,[email protected]
††脚注:∗同等贡献。†通讯作者。‡A. Z. Feng 在 Z.ai 实习期间完成本工作。
## 1 引言
大语言模型(LLM)的进步(Ouyang et al., 2022;Rafailov et al., 2024)革新了 NLP,在文本摘要、机器翻译、对话系统、创意写作等任务上取得突破。然而,自动评估 LLM 生成文本,尤其是复杂开放式写作,仍是关键难题。现有方法多聚焦“显式指令遵循”,即内容是否满足要求,却忽视小说、演讲等需要隐含意图把握的文体。当前做法让 LLM 给出子维度(流畅性、一致性、指令遵循等)分数后简单平均,导致“协商不一致”,评估结果不可信。
为此,我们提出 ToW 框架,模拟人类决策:将语言、逻辑、情节等关键维度作为叶子节点,由“谈判者”根据文体、任务类型动态设计聚合权重,再按深度优先遍历激活专家代理打分,实现透明、可复现的细粒度评估。
与既往把写作当“模仿游戏”的基准不同,我们发布 HoWToBench,覆盖 **12** 文体、**1302** 条指令,分 Completion、Guide、Open 三类任务,数据均来自专家手写,最终人工质检通过率 **96.85%**。
我们在 10 款旗舰模型(Gemini-2.0-flash、GPT-4o-1120/o3-mini、Claude-3.5-Sonnet、DeepSeek-R1/V3 等)上大规模验证,ToW 与人类排序的皮尔逊相关高达 **0.93**。实验还发现:
- GPT 系列在富上下文(Completion)表现强,但信息受限时骤降;
- 输入-输出长度正相关,但越长评分反而越低,挑战并非“堆字数”可解;
- 主流指标与 LLM 裁判易受重复等文风扰动,ToW 保持鲁棒。
据我们所知,我们是首个跳出“指令遵循”视角、用精心设计的指令评估 LLM 人类级写作能力的团队。数据与代码已开源:https://github.com/ZhuoerFeng/ACL2026-Tree-of-Writing
## 2 相关研究
表 1:本文与既往 NLG 及指令遵循工作的对比。Lang=语言,Ref=参考,EN=英文,CN=中文,IF=指令遵循。
### 2.1 LLM 写作基准
早期研究多局限在“提示到故事”等狭窄叙事场景。近期基准转向通用生成,强调指令遵循、连贯性、领域知识,却仍难应对开放式写作;且无参考方法常偏爱与裁判自身相似的生成。HoWToBench 首次扩展到 **12** 文体、三类任务,并独立评估格式、内容、主观印象,提供高质量人工参考。
### 2.2 基于 LLM 的评估
最新研究利用专有模型通过提示工程或人工标注微调实现自动评分,在摘要等受限任务上超越 BLEU、ROUGE。但在开放式写作中, verbosity bias、positional bias、rubric dependency 削弱其泛化性。虽有工作让 LLM 自生成评估标准,鲁棒性却未验证。详见表 1。
## 3 评估方法
### 3.1 写作之树机制
ToW 将写作评估的层级判断显式建模为树(图 1)。人类评估通常把“总体”拆成细粒度子标准,天然适合深度优先遍历。我们设任务无关的三主节点:
- 内容 V_C:评估语义质量(连贯、逻辑、丰富、起承转合);
- 格式 V_F:评估结构合规(情节、分段、排版);
- 印象 V_I:叶子节点,直接捕获整体主观质量。
根节点 R 通过加权边 E_C、E_F、E_I 连接三主节点;V_C、V_F 可再细分为叶子节点 L_i,边权 w 由谈判者 J_W 按指令动态确定。得分通过 DFS 聚合:
Score(V_C) = Σ w_{V_C L_i} · Score(L_i)
Score(V_F) = Σ w_{V_F L_i} · Score(L_i)
Score(R) = Σ w_{E_j} · Score(V_j)
### 3.2 打分函数
不同节点类型采用不同策略:
- 内容叶子:结合参考与评分表,多 LLM 1-10 分打分(表 9);
- 格式叶子:规则+LLM 混合。结构、细节由 LLM 判断;标题层级用 regex 检测,0/5/10 分制(表 10、附录 M)。
### 3.3 边权重
对所有叶子……相似文章
从基准测试到推理能力:大语言模型在越南法律文本上的双维度大规模评估
为大语言模型在越南法律文本简化任务上提出了一个综合的双维度评估框架,结合了定量基准测试(准确性、可读性、一致性)和跨 GPT-4o、Claude 3 Opus、Gemini 1.5 Pro 和 Grok-1 的定性错误分析。
Magis-Bench: Evaluating LLMs on Magistrate-Level Legal Tasks
This article introduces Magis-Bench, a benchmark for evaluating large language models on magistrate-level legal tasks such as judicial reasoning and sentence drafting, using data from Brazilian judicial exams.
SAGE:基于本体论解释维度的分层大语言模型文学评估
本文介绍了 SAGE,这是一个基于分层大语言模型的框架,通过基于本体的解释维度来评估文学质量。它在评估叙事的文化、情感和哲学方面表现出高可靠性和评分者间一致性,凸显了人类创作作品与大语言模型生成作品之间的差距。
HarDBench:面向安全人机协作写作的起草式越狱攻击基准
研究者推出 HarDBench 基准,揭示 LLM 在协作写作中因恶意草稿被越狱的风险,并提出基于偏好优化的防御方法,在不影响协作实用性的前提下显著降低有害输出。
基于LLM的自动化评分中可学习的评估技能:通过迭代优化构建评分标准
本文提出为LLM学习评估技能,以自动化评分任务的评分标准构建,达到与专家编写的评分标准相当的性能,且无需人工编写的示例。