HoWToBench：基于写作树结构的全方位 LLM 人类级写作评估

arXiv cs.CL 2026/04/22 04:00 论文

摘要

研究者发布 HoWToBench，一个涵盖 12 种文体、1302 条指令的大规模中文写作基准；同时提出 Tree-of-Writing（ToW）树状评估法，与人工评分的 Pearson 相关系数达 0.93，显著降低 LLM 写作评估中的偏差。

arXiv:2604.19071v1 公告类型：新增摘要：由于写作技能的多维特性及现有指标的局限，评估大语言模型（LLM）的写作能力仍是一大挑战。传统基于参考文本的指标或新兴的“LLM 当裁判”方法，都难以胜任千字级开放式写作的评估。我们提出 Tree-of-Writing（ToW），通过显式建模子特征聚合权重，解决“LLM 当裁判”在文本评估中常见的隐性不一致问题。ToW 采用树状工作流，实现子特征权重的显式聚合。同时发布 HowToBench，一个覆盖 12 种文体、1302 条指令的大规模中文写作基准，包含三类任务：上下文续写、提纲引导写作与开放式生成。ToW 有效缓解偏差，与人工评分的 Pearson 相关系数达 0.93。实验还发现，基于重叠的文本生成指标与主流“LLM 当裁判”做法均易受文本扰动影响，而 ToW 表现出鲁棒性。此外，我们观察到 Guide 任务中输入长度与内容相关得分呈负相关，说明仅靠堆叠输入侧信息并不能简单提升质量。

查看原文

查看缓存全文

缓存时间: 2026/04/22 08:30

# HoWToBench：基于写作之树的大模型人类级写作能力整体评估  
来源：https://arxiv.org/html/2604.19071  
Andrew Zhuoer Feng∗α‡, 王存祥∗βα†, 罗宇α, 范琳β, 周艺霖β, 王子康β, 顾晓涛β, 唐杰α, 王宏宁α, 黄民烈α†  
α清华大学计算机系，βZ.ai  
{fze22, aihuang}@tsinghua.edu.cn，[email protected]  

###### 摘要  
评估大语言模型（LLM）的写作能力仍面临巨大挑战：写作技能本身多维度，且现有指标存在局限。传统基于参考的指标或新兴的“LLM 作裁判”方法，都难以充分评估千字级、开放式写作。我们提出“写作之树”（Tree-of-Writing，ToW），解决 LLM 作裁判在聚合子特征时隐含的“协商不一致”问题。ToW 以树状工作流显式建模子特征权重。我们还发布 HoWToBench，一个大规模中文写作基准，涵盖 **12** 种文体、**1302** 条指令，分“情境补全”“提纲引导”“开放式生成”三类任务。ToW 将偏差降至最低，与人类评分的皮尔逊相关系数达 **0.93**。实验发现，基于重叠的生成指标与主流 LLM 裁判均易受文本扰动影响，而 ToW 保持鲁棒；同时，Guide 任务中输入长度与内容得分呈负相关，说明简单堆叠输入信息并不能提升质量。  

HoWToBench：基于写作之树的大模型人类级写作能力整体评估  
Andrew Zhuoer Feng∗α‡, 王存祥∗βα†, 罗宇α, 范琳β, 周艺霖β, 王子康β, 顾晓涛β, 唐杰α, 王宏宁α, 黄民烈α†  
α清华大学计算机系，βZ.ai  
{fze22, aihuang}@tsinghua.edu.cn，[email protected]  

††脚注：∗同等贡献。†通讯作者。‡A. Z. Feng 在 Z.ai 实习期间完成本工作。  

## 1 引言  
大语言模型（LLM）的进步（Ouyang et al., 2022；Rafailov et al., 2024）革新了 NLP，在文本摘要、机器翻译、对话系统、创意写作等任务上取得突破。然而，自动评估 LLM 生成文本，尤其是复杂开放式写作，仍是关键难题。现有方法多聚焦“显式指令遵循”，即内容是否满足要求，却忽视小说、演讲等需要隐含意图把握的文体。当前做法让 LLM 给出子维度（流畅性、一致性、指令遵循等）分数后简单平均，导致“协商不一致”，评估结果不可信。  

为此，我们提出 ToW 框架，模拟人类决策：将语言、逻辑、情节等关键维度作为叶子节点，由“谈判者”根据文体、任务类型动态设计聚合权重，再按深度优先遍历激活专家代理打分，实现透明、可复现的细粒度评估。  

与既往把写作当“模仿游戏”的基准不同，我们发布 HoWToBench，覆盖 **12** 文体、**1302** 条指令，分 Completion、Guide、Open 三类任务，数据均来自专家手写，最终人工质检通过率 **96.85%**。  

我们在 10 款旗舰模型（Gemini-2.0-flash、GPT-4o-1120/o3-mini、Claude-3.5-Sonnet、DeepSeek-R1/V3 等）上大规模验证，ToW 与人类排序的皮尔逊相关高达 **0.93**。实验还发现：  
- GPT 系列在富上下文（Completion）表现强，但信息受限时骤降；  
- 输入-输出长度正相关，但越长评分反而越低，挑战并非“堆字数”可解；  
- 主流指标与 LLM 裁判易受重复等文风扰动，ToW 保持鲁棒。  

据我们所知，我们是首个跳出“指令遵循”视角、用精心设计的指令评估 LLM 人类级写作能力的团队。数据与代码已开源：https://github.com/ZhuoerFeng/ACL2026-Tree-of-Writing  

## 2 相关研究  
表 1：本文与既往 NLG 及指令遵循工作的对比。Lang=语言，Ref=参考，EN=英文，CN=中文，IF=指令遵循。  

### 2.1 LLM 写作基准  
早期研究多局限在“提示到故事”等狭窄叙事场景。近期基准转向通用生成，强调指令遵循、连贯性、领域知识，却仍难应对开放式写作；且无参考方法常偏爱与裁判自身相似的生成。HoWToBench 首次扩展到 **12** 文体、三类任务，并独立评估格式、内容、主观印象，提供高质量人工参考。  

### 2.2 基于 LLM 的评估  
最新研究利用专有模型通过提示工程或人工标注微调实现自动评分，在摘要等受限任务上超越 BLEU、ROUGE。但在开放式写作中， verbosity bias、positional bias、rubric dependency 削弱其泛化性。虽有工作让 LLM 自生成评估标准，鲁棒性却未验证。详见表 1。  

## 3 评估方法  

### 3.1 写作之树机制  
ToW 将写作评估的层级判断显式建模为树（图 1）。人类评估通常把“总体”拆成细粒度子标准，天然适合深度优先遍历。我们设任务无关的三主节点：  
- 内容 V_C：评估语义质量（连贯、逻辑、丰富、起承转合）；  
- 格式 V_F：评估结构合规（情节、分段、排版）；  
- 印象 V_I：叶子节点，直接捕获整体主观质量。  

根节点 R 通过加权边 E_C、E_F、E_I 连接三主节点；V_C、V_F 可再细分为叶子节点 L_i，边权 w 由谈判者 J_W 按指令动态确定。得分通过 DFS 聚合：  

Score(V_C) = Σ w_{V_C L_i} · Score(L_i)  
Score(V_F) = Σ w_{V_F L_i} · Score(L_i)  
Score(R) = Σ w_{E_j} · Score(V_j)  

### 3.2 打分函数  
不同节点类型采用不同策略：  
- 内容叶子：结合参考与评分表，多 LLM 1-10 分打分（表 9）；  
- 格式叶子：规则+LLM 混合。结构、细节由 LLM 判断；标题层级用 regex 检测，0/5/10 分制（表 10、附录 M）。  

### 3.3 边权重  
对所有叶子……

HoWToBench：基于写作树结构的全方位 LLM 人类级写作评估

相似文章

从基准测试到推理能力：大语言模型在越南法律文本上的双维度大规模评估

Magis-Bench: Evaluating LLMs on Magistrate-Level Legal Tasks

SAGE：基于本体论解释维度的分层大语言模型文学评估

HarDBench：面向安全人机协作写作的起草式越狱攻击基准

基于LLM的自动化评分中可学习的评估技能：通过迭代优化构建评分标准

提交意见反馈