HoWToBench:基于写作树结构的全方位 LLM 人类级写作评估

arXiv cs.CL 论文

摘要

研究者发布 HoWToBench,一个涵盖 12 种文体、1302 条指令的大规模中文写作基准;同时提出 Tree-of-Writing(ToW)树状评估法,与人工评分的 Pearson 相关系数达 0.93,显著降低 LLM 写作评估中的偏差。

arXiv:2604.19071v1 公告类型:新增 摘要:由于写作技能的多维特性及现有指标的局限,评估大语言模型(LLM)的写作能力仍是一大挑战。传统基于参考文本的指标或新兴的“LLM 当裁判”方法,都难以胜任千字级开放式写作的评估。我们提出 Tree-of-Writing(ToW),通过显式建模子特征聚合权重,解决“LLM 当裁判”在文本评估中常见的隐性不一致问题。ToW 采用树状工作流,实现子特征权重的显式聚合。同时发布 HowToBench,一个覆盖 12 种文体、1302 条指令的大规模中文写作基准,包含三类任务:上下文续写、提纲引导写作与开放式生成。ToW 有效缓解偏差,与人工评分的 Pearson 相关系数达 0.93。实验还发现,基于重叠的文本生成指标与主流“LLM 当裁判”做法均易受文本扰动影响,而 ToW 表现出鲁棒性。此外,我们观察到 Guide 任务中输入长度与内容相关得分呈负相关,说明仅靠堆叠输入侧信息并不能简单提升质量。
查看原文
查看缓存全文

缓存时间: 2026/04/22 08:30

# HoWToBench:基于写作之树的大模型人类级写作能力整体评估  
来源:https://arxiv.org/html/2604.19071  
Andrew Zhuoer Feng∗α‡, 王存祥∗βα†, 罗宇α, 范琳β, 周艺霖β, 王子康β, 顾晓涛β, 唐杰α, 王宏宁α, 黄民烈α†  
α清华大学计算机系,βZ.ai  
{fze22, aihuang}@tsinghua.edu.cn,[email protected]  

###### 摘要  
评估大语言模型(LLM)的写作能力仍面临巨大挑战:写作技能本身多维度,且现有指标存在局限。传统基于参考的指标或新兴的“LLM 作裁判”方法,都难以充分评估千字级、开放式写作。我们提出“写作之树”(Tree-of-Writing,ToW),解决 LLM 作裁判在聚合子特征时隐含的“协商不一致”问题。ToW 以树状工作流显式建模子特征权重。我们还发布 HoWToBench,一个大规模中文写作基准,涵盖 **12** 种文体、**1302** 条指令,分“情境补全”“提纲引导”“开放式生成”三类任务。ToW 将偏差降至最低,与人类评分的皮尔逊相关系数达 **0.93**。实验发现,基于重叠的生成指标与主流 LLM 裁判均易受文本扰动影响,而 ToW 保持鲁棒;同时,Guide 任务中输入长度与内容得分呈负相关,说明简单堆叠输入信息并不能提升质量。  

HoWToBench:基于写作之树的大模型人类级写作能力整体评估  
Andrew Zhuoer Feng∗α‡, 王存祥∗βα†, 罗宇α, 范琳β, 周艺霖β, 王子康β, 顾晓涛β, 唐杰α, 王宏宁α, 黄民烈α†  
α清华大学计算机系,βZ.ai  
{fze22, aihuang}@tsinghua.edu.cn,[email protected]  

††脚注:∗同等贡献。†通讯作者。‡A. Z. Feng 在 Z.ai 实习期间完成本工作。  

## 1 引言  
大语言模型(LLM)的进步(Ouyang et al., 2022;Rafailov et al., 2024)革新了 NLP,在文本摘要、机器翻译、对话系统、创意写作等任务上取得突破。然而,自动评估 LLM 生成文本,尤其是复杂开放式写作,仍是关键难题。现有方法多聚焦“显式指令遵循”,即内容是否满足要求,却忽视小说、演讲等需要隐含意图把握的文体。当前做法让 LLM 给出子维度(流畅性、一致性、指令遵循等)分数后简单平均,导致“协商不一致”,评估结果不可信。  

为此,我们提出 ToW 框架,模拟人类决策:将语言、逻辑、情节等关键维度作为叶子节点,由“谈判者”根据文体、任务类型动态设计聚合权重,再按深度优先遍历激活专家代理打分,实现透明、可复现的细粒度评估。  

与既往把写作当“模仿游戏”的基准不同,我们发布 HoWToBench,覆盖 **12** 文体、**1302** 条指令,分 Completion、Guide、Open 三类任务,数据均来自专家手写,最终人工质检通过率 **96.85%**。  

我们在 10 款旗舰模型(Gemini-2.0-flash、GPT-4o-1120/o3-mini、Claude-3.5-Sonnet、DeepSeek-R1/V3 等)上大规模验证,ToW 与人类排序的皮尔逊相关高达 **0.93**。实验还发现:  
- GPT 系列在富上下文(Completion)表现强,但信息受限时骤降;  
- 输入-输出长度正相关,但越长评分反而越低,挑战并非“堆字数”可解;  
- 主流指标与 LLM 裁判易受重复等文风扰动,ToW 保持鲁棒。  

据我们所知,我们是首个跳出“指令遵循”视角、用精心设计的指令评估 LLM 人类级写作能力的团队。数据与代码已开源:https://github.com/ZhuoerFeng/ACL2026-Tree-of-Writing  

## 2 相关研究  
表 1:本文与既往 NLG 及指令遵循工作的对比。Lang=语言,Ref=参考,EN=英文,CN=中文,IF=指令遵循。  

### 2.1 LLM 写作基准  
早期研究多局限在“提示到故事”等狭窄叙事场景。近期基准转向通用生成,强调指令遵循、连贯性、领域知识,却仍难应对开放式写作;且无参考方法常偏爱与裁判自身相似的生成。HoWToBench 首次扩展到 **12** 文体、三类任务,并独立评估格式、内容、主观印象,提供高质量人工参考。  

### 2.2 基于 LLM 的评估  
最新研究利用专有模型通过提示工程或人工标注微调实现自动评分,在摘要等受限任务上超越 BLEU、ROUGE。但在开放式写作中, verbosity bias、positional bias、rubric dependency 削弱其泛化性。虽有工作让 LLM 自生成评估标准,鲁棒性却未验证。详见表 1。  

## 3 评估方法  

### 3.1 写作之树机制  
ToW 将写作评估的层级判断显式建模为树(图 1)。人类评估通常把“总体”拆成细粒度子标准,天然适合深度优先遍历。我们设任务无关的三主节点:  
- 内容 V_C:评估语义质量(连贯、逻辑、丰富、起承转合);  
- 格式 V_F:评估结构合规(情节、分段、排版);  
- 印象 V_I:叶子节点,直接捕获整体主观质量。  

根节点 R 通过加权边 E_C、E_F、E_I 连接三主节点;V_C、V_F 可再细分为叶子节点 L_i,边权 w 由谈判者 J_W 按指令动态确定。得分通过 DFS 聚合:  

Score(V_C) = Σ w_{V_C L_i} · Score(L_i)  
Score(V_F) = Σ w_{V_F L_i} · Score(L_i)  
Score(R) = Σ w_{E_j} · Score(V_j)  

### 3.2 打分函数  
不同节点类型采用不同策略:  
- 内容叶子:结合参考与评分表,多 LLM 1-10 分打分(表 9);  
- 格式叶子:规则+LLM 混合。结构、细节由 LLM 判断;标题层级用 regex 检测,0/5/10 分制(表 10、附录 M)。  

### 3.3 边权重  
对所有叶子……

相似文章

SAGE:基于本体论解释维度的分层大语言模型文学评估

arXiv cs.CL

本文介绍了 SAGE,这是一个基于分层大语言模型的框架,通过基于本体的解释维度来评估文学质量。它在评估叙事的文化、情感和哲学方面表现出高可靠性和评分者间一致性,凸显了人类创作作品与大语言模型生成作品之间的差距。