适合 <2000 token 的轻量级摘要小模型
摘要
一位新手在尝试用 Qwen2.5-7B-Instruct 给员工笔记做摘要时遭遇幻觉,现求助适用于 2000 token 以内、能合并同类标签的小模型及提示策略。
新手求助:我想给员工笔记做自动摘要。每次有 10–50 条笔记(约 3000–15000 token),已打好标签,需要汇总成 200–1000 token 的通用报告。模型要能判断“过于细节”的内容,并把同一标签下的多条笔记归纳成一类。
我试过 [Qwen/Qwen2.5-7B-Instruct](https://huggingface.co/Qwen/Qwen2.5-7B-Instruct) 加提示词,结果幻觉严重,降 temperature 也没用。针对这种任务,有什么模型和提示策略推荐?
相似文章
利用更优词元加速学习:面向专业文本摘要的参数高效词表适配
本文提出了一种针对专业领域LLM文本摘要的参数高效词表适配方法,通过扩充预训练分词器中的领域专用词元并选择性替换训练不足的词元,将训练时间减少35-55%,参数数量减少高达37%。
更新的Qwen模型在摘要生成方面表现更差?
LLM摘要性能对比显示,Qwen 3在30B参数范围内领先,其次是Gemma 4,而更新的Qwen模型可能针对代理任务进行了优化。
在6GB GPU上进行本地会议总结的最低门槛:qwen3.5:0.8b耗时57秒,Granite 4 350M出现幻觉
作者介绍了VoiceFlow,这是一款开源的本地听写和会议转录工具,并在6GB GPU上对小语言模型(qwen3.5:0.8b和Granite 4 350M)进行了会议总结基准测试,发现0.8B的Qwen可行,而低于500M的模型会出现幻觉。同时,作者向社区寻求在低显存环境下的长上下文总结解决方案。
超小型LLM真的有用吗?
探讨了非常小的语言模型是否能妥善处理日常对话,以及哪些训练因素使它们表现更佳。
通过人类反馈学习总结
OpenAI展示了一种通过在人类偏好上训练奖励模型并使用强化学习微调模型来改进语言模型总结的技术,实现了在数据集间具有良好泛化性能的显著质量提升。这项工作通过大规模人类反馈推进了模型对齐,并具有超越总结任务的应用前景。