few-shot

#few-shot

从演示到奖励：VLM奖励模型的测试时提示优化

arXiv cs.LG ↗ · 昨天缓存

提出Demo2Reward，一种针对VLM奖励模型的测试时提示优化技术，利用少量专家演示，显著减少误报，并在无需额外模型训练的情况下改进机器人策略学习。

0 人收藏 0 人点赞

#few-shot

从结构化临床数据预测心血管风险的大语言模型

arXiv cs.CL ↗ · 昨天缓存

本文提出了一种混合框架，将结构化临床数据与LLM生成的叙述相结合，用于冠状动脉疾病预测，在变量提取方面实现了高保真度，并比较了机器学习模型与基于LLM的零样本和少样本分类。

0 人收藏 0 人点赞

#few-shot

GraphARC：基于图结构的抽象推理综合基准

arXiv cs.AI ↗ · 2天前缓存

GraphARC是一个针对图结构数据抽象推理的新基准，将ARC范式扩展到图领域。对最新语言模型的评估揭示了理解与执行之间的差距，且在大规模实例上性能下降，凸显了扩展挑战。

0 人收藏 0 人点赞

#few-shot

ACIL: 用于上下文学习的自动Chain-of-Thought

arXiv cs.CL ↗ · 2026-05-19 缓存

本文介绍了ACIL，一种自动Chain-of-Thought框架，通过生成和修剪推理链来增强上下文学习，从而提升LLM在复杂任务上的表现。

0 人收藏 0 人点赞

#few-shot

面向在线患者咨询的可操作分诊分类的小样本大语言模型

arXiv cs.CL ↗ · 2026-05-18 缓存

本文探讨了使用小样本提示的大语言模型对在线患者咨询进行可操作分诊分类，分为自我护理、预约就诊、紧急临床审查或急诊转诊。最佳模型（Claude Haiku 4.5，12次小样本提示）的macro-F1达到0.475，超过了有监督基线，但作者得出结论：LLMs可以支持分诊优先级排序和选择性人工审核，但不能自主部署。

0 人收藏 0 人点赞

#few-shot