标签
提出Demo2Reward,一种针对VLM奖励模型的测试时提示优化技术,利用少量专家演示,显著减少误报,并在无需额外模型训练的情况下改进机器人策略学习。
本文提出了一种混合框架,将结构化临床数据与LLM生成的叙述相结合,用于冠状动脉疾病预测,在变量提取方面实现了高保真度,并比较了机器学习模型与基于LLM的零样本和少样本分类。
GraphARC是一个针对图结构数据抽象推理的新基准,将ARC范式扩展到图领域。对最新语言模型的评估揭示了理解与执行之间的差距,且在大规模实例上性能下降,凸显了扩展挑战。
本文介绍了ACIL,一种自动Chain-of-Thought框架,通过生成和修剪推理链来增强上下文学习,从而提升LLM在复杂任务上的表现。
本文探讨了使用小样本提示的大语言模型对在线患者咨询进行可操作分诊分类,分为自我护理、预约就诊、紧急临床审查或急诊转诊。最佳模型(Claude Haiku 4.5,12次小样本提示)的macro-F1达到0.475,超过了有监督基线,但作者得出结论:LLMs可以支持分诊优先级排序和选择性人工审核,但不能自主部署。
FFAvatar提出了一种前馈框架,能在数秒内从少量非摆拍图像中重建高质量、可动画的3D高斯头部头像,在NeRSemble基准测试上相比现有最优方法实现了5.5 PSNR的提升。
FEST是一种少样本演示引导的强化学习算法,通过结合监督信号、在线策略学习和加权训练以防止过拟合,仅需极少的监督微调数据即可实现强劲性能。
独立研究表明,在 3B Llama 的工具使用中,227M 参数的超网络相比精心设计的少样本提示毫无增益,仅用 1/10 延迟即可达到 GPT-5 性能的 79.7%。
FSPO提出了一种用于大语言模型个性化的少样本偏好优化算法,该算法将奖励建模重新定义为元学习,使模型能够从有限的用户偏好中快速推断出个性化的奖励函数。该方法通过精心构建合成偏好数据集,在合成用户上实现了87%的个性化性能,在真实用户上实现了70%的个性化性能。