few-shot

#few-shot

@FinanceYF5: 天啊……Fable 5 回来了，而且强得离谱。有人让 Fable 做了一款叫《超级智能竞速赛》的游戏…… 只用了 4 个提示词，花了价值 173 美元的 token，Fable 5 就做出了这个游戏。（提示词在下方）

X AI KOLs Timeline ↗ · 2026-07-02 缓存

Fable 5 模型仅通过4个提示词和173美元token就制作了一款名为《超级智能竞速赛》的游戏，展示了极强的生成能力。

0 人收藏 0 人点赞

#few-shot

当重排序适得其反：基于不确定性的少样本重排序门控方法

arXiv cs.CL ↗ · 2026-07-01 缓存

本文挑战了重排序总是能提升少样本选择性能的假设，提出了一种无需训练的门控重排序方法，该方法利用模型不确定性来决定何时进行重排序，从而将计算成本降低15%至80%，同时略微提升性能。

0 人收藏 0 人点赞

#few-shot

比较BERT句子对分类与少样本大语言模型提示在德语气候新闻中检测威胁与解决方案框架

arXiv cs.CL ↗ · 2026-06-26 缓存

本文比较了微调BERT（gbert-large）与少样本大语言模型提示（Llama 4 Maverick）在德语气候新闻句子中检测威胁与解决方案框架的效果。BERT获得了更高的F1分数（0.83 vs 0.78），消融研究表明提供前一句上下文可提升性能。

0 人收藏 0 人点赞

#few-shot

AnySimLite: 一种轻量级少样本相似度编码器用于设备端语音相关分类

arXiv cs.CL ↗ · 2026-06-26 缓存

介绍 AnySimLite，一种用于设备端语音相关分类任务的轻量级相似度编码器，在模型大小不到 qLLaMA-LoRA-7B 基线的 1/250 的情况下，实现了最先进或具有竞争力的性能。

0 人收藏 0 人点赞

#few-shot

大语言模型能否可靠识别失语症语篇中的正确信息单元？

arXiv cs.AI ↗ · 2026-06-16 缓存

本研究探究了经过指令微调的大语言模型（Llama-3.1-8B、Qwen2.5-7B、Mistral-7B、Phi-3-mini）能否可靠地分类失语症语篇转录中的正确信息单元。少样本提示使三个模型获得了具有竞争力的F1分数（0.776–0.817），但性能因严重程度而异，且与人类标注的一致性仍不足以实现完全自主使用。

0 人收藏 0 人点赞

#few-shot

基于大语言模型的少样本生物医学关系抽取：监督学习的可行替代方案？

arXiv cs.CL ↗ · 2026-06-16 缓存

本文研究了使用基于提示学习的大语言模型进行少样本生物医学关系抽取，比较了配对分类和联合生成两种方法。最佳模型实现了0.44的微F1值，显著优于此前的少样本结果，但仍低于监督基线。在宏F1值上，基于提示的方法在稀有关系类型上超越了监督基线，达到了0.45比0.38。

0 人收藏 0 人点赞

#few-shot

PrintGuard 2.0 — ShuffleNetV2 + 少样本原型网络，通过 LiteRT 的 TFLite，约 5 MB，可在浏览器（Pyodide）和 CPython 上无需修改直接运行 [P]

Reddit r/MachineLearning ↗ · 2026-06-15

PrintGuard 2.0 是对基于 ShuffleNetV2 骨干网络和原型网络的少样本 FDM 故障检测器的重大重写，现在通过平台抽象层实现了单一 Python 引擎，可在 CPython 和浏览器中的 Pyodide 上无需修改运行，支持每台打印机的灵敏度调整和公平推理调度。

0 人收藏 0 人点赞

#few-shot

超越金牌教师：通过LLM-GNN协同教学增强图学习

arXiv cs.LG ↗ · 2026-06-11 缓存

本文提出LLM-GNN协同教学（LLM-GNN Co-Teaching），一种面向文本属性图的小样本图学习的双向框架。LLM和GNN交换高置信度的伪标签，并利用基于轮次的偏好优化（RPL-PO）相互改进，在基准测试上优于先前方法。

0 人收藏 0 人点赞

#few-shot

从演示到奖励：VLM奖励模型的测试时提示优化

arXiv cs.LG ↗ · 2026-06-02 缓存

提出Demo2Reward，一种针对VLM奖励模型的测试时提示优化技术，利用少量专家演示，显著减少误报，并在无需额外模型训练的情况下改进机器人策略学习。

0 人收藏 0 人点赞

#few-shot

从结构化临床数据预测心血管风险的大语言模型

arXiv cs.CL ↗ · 2026-06-02 缓存

本文提出了一种混合框架，将结构化临床数据与LLM生成的叙述相结合，用于冠状动脉疾病预测，在变量提取方面实现了高保真度，并比较了机器学习模型与基于LLM的零样本和少样本分类。

0 人收藏 0 人点赞

#few-shot

GraphARC：基于图结构的抽象推理综合基准

arXiv cs.AI ↗ · 2026-06-01 缓存

GraphARC是一个针对图结构数据抽象推理的新基准，将ARC范式扩展到图领域。对最新语言模型的评估揭示了理解与执行之间的差距，且在大规模实例上性能下降，凸显了扩展挑战。

0 人收藏 0 人点赞

#few-shot

ACIL: 用于上下文学习的自动Chain-of-Thought

arXiv cs.CL ↗ · 2026-05-19 缓存

本文介绍了ACIL，一种自动Chain-of-Thought框架，通过生成和修剪推理链来增强上下文学习，从而提升LLM在复杂任务上的表现。

0 人收藏 0 人点赞

#few-shot

面向在线患者咨询的可操作分诊分类的小样本大语言模型

arXiv cs.CL ↗ · 2026-05-18 缓存

本文探讨了使用小样本提示的大语言模型对在线患者咨询进行可操作分诊分类，分为自我护理、预约就诊、紧急临床审查或急诊转诊。最佳模型（Claude Haiku 4.5，12次小样本提示）的macro-F1达到0.475，超过了有监督基线，但作者得出结论：LLMs可以支持分诊优先级排序和选择性人工审核，但不能自主部署。

0 人收藏 0 人点赞

#few-shot