标签
本文提出了一个用于零样本工业缺陷检测的大规模多模态数据集(MMIO),并介绍了改进文本-视觉提示(RTVP)方法,在该基准上取得了最优结果。
GlucoFM-Bench 评估了用于血糖预测的时间序列基础模型,在15个数据集上展示了Chronos-2和TimesFM在零样本/少样本迁移方面的强劲表现,但指出当完整训练数据可用时,轻量级LSTM的性能更优。
# 悉尼科技大学研究人员对比微调 Transformer 与零样本 LLM 在 Reddit 虚假信息回应分类任务中的表现 悉尼科技大学的研究人员对微调 Transformer 模型(DistilBERT、RoBERTa)与零样本 LLM(Llama 系列、Claude、Gemini)在 Reddit 虚假信息回应分类任务中的性能进行了比较,发现微调后的 RoBERTa 达到了 0.62 的宏观 F1 分数,而最佳零样本模型仅为 0.50。研究表明,针对特定任务的微调优于更大规模的通用模型,在检测信念传播方面尤为突出,同时前沿模型中的安全对齐机制可能会对模型性能产生负面影响。
介绍RESCAST-100K,一个用于跨领域住宅负荷与室内温度预测的大规模基准数据集,包含模拟与真实数据,支持迁移学习、域适应和零样本泛化的评估。
本文介绍了一种基于程序思维提示(Program-of-Thoughts prompting)的零样本图表摘要策略,其中轻量级视觉语言模型(VLMs)生成Python程序来计算统计数据,从而在事实准确性上优于现有方法。
AnyMo是一个几何感知的框架,用于安装无关的人体运动建模,它利用基于物理的IMU模拟和图编码,在零样本活动识别、跨模态检索和运动描述等多个数据集上实现了显著改进。
这篇学术论文探讨了利用大语言模型(LLMs)从零样本预测自发语音中的心理健康评分,评估了12个模型,并实现了与临床指标的高度相关性。
本文介绍了神经规则归纳器(NRI),这是一种用于零样本逻辑规则归纳的基础模型,它利用与领域无关的统计特性,无需重新训练即可跨任务进行泛化。
DiZiNER 是一个利用多个大语言模型之间的分歧来优化零样本命名实体识别任务指令的框架,在18个基准测试中的14个上取得了最先进的结果,并显著缩小了零样本与监督系统之间的性能差距。
研究人员引入了零样本世界模型(Zero-shot World Models, ZWM),该方法在仅使用极少数据(单个幼儿的视觉经验)且无需特定任务训练的情况下,即可达到与最先进模型相当的视觉能力。这项工作展示了通往数据效率可与人类发展学习效率匹敌的AI系统的路径。