标签
本文介绍了 NATD-GSSL 框架,用于评估图自监督学习在含噪声的文本驱动生物医学图上的鲁棒性。研究表明,尽管存在现实世界的噪声,某些 GNN 架构和 pretext tasks(辅助任务)仍能保持性能,为在不完美数据集上进行无监督学习提供了实用指导。
一位研究者分享其在白菜氮缺乏检测中,使用SSL方法(BYOL、MAE、VICReg)进行高光谱作物胁迫分类时仅获得约50%准确率的困境,寻求关于更适合光谱数据的SSL技术、特征工程和模型架构的建议。
本文提出通过将自监督任务表达为自然语言指令,增强多模态语言模型中的视觉指令调优,从而在不增加架构或标注的情况下提升以视觉为中心的推理能力。通过将经典的自监督预文本任务(如旋转预测、颜色匹配和跨视角对应)重构为图像-指令-响应对,该方法仅需在训练数据中注入3%-10%的视觉化指令,便能在多个基准测试中实现一致的性能提升。
# 论文页面 - TIPSv2:以更强的块-文本对齐推进视觉-语言预训练 来源:[https://huggingface.co/papers/2604.12012](https://huggingface.co/papers/2604.12012) 发布时间:4 月 13 日 · 提交者 [https://huggingface.co/bingyic](https://huggingface.co/bingyic) [](https://huggingface.co/bingyic) [bingyi](https://huggingface.co/bingyic) 于 4 月 20 日 作者:,,,,,,,,,,,,,,,,,## 摘要
本文提出了一种名为自监督提示优化(SPO)的框架,该框架通过输出对比来优化大语言模型的提示词,无需外部参考,显著降低了成本和数据需求。