标签
Step 3.7 Flash 是一款紧凑型模型,能够处理视觉、实时数据检索和代码生成,从一张截图开始,在几分钟内自主构建一个可用的仪表盘,每次会话成本约为50美分。
一项对比指出,Google 的 Gemini 在视觉和世界知识任务上优于 Anthropic 的 Claude。
Mistral OCR 4 已发布,带边界框这一被高度要求的功能。用户将其用于表单填充测试,发现效果不错,但并非完美。
本文介绍了本地视觉语言模型基准测试的第二次更新,比较了23个模型在30张图像上的表现(使用修订设置),并为不同VRAM层级提供了性能建议。主要发现包括:推理模式会损害视觉性能,且MoE模型在感知任务上表现不如密集模型。
引入了视觉时域差分(TDV),这是一种全新的表示学习范式,仅依赖于因果关系,无需数据增强、掩码或裁剪,并在密集空间任务上达到了与DINO和iBOT等最先进方法相当的性能。
介绍了时间差视觉表征学习范式(Temporal Difference in Vision, TDV),这是一种新颖的视觉表征学习范式,无需数据增强、掩码、裁剪或重建即可学习有用的表征,并在密集空间任务上达到与最先进方法相当的性能。
Claude Fable 在具有挑战性的 ZeroBench 视觉基准测试中与 GPT 性能持平,pass@5 和 pass^5 得分相当。
Anthropic 发布了 Fable 5,声称它在软件工程、科学、知识工作和视觉等关键基准测试中达到了最先进水平,超过了所有先前可用的模型。
作者宣布了一个个人项目,旨在构建一个名为 The Thinnernet 的平行互联网,灵感来源于 Steve Jobs 以及之前在知识库和低功耗操作系统方面的工作。
OpenAI概述了其计划,旨在使人工智能广泛惠及人类,并将其与电力的变革性影响相类比。该公司强调要构建赋能人类、分散权力并与人类意图保持一致的人工智能。
MaskAlign提出了一种Token子集表征对齐方法,通过减少对完整Token集的依赖,并在扰动下保持稳定对齐,从而改进扩散Transformer训练。
本周开放AI领域异常精彩,发布了超过25个开放权重模型,涵盖大语言模型、图像生成、音频/语音、视觉和视频/3D等领域,NVIDIA、Google等机构贡献突出。
llama.cpp 中的一个合并的 PR 实现了一种新的 'Gemma 4 Unified' 模型类型,表明 Google 即将发布一个无 Transformer 的视觉塔模型。
NEPA 是一种新的视觉自监督学习和生成式预训练方法,它通过自回归方式预测下一个嵌入,并已添加至一个基准测试中用于评估。
Llama.cpp 版本 B9406 修复了在使用 MTP 和 MoE 视觉模型(例如 Qwen3.6-35B-A3B)时出现的崩溃问题 (GGML_ASSERT)。
ChainzRule 提出了一种具有可学习多项式层和微分正则化的神经架构,在表格、NLP和视觉任务上实现了样本高效且鲁棒的性能,在Pima Diabetes、SST-5、Yelp Full和CIFAR-10-C数据集上取得了成果。
作者称赞陆奇一年前提出的沙盒/容器安全观点至今被验证,强调沙盒在观测reward hacking中的核心作用。