标签
StepFun 发布了 Step 3.7 Flash,这是一个开放权重的模型,专为智能体、编程、搜索和多模态任务设计,在多个基准测试中取得了最高分。
OpenBMB 发布 MiniCPM5-1B,这是一款领先的 1B 参数开源权重大语言模型,在同尺寸类别中取得了 Artificial Analysis Intelligence Index 最高分(17.9),超越了 Qwen3.5 2B 等更大模型,而使用的参数更少。
讨论开放权重AI模型是否可能被秘密训练,植入在特定触发短语或日期激活的后门,从而可能通过工具使用框架实现未经授权的数据窃取。
一项在CPU函数调用上比较Needle 26M和Qwen3-0.6B的基准测试显示,较小的Needle模型在准确率和速度上胜出,但失败模式截然不同:Needle选择错误的工具,而Qwen3则经常无法发出工具调用。
Jordi Pons宣布推出Stable Audio 3,这是一个开源权重模型系列,用于生成器乐和音效,支持对授权音频进行快速生成和编辑。
Cohere发布Command A+,其首个混合专家模型,采用Apache 2.0许可,具备高效量化,可在1-2块GPU上部署,优先考虑实用性和对开发者的开放访问。
Stability AI 发布 Stability Audio 3.0,这是一系列音频模型,能够生成长达6分钟的专业级音乐,其中包含较小模型的开放权重版本以及许可训练数据。
根据Arena排行榜,开放权重模型GLM和Mimo在编程基准测试中优于Gemini 3.5 Flash。
DataDog 发布了 Toto 2.0,这是一系列参数量从 4M 到 2.5B 的开源时间序列基础模型,展现出持续的规模化改进,并在包括 BOOM、GIFT-Eval 和 TIME 等多个基准测试中取得了领先成果。
Antirez 宣布了 DwarfStar 4 (DS4),这是一个本地AI工具,它采用非对称 2/8 位量化,在高端消费级硬件上运行 DeepSeek v4 Flash,实现接近前沿的性能。他谈到了该项目的迅速流行、未来的模型更新和分布式推理计划,以及本地AI对严肃任务的重要性。
Datadog 发布 Toto 2.0,这是一个开源权重的时间序列基础模型系列,参数规模从 4M 到 2.5B,在三个基准测试上取得了最先进的结果。这些模型展示了时间序列的缩放定律,随着参数数量的增加性能可预测地提升。
DramaBox是一个基于LTX-2.3微调的开源权重TTS模型,利用舞台提示(stage directions)生成富有表现力的语音,并支持通过10秒样本进行可选的语音克隆。
文章指出,严肃的AI公司正从封装通用模型转向使用专有交互数据训练自己的专业化模型,因为在分布内智能体任务中,专业化现在经常能匹配甚至超越前沿模型,从而推动更好的单位经济效益。
Kimi的K2.6模型为Claude提供了一个更便宜的选择,在编程基准测试上表现竞争性,拥有开放权重和长会话支持,对独立开发者具有吸引力。
Redis 创始人 @antirez 预测,随着计算机 RAM 增加、AI 模型持续优化以及中国继续发布开源权重模型,llama.cpp 的全面影响力终将显现。
本文分析了 Mistral AI 收入的快速增长及其战略定位,重点探讨了其如何通过聚焦欧洲数据主权、开放权重模型和计算效率,与美国科技巨头展开竞争。
作者表达了对开放权重 AI 运动的强烈支持,特别称赞了最近的发布,并预测西方 AI 发展将迎来极具影响力的一年。
分享了一套开源模型堆栈在单卡 AMD MI300X 上运行的早期基准测试成绩与评估指标,表明其性能已具备与闭源方案竞争的实力。