标签
一个新的人工智能模型正在使用超过100万亿个令牌进行训练,是其他模型如Kimi、Mimo和DeepSeek通常使用的27-50万亿令牌预训练数据规模的两倍。
GPIC 是一个新的大规模图像-文本数据集和生成建模基准,据称比 ImageNet 高效得多,并且是现实世界问题的更好代理,具有完全许可的研究和商业使用许可。
新的arXiv论文宣布了最大的多语言食品模型,该模型在7种语言的410万食谱上训练,包含1,790种食材,压缩至2MB。
SciAtlas是一个大规模、多学科的知识图谱,包含超过4300万篇论文和30亿个三元组,旨在通过神经符号检索算法为AI驱动的自动化科学研究提供结构化知识。
蚂蚁集团发布了 Ring-2.6-1T,这是一个拥有 1 万亿参数的推理模型,专为智能体工作流设计,采用 MIT 许可证、扩展上下文,并使用了异步强化学习 (Async RL) 和 IcePop 训练方法,取得了最先进的成果。
SWE-ZERO-12M-trajectories 是最大的公开编码智能体追踪数据集,包含来自122K个拉取请求和3K个仓库的12M条轨迹,共计112B个token,支持在不需容器化执行的情况下对智能体编码模型进行可扩展训练。
Urban-ImageNet是一个大规模多模态数据集和评估基准,用于从社交媒体图像进行城市空间感知,支持场景分类、跨模态检索和实例分割任务,覆盖中国24个城市的61个城市地点。