large-scale

标签

Cards List
#large-scale

100万亿+的预训练数据???这是我见过模型训练中最大的数据量。

Reddit r/LocalLLaMA · 3天前

一个新的人工智能模型正在使用超过100万亿个令牌进行训练,是其他模型如Kimi、Mimo和DeepSeek通常使用的27-50万亿令牌预训练数据规模的两倍。

0 人收藏 0 人点赞
#large-scale

@jcjohnss: GPIC 应该成为生成建模的新标准基准。在 GPIC 上训练 1 个 epoch 的成本相当于在 ImageNet 上训练 100 个 epo…

X AI KOLs Following · 5天前 缓存

GPIC 是一个新的大规模图像-文本数据集和生成建模基准,据称比 ImageNet 高效得多,并且是现实世界问题的更好代理,具有完全许可的研究和商业使用许可。

0 人收藏 0 人点赞
#large-scale

@josefchen:在arXiv上发布我们的新论文:我们训练了有史以来最大的多语言食品模型。410万食谱。7种语言。…

X AI KOLs Timeline · 2026-05-26 缓存

新的arXiv论文宣布了最大的多语言食品模型,该模型在7种语言的410万食谱上训练,包含1,790种食材,压缩至2MB。

0 人收藏 0 人点赞
#large-scale

SciAtlas:面向自动化科学研究的大规模知识图谱

arXiv cs.AI · 2026-05-25 缓存

SciAtlas是一个大规模、多学科的知识图谱,包含超过4300万篇论文和30亿个三元组,旨在通过神经符号检索算法为AI驱动的自动化科学研究提供结构化知识。

0 人收藏 0 人点赞
#large-scale

Ring-2.6-1T 在真实世界智能体任务中达到 SOTA 水平

Reddit r/ArtificialInteligence · 2026-05-18

蚂蚁集团发布了 Ring-2.6-1T,这是一个拥有 1 万亿参数的推理模型,专为智能体工作流设计,采用 MIT 许可证、扩展上下文,并使用了异步强化学习 (Async RL) 和 IcePop 训练方法,取得了最先进的成果。

0 人收藏 0 人点赞
#large-scale

@kevin_x_li: 介绍 SWE-ZERO-12M-trajectories:公开中最大的智能体追踪数据集,比之前最大的大5.7倍…

X AI KOLs Following · 2026-05-13 缓存

SWE-ZERO-12M-trajectories 是最大的公开编码智能体追踪数据集,包含来自122K个拉取请求和3K个仓库的12M条轨迹,共计112B个token,支持在不需容器化执行的情况下对智能体编码模型进行可扩展训练。

0 人收藏 0 人点赞
#large-scale

Urban-ImageNet: 大规模多模态数据集与城市空间感知评估框架

Hugging Face Daily Papers · 2026-05-11 缓存

Urban-ImageNet是一个大规模多模态数据集和评估基准,用于从社交媒体图像进行城市空间感知,支持场景分类、跨模态检索和实例分割任务,覆盖中国24个城市的61个城市地点。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈