large-scale

#large-scale

TabLoRA: 面向大规模表格数据的参数高效低秩集成学习

arXiv cs.LG ↗ · 5天前缓存

TabLoRA 提出了一种针对大规模表格数据的参数高效神经集成方法，通过共享公共骨干网络并引入预测器特定的低秩适配，在性能上与 GBDT 和深度学习基线方法相竞争。

0 人收藏 0 人点赞

#large-scale

@samsja19: https://x.com/samsja19/status/2076846033922035818

X AI KOLs Following ↗ · 6天前缓存

PRIME-RL是一个用于大规模异步强化学习的框架，设计上易于定制，可扩展至1000+块GPU，并支持多种模型和环境。

0 人收藏 0 人点赞

#large-scale

通过协同划分优化构建稳健可行的路径

arXiv cs.AI ↗ · 2026-07-07 缓存

本文介绍了协同路径构建器（CoRC），这是一个框架，允许独立求解的子问题在优化过程中交换客户和车辆，从而提升大规模容量限制车辆路径问题的可行性和可扩展性。

0 人收藏 0 人点赞

#large-scale

@h100envy: 前伯克利博士，在 xAI 领导 SGLang 团队，解释了如何在 23 分钟内用 10 万块 GPU 为 Grok 提供服务——比价值 2000 美元的……更好

X AI KOLs Timeline ↗ · 2026-07-06 缓存

一位在 xAI 领导 SGLang 团队的前伯克利博士，解释了如何使用分离预填充/解码、专家分片以及通信/计算重叠，在 10 万块 GPU 上为 Grok 提供服务，以实现碾压 DeepSeek API 的价格。

0 人收藏 0 人点赞

#large-scale

Miles：用于大规模LLM强化学习后训练的PyTorch原生栈（14分钟阅读）

TLDR AI ↗ · 2026-07-01 缓存

Miles是RadixArk推出的一个开源的PyTorch原生框架，用于大规模LLM强化学习后训练，集成了SGLang、Megatron-LM和Ray，以实现高吞吐量的推演和分布式训练。

0 人收藏 0 人点赞

#large-scale

LongCat-2.0，大规模MoE模型，总参数量1.6万亿，激活参数480亿

Hacker News Top ↗ · 2026-06-30

LongCat-2.0是一个大规模混合专家（MoE）模型，总参数量1.6万亿，激活参数量480亿。

0 人收藏 0 人点赞

#large-scale

一步梯度延迟并非大规模异步流水线并行LLM预训练的障碍

Hugging Face Daily Papers ↗ · 2026-06-29 缓存

本文挑战了异步流水线并行中一步梯度延迟天生不稳定的假设，表明性能下降取决于优化器的选择。研究证明，Muon等优化器对一步延迟具有鲁棒性，并引入了一种基于误差反馈的修正方法以进一步缓解陈旧的梯度问题，在高达10B参数的LLM预训练中实现了接近同步训练的性能。

0 人收藏 0 人点赞

#large-scale

DF3DV-1K：大规模无干扰新视角合成数据集与基准

Hugging Face Daily Papers ↗ · 2026-06-18 缓存

介绍了DF3DV-1K，一个包含1048个场景和89924张图像的大规模真实世界数据集，用于无干扰的新视角合成，同时提供了九种方法的基准测试，以及通过微调基于扩散的2D增强器来改进辐射场方法的应用。

0 人收藏 0 人点赞

#large-scale

100万亿+的预训练数据？？？这是我见过模型训练中最大的数据量。

Reddit r/LocalLLaMA ↗ · 2026-06-01

一个新的人工智能模型正在使用超过100万亿个令牌进行训练，是其他模型如Kimi、Mimo和DeepSeek通常使用的27-50万亿令牌预训练数据规模的两倍。

0 人收藏 0 人点赞

#large-scale

@jcjohnss: GPIC 应该成为生成建模的新标准基准。在 GPIC 上训练 1 个 epoch 的成本相当于在 ImageNet 上训练 100 个 epo…

X AI KOLs Following ↗ · 2026-05-29 缓存

GPIC 是一个新的大规模图像-文本数据集和生成建模基准，据称比 ImageNet 高效得多，并且是现实世界问题的更好代理，具有完全许可的研究和商业使用许可。

0 人收藏 0 人点赞

#large-scale

@josefchen：在arXiv上发布我们的新论文：我们训练了有史以来最大的多语言食品模型。410万食谱。7种语言。…

X AI KOLs Timeline ↗ · 2026-05-26 缓存

新的arXiv论文宣布了最大的多语言食品模型，该模型在7种语言的410万食谱上训练，包含1,790种食材，压缩至2MB。

0 人收藏 0 人点赞

#large-scale

SciAtlas：面向自动化科学研究的大规模知识图谱

arXiv cs.AI ↗ · 2026-05-25 缓存

SciAtlas是一个大规模、多学科的知识图谱，包含超过4300万篇论文和30亿个三元组，旨在通过神经符号检索算法为AI驱动的自动化科学研究提供结构化知识。

0 人收藏 0 人点赞

#large-scale

Ring-2.6-1T 在真实世界智能体任务中达到 SOTA 水平

Reddit r/ArtificialInteligence ↗ · 2026-05-18

蚂蚁集团发布了 Ring-2.6-1T，这是一个拥有 1 万亿参数的推理模型，专为智能体工作流设计，采用 MIT 许可证、扩展上下文，并使用了异步强化学习 (Async RL) 和 IcePop 训练方法，取得了最先进的成果。

0 人收藏 0 人点赞

#large-scale

@kevin_x_li: 介绍 SWE-ZERO-12M-trajectories：公开中最大的智能体追踪数据集，比之前最大的大5.7倍…

X AI KOLs Following ↗ · 2026-05-13 缓存

SWE-ZERO-12M-trajectories 是最大的公开编码智能体追踪数据集，包含来自122K个拉取请求和3K个仓库的12M条轨迹，共计112B个token，支持在不需容器化执行的情况下对智能体编码模型进行可扩展训练。

0 人收藏 0 人点赞

#large-scale

Urban-ImageNet: 大规模多模态数据集与城市空间感知评估框架

Hugging Face Daily Papers ↗ · 2026-05-11 缓存

Urban-ImageNet是一个大规模多模态数据集和评估基准，用于从社交媒体图像进行城市空间感知，支持场景分类、跨模态检索和实例分割任务，覆盖中国24个城市的61个城市地点。

0 人收藏 0 人点赞

large-scale

提交意见反馈