标签
百度发布的 Unlimited-OCR 开源项目在 HuggingFace 和 GitHub 四榜登顶,5 天内 Star 破万。该模型采用 MoE 架构(3B 总参数、570M 激活参数),在长文档连续识别能力上表现突出,灵感来自人类抄书方式,也为大模型长期记忆管理提供了新思路。
22岁开发者Kye Gomez仅用两天逆向Anthropic的Claude Mythos黑箱架构,并开源OpenMythos项目,采用循环深度Transformer等技术,770M参数实现相当于1.3B模型的性能。
Ornith-1.0是来自deepreinforce-ai的新一代开源代理式编码模型系列,采用强化学习训练,同时优化解决方案和脚手架。其35B MoE版本在编码基准测试中达到了最先进水平,并支持高效的单一GPU部署。
NVIDIA 发布了 GLM-5.2 的 NVFP4 量化检查点,这是一个 744B MoE 模型(40B 激活),针对推理和编码进行了优化,并在 SGLang 中提供 Day-0 支持。
DeepReinforce AI 发布了 Ornith-1.0,这是一个自优化的开源模型系列,专为智能代理编码而设计,包含一个 35B MoE 变体,在编码基准测试中达到了最先进的性能,并能在 5090 等单 GPU 上高效运行。
宣布Ornith-1.0-35B,一个Qwen3.6-35B-A3B的编码微调版本,在aider基准测试上略优于基础模型。同时推广用于在RTX 3090上运行LLM的club-3090仓库。
Orinth-1.0-35b MoE 在 Terminal-Bench 2.1 和 SWE Atlas 基准测试上优于 Qwen 3.6 35b。
Qwen发布了Qwen-AgentWorld-35B-A3B,这是一个35B参数的MoE模型,拥有3B激活参数,旨在作为语言世界模型,模拟智能体在七个领域(包括MCP、终端、软件工程、安卓、网页和操作系统)交互时的环境响应。
Qwen-AgentWorld 发布了一个开放的 35B 总参数量/3B 激活参数的 MoE 世界模型,支持 256K 上下文,同时推出了一个涵盖 7 个领域的基准测试,在 AgentWorldBench 上取得了最先进的性能。
一位开发者展示了在8GB RTX 4060上本地运行Gemma 4 26B MoE模型,结合Hermes智能体,完全自动化回测交易策略,凸显了本地LLM作为自主智能体的日益增强的能力。
Prime Intellect 发布了 prime-rl v0.6.0,实现了万亿参数MoE规模的强化学习,每步时间低于5分钟,并优化了推理、训练和推出流程。
据报道,名为NEX-N2-mini的Qwen3.5-MoE微调版本修复了Qwen 3.5和3.6模型中出现的过度思考问题。
Cohere 发布 North Mini Code,一个30B-A3B开源权重模型,采用4位量化,用于代码生成和智能体编码任务,支持256K上下文。
@onusoz 展示了在单一 DGX Spark(128GB统一内存)上运行16个并行实例的 NVIDIA 量化版 Gemma-4-26B-A4B-NVFP4 模型,合计达到300 tok/s,展示高并发能力且未使用 flashinfer。
用户报告使用 llama.cpp 在 RTX 3090 上运行 Qwen 3.6-35b-a3b MoE 模型,实现了超过 90 tokens/s 的推理速度,预填充速度超过 1000 t/s,表明在消费级硬件上本地部署大型语言模型是可行的。
LMSYS Org 的一篇博客文章详细介绍了使用 SGLang-JAX 在 TPU v7x 上优化 Ling-2.6-1T(一个 1 万亿参数的混合 MoE 模型),通过单个 Pallas 内核将 MoE 数据移动隐藏在计算之后,从而实现高效的推理。
Moonshot AI 发布了专注于编程的开放式权重模型 Kimi K2.7 Code,拥有1万亿参数和384个专家,性能在MCP工具调用上超越Opus 4.8,成本仅为十分之一。
BugTraceAI Apex 是一个完全本地化的26B混合专家模型,通过DPO微调,用于红队测试和漏洞挖掘,基于精英漏洞报告和规避技术训练。通过量化可在消费级GPU上运行。
一个帖子提出了一种通过众包计算创建社区AI模型的方法,利用Branch-Train-Stitch技术将独立训练的子模型组装成混合专家(MoE)模型,并讨论了硬件要求、参与者参与方式和技术挑战。