标签
在配备128GB内存的AMD Ryzen AI Max+ 395上测试DeepSeek v4 Flash,本地运行284B MoE模型(13B活跃参数)可达约15 TPS。成本仅需3000美元,而数据中心配置需25000美元以上,凸显了在消费级硬件上运行大型模型的可行性。
为DeepSeek V4 Pro优化的Codex技能,通过冻结skill文件和极简输出可节省60-80% token,并提供跨对话持久记忆功能。
一篇详细的配置指南,教用户如何通过开源代理工具CC Switch将OpenAI Codex接入DeepSeek等第三方模型,解决协议不兼容问题。
提出了一种针对MoE模型的结构化剪枝框架,通过基于归因的近似方法最大化通道分数覆盖,在结合4比特量化时实现50%或25%的剪枝,并在Qwen3-30B-A3B上将内存占用降低5.27倍。
DeepSeek 研究员开源了 AutoResearch,这是一个自主框架,能够在无需人工干预的情况下,为 DeepSeek 285B 模型规划、执行并调试强化学习实验,并附带了一篇关于自我对弈的综述论文。
讨论DeepSeek近期融资事宜及其团队核心成员郭达雅和王丙轩离职情况,指出团队离职率极低,反映良好团队文化。
团队成员分享了使用AI(DeepSeek V4 Flash)自动创建E2E测试用例并完成开发和调试,一次通过验收的体验,展示了AI辅助开发的潜力。
Deli AutoResearch SKILL 已开源,这是一个自主框架,可自动化 GPU 实验和强化学习流水线,同时附带一篇关于自我对弈的综述论文。
美国政府已暂缓将DeepSeek列入黑名单,但将其他100多家公司列为安全风险,影响科技和人工智能公司。
本分析更新了对 DeepSeek 研究团队的研究,揭示其人才库已增长至 356 名研究人员,引用影响力不断提高,且超过半数仅拥有中国所属机构,凸显了美国在人才保留和独立性方面面临的挑战。
DeepSeek Harness 组急需人才,招聘政策改为 Harness 与非 Harness 分开进行。
据报道,微软正在考虑将 DeepSeek 集成到其 Copilot Cowork 产品中。
一项涉及2.6万名中国初高中生的长期研究发现,学生自主使用AI后,作业表现提升18%但闭卷考试成绩在半年内下降20%,中考和高考成绩分别下降24%和18%,且81%的学生存在用AI代写作业的现象。
Nathan Lambert和Finbarr Timbers讨论了大型语言模型的最新后训练配方,包括DeepSeek V4、GLM 5.1、Kimi K2.6,以及行业向多教师在线策略蒸馏的转变。
Reasonix(原名DeepSeek-Reasonix)是一个基于Go语言开发的AI编码代理CLI工具,支持技能、记忆、Hooks、MCP等功能,可替代OpenCode。
本文提出ASAG,一种无需训练的方法,基于注意力分布自适应地停止大型推理模型的推理,在使用DeepSeek-R1-Distill和Qwen3模型的基准测试中,将token使用量减少约40%,同时准确率提升3.2%。
这条推文比较了Nemotron 3 Ultra和DeepSeek V4的后训练方法,指出两者都使用多个专长教师并通过在线策略蒸馏合并到一个学生模型,但在支持重叠方面存在差异。
本文讨论中国作为后来者如何在AI领域迅速取得进展,质疑数据集、算力和算法的来源,这些使DeepSeek等公司能够赶上OpenAI和Google等美国领先者。
一个即将开源的AI工具,利用DeepSeek自动抓取AppStore用户评价并进行信息挖掘,帮助产品经理了解用户反馈、版本问题和产品机会。