标签
讨论了将大型AI模型权重从GPU显存卸载到系统内存时的性能权衡,比较了不同GPU配置(如RTX 5090与RTX6000)在运行DeepSeek V4 Pro等模型时的表现。
DeepSeek宣布其V4-Pro API永久降价75%,每百万缓存输入令牌仅0.003625美元,输出0.87美元,比OpenAI的GPT-5.5便宜约34倍。该模型拥有1.6万亿参数但仅需490亿活跃参数,支持100万令牌上下文,在编码和推理基准测试中表现领先。
DeepSeek的KV缓存压缩创新,包括MLA和CSA/HCA,将KV缓存大小减少了93%,实现了高效的长上下文推理和基于SSD的缓存,正如antirez的ds4.c项目所展示的那样。
用户分享了自己完全使用AI(DeepSeek R1和V4)撰写学术论文的经验,强调中文大纲和精细的Prompt调优是关键,并指出人工修改AI生成的写作比自行写作更累。
对DeepSeek AI非常规策略的分析:优先采用激进架构创新(MoE、MLA、engram、mHC),大幅降低计算和内存需求,从而实现长期布局,构建一个10万亿人民币的中国AI硬件生态系统,并追求1万亿美元估值。
一条推文分享了来自KVCache.ai的KV缓存大小计算器,这是一个用于估算本地LLM推理中KV缓存内存使用量的工具,并强调DeepSeek V4 Pro的100万token仅使用5GB内存。
演示在 M5 Max 上本地运行 ds4-agent 并使用 DeepSeek V4 Flash q2-imatrix gguf 模型,展示了自我更新能力以及与 HF_HOME 的集成以用于 gguf 模型。
Sebastian Raschka 将 DeepSeek Sparse Attention (DSA) 的从头实现添加到了 LLMs-from-scratch 教育仓库中,包括动机、概述以及一个 GPT 风格的参考实现。
一位开发者分享使用廉价AI模型(DeepSeek v4、Hunyuan Hy3预览版)自动化90%编码任务的经验,而Opus则用于更难的10%,强调了成本和延迟权衡。
Reasonix 是一款针对 DeepSeek 模型优化的终端 AI 编程代理,通过稳定前缀缓存实现了 99.82% 的缓存命中率,并将每次工作负载的 token 成本从约 61 美元降至约 12 美元。
DeepSeek-Code-Whale 是一个开源的终端 AI 编程代理,专门为 DeepSeek 模型优化,支持 MCP 工具、Skills 扩展、前缀缓存优化(90% 缓存命中率)和 1M 上下文窗口,旨在降低 AI 编程成本并提供高效的命令行工作流。
在研发Evot过程中发现,要让Anthropic Opus模型发挥极致,官方Claude Code的方法是最优解,因为训练时将Agent Harness行为模式编入了权重,而非纯prompt工程;未来Agent Harness竞争将把行为下沉到模型层。
ClawCodex 是一个开源的 Python 编码代理,实现了 /advisor 模式,在决策点将廉价的工作模型与昂贵的审查模型配对,以降低成本同时保持质量。它支持多个提供商,并在 SWE-bench Verified 上达到 58.2% 的分数。
free-claude-code 是一个开源工具,通过将 Claude Code 的流量代理到 DeepSeek、Kimi、Ollama 等10多个免费或本地后端,实现永久免费使用 Claude Code,支持 CLI、VSCode、JetBrains 和 Discord。
介绍了一个将Claude Code流量重定向到DeepSeek、Kimi等十多个免费模型的GitHub repo,已有2万开发者使用。文章强调该工具揭示了前端交互、工作流、模型供应商等各层可替换的趋势。
一位用户分享了一个技巧:在代理工作流程中使用 Ollama 本地的 llama3.1:8b 模型压缩对话上下文,相较于将上下文发送给提供商,能降低延迟并减少 token 使用量。
对DeepSeek长期战略的分析,认为其在MoE、GRPO和KV缓存缩减方面的创新旨在构建一个10万亿美元的中国AI硬件生态系统,而不是销售即时应用,可能实现1万亿美元的估值。
DeepSeek 已将 DeepSeek-V4-Pro 的 75% 折扣永久化,鼓励用户使用该模型进行构建。
使用 ml-intern 和 DeepSeek V4 Flash 训练了一个提示注入分类器,使用 DistilBERT 实现 F1 99%,优化至 ONNX int8(约 65 MB),可通过 Transformers.js v3 在浏览器中运行。
DeepSeek 将 DeepSeek-V4-Pro 的折扣永久化,有效期延长至 2026 年 5 月 31 日。