标签
Jane Street 技术主管展示了据称能产生130亿美元利润的代码,提供了一个构建自己AI驱动对冲基金的模板。
最新 3.6-27B 版本显示,MoE 在代码任务及长上下文场景中正快速逼近 Dense 模型,尽管 Dense 整体仍领先。
Qwen发布Qwen3.6-27B,这款27B稠密模型号称代码性能达到旗舰水准,甚至超越更大的Qwen3.5-397B-A17B MoE,并展示了令人惊艳的SVG生成演示。
开源模型 Kimi K2.6 在 SWE-Bench 上超越 Opus 4.6,支持 12+ 小时自主编码会话,工具调用超 4,000 次。
开发者报告称,像 qwen3.6-35b-A3b 这种“活跃参数量”较小的 MOE 模型,相比稠密的 qwen3.5-27b,一致性更低、需要更多引导,很难直接塞进智能体工作流。
作者认为,同时跑大量 AI agent、无限上下文切换被严重高估;相反,一次只深耕一两个 agent,专注完成高质量作品才是被低估的做法。
Chamath Palihapitiya 认为,AI 智能体正在抹平“10 倍工程师”的差异——最高效的代码路径如今对所有人一目了然,就像 AI 破解国际象棋后,最佳招法再无神秘可言。
由 Claude Code 创作者主讲的 30 分钟工作坊,涵盖 vibe-coding 技巧及 Claude 的使用模式。
阿里巴巴发布了Qwen3.6-35B-A3B-FP8,这是Qwen3.6的开源权重量化变体,拥有35B参数,通过MoE激活3B,具有改进的智能编码能力和保持思维链的迭代开发特性。
GLM-5.1 是一款新一代旗舰AI模型,针对代理工程进行了优化,编码能力显著增强,在SWE-Bench Pro上达到了最先进性能,并通过扩展迭代和工具使用展示了卓越的长周期任务处理能力。
OpenAI 发布了 GPT-5.4 mini 和 nano,它们是 GPT-5.4 的更小、更快的变体,专为高吞吐量工作负载设计,在编码、推理和多模态理解方面有显著改进,同时保持 2 倍以上的速度提升。
OpenAI 发布了 GPT-5.3-Codex,这是目前最强大的代理型编码模型,结合了前沿的编码性能与高级推理能力,具备交互式长时间任务执行功能,并在网络安全领域引入了新颖的高能力安全防护措施。
OpenAI 在其 API 平台发布 GPT-5,这是一款最先进的模型,在 SWE-bench Verified 上达到 74.9% 的成绩,在编码、智能体任务和长上下文推理方面表现卓越。此次发布包含三个模型规格(gpt-5、gpt-5-mini、gpt-5-nano)以及新的 API 功能,如详细程度控制、最小推理模式和自定义工具。
Google 发布 Gemini 2.5 Pro 预览版(I/O 版本),编码能力显著提升,在 WebDev Arena 前端开发排行榜上排名第一,并支持视频转代码等高级功能。
Google发布了Gemini 2.5 Pro Preview(I/O版本)的早期访问权限,具备显著改进的编码能力,可用于构建交互式Web应用。该模型现已领先WebDev Arena排行榜,Elo评分提升了147分。
OpenAI 通过 API 推出 GPT-4.1、GPT-4.1 mini 和 GPT-4.1 nano 模型,在编程(SWE-bench 得分达 54.6%)、指令遵循和 100 万 token 上下文窗口方面有重大改进,成本更低。GPT-4.5 Preview 将于 2025 年 7 月 14 日停用。