来自 Blog 的文章
技术评论:Luke Curley探讨WebRTC的设计如何通过激进丢弃音频数据包来优先保障低延迟,这与LLM语音应用中提示词准确度比速度更重要的需求相矛盾。他讲述了在浏览器限制下在Discord实现重传所面临的挑战。
Simon Willison 探讨了使用 HTML 而非 Markdown 作为 AI 输出格式的有效性,突出了 SVG 图表、交互式组件和丰富说明等优势。内容包含 Anthropic 公司 Claude Code 团队 Thariq Shihipar 的案例以及 GPT-5.5 的实用提示。
Andrew Ng 认为,对 AI 驱动的“就业末日”的担忧被夸大了,他引用了软件工程领域强劲的招聘数据以及历史上技术创造的就业机会多于其摧毁的模式。
CyberSecQwen-4B 是一个小型、专用的 4B 参数模型,针对防御性网络安全任务进行了微调,设计为在单个 GPU 上本地运行,解决了隐私、成本和离线部署需求。
Allen AI 发布了 EMO 模型,这是一种混合专家模型,其中模块化结构从数据中自然涌现,使得仅使用 12.5% 的专家就能完成一项任务,同时保持接近完整模型的性能。
OpenAI详细介绍了如何部署Codex并配备安全控制措施,包括沙箱隔离、审批策略、网络策略以及智能体原生遥测,以确保企业环境中编码智能体的安全运行。
一个教程和项目,演示在AMD MI300X上使用ROCm对Qwen3-1.7B进行LoRA微调,用于临床问答,为医疗AI开发提供无需CUDA的替代方案。
Perplexity 通过桌面应用向 Mac 用户发布了 Personal Computer 功能,使 AI 代理能够访问本地文件、应用程序、连接器以及网络。
Google DeepMind 已收购 EVE Online 开发者(现为 Fenris Creations)的少数股权,将该游戏用作 AI 模型的测试平台,在不影响真实玩家的情况下研究复杂动态系统中的智能。
TLDR 正在为其应用人工智能团队招聘一名高级软件工程师,提供25万至35万美元的年薪和完全远程的工作方式,专注于让流程对代码可读、可组合成工作流。
作者回顾了对中国AI实验室的访问,比较了中国和美国实验室在构建LLM方面的文化差异。中国实验室受益于集体工作和学生参与的文化,而美国实验室则面临个人自我和职业抱负带来的挑战。
Ramp 介绍了一项案例研究,利用强化学习后训练构建了 Fast Ask,这是一种专门的电子表格检索智能体,与通用模型相比,它提高了准确性并降低了延迟。
Meta的内核内广播优化(IKBO)通过内核-模型-系统协同设计,消除了RecSys推理中的冗余用户嵌入广播,在H100 GPU上实现了高达2/3的延迟降低和约4倍加速,并成为Meta自适应排名模型的骨干。
Codex CLI v0.128.0 引入了 /goal 功能,用于持久化目标,该功能可承受终端重启和多小时暂停,无需重新提示即可自动继续运行。作者讲述了一次持续六小时的会话,期间经历了五小时的笔记本合盖关机,展示了该功能的可靠性。
GitHub通过API代理记录Token使用并建立每日优化工作流,减少了未使用的MCP工具注册带来的开销,从而提升了其代理工作流的Token效率。
Meta 正准备推出其 Hatch AI 智能体,这是一个消费级自主智能体,集成了社交媒体功能,预计将通过候补名单的方式推出。该智能体将利用 Instagram 和 Facebook 处理图像/视频生成、购物、研究和定时任务。