标签
Claude Fable 在具有挑战性的 ZeroBench 视觉基准测试中与 GPT 性能持平,pass@5 和 pass^5 得分相当。
一位开发者分享了一个工作流程,使用Claude Fable 5作为架构师,GPT 5.5 Codex作为构建者,并配有一个交接记忆系统来高效管理AI辅助开发。
开发者 @charliermarsh 报告使用 Codex 将 ty 的保留内存再减少 15%,通过 /goal 实现了约 25% 的整体内存减少,并表达了对 GPT 模型的喜爱。
一个名为 GordenSuperPPTSkills 的开源项目,利用 GPT 生成豪华图片格式的 PPT,再将其“反编译”为完全可编辑的 PPTX 文件,解决了 AI 生成内容不可编辑的痛点。项目拆分为三个独立技能,支持仅图片生成或仅图片转可编辑,适用于 Codex 环境。
本文提出多分辨率残差路由方法WAV v1,这是块注意力残差机制的扩展,通过引入方向性细节基来增强块表示,从而改进深度仅解码器Transformer的训练效果。
一位用户报告称,使用GPT模型(可能是GPT-5.5)完成一项电子表格任务花费了10美元的严重补贴代币成本,实际计算成本估计为100美元,认为当前AI定价不可持续。
一个对初学者友好的动手GitHub仓库,将类似GPT的LLM架构拆分为简单部分,包含10个Jupyter笔记本,涵盖分词、注意力机制、Transformer块以及用PyTorch实现的微型GPT。
本文描述了基于LLM的工具的开发,该工具使用OpenAI的GPT模型评估普渡大学SURF项目约1,200份目的陈述,处理时间约4.6小时,相比传统人工评分加速了审阅流程。
Morgan Linton 成功启动了一个完全由他自己使用 OpenAI 的 Codex 和 GPT 5.5 从头构建的自定义操作系统,该项目始于5月4日。
DeepSWE基准测试的费用是按任务计费,而非整个运行流程。运行Mimo V2.5 Pro这类模型,完整运行一次约需225美元,而Mimo V2.5非专业版约需7.15美元。用户在选择运行昂贵模型前应了解这一点。
GPT 模型在 mlx-c 0.31.2 中发现了一个 bug,作者正在考虑提交一个未经亲自验证的拉取请求(PR)。
讨论 Claude Opus 4.8 和 GPT-5.5 在 DeepSWE Bench 上的最新基准测试结果,并推测未来 GPT-5.6 的性能和效率趋势。
GordenSun 发布了一个名为 GordenPPTSkill 的开源项目,能让 AI 助手(如 GPT、DeepSeek、Claude 等)一句话生成信息密度高、排版复杂的可编辑 PPT 文件,支持自动更新模板,适合国企和互联网大厂使用。
分析显示,GPT 5.5 在 SWEBench Pro 上的失败中有 28.9% 是由于损坏或错误的测试用例所致,类似问题也影响了其他主要 AI 基准测试,引发了对当前评估方法准确性的担忧。
作者讲述了他使用GPT-5.5 Codex和Meta Ads MCP构建了一个AI智能体,能够自动化整个媒体购买流程——从调研、文案撰写到广告投放和报告生成,以不到20美元/月的成本取代了传统媒介购买员的角色。
A 12-chapter interactive textbook that teaches how to build a GPT-like language model from absolute scratch, with fully annotated code and beginner-friendly explanations.
介绍 BenchBench,这是一个评估 AI 模型为其他模型创建有效基准能力的基准测试。目前 GPT 5.2 是唯一成功的胜者,而 GPT 5.5 和 Opus 4.6 等前沿模型则表现不佳。
在物理人工智能黑客马拉松上,一个团队使用经过改造的 ReachyMini 机器人构建了“熊猫大师”,该机器人通过 GPT 进行对话,同时一个 Agilex Robotics 机械臂实时绘制“运势”卡片。