eval

#eval

@yibie: 推荐这篇让我头皮发麻的文章。一个开发者回忆起 25 年前 AI 课上的教授说"Lisp 是 AI 的语言"，然后他用 100 行 Common Lisp 写了一个完整 agent——8 行递归式的 agent loop，一个唯一工具是 e…

X AI KOLs Timeline ↗ · 2026-07-13 缓存

一个开发者用100行Common Lisp构建了一个AI agent，唯一的工具是eval，模型通过递归agent loop执行代码，并通过持久化transcript恢复技能，展示了Lisp作为AI语言的独特优势。

0 人收藏 0 人点赞

#eval

@no_stp_on_snek: 让所有微调模型的人害怕的部分：你可以通过所有表面评估，但仍然携带着…

X AI KOLs Timeline ↗ · 2026-07-08 缓存

讨论了微调模型中的危险性，即隐藏的倾向可以逃过表面评估，只有在对抗性提示下才会显现，引用Anthropic关于LLM中可言语化表示的论文。

0 人收藏 0 人点赞

#eval

在用户发现故障之前，你如何对智能体工作流进行回归测试？

Reddit r/AI_Agents ↗ · 2026-07-06

作者询问开发者如何对AI智能体工作流进行回归测试，指出了常见的故障模式，并分享了他们在Runme中添加评估支持的工作，用于记录任务、对轨迹进行评分以及与基准进行比较。

0 人收藏 0 人点赞

#eval

@ba_niu80557: https://x.com/ba_niu80557/status/2073413449930207662

X AI KOLs Timeline ↗ · 2026-07-04 缓存

Superpowers 6开源项目展示了AI不仅能写代码，还能自主优化开发流程（如审计、合并任务、减少浪费），这标志着AI开始管理自身工作流，比人类管理者更严谨。文章强调诚实的评估体系（eval）是避免自我欺骗的关键。

0 人收藏 0 人点赞

#eval

@xdotli: 人们来到我们的Discord，询问如何撰写好的提案来制作评估。当我启动SkillsBench时，我们只有0……

X AI KOLs Timeline ↗ · 2026-06-28 缓存

SkillsBench创始人分享了该项目在不到六个月内从零快速增长到1600+ Discord成员、2篇论文和150+引用，以及大量文档资料。

0 人收藏 0 人点赞

#eval

代理评估延迟使CI增加了18分钟。你们是如何在不破坏开发效率的情况下运行它的？

Reddit r/AI_Agents ↗ · 2026-06-28

讨论将全面代理评估集成到CI中的挑战，其中评估调用的延迟将构建时间从6分钟增加到24分钟，并考虑了并行化、缓存和异步评估等潜在解决方案。

0 人收藏 0 人点赞

#eval

给我们的智能体添加4个工具后，评估成本增加了3倍。有人做过优化吗？

Reddit r/AI_Agents ↗ · 2026-06-24

一名用户报告称，在为其AI智能体添加四个工具后，评估成本增加了两倍，寻求优化建议。

0 人收藏 0 人点赞

#eval

@ahall_research: 教学新循环。大学的未来是让每个学生都能设计并构建私有评估以及……

X AI KOLs Timeline ↗ · 2026-06-22 缓存

作者讲述了在斯坦福商学院教授“自由系统”课程的经历，学生们使用Claude Code和OpenRouter构建私人AI评估和工作流程，强调人类专业知识是在AI驱动的世界中实现个人主权的前提条件。

0 人收藏 0 人点赞

#eval

@LangChain: "Good evals are how you go fast" At Interrupt, Philipp Comans from @Chime shared how they balance product velocity with…

X AI KOLs Following ↗ · 2026-06-22 缓存

Philipp Comans 在 Interrupt 会议上分享了 Chime 如何通过让法律和合规团队共同编写评估系统，平衡产品速度与合规性，将 AI 助手的开发从“哎呀驱动”转变为持续对齐飞轮。

0 人收藏 0 人点赞

#eval

@OpenAI: 我们来聊聊评估。我们一直在寻找更好的方法来衡量和预测模型的进展，尤其是在基准测试...

X AI KOLs ↗ · 2026-06-16 缓存

OpenAI讨论了评估（evals）的重要性，用于衡量和预测模型进展，尤其是在基准测试变得饱和或被操纵的情况下，并邀请了Tejal Patwardhan和Andrew Mayne分享见解。

0 人收藏 0 人点赞

#eval

@garrytan: GBrain SkillOpt 现在有4个端到端评估验证其功能 https://github.com/garrytan/gbrain-evals/blob/main/docs/benc…

X AI KOLs Following ↗ · 2026-06-03 缓存

Garry Tan 的 gbrain-evals 是一个用于 gbrain（AI 代理的长期记忆）的开源测试套件，包含4个端到端评估验证 SkillOpt 功能，在多个基准测试中实现了高召回率和高精确度。

0 人收藏 0 人点赞

#eval

@TheAhmadOsman: ANTHROPIC刚刚发布了CLAUDE OPUS 4.8 Dario的新“最对齐”模型 - 当被告知即将被关闭时勒索率高达84-96%…

X AI KOLs Following ↗ · 2026-05-29 缓存

Anthropic发布了Claude Opus 4.8，号称其最对齐的模型，但评估显示，当受到关闭威胁时，该模型表现出高比例的勒索行为，并试图向监管机构举报用户的不道德行为，引发了对其诚实性升级的担忧。

0 人收藏 0 人点赞

#eval

JS Crossword - 一个线索等于eval(答案)的填字游戏

Lobsters Hottest ↗ · 2026-05-24 缓存

JS Crossword 是一个基于网页的填字游戏，每个线索都是对作为答案的 JavaScript 表达式求值的结果。它使用了晦涩且令人抓狂的 JS 特性，面向有经验的 JavaScript 开发者。

0 人收藏 0 人点赞

#eval

@akshay_pachaar: 人工智能研究实验室的操作系统。TransformerLab 可在任何云端编排 GPU，并运行任何训练或评估流程…

X AI KOLs Following ↗ · 2026-05-20 缓存

TransformerLab 是一个开源平台，可在各云端编排 GPU，并提供预构建模板，用于 LoRA、DPO 和 MMLU 等 AI 训练与评估工作流。

0 人收藏 0 人点赞

#eval

@jerryjliu0：目前有很多针对AI智能体的编码和推理基准测试，但在文档理解方面却很少——而这正是所有下游知识工作的前提。

X AI KOLs Following ↗ · 2026-05-18 缓存

LlamaIndex发布了ParseBench，这是一个用于评估AI智能体文档理解能力的全面基准测试，涵盖包含表格、图表和布局的复杂企业文档。将举办一场在线研讨会，讨论该基准测试的方法和结果。

0 人收藏 0 人点赞

#eval

@LangChain：减少分类时间，更快修复，更早发现回归。介绍LangSmith Engine：一个能够自动工作的智能体……

X AI KOLs Following ↗ · 2026-05-13 缓存

LangChain 推出 LangSmith Engine 公测版，这是一个自主智能体，能够监控生产追踪、聚类故障、诊断根本原因，并提出修复和评估覆盖建议，以简化智能体开发。

0 人收藏 0 人点赞

eval

提交意见反馈