标签
本文介绍了从LLM代理视角对网页信息密度进行的实证测量,使用了涵盖五个类别的100个URL的精选基准。研究发现,结构化提取平均减少了71.5%的令牌数量,同时保持了答案质量,并揭示了Claude Code中一个未记录的压缩层。
研究者提出将认知科学中的"global ignition"意识机制应用于长上下文工程,提出MiA-Signature方法使用子模选择高层概念覆盖激活空间,应用于RAG和agentic系统后获得一致性能提升。
Karpathy 的 autoresearch 项目引发潮流:智能体训练 AI 模型构建最先进的智能体系统,同时暴露当前 LLM 在假设生成上的短板。
EvoTest 引入了 J-TTL,一个衡量智能体测试时学习能力的基准,并提出了一个进化框架,其中 Actor 智能体玩游戏,而 Evolver 智能体在不进行微调的情况下迭代改进系统的提示、记忆和超参数。该方法在基于复杂文本的游戏中表现出优于基于反思和记忆的基线方法的性能。
AgentV-RL引入了智能体验证器框架,通过具有工具增强的前向和后向智能体进行双向验证来增强奖励建模,相比最先进的ORM实现了25.2%的性能提升。该方法通过将多轮深思熟虑过程与强化学习相结合,解决了验证器在复杂推理任务中的误差传播和基础性不足等问题。
本文分析了Claude Code作为代理编程工具的架构,识别出影响其实现的五种人类价值观和十三项设计原则,包括安全系统、上下文管理和可扩展机制。研究将Claude Code与OpenClaw进行比较,展示了不同的部署环境如何针对常见的AI代理设计挑战产生不同的架构解决方案。
Netomi 分享了在企业环境中扩展智能体 AI 系统的实践经验,利用 GPT-4.1 和 GPT-5.2 在受监管的执行层中处理复杂的多步骤工作流,服务于联合航空和 DraftKings 等财富500强客户。该公司展示了如何通过合适的提示词模式、并发设计和上下文推理,在生产规模上实现可靠的 AI 智能体部署。