标签
GitHub Copilot 代码审查现已支持 AGENTS.md 文件,允许用户自定义以获得更具上下文感知的审查。
介绍一款与Teams和Slack集成的AI助手,它能主动记住团队上下文,并在指令还未完全给出之前就采取行动。
一篇研究论文,提出了一种统一的智能体检索框架,用于自主上下文感知数据质量评估。该框架解释自然语言使用描述,通过多智能体工作流生成可执行验证逻辑,并使用可行性验证来确保可靠性。
介绍了ContextRL,一种强化学习方法,教会大语言模型识别哪些上下文支持答案,在智能体和多模态基准上取得了性能提升。
介绍了BioStance,这是一个包含39,600个已标注的Reddit帖子和评论对的上下文感知数据集,用于生物伦理争议中的立场检测,涵盖生物伦理辩论三个维度的六个目标。
本文介绍了MAD2,一个用于口语对话中多模态声明验证的新基准,并提出了音频和文本模型的校准融合,利用对话上下文来提高验证准确性。
介绍Spice,这是一个开源决策层,充当Claude Code和Codex等执行智能体之上的“大脑”,实现上下文感知的任务委派和结构化决策。
PhotoCraft 提出了一种无需训练的层次化记忆系统,用于照片搜索智能体,集成了工作记忆、情景记忆和语义记忆,以维持长期上下文并在任务间迁移知识,在 DISBench 上取得了高达 18.5% 的提升。
LaSR提出了一种针对上下文感知语音识别的潜在推理训练范式,围绕声学特征对齐思维链监督,以在无额外延迟的情况下提高术语识别能力,在Fun-Audio-Chat上优于标准微调。
Spice是一个开源运行时,作为AI智能体之上的决策层,在执行前观察上下文、模拟选项并将任务分派给智能体。
本文介绍了一种基于知识的方法,利用知识图谱嵌入,通过预测上下文表示与质量规则之间的缺失边来自动评估大数据质量,优于传统的匹配方法。
谷歌的Nexus论文提出了一种智能代理框架,将上下文事件与数值数据结合用于时间序列预测,在Zillow测试中相比直接思维链提示实现了86.6%的平均绝对百分比误差(MAPE)降低。
Tabracadabra已升级为适用于任意文本框的上下文感知助手,消除了在聊天界面之间切换的需要。现已开源。
提出了AR-VLA,一个自回归动作专家,它通过长期记忆生成连续的、具有上下文感知能力的机器人策略训练的动作序列,相比反应式VLA模型,提高了轨迹平滑度和任务成功率。
本文提出了一种名为 NWCAD(No-Worse Context-Aware Decoding)的解码阶段适配器。该方法旨在防止“中性退化”问题,即大语言模型(LLM)在处理无信息量上下文时,错误覆盖原有正确答案。NWCAD 采用双流架构设计,并通过门控机制实现对无上下文解码的安全回退。