标签
本综述回顾了大型语言模型在图计算中的应用,将其分为两种范式:LLM作为执行器和LLM作为规划器。研究发现,LLM在简单任务上表现良好,但在大规模精确计算方面不可靠,并提出了未来方向。
本文提出了一个包含33个类别的全面分类法,用于描述大型语言模型输出中的重复扭曲模式(heuristic parasites),并提供了操作定义、识别标准以及一个可复现的测量协议(PPE),用于量化跨对话的行为退化。
本文提出 A2X,这是一个 LLM 原生的流水线,用于递归构建和搜索分层服务分类体系,以克服在智能体互联网中进行服务发现时 LLM 有效上下文窗口受限的问题。与全上下文和基于嵌入的基线相比,它显著提高了检索准确性并降低了 token 消耗。
本文全面综述并分类了基于人体通信的联邦学习在体载边缘智能中的应用,并提出了一个名为BODYFED-HBC的调度示例。
本学习笔记介绍了智能体基础设施层的概念,将其定义为围绕LLM的基础设施层,提出了ETCLOVG分类法(执行、工具、上下文、生命周期、可观测性、验证、治理),并通过编码智能体案例研究展示了其应用。
GrandGuard 针对老年人在大语言模型聊天机器人交互中的特定风险,提出了一套全面的分类体系、基准测试与防护措施。研究发现,主流大语言模型对超过50%的此类风险处理不当,并提出了两种防护措施,检测准确率最高可达96.2%。
本文介绍了AgentAtlas框架,该框架超越仅基于结果的LLM代理排行榜,通过提出六状态控制决策分类法和九类别轨迹故障分类法,更全面地评估代理行为。
本文提出了一种基于跨文化交际理论的三级分类框架,用于评估AI的文化能力——文化认知、文化敏感性和文化能力——旨在提高AI评估在多元文化环境中的有效性和可解释性。
本文提出了一种结合认知功能轴和执行拓扑轴的AI代理设计模式二维分类框架,识别出27个命名模式,并通过跨领域分析推导出经验法则。
本文对用于数据保护的神经正切泛化攻击(NTGA)进行了全面分析,包括相关攻击的分类,并讨论了未来的研究方向。