标签
本文研究了大型语言模型在多选题问答(MCQA)任务中角色驱动生成的不稳定性,提出了三个衡量指标来评估模型族、模型规模和问题域的性能、结果和正确性稳定性。研究发现,不稳定性的变化具有一致性,数学和常识问题表现出更大的不稳定性,并且任务提示格式比其他超参数(如温度)引入了更多的不稳定性。
本文介绍了一个包含十个复杂系统的基准,用于验证因果抽象度量,评估了三十多个候选度量,并提出了因果抽象误差(CAE)作为一种通用的有效性度量,能够可靠地区分有效与无效的解释。
探讨分析代理是否应整合来自 Linear、Sentry 和 Notion 等工具的上下文数据,还是保持纯指标驱动。
一份新闻简报,涵盖使用指标量化生活的陷阱、印度利用人工智能系统防止人象冲突,以及美国政府允许Anthropic向受信任组织发布其Mythos 5模型。
过去12个月,生成式AI经济创造了1100亿美元销售额,年化营收已超1750亿美元。这是Azeem团队构建的首个自下而上、去重后衡量全栈消费者和企业AI支出的指标。
ConflictScore是一种新度量,用于量化语言模型在面对其基础文档中的矛盾证据时的识别能力,它将响应分解为原子声明并衡量矛盾平衡。论文还引入了ConflictBench,这是一个涵盖多种矛盾形式的基准测试,并展示了该度量可以提高TruthfulQA上的真实性。
这条推文分享了智能体可观测性的最佳实践,涵盖指标、日志和追踪,用于调试和优化生产环境中的AI智能体。
本文批评了AI编程工具供应商从基于结果的效率声明(例如,任务完成速度提高55%)转向基于数量的声明(例如,75%的代码由AI生成),认为后者意义不大且更难证伪。
Maple 服务地图现在显示包括 Redis、Postgres、Clickhouse 和 MySQL 在内的各种数据库的重要统计数据和指标。
COMPASS是一个统一的语音到语音翻译(S2ST)基准测试框架,它整合了八个维度的46个指标,并在1,248个模型-语言配置上进行了评估。该框架识别了互补的架构优势,并提出了精简的指标子集,在保持排名的同时减少了评估时间。
对AI智能体token消耗的批判;提出Token投资回报率(ROTI)作为效率指标,指出大多数智能体不会随着时间减少token使用量。
本文介绍了 TBT 窗口这一缺失的前端性能指标概念,它突出显示了从首次内容绘制到可交互时间之间的总阻塞时间,并通过一个案例研究说明,某客户端的 TBT 从 495 毫秒飙升至 5,789 毫秒。
作者表达了对Codex仪表盘上一个指标的喜悦,并暗示即将发布更多消息,同时感谢用户的早期采用。
Swanbench-Speech是一个综合基准评测,用于在多样化场景下评估长篇语音生成,采用涵盖声学、语义和表现力的多维度指标,揭示了当前模型的局限性。
本文介绍了BonaFide基准,包含来自13个任务和10个模型的3,066个标注的思维链示例,并系统评估了忠实性度量,结果表明大多数度量表现接近随机,且在可靠性和效率方面存在显著局限。
本文提出一个称为ECUAS_n的度量族,用于原则性评估输出预测和不确定性分数的不确定性增强系统。作者认为现有的评估方法不充分,并将这些度量构建为不确定性下决策的恰当评分规则。
过去24小时内,7,300个AI代理在x402平台上执行了124,800笔交易,总计8.9k USDC,显示出自主代理商业的早期模式。
本文介绍了Benchmarking-Cultures-25数据集,该数据集分析了AI模型构建者如何在新闻稿中选择性突出基准测试。研究发现评估格局碎片化,跨模型可比性有限,并指出基准测试更多被用作市场定位的叙事工具,而非标准化的科学测量手段。