metrics

标签

Cards List
#metrics

Persona Non Grata: LLM角色驱动生成在MCQA中在不同维度上不稳定

arXiv cs.CL · 8小时前 缓存

本文研究了大型语言模型在多选题问答(MCQA)任务中角色驱动生成的不稳定性,提出了三个衡量指标来评估模型族、模型规模和问题域的性能、结果和正确性稳定性。研究发现,不稳定性的变化具有一致性,数学和常识问题表现出更大的不稳定性,并且任务提示格式比其他超参数(如温度)引入了更多的不稳定性。

0 人收藏 0 人点赞
#metrics

在模拟复杂系统上验证因果抽象度量

arXiv cs.LG · 8小时前 缓存

本文介绍了一个包含十个复杂系统的基准,用于验证因果抽象度量,评估了三十多个候选度量,并提出了因果抽象误差(CAE)作为一种通用的有效性度量,能够可靠地区分有效与无效的解释。

0 人收藏 0 人点赞
#metrics

分析代理是否应从 Linear/Sentry/Notion 拉取上下文,还是仅关注指标?

Reddit r/AI_Agents · 2天前

探讨分析代理是否应整合来自 Linear、Sentry 和 Notion 等工具的上下文数据,还是保持纯指标驱动。

0 人收藏 0 人点赞
#metrics

The Download: 指标的弱点与AI大象预警

MIT Technology Review · 3天前 缓存

一份新闻简报,涵盖使用指标量化生活的陷阱、印度利用人工智能系统防止人象冲突,以及美国政府允许Anthropic向受信任组织发布其Mythos 5模型。

0 人收藏 0 人点赞
#metrics

@FinanceYF5: 过去 12 个月,GenAI 经济创造了 1100 亿美元销售额。它增长很快。按年化计算,其营收规模已超过 1750 亿美元。 这些数字是 Azeem 团队花了几个月构建出来的。这是第一个自下而上、去重后衡量全栈消费者和企业 AI 支出的…

X AI KOLs Following · 6天前 缓存

过去12个月,生成式AI经济创造了1100亿美元销售额,年化营收已超1750亿美元。这是Azeem团队构建的首个自下而上、去重后衡量全栈消费者和企业AI支出的指标。

0 人收藏 0 人点赞
#metrics

ConflictScore: 识别与衡量语言模型如何处理矛盾证据

arXiv cs.CL · 6天前 缓存

ConflictScore是一种新度量,用于量化语言模型在面对其基础文档中的矛盾证据时的识别能力,它将响应分解为原子声明并衡量矛盾平衡。论文还引入了ConflictBench,这是一个涵盖多种矛盾形式的基准测试,并展示了该度量可以提高TruthfulQA上的真实性。

0 人收藏 0 人点赞
#metrics

@AiCamila_: 智能体可观测性最佳实践:指标、日志与追踪——你无法改进你看不见的东西。智能体可观测…

X AI KOLs Timeline · 2026-06-24 缓存

这条推文分享了智能体可观测性的最佳实践,涵盖指标、日志和追踪,用于调试和优化生产环境中的AI智能体。

0 人收藏 0 人点赞
#metrics

那个响应究竟需要多长时间?

Lobsters Hottest · 2026-06-23 缓存

解释为什么 memcached 的内部响应时间指标有误导性,并建议使用客户端采样来准确测量总往返时间。

0 人收藏 0 人点赞
#metrics

指标不可避免的弱点

MIT Technology Review · 2026-06-19 缓存

一篇关于自我量化陷阱的反思文章,认为虽然指标可以揭示有用的信息,但它们往往会掩盖或扭曲更深刻的自我认知。

0 人收藏 0 人点赞
#metrics

代码行数找到了更好的宣传者

Hacker News Top · 2026-06-11 缓存

本文批评了AI编程工具供应商从基于结果的效率声明(例如,任务完成速度提高55%)转向基于数量的声明(例如,75%的代码由AI生成),认为后者意义不大且更难证伪。

0 人收藏 0 人点赞
#metrics

@makisuo: 现在所有类型的数据库(Redis、Postgres、Clickhouse、MySQL 等)都会显示重要的统计数据和指标,以及大多数…

X AI KOLs Timeline · 2026-06-04 缓存

Maple 服务地图现在显示包括 Redis、Postgres、Clickhouse 和 MySQL 在内的各种数据库的重要统计数据和指标。

0 人收藏 0 人点赞
#metrics

语音到语音翻译模型基准测试

arXiv cs.CL · 2026-06-03 缓存

COMPASS是一个统一的语音到语音翻译(S2ST)基准测试框架,它整合了八个维度的46个指标,并在1,248个模型-语言配置上进行了评估。该框架识别了互补的架构优势,并提出了精简的指标子集,在保持排名的同时减少了评估时间。

0 人收藏 0 人点赞
#metrics

如果你的智能体学到了任何东西,为什么 Run 10 的成本和 Run 1 一样?

Reddit r/ArtificialInteligence · 2026-06-01

对AI智能体token消耗的批判;提出Token投资回报率(ROTI)作为效率指标,指出大多数智能体不会随着时间减少token使用量。

0 人收藏 0 人点赞
#metrics

前端缺失的指标:TBT 窗口

Lobsters Hottest · 2026-05-31 缓存

本文介绍了 TBT 窗口这一缺失的前端性能指标概念,它突出显示了从首次内容绘制到可交互时间之间的总阻塞时间,并通过一个案例研究说明,某客户端的 TBT 从 495 毫秒飙升至 5,789 毫秒。

0 人收藏 0 人点赞
#metrics

@thsottiaux: 今天我在Codex仪表盘上看到了一个数字,让我很开心。关于这个数字的更多消息很快就会公布。感谢每一位…

X AI KOLs Timeline · 2026-05-30 缓存

作者表达了对Codex仪表盘上一个指标的喜悦,并暗示即将发布更多消息,同时感谢用户的早期采用。

0 人收藏 0 人点赞
#metrics

多场景长篇语音生成的综合基准评测

Hugging Face Daily Papers · 2026-05-27 缓存

Swanbench-Speech是一个综合基准评测,用于在多样化场景下评估长篇语音生成,采用涵盖声学、语义和表现力的多维度指标,揭示了当前模型的局限性。

0 人收藏 0 人点赞
#metrics

忠实性度量并不衡量忠实性:基于真实标注的元评估

Hugging Face Daily Papers · 2026-05-24 缓存

本文介绍了BonaFide基准,包含来自13个任务和10个模型的3,066个标注的思维链示例,并系统评估了忠实性度量,结果表明大多数度量表现接近随机,且在可靠性和效率方面存在显著局限。

0 人收藏 0 人点赞
#metrics

$ECUAS_n$: 用于原则性评估不确定性增强系统的度量族

arXiv cs.AI · 2026-05-22 缓存

本文提出一个称为ECUAS_n的度量族,用于原则性评估输出预测和不确定性分数的不确定性增强系统。作者认为现有的评估方法不充分,并将这些度量构建为不确定性下决策的恰当评分规则。

0 人收藏 0 人点赞
#metrics

过去24小时内,7,300个独立AI代理在x402上进行了购买——追踪代理商业中的8.9k USDC

Reddit r/AI_Agents · 2026-05-18

过去24小时内,7,300个AI代理在x402平台上执行了124,800笔交易,总计8.9k USDC,显示出自主代理商业的早期模式。

0 人收藏 0 人点赞
#metrics

AI模型构建者的不稳定指标与基准测试文化

arXiv cs.AI · 2026-05-15 缓存

本文介绍了Benchmarking-Cultures-25数据集,该数据集分析了AI模型构建者如何在新闻稿中选择性突出基准测试。研究发现评估格局碎片化,跨模型可比性有限,并指出基准测试更多被用作市场定位的叙事工具,而非标准化的科学测量手段。

0 人收藏 0 人点赞
Next →
← 返回首页

提交意见反馈