metrics

#metrics

Persona Non Grata: LLM角色驱动生成在MCQA中在不同维度上不稳定

arXiv cs.CL ↗ · 11小时前缓存

本文研究了大型语言模型在多选题问答（MCQA）任务中角色驱动生成的不稳定性，提出了三个衡量指标来评估模型族、模型规模和问题域的性能、结果和正确性稳定性。研究发现，不稳定性的变化具有一致性，数学和常识问题表现出更大的不稳定性，并且任务提示格式比其他超参数（如温度）引入了更多的不稳定性。

0 人收藏 0 人点赞

#metrics

在模拟复杂系统上验证因果抽象度量

arXiv cs.LG ↗ · 11小时前缓存

本文介绍了一个包含十个复杂系统的基准，用于验证因果抽象度量，评估了三十多个候选度量，并提出了因果抽象误差（CAE）作为一种通用的有效性度量，能够可靠地区分有效与无效的解释。

0 人收藏 0 人点赞

#metrics

分析代理是否应从 Linear/Sentry/Notion 拉取上下文，还是仅关注指标？

Reddit r/AI_Agents ↗ · 2天前

探讨分析代理是否应整合来自 Linear、Sentry 和 Notion 等工具的上下文数据，还是保持纯指标驱动。

0 人收藏 0 人点赞

#metrics

The Download: 指标的弱点与AI大象预警

MIT Technology Review ↗ · 3天前缓存

一份新闻简报，涵盖使用指标量化生活的陷阱、印度利用人工智能系统防止人象冲突，以及美国政府允许Anthropic向受信任组织发布其Mythos 5模型。

0 人收藏 0 人点赞

#metrics

@FinanceYF5: 过去 12 个月，GenAI 经济创造了 1100 亿美元销售额。它增长很快。按年化计算，其营收规模已超过 1750 亿美元。这些数字是 Azeem 团队花了几个月构建出来的。这是第一个自下而上、去重后衡量全栈消费者和企业 AI 支出的…

X AI KOLs Following ↗ · 6天前缓存

过去12个月，生成式AI经济创造了1100亿美元销售额，年化营收已超1750亿美元。这是Azeem团队构建的首个自下而上、去重后衡量全栈消费者和企业AI支出的指标。

0 人收藏 0 人点赞

#metrics

ConflictScore: 识别与衡量语言模型如何处理矛盾证据

arXiv cs.CL ↗ · 6天前缓存

ConflictScore是一种新度量，用于量化语言模型在面对其基础文档中的矛盾证据时的识别能力，它将响应分解为原子声明并衡量矛盾平衡。论文还引入了ConflictBench，这是一个涵盖多种矛盾形式的基准测试，并展示了该度量可以提高TruthfulQA上的真实性。

0 人收藏 0 人点赞

#metrics

@AiCamila_: 智能体可观测性最佳实践：指标、日志与追踪——你无法改进你看不见的东西。智能体可观测…

X AI KOLs Timeline ↗ · 2026-06-24 缓存

这条推文分享了智能体可观测性的最佳实践，涵盖指标、日志和追踪，用于调试和优化生产环境中的AI智能体。

0 人收藏 0 人点赞

#metrics

那个响应究竟需要多长时间？

Lobsters Hottest ↗ · 2026-06-23 缓存

解释为什么 memcached 的内部响应时间指标有误导性，并建议使用客户端采样来准确测量总往返时间。

0 人收藏 0 人点赞

#metrics

指标不可避免的弱点

MIT Technology Review ↗ · 2026-06-19 缓存

一篇关于自我量化陷阱的反思文章，认为虽然指标可以揭示有用的信息，但它们往往会掩盖或扭曲更深刻的自我认知。

0 人收藏 0 人点赞

#metrics

代码行数找到了更好的宣传者

Hacker News Top ↗ · 2026-06-11 缓存

本文批评了AI编程工具供应商从基于结果的效率声明（例如，任务完成速度提高55%）转向基于数量的声明（例如，75%的代码由AI生成），认为后者意义不大且更难证伪。

0 人收藏 0 人点赞

#metrics

@makisuo: 现在所有类型的数据库（Redis、Postgres、Clickhouse、MySQL 等）都会显示重要的统计数据和指标，以及大多数…

X AI KOLs Timeline ↗ · 2026-06-04 缓存

Maple 服务地图现在显示包括 Redis、Postgres、Clickhouse 和 MySQL 在内的各种数据库的重要统计数据和指标。

0 人收藏 0 人点赞

#metrics

语音到语音翻译模型基准测试

arXiv cs.CL ↗ · 2026-06-03 缓存

COMPASS是一个统一的语音到语音翻译(S2ST)基准测试框架，它整合了八个维度的46个指标，并在1,248个模型-语言配置上进行了评估。该框架识别了互补的架构优势，并提出了精简的指标子集，在保持排名的同时减少了评估时间。

0 人收藏 0 人点赞

#metrics

如果你的智能体学到了任何东西，为什么 Run 10 的成本和 Run 1 一样？

Reddit r/ArtificialInteligence ↗ · 2026-06-01

对AI智能体token消耗的批判；提出Token投资回报率（ROTI）作为效率指标，指出大多数智能体不会随着时间减少token使用量。

0 人收藏 0 人点赞

#metrics

前端缺失的指标：TBT 窗口

Lobsters Hottest ↗ · 2026-05-31 缓存

本文介绍了 TBT 窗口这一缺失的前端性能指标概念，它突出显示了从首次内容绘制到可交互时间之间的总阻塞时间，并通过一个案例研究说明，某客户端的 TBT 从 495 毫秒飙升至 5,789 毫秒。

0 人收藏 0 人点赞

#metrics

@thsottiaux: 今天我在Codex仪表盘上看到了一个数字，让我很开心。关于这个数字的更多消息很快就会公布。感谢每一位…

X AI KOLs Timeline ↗ · 2026-05-30 缓存

作者表达了对Codex仪表盘上一个指标的喜悦，并暗示即将发布更多消息，同时感谢用户的早期采用。

0 人收藏 0 人点赞

#metrics

多场景长篇语音生成的综合基准评测

Hugging Face Daily Papers ↗ · 2026-05-27 缓存

Swanbench-Speech是一个综合基准评测，用于在多样化场景下评估长篇语音生成，采用涵盖声学、语义和表现力的多维度指标，揭示了当前模型的局限性。

0 人收藏 0 人点赞

#metrics

忠实性度量并不衡量忠实性：基于真实标注的元评估

Hugging Face Daily Papers ↗ · 2026-05-24 缓存

本文介绍了BonaFide基准，包含来自13个任务和10个模型的3,066个标注的思维链示例，并系统评估了忠实性度量，结果表明大多数度量表现接近随机，且在可靠性和效率方面存在显著局限。

0 人收藏 0 人点赞

#metrics

$ECUAS_n$: 用于原则性评估不确定性增强系统的度量族

arXiv cs.AI ↗ · 2026-05-22 缓存

本文提出一个称为ECUAS_n的度量族，用于原则性评估输出预测和不确定性分数的不确定性增强系统。作者认为现有的评估方法不充分，并将这些度量构建为不确定性下决策的恰当评分规则。

0 人收藏 0 人点赞

#metrics

过去24小时内，7,300个独立AI代理在x402上进行了购买——追踪代理商业中的8.9k USDC

Reddit r/AI_Agents ↗ · 2026-05-18

过去24小时内，7,300个AI代理在x402平台上执行了124,800笔交易，总计8.9k USDC，显示出自主代理商业的早期模式。

0 人收藏 0 人点赞

#metrics

AI模型构建者的不稳定指标与基准测试文化

arXiv cs.AI ↗ · 2026-05-15 缓存

本文介绍了Benchmarking-Cultures-25数据集，该数据集分析了AI模型构建者如何在新闻稿中选择性突出基准测试。研究发现评估格局碎片化，跨模型可比性有限，并指出基准测试更多被用作市场定位的叙事工具，而非标准化的科学测量手段。

0 人收藏 0 人点赞

metrics

提交意见反馈