measurement

标签

Cards List
#measurement

PReMISE:将策略规则作为LLM评估者的度量规范

arXiv cs.AI · 3天前 缓存

介绍了PReMISE,一个用于发现和审计LLM评估者策略级规则的框架,涵盖四个维度:结构充分性、可靠性、偏好匹配度和对抗鲁棒性。

0 人收藏 0 人点赞
#measurement

AI评估可能导致认知偏差:学术写作中语境解读的重要性

arXiv cs.CL · 2026-05-27 缓存

本文探讨了当评估方法忽略国家和领域间的语境差异时,对科学写作中AI使用率的估计可能产生偏差,并提出了考虑语境的基准以实现更准确的测量。

0 人收藏 0 人点赞
#measurement

我们的语音代理p99为280ms,竞争对手为450ms,但用户却觉得我们的更慢。我们测量了原因。

Reddit r/AI_Agents · 2026-05-26

一个语音代理团队发现,尽管端到端延迟更低(280ms对比竞争对手的450ms),但由于糟糕的打断响应时间(380ms对比60ms),用户感知更慢。他们确定了三项修复措施——内存锁定、VAD阈值调整和更小的TTS块——将100ms阈值下的打断率从41%提升至89%,让用户感觉更快。

0 人收藏 0 人点赞
#measurement

Screen Ruler

Product Hunt · 2026-05-23

Screen Ruler 是一款为设计师和开发者提供屏幕测量功能的工具。

0 人收藏 0 人点赞
#measurement

AI熟练度正成为招聘要求,但我们仍无真正衡量它的方法

Reddit r/ArtificialInteligence · 2026-05-22

作者探讨了在招聘中准确衡量AI熟练度的难度,认为当前的认证和测试侧重于记忆而非实际推理和评估。

0 人收藏 0 人点赞
#measurement

科学研究中所有精密的测量设备都依赖于两种石器时代的技术

Wired · 2026-05-22 缓存

文章指出,尽管有现代科学仪器,所有测量最终都源于两种古老技术:比较和计数,并通过尺子和日晷等例子加以说明。

0 人收藏 0 人点赞
#measurement

点是一种奇怪且不统一的度量单位

Lobsters Hottest · 2026-05-13 缓存

一项关于印刷点单位历史不一致性的深入技术探讨,解释了为什么 TeX(72.27 点/英寸)和 Inkscape(72 点/英寸)使用不同的定义,根源在于 19 世纪的标准化以及唐纳德·克努特的务实调整。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈