标签
介绍了PReMISE,一个用于发现和审计LLM评估者策略级规则的框架,涵盖四个维度:结构充分性、可靠性、偏好匹配度和对抗鲁棒性。
本文探讨了当评估方法忽略国家和领域间的语境差异时,对科学写作中AI使用率的估计可能产生偏差,并提出了考虑语境的基准以实现更准确的测量。
一个语音代理团队发现,尽管端到端延迟更低(280ms对比竞争对手的450ms),但由于糟糕的打断响应时间(380ms对比60ms),用户感知更慢。他们确定了三项修复措施——内存锁定、VAD阈值调整和更小的TTS块——将100ms阈值下的打断率从41%提升至89%,让用户感觉更快。
文章指出,尽管有现代科学仪器,所有测量最终都源于两种古老技术:比较和计数,并通过尺子和日晷等例子加以说明。
一项关于印刷点单位历史不一致性的深入技术探讨,解释了为什么 TeX(72.27 点/英寸)和 Inkscape(72 点/英寸)使用不同的定义,根源在于 19 世纪的标准化以及唐纳德·克努特的务实调整。