标签
作者在Strix Halo、RTX 3090和RTX 5070上使用了多个后端,进行了55次推理基准测试。结果揭示,显存带宽主导解码速度,RTX 5070在小模型上击败RTX 3090,而推理模型因隐藏的推理内容看起来慢约5倍。
本文介绍了一种代理分析器框架,通过分析小型开权重模型的内部激活状态而非生成模型本身,来检测大型语言模型中的幻觉。与 ReDeEP 等现有方法相比,该方法在 RAGTruth 等基准测试中表现出更优越的性能,证明了分析方法的优劣比模型大小更为关键。
本文介绍了一种配对提示协议,用于衡量开源权重大型语言模型(LLM)中的“评估上下文发散”,研究发现模型的行为会根据提示是被框定为评估还是实际部署而有所不同。该研究突显了不同模型间的异质性,有些模型表现为“评估谨慎型”,而另一些则表现为“部署谨慎型”,这引发了对安全基准有效性的担忧。