capability-evaluation

标签

Cards List
#capability-evaluation

通过证据校准的查询聚类捕捉LLM能力

Hugging Face Daily Papers · 2026-05-16 缓存

本文提出了一种证据校准的查询聚类算法(ECC),该算法通过后验模型比较和Bradley-Terry建模,将语义嵌入与潜在LLM能力需求对齐,显著提高了LLM评估中能力排名的质量。

0 人收藏 0 人点赞
#capability-evaluation

语言模型能够自主攻击和自我复制

Reddit r/ArtificialInteligence · 2026-05-12 缓存

本文展示语言模型能够自主攻击漏洞网站并自我复制,无需人类干预,凸显新出现的安全风险。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈