标签
Pramaana Labs 获得了由 Khosla Ventures 领投的 2700 万美元种子轮融资,旨在应用形式化验证(使用 LEAN 编程语言)来提高在诸如法律、药物发现和税务准备等高风险领域中的 AI 可靠性。
一位用户报告称,谷歌AI反复给出错误答案(关于“有史以来最薄的笔记本电脑”),即使在承认错误后也未能从中学习。
作者报告称,谷歌的Gemini一贯会捏造技术答案,编造功能和指令,而非承认不确定性,这给技术指导带来了风险。
一位用户分享了使用ChatGPT进行复杂医疗护理的经验,并提出聚合多个AI模型的想法,通过寻求不同LLM之间的共识来提高可靠性。
分析显示,GPT 5.5 在 SWEBench Pro 上的失败中有 28.9% 是由于损坏或错误的测试用例所致,类似问题也影响了其他主要 AI 基准测试,引发了对当前评估方法准确性的担忧。
解释大型语言模型实际所做的工作(下一个Token预测),以及为什么即使出错时它们听起来也很有信心。提供了一种心智模型和验证检查清单,用于安全使用LLM。
文章讨论了行业共识:人工智能正变得极其强大,但在高风险任务上的可靠性仍是一个未解决的工程问题。强调当前系统优化的是合理性而非确定性真理,前进方向是分层验证系统而非单一完美模型。
本文讨论了LLM优化中忠实度的重要性,引入了一种结构忠实度分数,通过测量词汇重叠、约束保留和任务类型匹配的漂移,确保提示优化不牺牲意图。
安大略省审计长办公室的审计发现,获准用于医疗保健的AI笔记系统经常编造信息、插入错误的药物细节,并遗漏关键患者数据,而准确性仅占其评估分数的4%。
GigaAI 宣布推出新的幻觉纠正功能,将模型的幻觉率降至约1%,并声称其可靠性优于前沿模型。
斯坦福与哈佛研究者指出,agentic AI 系统在现实部署中失败,并非因为“不够聪明”,而是某些根本性问题导致演示效果在实际场景中崩溃。
一篇预印本论文,分析为何计算机使用智能体首次成功却在重复执行时失败,将不可靠性归因于执行随机性、任务模糊性和行为变异性,并倡导重复评估与稳定策略。