ai-reliability

标签

Cards List
#ai-reliability

Pramaana Labs 从 Khosla Ventures 获得 2700 万美元种子轮融资,将形式化验证引入 AI

TechCrunch AI · 17小时前 缓存

Pramaana Labs 获得了由 Khosla Ventures 领投的 2700 万美元种子轮融资,旨在应用形式化验证(使用 LEAN 编程语言)来提高在诸如法律、药物发现和税务准备等高风险领域中的 AI 可靠性。

0 人收藏 0 人点赞
#ai-reliability

我给谷歌AI做了一个简单测试,它连续三次在不同浏览器中给出了错误答案,尽管它说会记录正确答案并记住以供将来使用。

Reddit r/artificial · 3天前

一位用户报告称,谷歌AI反复给出错误答案(关于“有史以来最薄的笔记本电脑”),即使在承认错误后也未能从中学习。

0 人收藏 0 人点赞
#ai-reliability

Gemini——自信地捏造技术答案

Reddit r/ArtificialInteligence · 2026-06-08

作者报告称,谷歌的Gemini一贯会捏造技术答案,编造功能和指令,而非承认不确定性,这给技术指导带来了风险。

0 人收藏 0 人点赞
#ai-reliability

一个AI聚合器?

Reddit r/AI_Agents · 2026-06-03

一位用户分享了使用ChatGPT进行复杂医疗护理的经验,并提出聚合多个AI模型的想法,通过寻求不同LLM之间的共识来提高可靠性。

0 人收藏 0 人点赞
#ai-reliability

在 SWEBench Pro 上,GPT 5.5 的失败中有 68.5% 是由损坏或错误的测试用例引起的,占整个基准测试的 28.9%

Reddit r/ArtificialInteligence · 2026-05-26

分析显示,GPT 5.5 在 SWEBench Pro 上的失败中有 28.9% 是由于损坏或错误的测试用例所致,类似问题也影响了其他主要 AI 基准测试,引发了对当前评估方法准确性的担忧。

0 人收藏 0 人点赞
#ai-reliability

@pallavishekhar_: https://x.com/pallavishekhar_/status/2058460434035060758

X AI KOLs Timeline · 2026-05-24 缓存

解释大型语言模型实际所做的工作(下一个Token预测),以及为什么即使出错时它们听起来也很有信心。提供了一种心智模型和验证检查清单,用于安全使用LLM。

0 人收藏 0 人点赞
#ai-reliability

Open ai

Reddit r/ArtificialInteligence · 2026-05-21

文章讨论了行业共识:人工智能正变得极其强大,但在高风险任务上的可靠性仍是一个未解决的工程问题。强调当前系统优化的是合理性而非确定性真理,前进方向是分层验证系统而非单一完美模型。

0 人收藏 0 人点赞
#ai-reliability

测量AI的忠实度——无论好坏

Reddit r/AI_Agents · 2026-05-20

本文讨论了LLM优化中忠实度的重要性,引入了一种结构忠实度分数,通过测量词汇重叠、约束保留和任务类型匹配的漂移,确保提示优化不牺牲意图。

0 人收藏 0 人点赞
#ai-reliability

安大略省审计人员发现医生使用的AI笔记工具经常犯基本事实错误

Hacker News Top · 2026-05-14 缓存

安大略省审计长办公室的审计发现,获准用于医疗保健的AI笔记系统经常编造信息、插入错误的药物细节,并遗漏关键患者数据,而准确性仅占其评估分数的4%。

0 人收藏 0 人点赞
#ai-reliability

@GigaAI: 推出幻觉纠正功能。我们将幻觉率降低了70%。Giga的幻觉率约为1%。更胜一筹……

X AI KOLs Timeline · 2026-05-07 缓存

GigaAI 宣布推出新的幻觉纠正功能,将模型的幻觉率降至约1%,并声称其可靠性优于前沿模型。

0 人收藏 0 人点赞
#ai-reliability

@AiwithYasir:突发:这篇来自斯坦福与哈佛的论文解释了为何大多数“agentic AI”系统在演示中惊艳、落地却翻车

X AI KOLs Timeline · 2026-04-20 缓存

斯坦福与哈佛研究者指出,agentic AI 系统在现实部署中失败,并非因为“不够聪明”,而是某些根本性问题导致演示效果在实际场景中崩溃。

0 人收藏 0 人点赞
#ai-reliability

论计算机使用智能体的可靠性

Hugging Face Daily Papers · 2026-04-20 缓存

一篇预印本论文,分析为何计算机使用智能体首次成功却在重复执行时失败,将不可靠性归因于执行随机性、任务模糊性和行为变异性,并倡导重复评估与稳定策略。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈