ai-reliability

#ai-reliability

Pramaana Labs 从 Khosla Ventures 获得 2700 万美元种子轮融资，将形式化验证引入 AI

TechCrunch AI ↗ · 16小时前缓存

Pramaana Labs 获得了由 Khosla Ventures 领投的 2700 万美元种子轮融资，旨在应用形式化验证（使用 LEAN 编程语言）来提高在诸如法律、药物发现和税务准备等高风险领域中的 AI 可靠性。

0 人收藏 0 人点赞

#ai-reliability

我给谷歌AI做了一个简单测试，它连续三次在不同浏览器中给出了错误答案，尽管它说会记录正确答案并记住以供将来使用。

Reddit r/artificial ↗ · 3天前

一位用户报告称，谷歌AI反复给出错误答案（关于“有史以来最薄的笔记本电脑”），即使在承认错误后也未能从中学习。

0 人收藏 0 人点赞

#ai-reliability

Gemini——自信地捏造技术答案

Reddit r/ArtificialInteligence ↗ · 2026-06-08

作者报告称，谷歌的Gemini一贯会捏造技术答案，编造功能和指令，而非承认不确定性，这给技术指导带来了风险。

0 人收藏 0 人点赞

#ai-reliability

一个AI聚合器？

Reddit r/AI_Agents ↗ · 2026-06-03

一位用户分享了使用ChatGPT进行复杂医疗护理的经验，并提出聚合多个AI模型的想法，通过寻求不同LLM之间的共识来提高可靠性。

0 人收藏 0 人点赞

#ai-reliability

在 SWEBench Pro 上，GPT 5.5 的失败中有 68.5% 是由损坏或错误的测试用例引起的，占整个基准测试的 28.9%

Reddit r/ArtificialInteligence ↗ · 2026-05-26

分析显示，GPT 5.5 在 SWEBench Pro 上的失败中有 28.9% 是由于损坏或错误的测试用例所致，类似问题也影响了其他主要 AI 基准测试，引发了对当前评估方法准确性的担忧。

0 人收藏 0 人点赞

#ai-reliability

@pallavishekhar_: https://x.com/pallavishekhar_/status/2058460434035060758

X AI KOLs Timeline ↗ · 2026-05-24 缓存

解释大型语言模型实际所做的工作（下一个Token预测），以及为什么即使出错时它们听起来也很有信心。提供了一种心智模型和验证检查清单，用于安全使用LLM。

0 人收藏 0 人点赞

#ai-reliability

Open ai

Reddit r/ArtificialInteligence ↗ · 2026-05-21

文章讨论了行业共识：人工智能正变得极其强大，但在高风险任务上的可靠性仍是一个未解决的工程问题。强调当前系统优化的是合理性而非确定性真理，前进方向是分层验证系统而非单一完美模型。

0 人收藏 0 人点赞

#ai-reliability

测量AI的忠实度——无论好坏

Reddit r/AI_Agents ↗ · 2026-05-20

本文讨论了LLM优化中忠实度的重要性，引入了一种结构忠实度分数，通过测量词汇重叠、约束保留和任务类型匹配的漂移，确保提示优化不牺牲意图。

0 人收藏 0 人点赞

#ai-reliability

安大略省审计人员发现医生使用的AI笔记工具经常犯基本事实错误

Hacker News Top ↗ · 2026-05-14 缓存

安大略省审计长办公室的审计发现，获准用于医疗保健的AI笔记系统经常编造信息、插入错误的药物细节，并遗漏关键患者数据，而准确性仅占其评估分数的4%。

0 人收藏 0 人点赞

#ai-reliability

@GigaAI: 推出幻觉纠正功能。我们将幻觉率降低了70%。Giga的幻觉率约为1%。更胜一筹……

X AI KOLs Timeline ↗ · 2026-05-07 缓存

GigaAI 宣布推出新的幻觉纠正功能，将模型的幻觉率降至约1%，并声称其可靠性优于前沿模型。

0 人收藏 0 人点赞

#ai-reliability

@AiwithYasir：突发：这篇来自斯坦福与哈佛的论文解释了为何大多数“agentic AI”系统在演示中惊艳、落地却翻车

X AI KOLs Timeline ↗ · 2026-04-20 缓存

斯坦福与哈佛研究者指出，agentic AI 系统在现实部署中失败，并非因为“不够聪明”，而是某些根本性问题导致演示效果在实际场景中崩溃。

0 人收藏 0 人点赞

#ai-reliability

论计算机使用智能体的可靠性

Hugging Face Daily Papers ↗ · 2026-04-20 缓存

一篇预印本论文，分析为何计算机使用智能体首次成功却在重复执行时失败，将不可靠性归因于执行随机性、任务模糊性和行为变异性，并倡导重复评估与稳定策略。

0 人收藏 0 人点赞

ai-reliability

提交意见反馈