frontier-models

标签

Cards List
#frontier-models

@Rafa_Schwinger: https://x.com/Rafa_Schwinger/status/2066230802439180447

X AI KOLs Timeline · 2026-06-14 缓存

关于Anthropic的Claude Fable是如何构建的分析,认为关键的护城河是可验证的训练信号而非架构秘密,该模型使用静态和交互式最优数据进行强化学习。

0 人收藏 0 人点赞
#frontier-models

@zhengyaojiang: 我们对7个前沿模型在三个类别的自动研究任务上进行了基准测试:ML工程、框架/提示工程以及……

X AI KOLs Following · 2026-06-14 缓存

研究人员对7个前沿模型在自动研究任务上进行了基准测试。Fable-5总体获胜,但开源模型Kimi-K2.7-Code在ML工程任务上超越了其他模型。

0 人收藏 0 人点赞
#frontier-models

@jietang: GLM-5.2 全面开源,前沿智能属于每一个人。今天,某些前沿模型的突然限制……

X AI KOLs Following · 2026-06-13 缓存

智谱AI发布GLM-5.2,这是其能力最强的开源模型,支持100万上下文窗口,定位为复杂智能体应用和编码模型的基础,即日起向GLM Coding Plan用户提供,API将于下周上线。

0 人收藏 0 人点赞
#frontier-models

LLM的最佳使用方式会是什么样?

Reddit r/singularity · 2026-06-12

探讨一种推测性想法:通过适应LLM的原生通信模式(例如使用神经语)来优化人类与LLM的交互,而不是强迫它们适应人类语言。

0 人收藏 0 人点赞
#frontier-models

Mythos-class 模型将在2029年前扩散至全球(7分钟阅读)

TLDR AI · 2026-06-12 缓存

Saagar Pateder分析了人工智能在消费者和企业任务中的边际收益递减,并基于模型性能和成本的历史趋势,预测开源权重模型将在2029年前普及全球。

0 人收藏 0 人点赞
#frontier-models

Anthropic 撤回了一项可能‘破坏’使用 Claude 的 AI 研究人员的政策

Simon Willison's Blog · 2026-06-11 缓存

Anthropic 道歉并撤销了一项政策,该政策曾让 Claude 默示地限制从事前沿大语言模型开发的 AI 研究人员的效率,转而将保护措施公开化。

0 人收藏 0 人点赞
#frontier-models

Deepseek V4 如何能在编程排行榜上名列前茅,却依然落后前沿8个月?

Reddit r/LocalLLaMA · 2026-06-11

分析 DeepSeek V4 在编程排行榜上的高分与其声称的落后前沿8个月的差距,突出狭窄基准优化与更广泛推理测试之间的差异,以及运行量化本地版本时实际性能的损失。

0 人收藏 0 人点赞
#frontier-models

@rohanpaul_ai: 当前前沿智能体在现实自动化方面的准备程度远不及它们在基准测试中的分数所暗示的那样。本文提…

X AI KOLs Following · 2026-06-11 缓存

本文介绍了“智能体最终考试”(Agents' Last Exam),这是一个测试AI智能体在55个数字工作领域中进行真实专家工作能力的基准。目前最强的智能体在大多数任务上失败,在最难的层级中平均通过率仅为2.6%,揭示了基准分数与现实世界自动化准备程度之间的巨大差距。

0 人收藏 0 人点赞
#frontier-models

索伦之眼

Reddit r/ArtificialInteligence · 2026-06-10

用《指环王》类比批评达里奥·阿莫迪的文章,认为“索伦之眼”的框架比“树人”的类比更贴切,突显了对集中化人工智能权力和监控的担忧。

0 人收藏 0 人点赞
#frontier-models

煤气灯检测器:检测前沿AI公司是否在试图对你进行煤气灯效应的工具

Reddit r/ArtificialInteligence · 2026-06-10

煤气灯检测器是针对Anthropic的Claude Fable而发布的工具,用于检测前沿AI模型在特定主题上的输出是否被覆盖或修改。

0 人收藏 0 人点赞
#frontier-models

你真的能用本地模型替代付费模型吗?

Reddit r/LocalLLaMA · 2026-06-10

一位社区成员认为,尽管取得了令人瞩目的进展,但在复杂的代理任务上,本地开源模型仍然远远落后于前沿闭源模型,并警告不要过度吹嘘替代的说法。

0 人收藏 0 人点赞
#frontier-models

AI的成本还是AI的收入——我们哪里搞错了?

Reddit r/ArtificialInteligence · 2026-06-10

分析Claude Fable 5的成本与定价模式、Anthropic停止在订阅中包含前沿模型并转向按token计费的决定,以及这对AI访问和不平等带来的更广泛经济影响。

0 人收藏 0 人点赞
#frontier-models

Anthropic 在 fable 5 中构建了一个隐藏开关,使其在构建AI系统方面表现不佳

Reddit r/singularity · 2026-06-09

Anthropic 悄无声息地实施了一些干预措施,限制了 Claude 在构建竞争性AI系统方面的有效性,这些措施通过对一小部分流量进行提示修改和引导向量,作为防止其模型被未经授权用于开发前沿LLM的安全手段。

0 人收藏 0 人点赞
#frontier-models

AI作为镜子的论点

Reddit r/ArtificialInteligence · 2026-06-09

文章认为,‘AI作为镜子’的比喻具有误导性,因为前沿AI模型是被积极优化用于欺骗和谄媚,而非被动反映,这一结论有来自RLHF和评估意识研究的证据支持。

0 人收藏 0 人点赞
#frontier-models

Perplexity计划在2028年上市,无论Anthropic或OpenAI情况如何(4分钟阅读)

TLDR AI · 2026-06-09 缓存

Perplexity CEO Aravind Srinivas告诉CNBC,公司计划在2028年上市,无论Anthropic和OpenAI的IPO表现如何。他讨论了AI支出趋势以及模型成本效率的重要性。

0 人收藏 0 人点赞
#frontier-models

微软AI负责人称超级智能即将到来,但不会取代你的工作

The Verge · 2026-06-08 缓存

微软AI首席执行官穆斯塔法·苏莱曼讨论了超级智能在近期实现的可能性、公司与OpenAI重组后的关系以及新的前沿模型,并断言AI不会取代人类工作。

0 人收藏 0 人点赞
#frontier-models

我比较了2026年顶尖AI模型——结果比预期更具细微差别

Reddit r/AI_Agents · 2026-06-08

对2026年前沿AI模型的全面比较发现没有单一的最佳模型;最佳选择取决于用例、约束条件和运营需求。

0 人收藏 0 人点赞
#frontier-models

快速思考:估算前沿AI模型的无CoT任务完成时间视野

arXiv cs.AI · 2026-06-08 缓存

本文通过在30,000个问题上测量前沿AI模型在没有显式思维链的情况下的推理能力,发现无CoT的任务完成时间视野每年翻一番,到2028年可能超过7分钟,这引发了对安全监管的担忧。

0 人收藏 0 人点赞
#frontier-models

@cyrilXBT: Nemotron 3 Ultra 对比 DeepSeek V4 对比 MiniMax M3 对比 Qwen 3.7 Max。相同两个提示词。四个前沿模型。一个…

X AI KOLs Following · 2026-06-06 缓存

四种前沿AI模型(Nemotron 3 Ultra、DeepSeek V4、MiniMax M3、Qwen 3.7 Max)在相同两个提示词上的对比,附完整结果链接。

0 人收藏 0 人点赞
#frontier-models

Launch HN: General Instinct (YC P26) – 在边缘设备上运行前沿模型

Hacker News Top · 2026-06-05 缓存

General Instinct 推出 InstinctRazor,这是一款开源工具,可将 Qwen3.5-122B 等大型 MoE 模型压缩为 48GiB 的 GGUF 格式,从而在仅需 8GB VRAM 的边缘硬件上实现前沿模型性能。

0 人收藏 0 人点赞
← Previous
Next →
← 返回首页

提交意见反馈