标签
本文提出一个扩展的疏散框架,将认知、情感、社交和人格机制整合到基于智能体的不确定性人类行为仿真中。该框架建模动态事件意识、记忆、恐惧以及基于OCEAN的人格,展示了其对疏散效率和真实人群现象的影响。
本文介绍了一种张量网络模型,用于捕捉情绪效价对儿童识别记忆顺序依赖结构的影响,达到了77.98%的准确率,展示了量子启发方法在建模认知现象中的价值。
Cognition推出Devin Fusion,这是一款自适应模型路由器,可在保持真正前沿智能用于代理编程任务的同时,将成本降低35%。
本文采用发展性方法研究神经语言模型(特别是Transformer)如何从人工语法中学习统计模式,发现它们首先获取全局抽象统计信息,然后学习局部依赖关系,并在早期出现过度泛化。
Cognition 为 DevinAI 正式启动大使计划,面向全球招募 50 位新大使,入选者可获得免费的 Devin Max 计划、积分和早期访问权限。
Cognition 将域名从 cognition.ai 迁移至 cognition.com,Devin 仍是首个自主软件工程师。
FrontierCode 是 METR 和 Cognition 推出的新编程基准,用于评估 AI 模型在代码可维护性和质量方面的表现,结果显示许多模型会生成无法合并的代码。该基准包含超过 1000 小时的工作量,并表明即使顶尖模型也难以应对,其中 Opus 4.8 在最难的等级上仅获得 13.8%。
Cognition 推出了 FrontierCode,这是一个高质量的编程基准测试,超越了单纯的单元测试,用于衡量代码的可维护性、回归安全性和质量,由 20 多位开源开发者精心设计了 150 个任务。
讨论AI采用中从基于token的生产力指标转向产出、影响和价值衡量,重点介绍Cognition的解决方案:自适应路由、支出归因、自动化以及生产力保障。
Cognition发布了Devin的首个评估套件,提供长达100小时的企业级评估并附有财务保证。数据集包含来自126家企业用户的真实Java/TypeScript/Python/C#任务,旨在比现有基准更准确地衡量工程生产力。
由Cognition、Mercor、Etched和Anthropic AI联合主办的在旧金山举行的为期一天的Hackathon,头奖5万美元,总奖金10万美元。报名截止日期为6月12日。
一条推文指出,许多AI认知将足以完成任务,剩余的工作涉及诊断性分类,例如决定是否值得花钱请律师。
讨论了以史无前例的低价提供初阶认知能力所涉及的道德层面,强调AI的替代方案可能根本没有答案。
Cognition首席执行官Scott Wu表示,像Devin这样的人工智能编码代理旨在辅助而非取代人类程序员,强调人机协作而非失业问题。
与Walden Yan (Cognition)和Cole Murray (OpenInspect)深入探讨构建云代理,涵盖虚拟机设置、计算机使用、内存以及异步代理在AI工程领域的兴起。
引用黄仁勋的观点:真正会用AI的人是能带着自己的认知去提问的高认知提问者,而非让AI代替思考。
本文综合三份独立报告(Cognition 工程负责人的复盘、Manning 作者的行业全景报告、metaswarm 项目),指出生产环境中真正存活的多 Agent 系统只有三种模式:流水线、编排和生成-验证,而对等协作模式因隐式决策冲突和级联误差而失败。