标签
麻省理工学院物理学家Sanjoy Mahajan的教科书《The Art of Insight in Science and Engineering》在MIT OpenCourseWare上免费提供,教授九种有效解决复杂问题的思维工具。
本文评估了LLM在静力学问题上的表现,发现虽然纯文本问题处理得较好,但引入图表和多步推理后准确率下降,表明模型在持续应用视觉信息方面存在困难。
一位开发者在构建AI代理封装系统时发现,代理对用户回复的幻觉实际上有助于解决问题,并提议将此类幻觉视为想象中的事件而非错误。
Graph of Thoughts (GoT) 是一个开源的Python框架,它通过将复杂问题建模为操作图来使用LLMs解决这些问题,支持CoT和ToT等方法。
Elon Musk 分享了他用于工程问题解决的五步算法,强调质疑需求、删除不必要的步骤,然后进行优化、加速和自动化。
文章观察到,初级AI工程师倾向于专注于提示工程和低代码平台等高层次工具,而非深入理解基础知识,这引发了对面试中解决问题能力的担忧。
本文讨论了当前AI在研究级工作中的局限性,认为虽然AI在使用现有包和工程解决方案方面表现出色,但在真正研究所需的深度假设驱动迭代方面仍然举步维艰。作者还警告了关于AI能力的极端观点,并以AlphaFold为例说明结构化问题是最困难的部分,而非优化本身。
本文提出了关于聊天机器人在问题解决型对话中如何运作的假设,认为大型语言模型编码了人工的隐喻式问题传播,且无法匹敌人类的认知灵活性,这与杨立昆的观点一致。
Demis Hassabis评论称,解决Erdos问题并不构成真正发明,提供了关于AI创造力和问题解决本质的视角。
Google DeepMind的AI代理自主解决了353个未解决的Erdős数学问题中的9个,每个问题花费仅几百美元。
Gemini 3.2 Flash 可以解答 IMO 2025 第6题,但只有 GPT-5.5-Pro 能够在没有脚手架或工程框架的情况下完成。
本文介绍了KITE,一个基于检索增强生成(RAG)的智能辅导系统,用于AI教育中的算法推理和问题求解。该系统采用意图感知的苏格拉底式回应策略和多模态RAG,提供基于课程内容、符合教学法的反馈,并通过指标评估、专家评审和模拟学生交互进行评价。
一位创始人分享了他在AI工具采用方面的经验,指出大多数人收集了大量工具却没有取得实际成果。他主张专注于一个关键业务问题,并不断迭代直到工作流真正有效,并以自己的成功为例:将客户报告时间从4-5小时缩短到45分钟以内。
Kent C. Dodds 分享了关于软件开发中解决问题迭代周期的思考,强调用更好的方案替换之前的方案以降低复杂性。
来自MIT、Carnegie Mellon、Oxford和UCLA的研究人员开展的一项新研究发现,仅使用AI聊天机器人10分钟,一旦脱离AI,就会显著削弱人类的毅力与问题解决能力。研究结果表明,有必要设计能够为学习提供支架式辅助的AI系统,而非仅仅直接给出答案。
Google DeepMind的AI联合数学家取得了困难问题求解基准测试中的最先进结果,在FrontierMath Tier 4上获得48%的得分,是所有被评估AI系统中的最高分。
作者描述了使用MiniZinc约束求解器解决《纽约时报》Pips谜题的过程,展示了如何高效地表达约束条件并找到解决方案。