标签
Antirez 正在整合 DwarfStar 社区的贡献以改进 Strix Halo 的支持,预计很快完成最终质量检查并合并。
本文研究在RAG问答流程中,重写检索段落所带来的性能提升是否因果性地由重写上下文中出现黄金答案字符串所驱动,并通过跨多个模型和数据集的受控干预审计进行验证。
一位开发者分享了在Cursor中使用Opus 4.8 Max Thinking模型与子代理框架的工作流,并介绍了一个包含可安装技能文件的GitHub仓库,其中包含一个名为'running-bug-review-board'的技能,可进行实时QA测试。
LazyCodex 是一个使用 AI 自动操作计算机进行 QA 的工具,让开发者无需手动干预即可设置自动化测试。
作者离开职场后,好奇大厂QA的工作流是否仍是测出bug后提ticket,并认为提bug本身可视为给AI的提示词,不如直接让AI修改代码。
ActiveGraph引入了一种确定性的非生成式方法,在语义记忆之前进行证据汇编,在LongMemEval-S上实现了85.6%的问答准确率和86.2%的上下文回合答案准确率。
Yohei Nakajima 在 ActiveGraph 上运行了 LongMemEval 基准测试,取得了 85.6% 的问答准确率和 86.2% 的回合上下文答案准确率,展示了基于事件的智能体系统在长期记忆方面的有效性。
本文針對高風險醫療檢索增強生成(RAG)提出聲明選擇性認證,將響應分解為可驗證的聲明,並根據證據進行評分,通過意圖感知選擇器產生操作(完整、部分、衝突、棄權),實現了低無支持聲明風險和高操作準確性。
一条推文分享了一个提示,将 Composer 2.5 配置为QA工程师,为开发阶段创建测试文档和错误报告。
Violin是一个开源端到端视频翻译+视频问答工具,整合ASR、LLM翻译和TTS,支持风格调整和内容再创作,可针对视频内容问答。