qa

#qa

@petergyang：我将明天采访@NousResearch Hermes联合创始人@karan4d，你希望我们讨论哪些话题？我已经…

X AI KOLs Following ↗ · 昨天缓存

Peter Yang 正在采访 NousResearch 旗下 Hermes 的联合创始人 Karan4D，并向社区征求话题建议。

0 人收藏 0 人点赞

#qa

@browser_use：在 Browser Use v4 中使用 QA 技能。你的智能体构建应用。给 Browser Use 提供 URL 让它：> 测试流程并……

X AI KOLs Following ↗ · 2026-06-26 缓存

Browser Use v4 引入了 QA 技能，让你的智能体可以像用户一样点击测试流程、捕获错误并评估 UI，从而为开发者形成反馈闭环。

0 人收藏 0 人点赞

#qa

@mxtaverse: 人们正在纷纷失业，尤其是前端、设计师和QA。情况令人担忧。

X AI KOLs Following ↗ · 2026-06-23

一条推文指出，前端、设计和QA岗位的人正在失去工作，反映了当前科技行业的严峻形势。

0 人收藏 0 人点赞

#qa

QApilot's CoWork

Product Hunt ↗ · 2026-06-17

QApilot的CoWork声称可以在不扩大QA团队的情况下将移动自动化效率提升三倍。

0 人收藏 0 人点赞

#qa

我的语音代理测试现在包含600秒断崖

Reddit r/AI_Agents ↗ · 2026-06-11

作者描述了一次语音代理通话在600秒时被无预警切断的情况，并提出了一种优雅处理最大通话时长的测试方法，包括切断前警告和状态保存。

0 人收藏 0 人点赞

#qa

你的AI智能体只需一个糟糕的提示就能毁掉你的品牌（以及为什么传统QA毫无用处）

Reddit r/AI_Agents ↗ · 2026-06-11

文章认为传统的聊天机器人QA是有缺陷的，因为它只测试了理想路径（happy path），并提出使用AI驱动的用户模拟器，通过多样化的角色和边缘案例来攻击机器人，在部署前发现漏洞。

0 人收藏 0 人点赞

#qa

@neural_avb: 用我的 SLM 在本地生成类似 GRPO 的 rollout，并用这个微型 RM 作为评分标准。接下来我将在…

X AI KOLs Timeline ↗ · 2026-06-11 缓存

Neural_avb 发布了一个轻量级的 Answer-eq 奖励模型，用于问答任务的强化学习训练，声称与外部评判 LM 的一致性达到 80%，且比 F1/ROUGE/BertScore 更快。

0 人收藏 0 人点赞

#qa

@antirez: 整合了 DwarfStar 社区的优秀成果，完善了 Strix Halo 的支持。看起来非常不错。更多质量检查……

X AI KOLs Following ↗ · 2026-06-07 缓存

Antirez 正在整合 DwarfStar 社区的贡献以改进 Strix Halo 的支持，预计很快完成最终质量检查并合并。

0 人收藏 0 人点赞

#qa

软件测试的新时代

Hacker News Top ↗ · 2026-06-07 缓存

这篇文章讨论了使用LLM作为自动化QA工程师来执行手动测试任务，如集成测试和回归测试，有可能提高软件质量门槛。

0 人收藏 0 人点赞

#qa

答案存在性驱动RAG重写增益

Hugging Face Daily Papers ↗ · 2026-06-04 缓存

本文研究在RAG问答流程中，重写检索段落所带来的性能提升是否因果性地由重写上下文中出现黄金答案字符串所驱动，并通过跨多个模型和数据集的受控干预审计进行验证。

0 人收藏 0 人点赞

#qa

@RayFernando1337: 导致用户流失的错误几乎从不出现在差异对比中，只有当你停止审查代码时才能真正捕捉到它们……

X AI KOLs Timeline ↗ · 2026-06-02 缓存

一位开发者分享了在Cursor中使用Opus 4.8 Max Thinking模型与子代理框架的工作流，并介绍了一个包含可安装技能文件的GitHub仓库，其中包含一个名为'running-bug-review-board'的技能，可进行实时QA测试。

0 人收藏 0 人点赞

#qa

@justsisyphus: 想象一下，你的 codex 可以自己使用计算机做 QA，而不需要每次都手动告诉它，是的，这就是为……

X AI KOLs Timeline ↗ · 2026-05-31 缓存

LazyCodex 是一个使用 AI 自动操作计算机进行 QA 的工具，让开发者无需手动干预即可设置自动化测试。

0 人收藏 0 人点赞

#qa

@yihui_indie: 我离开职场太久了，我现在很好奇大厂里面 QA 的工作，还是和以前的工作流模式一样吗？就是测出一个 bug 之后给 RD 提 ticket。因为我发现我现在在给研发提 bug 的时候，其实提的这个 bug 本身就是给 AI 的提示词，我觉…

X AI KOLs Following ↗ · 2026-05-30 缓存

作者离开职场后，好奇大厂QA的工作流是否仍是测出bug后提ticket，并认为提bug本身可视为给AI的提示词，不如直接让AI修改代码。

0 人收藏 0 人点赞

#qa

@ndrewpignanelli: ActiveGraph的网站、新闻简报和市场营销全都由Cofounder运营！

X AI KOLs Timeline ↗ · 2026-05-26 缓存

ActiveGraph引入了一种确定性的非生成式方法，在语义记忆之前进行证据汇编，在LongMemEval-S上实现了85.6%的问答准确率和86.2%的上下文回合答案准确率。

0 人收藏 0 人点赞

#qa

@yoheinakajima: 这个周末运行了我的第一个基准测试（longmemeval），主要是为了测试ActiveGraph，学到了很多！ - 这是一个垫脚石…

X AI KOLs Timeline ↗ · 2026-05-26 缓存

Yohei Nakajima 在 ActiveGraph 上运行了 LongMemEval 基准测试，取得了 85.6% 的问答准确率和 86.2% 的回合上下文答案准确率，展示了基于事件的智能体系统在长期记忆方面的有效性。

0 人收藏 0 人点赞

#qa

高風險醫療檢索增強生成的聲明選擇性認證

arXiv cs.CL ↗ · 2026-05-22 缓存

本文針對高風險醫療檢索增強生成（RAG）提出聲明選擇性認證，將響應分解為可驗證的聲明，並根據證據進行評分，通過意圖感知選擇器產生操作（完整、部分、衝突、棄權），實現了低無支持聲明風險和高操作準確性。

0 人收藏 0 人点赞

#qa

@RayFernando1337: 你可以用这个提示教 Composer 2.5 成为你团队中非常出色的QA工程师："继续创建一个QA部…

X AI KOLs Following ↗ · 2026-05-20 缓存

一条推文分享了一个提示，将 Composer 2.5 配置为QA工程师，为开发阶段创建测试文档和错误报告。

0 人收藏 0 人点赞

#qa

@aigclink: 一个开源的端到端视频翻译+视频问答Skill：violin，亮点是不只是直译，而是内容再创作的设想它把ASR、LLM翻译和TTS整合成了一条无缝管道视频Skill，这三个环节自动衔接，输入视频即得到翻译后的配音视频翻译风格可调，比如说…

X AI KOLs Timeline ↗ · 2026-05-15

Violin是一个开源端到端视频翻译+视频问答工具，整合ASR、LLM翻译和TTS，支持风格调整和内容再创作，可针对视频内容问答。

0 人收藏 0 人点赞

qa

提交意见反馈