@MiaAI_lab: Qwopus 3.6-27b Coder 我收到很多请求让我测试它,于是我进行了测试。我运行了与其他模型相同的测试。它…
摘要
MiaAI Lab 测试了 Qwopus 3.6-27b Coder,发现在工具调用和代码生成方面表现不如 Qwen 3.6 27b 和 35b,且 HTML 演示出现故障。
查看缓存全文
缓存时间: 2026/06/28 01:58
Qwopus 3.6-27b Coder 我收到了很多测试它的请求,所以我就测了。我使用了与其他模型相同的测试方法。它在 tool-eval-bench 上的得分低于 Qwen 3.6 27b 和 Qwen 3.6 35b。即使尝试了 3 次,它生成的单文件俄罗斯方块和太阳系 HTML 演示仍存在缺陷。在俄罗斯方块的 HTML 中,消除一行后游戏会卡住。将方块左右移动时,方块也会随机变化。在太阳系的 HTML 中,点击太阳或任何行星都会破坏渲染——物体直接消失。结论:普通的 Qwen 3.6 27b 和 35b 模型表现更好。你对 Qwopus 3.6-27b Coder 怎么看?完整结果和原始文件:https://github.com/MiaAI-Lab/Qwopus-3.6-27b_Tests/… 完整提示见下方帖子。
MiaAI-Lab/Qwopus-3.6-27b_Tests
来源:https://github.com/MiaAI-Lab/Qwopus-3.6-27b_Tests
Qwopus 3.6-27b Coder MTP — 评估与演示
针对 Qwopus 3.6-27b Coder MTP (qwopus3.6-27b-coder-mtp) 的基准测试结果、交互式演示和屏幕录像,使用 tool-eval-bench v2.0.6 于 2026 年 6 月 27 日进行评估。
本仓库包含三部分内容:
- 工具调用基准测试 — 在 84 个场景上进行了 8 次连续测试,包含完整的单次测试报告和可视化摘要。
- 模型生成的 HTML 演示 — 由 Qwopus 3.6-27b Coder MTP 完全生成的两个独立网页应用。
- 屏幕录像 — 每个演示运行时的视频捕获。
核心结果
| 指标 | 数值 |
|---|---|
| 平均最终得分 | 85.2 ± 0.5 / 100 |
| 评级 | ★★★★ 良好 |
| 总分 | 142.5 ± 0.9 / 168 |
| Pass@8 (能力上限) | 77.4% |
| Pass^8 (可靠性下限) | 72.6% |
| 可部署性 | 78 / 100 |
| 安全警告 | 0 |
运行 ID: 2026-06-27T17-56-28.315121Z_88382c9b
后端: vLLM · 温度: 0.0 · 种子: 42 · 思维链: 启用
快速开始
无需构建步骤或依赖。克隆仓库后,在浏览器中打开任意 HTML 文件即可。
git clone https://github.com//Qwopus-3.6-27b.git
cd Qwopus-3.6-27b
# 交互式基准测试摘要(推荐起点)
xdg-open qwopus-benchmark-report.html # Linux
open qwopus-benchmark-report.html # macOS
# 模型生成的演示
xdg-open solar-qwopus.html
xdg-open tetris-qwopus.html
仓库内容
Qwopus-3.6-27b/
├── README.md # 本文件
│
├── qwopus-benchmark-report.html # 可视化基准测试摘要(浅色主题)
├── 2026-06-27T17-56-28.315121Z_88382c9b_summary.md # 跨次测试摘要(Markdown)
│
├── 2026-06-27T17-56-28.315121Z_88382c9b.md # 测试 1 报告(得分:86)
├── 2026-06-27T18-07-10.427442Z_595bc054.md # 测试 2 报告(得分:86)
├── 2026-06-27T18-17-47.609278Z_f0cbd3a5.md # 测试 3 报告(得分:85)
├── 2026-06-27T18-28-31.820032Z_89587758.md # 测试 4 报告(得分:85)
├── 2026-06-27T18-39-14.751087Z_2f0714bb.md # 测试 5 报告(得分:85)
├── 2026-06-27T18-49-38.278771Z_5fc17f93.md # 测试 6 报告(得分:85)
├── 2026-06-27T19-00-17.416037Z_bd8f2853.md # 测试 7 报告(得分:85)
├── 2026-06-27T19-10-45.486006Z_ab43fc00.md # 测试 8 报告(得分:85)
│
├── solar-qwopus.html # 太阳系模拟(模型生成)
├── tetris-qwopus.html # 俄罗斯方块游戏(模型生成)
├── solar_qwopus-video.mp4 # solar-qwopus.html 的屏幕录像
└── tertis_qwopus-video.mp4 # tetris-qwopus.html 的屏幕录像
注意: 俄罗斯方块视频的文件名使用了
tertis(保留原始文件中的拼写错误)。
基准测试报告
可视化摘要 — qwopus-benchmark-report.html
包含以下内容的独立 HTML 报告:
- 核心评分卡与可部署性指标
- Pass@8 与 Pass^8 可靠性分析
- 逐次测试对比表
- 类别性能柱状图(16 个评估类别)
- 交互式场景热力图(支持通过/部分/失败筛选)
- 持续弱点的失败分析
- 全部 8 份单次测试 Markdown 报告的链接
Markdown 摘要 — 2026-06-27T17-56-28.315121Z_88382c9b_summary.md
HTML 报告的源数据。汇总了全部 8 次测试的结果,包括场景通过矩阵、类别方差和失败备注。
单次测试报告(8 个文件)
每个 *.md 文件都是完整的 tool-eval-bench 运行日志(约 224 KB),包含:
- 运行配置与环境详情
- 每类别得分/满分
- 全部 84 个场景的结果(含标题、难度、状态和摘要)
- 详细的逐轮对话记录
| 测试 | 文件 | 得分 | 得分点 |
|---|---|---|---|
| 1 | 2026-06-27T17-56-28.315121Z_88382c9b.md | 86 | 144/168 |
| 2 | 2026-06-27T18-07-10.427442Z_595bc054.md | 86 | 144/168 |
| 3 | 2026-06-27T18-17-47.609278Z_f0cbd3a5.md | 85 | 142/168 |
| 4 | 2026-06-27T18-28-31.820032Z_89587758.md | 85 | 142/168 |
| 5 | 2026-06-27T18-39-14.751087Z_2f0714bb.md | 85 | 142/168 |
| 6 | 2026-06-27T18-49-38.278771Z_5fc17f93.md | 85 | 142/168 |
| 7 | 2026-06-27T19-00-17.416037Z_bd8f2853.md | 85 | 142/168 |
| 8 | 2026-06-27T19-10-45.486006Z_ab43fc00.md | 85 | 142/168 |
基准测试亮点
优势(全部测试中均为 100%)
- 工具选择
- 参数精度
- 多步骤链
- 错误恢复
- 指令遵循
改进领域
| 类别 | 得分 | 备注 |
|---|---|---|
| 结构化输出 | 67% | 工具调用正确;最终 JSON 格式失败 |
| 困难模式 | 67% | 长周期状态和格式敏感任务 |
| 上下文与状态 | 75–80% | 多轮修正追踪 |
| 自主规划 | 67–83% | 跨测试方差最大(5.7 个百分点) |
从未通过的场景(0/8)
| 编号 | 场景 | 问题 |
|---|---|---|
| TC-72 | 级联错误恢复 | 遇到损坏错误后未尝试其他文件 |
| TC-74 | 带状态的多轮修正 | 仅追踪了 5 次修正中的 1 次 |
| TC-75 | 缺少必需参数 | 猜测调度细节而非询问 |
| TC-80 | 带回滚的事务性更新 | 不安全的日历变更或虚假的成功声明 |
模型生成的演示
两个 HTML 文件均由 Qwopus 3.6-27b Coder MTP 生成为独立、零依赖的网页应用。无需框架,无需构建工具——直接在浏览器中打开即可。
solar-qwopus.html — 太阳系模拟
实时画布太阳系模拟。
特性:
- 所有主要天体:太阳、8 颗行星、冥王星和地球的月球
- 开普勒轨道力学,含偏心率
- 火星与木星之间的小行星带
- 点击任何天体可查看信息面板
- 可调节模拟速度、暂停/播放、缩放和日期显示
- 平移和拖动摄像机;支持移动设备触摸操作
- 星空背景上的玻璃态 UI
控制: 速度滑块 · 暂停/播放 · 缩放 +/- · 点击天体查看详情 · 拖动平移
tetris-qwopus.html — 俄罗斯方块
可完全游玩的俄罗斯方块克隆,具备标准现代特性。
特性:
- 7 袋随机生成器,带有保持和下一块预览
- SRS 墙踢旋转系统
- 幽灵方块、消行、等级推进、计分
- 键盘控制(方向键/WASD)和移动设备触摸按钮
- 暂停与重启
控制:
| 按键 | 操作 |
|---|---|
| ← → / A D | 移动 |
| ↓ / S | 软降 |
| ↑ / W | 顺时针旋转 |
| 空格 | 硬降 |
| C | 保持 |
| P | 暂停 |
| R | 重启 |
屏幕录像
| 文件 | 演示 | 分辨率 | 时长 | 大小 |
|---|---|---|---|---|
solar_qwopus-video.mp4 | 太阳系模拟 | 3840×2160 (4K) | ~32 秒 | 8.8 MB |
tertis_qwopus-video.mp4 | 俄罗斯方块 | 1096×1180 | ~46 秒 | 1.5 MB |
这些录像展示了模型生成的 HTML 应用在浏览器中的运行情况。包含它们是为了让你无需直接打开 HTML 文件即可预览演示——适用于 README 嵌入、演示或 GitHub 的视频预览。
评估方法
| 参数 | 数值 |
|---|---|
| 基准测试 | tool-eval-bench v2.0.6 (f8117c3) |
| 模型 | qwopus3.6-27b-coder-mtp |
| 后端 | vLLM |
| 主机 | spark1 (Linux aarch64, Python 3.11.15) |
| 场景 | 84 (全部) |
| 测试次数 | 8 次连续测试 |
| 每场景最大对话轮数 | 8 |
| 超时 | 60 秒 |
| 温度 | 0.0 |
| 种子 | 42 |
| 工具定义开销 | 约 4,637 tokens(52 个工具) |
| 中位对话轮次延迟 | 2.2 秒 |
可靠性指标:
- Pass@8 — 在至少一次测试中通过的场景比例(能力上限)
- Pass^8 — 在每次测试中都通过的场景比例(可靠性下限)
- 可靠性差距 — 上限与下限之间差 4.8 个百分点
结论
Qwopus 3.6-27b Coder MTP 是一个 强大的工具调用模型,评级 ★★★★ 良好,可部署性为 78/100。它在工具选择、参数精度和多步骤链方面表现出色,且跨测试得分方差接近零。附带的 HTML 演示表明,它也能生成可交互的单文件大型网页应用。
在生产环境中使用时,建议对 JSON 结构化响应添加输出验证,并为有状态的多轮工作流增加额外的防护措施。
许可证
在此处添加你的许可证。如果未发布,则默认保留所有权利。
相似文章
Qwen3.6 会写代码
开发者因 OpenAI API 报错,改用开源 Qwen3.6-27B 模型生成 Svelte 5 代码,一次成功:速度慢,但结果完美。
我无法让Qwen3.6 27B超越Qwen-Coder-Next,不确定原因
用户报告称,Qwen-Coder-Next 在实际测试和合成基准测试中均优于 Qwen3.6 27B,尽管其他人称赞 27B,用户寻求关于可能设置问题的建议。
Mia-AiLab/Qwable-3.6-27b
Mia-AiLab 发布了 Qwable-3.6-27b,这是一个基于清理后的推理和指令数据集对 Qwen3.6-27B 进行全参数微调的检查点,针对编程、技术辅助和结构化回复进行了优化。
qwopus 与 qwen3.6 27b 相比有多实用
用户询问社区关于 qwopus 与 qwen3.6 27b 实用性的看法,特别是在代理编码任务中的表现,报告了意见不一且个人测试中差异极小。
在github-copilot、pi、claude-code和opencode中使用Qwen3.6 27B完成相同任务
作者使用相同的 Qwen3.6 27B 模型测试了多个编码代理框架(GitHub Copilot、Pi、Claude Code、OpenCode),发现框架设计对性能影响显著,其中 OpenCode 在网络搜索和 Web 开发方面表现出色,而 GitHub Copilot 在文件编辑工具方面表现不佳。