@MiaAI_lab: Qwopus 3.6-27b Coder 我收到很多请求让我测试它，于是我进行了测试。我运行了与其他模型相同的测试。它…

X AI KOLs Timeline 2026/06/27 21:41 模型

model-evaluation benchmark tool-calling code-generation qwen open-source llm

摘要

MiaAI Lab 测试了 Qwopus 3.6-27b Coder，发现在工具调用和代码生成方面表现不如 Qwen 3.6 27b 和 35b，且 HTML 演示出现故障。

Qwopus 3.6-27b Coder 我收到很多请求让我测试它，所以我照做了。我运行了与其他模型相同的测试。它在 tool-eval-bench 上的得分低于 Qwen 3.6 27b 和 Qwen 3.6 35b。而且，即使经过三次全新尝试，它生成的单文件版俄罗斯方块和太阳系 HTML 演示仍然出现故障。在俄罗斯方块 HTML 中，当完成一行时游戏会卡住，并且在左右移动方块时会随机改变方块形状。在太阳系 HTML 中，点击太阳或任何行星会导致渲染崩溃——物体直接消失。结论：普通的 Qwen 3.6 27b 和 35b 模型表现更好。你对 Qwopus 3.6-27b Coder 有什么看法？完整结果及原始文件：https://github.com/MiaAI-Lab/Qwopus-3.6-27b_Tests/… 完整提示词见下方帖子。

查看原文

查看缓存全文

缓存时间: 2026/06/28 01:58

Qwopus 3.6-27b Coder 我收到了很多测试它的请求，所以我就测了。我使用了与其他模型相同的测试方法。它在 tool-eval-bench 上的得分低于 Qwen 3.6 27b 和 Qwen 3.6 35b。即使尝试了 3 次，它生成的单文件俄罗斯方块和太阳系 HTML 演示仍存在缺陷。在俄罗斯方块的 HTML 中，消除一行后游戏会卡住。将方块左右移动时，方块也会随机变化。在太阳系的 HTML 中，点击太阳或任何行星都会破坏渲染——物体直接消失。结论：普通的 Qwen 3.6 27b 和 35b 模型表现更好。你对 Qwopus 3.6-27b Coder 怎么看？完整结果和原始文件：https://github.com/MiaAI-Lab/Qwopus-3.6-27b_Tests/… 完整提示见下方帖子。

MiaAI-Lab/Qwopus-3.6-27b_Tests

来源：https://github.com/MiaAI-Lab/Qwopus-3.6-27b_Tests

Qwopus 3.6-27b Coder MTP — 评估与演示

针对 Qwopus 3.6-27b Coder MTP (qwopus3.6-27b-coder-mtp) 的基准测试结果、交互式演示和屏幕录像，使用 tool-eval-bench v2.0.6 于 2026 年 6 月 27 日进行评估。

本仓库包含三部分内容：

工具调用基准测试 — 在 84 个场景上进行了 8 次连续测试，包含完整的单次测试报告和可视化摘要。
模型生成的 HTML 演示 — 由 Qwopus 3.6-27b Coder MTP 完全生成的两个独立网页应用。
屏幕录像 — 每个演示运行时的视频捕获。

核心结果

指标	数值
平均最终得分	85.2 ± 0.5 / 100
评级	★★★★ 良好
总分	142.5 ± 0.9 / 168
Pass@8 (能力上限)	77.4%
Pass^8 (可靠性下限)	72.6%
可部署性	78 / 100
安全警告	0

运行 ID： 2026-06-27T17-56-28.315121Z_88382c9b 后端： vLLM · 温度： 0.0 · 种子： 42 · 思维链： 启用

快速开始

无需构建步骤或依赖。克隆仓库后，在浏览器中打开任意 HTML 文件即可。

git clone https://github.com//Qwopus-3.6-27b.git
cd Qwopus-3.6-27b

# 交互式基准测试摘要（推荐起点）
xdg-open qwopus-benchmark-report.html  # Linux
open qwopus-benchmark-report.html      # macOS

# 模型生成的演示
xdg-open solar-qwopus.html
xdg-open tetris-qwopus.html

仓库内容

Qwopus-3.6-27b/
├── README.md                           # 本文件
│
├── qwopus-benchmark-report.html        # 可视化基准测试摘要（浅色主题）
├── 2026-06-27T17-56-28.315121Z_88382c9b_summary.md   # 跨次测试摘要（Markdown）
│
├── 2026-06-27T17-56-28.315121Z_88382c9b.md            # 测试 1 报告（得分：86）
├── 2026-06-27T18-07-10.427442Z_595bc054.md            # 测试 2 报告（得分：86）
├── 2026-06-27T18-17-47.609278Z_f0cbd3a5.md            # 测试 3 报告（得分：85）
├── 2026-06-27T18-28-31.820032Z_89587758.md            # 测试 4 报告（得分：85）
├── 2026-06-27T18-39-14.751087Z_2f0714bb.md            # 测试 5 报告（得分：85）
├── 2026-06-27T18-49-38.278771Z_5fc17f93.md            # 测试 6 报告（得分：85）
├── 2026-06-27T19-00-17.416037Z_bd8f2853.md            # 测试 7 报告（得分：85）
├── 2026-06-27T19-10-45.486006Z_ab43fc00.md            # 测试 8 报告（得分：85）
│
├── solar-qwopus.html                    # 太阳系模拟（模型生成）
├── tetris-qwopus.html                   # 俄罗斯方块游戏（模型生成）
├── solar_qwopus-video.mp4               # solar-qwopus.html 的屏幕录像
└── tertis_qwopus-video.mp4              # tetris-qwopus.html 的屏幕录像

注意： 俄罗斯方块视频的文件名使用了 tertis（保留原始文件中的拼写错误）。

基准测试报告

可视化摘要 — `qwopus-benchmark-report.html`

包含以下内容的独立 HTML 报告：

核心评分卡与可部署性指标
Pass@8 与 Pass^8 可靠性分析
逐次测试对比表
类别性能柱状图（16 个评估类别）
交互式场景热力图（支持通过/部分/失败筛选）
持续弱点的失败分析
全部 8 份单次测试 Markdown 报告的链接

Markdown 摘要 — `2026-06-27T17-56-28.315121Z_88382c9b_summary.md`

HTML 报告的源数据。汇总了全部 8 次测试的结果，包括场景通过矩阵、类别方差和失败备注。

单次测试报告（8 个文件）

每个 *.md 文件都是完整的 tool-eval-bench 运行日志（约 224 KB），包含：

运行配置与环境详情
每类别得分/满分
全部 84 个场景的结果（含标题、难度、状态和摘要）
详细的逐轮对话记录

测试	文件	得分	得分点
1	`2026-06-27T17-56-28.315121Z_88382c9b.md`	86	144/168
2	`2026-06-27T18-07-10.427442Z_595bc054.md`	86	144/168
3	`2026-06-27T18-17-47.609278Z_f0cbd3a5.md`	85	142/168
4	`2026-06-27T18-28-31.820032Z_89587758.md`	85	142/168
5	`2026-06-27T18-39-14.751087Z_2f0714bb.md`	85	142/168
6	`2026-06-27T18-49-38.278771Z_5fc17f93.md`	85	142/168
7	`2026-06-27T19-00-17.416037Z_bd8f2853.md`	85	142/168
8	`2026-06-27T19-10-45.486006Z_ab43fc00.md`	85	142/168

基准测试亮点

优势（全部测试中均为 100%）

工具选择
参数精度
多步骤链
错误恢复
指令遵循

改进领域

类别	得分	备注
结构化输出	67%	工具调用正确；最终 JSON 格式失败
困难模式	67%	长周期状态和格式敏感任务
上下文与状态	75–80%	多轮修正追踪
自主规划	67–83%	跨测试方差最大（5.7 个百分点）

从未通过的场景（0/8）

编号	场景	问题
TC-72	级联错误恢复	遇到损坏错误后未尝试其他文件
TC-74	带状态的多轮修正	仅追踪了 5 次修正中的 1 次
TC-75	缺少必需参数	猜测调度细节而非询问
TC-80	带回滚的事务性更新	不安全的日历变更或虚假的成功声明

模型生成的演示

两个 HTML 文件均由 Qwopus 3.6-27b Coder MTP 生成为独立、零依赖的网页应用。无需框架，无需构建工具——直接在浏览器中打开即可。

`solar-qwopus.html` — 太阳系模拟

实时画布太阳系模拟。

特性：

所有主要天体：太阳、8 颗行星、冥王星和地球的月球
开普勒轨道力学，含偏心率
火星与木星之间的小行星带
点击任何天体可查看信息面板
可调节模拟速度、暂停/播放、缩放和日期显示
平移和拖动摄像机；支持移动设备触摸操作
星空背景上的玻璃态 UI

控制： 速度滑块 · 暂停/播放 · 缩放 +/- · 点击天体查看详情 · 拖动平移

`tetris-qwopus.html` — 俄罗斯方块

可完全游玩的俄罗斯方块克隆，具备标准现代特性。

特性：

7 袋随机生成器，带有保持和下一块预览
SRS 墙踢旋转系统
幽灵方块、消行、等级推进、计分
键盘控制（方向键/WASD）和移动设备触摸按钮
暂停与重启

控制：

按键	操作
← → / A D	移动
↓ / S	软降
↑ / W	顺时针旋转
空格	硬降
C	保持
P	暂停
R	重启

屏幕录像

文件	演示	分辨率	时长	大小
`solar_qwopus-video.mp4`	太阳系模拟	3840×2160 (4K)	~32 秒	8.8 MB
`tertis_qwopus-video.mp4`	俄罗斯方块	1096×1180	~46 秒	1.5 MB

这些录像展示了模型生成的 HTML 应用在浏览器中的运行情况。包含它们是为了让你无需直接打开 HTML 文件即可预览演示——适用于 README 嵌入、演示或 GitHub 的视频预览。

评估方法

参数	数值
基准测试	tool-eval-bench v2.0.6 (`f8117c3`)
模型	`qwopus3.6-27b-coder-mtp`
后端	vLLM
主机	`spark1` (Linux aarch64, Python 3.11.15)
场景	84 (全部)
测试次数	8 次连续测试
每场景最大对话轮数	8
超时	60 秒
温度	0.0
种子	42
工具定义开销	约 4,637 tokens（52 个工具）
中位对话轮次延迟	2.2 秒

可靠性指标：

Pass@8 — 在至少一次测试中通过的场景比例（能力上限）
Pass^8 — 在每次测试中都通过的场景比例（可靠性下限）
可靠性差距 — 上限与下限之间差 4.8 个百分点

结论

Qwopus 3.6-27b Coder MTP 是一个 强大的工具调用模型，评级 ★★★★ 良好，可部署性为 78/100。它在工具选择、参数精度和多步骤链方面表现出色，且跨测试得分方差接近零。附带的 HTML 演示表明，它也能生成可交互的单文件大型网页应用。

在生产环境中使用时，建议对 JSON 结构化响应添加输出验证，并为有状态的多轮工作流增加额外的防护措施。

@MiaAI_lab: Qwopus 3.6-27b Coder 我收到很多请求让我测试它，于是我进行了测试。我运行了与其他模型相同的测试。它…

MiaAI-Lab/Qwopus-3.6-27b_Tests

Qwopus 3.6-27b Coder MTP — 评估与演示

核心结果

快速开始

仓库内容

基准测试报告

可视化摘要 — `qwopus-benchmark-report.html`

Markdown 摘要 — `2026-06-27T17-56-28.315121Z_88382c9b_summary.md`

单次测试报告（8 个文件）

基准测试亮点

优势（全部测试中均为 100%）

改进领域

从未通过的场景（0/8）

模型生成的演示

`solar-qwopus.html` — 太阳系模拟

`tetris-qwopus.html` — 俄罗斯方块

屏幕录像

评估方法

结论

许可证

相似文章

Qwen3.6 会写代码

我无法让Qwen3.6 27B超越Qwen-Coder-Next，不确定原因

Mia-AiLab/Qwable-3.6-27b

qwopus 与 qwen3.6 27b 相比有多实用

在github-copilot、pi、claude-code和opencode中使用Qwen3.6 27B完成相同任务

提交意见反馈

MiaAI-Lab/Qwopus-3.6-27b_Tests

Qwopus 3.6-27b Coder MTP — 评估与演示

核心结果

快速开始

仓库内容

基准测试报告

可视化摘要 — qwopus-benchmark-report.html

Markdown 摘要 — 2026-06-27T17-56-28.315121Z_88382c9b_summary.md

单次测试报告（8 个文件）

基准测试亮点

优势（全部测试中均为 100%）

改进领域

从未通过的场景（0/8）

模型生成的演示

solar-qwopus.html — 太阳系模拟

tetris-qwopus.html — 俄罗斯方块

屏幕录像

评估方法

结论

许可证

相似文章

Qwen3.6 会写代码

我无法让Qwen3.6 27B超越Qwen-Coder-Next，不确定原因

Mia-AiLab/Qwable-3.6-27b

qwopus 与 qwen3.6 27b 相比有多实用

在github-copilot、pi、claude-code和opencode中使用Qwen3.6 27B完成相同任务

提交意见反馈

可视化摘要 — `qwopus-benchmark-report.html`

Markdown 摘要 — `2026-06-27T17-56-28.315121Z_88382c9b_summary.md`

`solar-qwopus.html` — 太阳系模拟

`tetris-qwopus.html` — 俄罗斯方块