@MiaAI_lab: Qwopus 3.6-27b Coder 我收到很多请求让我测试它,于是我进行了测试。我运行了与其他模型相同的测试。它…

X AI KOLs Timeline 模型

摘要

MiaAI Lab 测试了 Qwopus 3.6-27b Coder,发现在工具调用和代码生成方面表现不如 Qwen 3.6 27b 和 35b,且 HTML 演示出现故障。

Qwopus 3.6-27b Coder 我收到很多请求让我测试它,所以我照做了。 我运行了与其他模型相同的测试。它在 tool-eval-bench 上的得分低于 Qwen 3.6 27b 和 Qwen 3.6 35b。而且,即使经过三次全新尝试,它生成的单文件版俄罗斯方块和太阳系 HTML 演示仍然出现故障。 在俄罗斯方块 HTML 中,当完成一行时游戏会卡住,并且在左右移动方块时会随机改变方块形状。 在太阳系 HTML 中,点击太阳或任何行星会导致渲染崩溃——物体直接消失。 结论:普通的 Qwen 3.6 27b 和 35b 模型表现更好。 你对 Qwopus 3.6-27b Coder 有什么看法? 完整结果及原始文件:https://github.com/MiaAI-Lab/Qwopus-3.6-27b_Tests/… 完整提示词见下方帖子。
查看原文
查看缓存全文

缓存时间: 2026/06/28 01:58

Qwopus 3.6-27b Coder 我收到了很多测试它的请求,所以我就测了。我使用了与其他模型相同的测试方法。它在 tool-eval-bench 上的得分低于 Qwen 3.6 27b 和 Qwen 3.6 35b。即使尝试了 3 次,它生成的单文件俄罗斯方块和太阳系 HTML 演示仍存在缺陷。在俄罗斯方块的 HTML 中,消除一行后游戏会卡住。将方块左右移动时,方块也会随机变化。在太阳系的 HTML 中,点击太阳或任何行星都会破坏渲染——物体直接消失。结论:普通的 Qwen 3.6 27b 和 35b 模型表现更好。你对 Qwopus 3.6-27b Coder 怎么看?完整结果和原始文件:https://github.com/MiaAI-Lab/Qwopus-3.6-27b_Tests/… 完整提示见下方帖子。


MiaAI-Lab/Qwopus-3.6-27b_Tests

来源:https://github.com/MiaAI-Lab/Qwopus-3.6-27b_Tests

Qwopus 3.6-27b Coder MTP — 评估与演示

针对 Qwopus 3.6-27b Coder MTP (qwopus3.6-27b-coder-mtp) 的基准测试结果、交互式演示和屏幕录像,使用 tool-eval-bench v2.0.6 于 2026 年 6 月 27 日进行评估。

本仓库包含三部分内容:

  1. 工具调用基准测试 — 在 84 个场景上进行了 8 次连续测试,包含完整的单次测试报告和可视化摘要。
  2. 模型生成的 HTML 演示 — 由 Qwopus 3.6-27b Coder MTP 完全生成的两个独立网页应用。
  3. 屏幕录像 — 每个演示运行时的视频捕获。

核心结果

指标数值
平均最终得分85.2 ± 0.5 / 100
评级★★★★ 良好
总分142.5 ± 0.9 / 168
Pass@8 (能力上限)77.4%
Pass^8 (可靠性下限)72.6%
可部署性78 / 100
安全警告0

运行 ID: 2026-06-27T17-56-28.315121Z_88382c9b 后端: vLLM · 温度: 0.0 · 种子: 42 · 思维链: 启用


快速开始

无需构建步骤或依赖。克隆仓库后,在浏览器中打开任意 HTML 文件即可。

git clone https://github.com//Qwopus-3.6-27b.git
cd Qwopus-3.6-27b

# 交互式基准测试摘要(推荐起点)
xdg-open qwopus-benchmark-report.html  # Linux
open qwopus-benchmark-report.html      # macOS

# 模型生成的演示
xdg-open solar-qwopus.html
xdg-open tetris-qwopus.html

仓库内容

Qwopus-3.6-27b/
├── README.md                           # 本文件
│
├── qwopus-benchmark-report.html        # 可视化基准测试摘要(浅色主题)
├── 2026-06-27T17-56-28.315121Z_88382c9b_summary.md   # 跨次测试摘要(Markdown)
│
├── 2026-06-27T17-56-28.315121Z_88382c9b.md            # 测试 1 报告(得分:86)
├── 2026-06-27T18-07-10.427442Z_595bc054.md            # 测试 2 报告(得分:86)
├── 2026-06-27T18-17-47.609278Z_f0cbd3a5.md            # 测试 3 报告(得分:85)
├── 2026-06-27T18-28-31.820032Z_89587758.md            # 测试 4 报告(得分:85)
├── 2026-06-27T18-39-14.751087Z_2f0714bb.md            # 测试 5 报告(得分:85)
├── 2026-06-27T18-49-38.278771Z_5fc17f93.md            # 测试 6 报告(得分:85)
├── 2026-06-27T19-00-17.416037Z_bd8f2853.md            # 测试 7 报告(得分:85)
├── 2026-06-27T19-10-45.486006Z_ab43fc00.md            # 测试 8 报告(得分:85)
│
├── solar-qwopus.html                    # 太阳系模拟(模型生成)
├── tetris-qwopus.html                   # 俄罗斯方块游戏(模型生成)
├── solar_qwopus-video.mp4               # solar-qwopus.html 的屏幕录像
└── tertis_qwopus-video.mp4              # tetris-qwopus.html 的屏幕录像

注意: 俄罗斯方块视频的文件名使用了 tertis(保留原始文件中的拼写错误)。


基准测试报告

可视化摘要 — qwopus-benchmark-report.html

包含以下内容的独立 HTML 报告:

  • 核心评分卡与可部署性指标
  • Pass@8 与 Pass^8 可靠性分析
  • 逐次测试对比表
  • 类别性能柱状图(16 个评估类别)
  • 交互式场景热力图(支持通过/部分/失败筛选)
  • 持续弱点的失败分析
  • 全部 8 份单次测试 Markdown 报告的链接

Markdown 摘要 — 2026-06-27T17-56-28.315121Z_88382c9b_summary.md

HTML 报告的源数据。汇总了全部 8 次测试的结果,包括场景通过矩阵、类别方差和失败备注。

单次测试报告(8 个文件)

每个 *.md 文件都是完整的 tool-eval-bench 运行日志(约 224 KB),包含:

  • 运行配置与环境详情
  • 每类别得分/满分
  • 全部 84 个场景的结果(含标题、难度、状态和摘要)
  • 详细的逐轮对话记录
测试文件得分得分点
12026-06-27T17-56-28.315121Z_88382c9b.md86144/168
22026-06-27T18-07-10.427442Z_595bc054.md86144/168
32026-06-27T18-17-47.609278Z_f0cbd3a5.md85142/168
42026-06-27T18-28-31.820032Z_89587758.md85142/168
52026-06-27T18-39-14.751087Z_2f0714bb.md85142/168
62026-06-27T18-49-38.278771Z_5fc17f93.md85142/168
72026-06-27T19-00-17.416037Z_bd8f2853.md85142/168
82026-06-27T19-10-45.486006Z_ab43fc00.md85142/168

基准测试亮点

优势(全部测试中均为 100%)

  • 工具选择
  • 参数精度
  • 多步骤链
  • 错误恢复
  • 指令遵循

改进领域

类别得分备注
结构化输出67%工具调用正确;最终 JSON 格式失败
困难模式67%长周期状态和格式敏感任务
上下文与状态75–80%多轮修正追踪
自主规划67–83%跨测试方差最大(5.7 个百分点)

从未通过的场景(0/8)

编号场景问题
TC-72级联错误恢复遇到损坏错误后未尝试其他文件
TC-74带状态的多轮修正仅追踪了 5 次修正中的 1 次
TC-75缺少必需参数猜测调度细节而非询问
TC-80带回滚的事务性更新不安全的日历变更或虚假的成功声明

模型生成的演示

两个 HTML 文件均由 Qwopus 3.6-27b Coder MTP 生成为独立、零依赖的网页应用。无需框架,无需构建工具——直接在浏览器中打开即可。

solar-qwopus.html — 太阳系模拟

实时画布太阳系模拟。

特性:

  • 所有主要天体:太阳、8 颗行星、冥王星和地球的月球
  • 开普勒轨道力学,含偏心率
  • 火星与木星之间的小行星带
  • 点击任何天体可查看信息面板
  • 可调节模拟速度、暂停/播放、缩放和日期显示
  • 平移和拖动摄像机;支持移动设备触摸操作
  • 星空背景上的玻璃态 UI

控制: 速度滑块 · 暂停/播放 · 缩放 +/- · 点击天体查看详情 · 拖动平移

tetris-qwopus.html — 俄罗斯方块

可完全游玩的俄罗斯方块克隆,具备标准现代特性。

特性:

  • 7 袋随机生成器,带有保持和下一块预览
  • SRS 墙踢旋转系统
  • 幽灵方块、消行、等级推进、计分
  • 键盘控制(方向键/WASD)和移动设备触摸按钮
  • 暂停与重启

控制:

按键操作
← → / A D移动
↓ / S软降
↑ / W顺时针旋转
空格硬降
C保持
P暂停
R重启

屏幕录像

文件演示分辨率时长大小
solar_qwopus-video.mp4太阳系模拟3840×2160 (4K)~32 秒8.8 MB
tertis_qwopus-video.mp4俄罗斯方块1096×1180~46 秒1.5 MB

这些录像展示了模型生成的 HTML 应用在浏览器中的运行情况。包含它们是为了让你无需直接打开 HTML 文件即可预览演示——适用于 README 嵌入、演示或 GitHub 的视频预览。


评估方法

参数数值
基准测试tool-eval-bench v2.0.6 (f8117c3)
模型qwopus3.6-27b-coder-mtp
后端vLLM
主机spark1 (Linux aarch64, Python 3.11.15)
场景84 (全部)
测试次数8 次连续测试
每场景最大对话轮数8
超时60 秒
温度0.0
种子42
工具定义开销约 4,637 tokens(52 个工具)
中位对话轮次延迟2.2 秒

可靠性指标:

  • Pass@8 — 在至少一次测试中通过的场景比例(能力上限)
  • Pass^8 — 在每次测试中都通过的场景比例(可靠性下限)
  • 可靠性差距 — 上限与下限之间差 4.8 个百分点

结论

Qwopus 3.6-27b Coder MTP 是一个 强大的工具调用模型,评级 ★★★★ 良好,可部署性为 78/100。它在工具选择、参数精度和多步骤链方面表现出色,且跨测试得分方差接近零。附带的 HTML 演示表明,它也能生成可交互的单文件大型网页应用。

在生产环境中使用时,建议对 JSON 结构化响应添加输出验证,并为有状态的多轮工作流增加额外的防护措施。


许可证

在此处添加你的许可证。如果未发布,则默认保留所有权利。

相似文章

Qwen3.6 会写代码

Reddit r/LocalLLaMA

开发者因 OpenAI API 报错,改用开源 Qwen3.6-27B 模型生成 Svelte 5 代码,一次成功:速度慢,但结果完美。

Mia-AiLab/Qwable-3.6-27b

Hugging Face Models Trending

Mia-AiLab 发布了 Qwable-3.6-27b,这是一个基于清理后的推理和指令数据集对 Qwen3.6-27B 进行全参数微调的检查点,针对编程、技术辅助和结构化回复进行了优化。

qwopus 与 qwen3.6 27b 相比有多实用

Reddit r/LocalLLaMA

用户询问社区关于 qwopus 与 qwen3.6 27b 实用性的看法,特别是在代理编码任务中的表现,报告了意见不一且个人测试中差异极小。