我开发了一款 iOS 应用,可以在你的 iPhone/iPad 上对 GGUF 模型进行基准测试
摘要
GenBench 是一款免费的 iOS 应用,允许用户使用 llama.cpp 和 Metal 在 iPhone/iPad 上下载、运行和基准测试 GGUF 模型,支持离线聊天、标准化基准测试和全球排行榜等功能。
嘿,我一直在开发 **GenBench**,一款免费的 iOS 应用,让你可以直接在 iPhone 或 iPad 上使用 llama.cpp + Metal 下载、运行和基准测试 GGUF 模型。
**它能做什么:**
- 轻点一下即可从 Hugging Face 搜索和下载 GGUF 模型
- 完全离线与模型聊天
- 使用标准化提示进行基准测试——测量 tok/s、首 token 延迟和峰值内存
- 将分数提交到全球排行榜,跨设备比较
- 支持文本和视觉模型(MiniCPM-V 等)
**我为什么开发它:**
我一直看到有人问“X 模型在 iPhone 上运行有多快?”却无法轻松测试。现有工具要么仅限 CLI,要么仅限 macOS。我想要一个只需点击下载 → 运行就能得到真实数据的工具。
https://preview.redd.it/akuoevg9qh5h1.png?width=1206&format=png&auto=webp&s=1afc35f0add883eff571a0f53ae3b0eacc9e2712
**我看到的一些结果:**
- SmolLM2 1.7B Q4_K_M 在 iPhone 16 Pro 上:约 35 tok/s
- Qwen2.5 3B Q4_K_M 在 iPhone 15 Pro 上:约 20 tok/s
- Phi-3.5 Mini Q4_K_M 在 iPad Pro M4 上:约 45 tok/s
(你的数字会有所不同——这正是这款应用的意义所在)
**App Store 链接:** [https://apps.apple.com/us/app/genbench/id6775272272](https://apps.apple.com/us/app/genbench/id6775272272)
**网站:** [https://genbench.tken.ai](https://genbench.tken.ai/)
完全免费,无需账户,无广告。排行榜提交是匿名的。很希望得到这个社区的反馈——我应该把哪些模型添加到推荐列表?你希望看到哪些基准测试指标?正考虑下一步添加困惑度测量。
相似文章
MobileGym: 一个可验证且高度并行的移动GUI代理研究仿真平台
MobileGym是一个基于浏览器的移动GUI代理研究仿真平台,具有确定性状态评估和可扩展的并行执行功能。它包含一个包含416个任务的基准测试,并展示了在Qwen3-VL-4B上使用GRPO带来的提升。
在你的iPhone上运行(最大的)本地模型
一款工具或应用,让用户能直接从iPhone上运行大型本地AI模型,将设备端LLM推理带到iOS。
在 Anubis OSS 的 UI 中新增了直接下载模型的功能——如果有人愿意帮忙测试,那就太好了
Anubis OSS 是一款用于本地 LLM 基准测试的 Apple Silicon Mac 应用,现在支持通过 UI 中的“浏览模型”按钮直接从 ollama.com 库下载模型。开发者正在寻找测试人员,以确认安装和功能正常运行。
Jiunsong/supergemma4-26b-uncensored-gguf-v2
SuperGemma4-26B-Uncensored-Fast GGUF v2 是 Google Gemma-4-26B 模型的量化、本地可运行变体,针对 Apple Silicon 进行了优化,提供更快的推理速度和较少审查的聊天行为,同时在通用任务上保持实用性能。
@mylifcc: 我已经在mac上用上Gemma-4-12b了,技术栈是: llama.cpp + GGUF Q4_K_M + Metal 32K context,本地 OpenAI-compatible API 实测约 36 tok/s,常驻 RSS 约…
用户分享在Mac上使用llama.cpp配合GGUF Q4_K_M量化版Gemma-4-12b模型的经验,实现了约36 tok/s的本地推理速度和约10GB内存占用。