@NielsRogge:在 http://paperswithcode.co 上,你可以看到 Mythos 5 在流行的图表理解基准 CharXiv 上被一个 4B 开源模型超越……
摘要
一个4B开源模型在 CharXiv 图表理解基准上击败了 Mythos 5,展示了可自由获取的小模型的强大性能。
查看缓存全文
缓存时间: 2026/06/10 13:50
在 https://t.co/tOqTY2ZA6h 上,你可以看到 Mythos 5 被一个 4B 开源模型在 CharXiv(一个流行的图表理解基准测试)上击败。
一个可在 @huggingface 上免费获取、可在任何地方部署的小型模型!https://t.co/e1BPGGE2JW
相似文章
Mythos在网络安全/黑客攻击方面优势的更多证据——与5.5版本相比,它完成了41个n-day漏洞利用中的18个,而5.5只有1个。开源/权重模型则一个都没有。
Mythos在网络安全黑客攻击中展现了强大性能,实现了41个n-day漏洞利用中的18个,而5.5版本只有1个,开源模型则一个都没有。
@AnthropicAI:每次发布新模型时,我们都会运行相同的测试:给模型一段训练小型AI模型的代码,要求新模型对其进行加速。
Anthropic 分享了内部基准测试结果,展示了AI编码能力的显著提升:2024年5月,Claude Opus 4 在机器学习代码优化任务上平均加速约3倍;而今年4月发布的新模型 Mythos Preview 达到了约52倍加速,相比之下,一位熟练人类工程师需要4-8小时才能实现4倍加速。
@karpathy: 这是一个超激动人心的发布——Claude Fable 5 与 Mythos 使用相同的基础模型,但增加了安全措施。……
Claude Fable 5 已发布,据称在各项基准测试中达到最先进水平,并在质量上有改进,尤其在复杂长任务上。它与 Mythos 使用相同的基础模型,但增加了安全措施。
@github: Claude Fable 5,@AnthropicAI 旗下 Mythos 模型类中的首个模型,现已全面上线并在 GitHub Co…
Claude Fable 5 是 Anthropic 旗下 Mythos 类模型中的首个模型,现已全面登陆 GitHub Copilot。它专为长周期、自主编程及知识工作任务而设计,相比之前的 Opus 层级模型效率更高。
Mythos 可以将训练代码的速度提升 52 倍(相比之下,人类在 4-8 小时内只能提升 4 倍)
Anthropic 的 Mythos 系统在优化训练代码方面实现了 52 倍的加速,而人类在同任务上 4-8 小时内只能实现 4 倍加速,但需要注意的是,绝对倍数在很大程度上取决于起始代码的质量。同类比较显示,过去一年中各模型的改进约为 3 倍到 52 倍。