@aaron_epstein: 新发布的模型在OCR、视觉和STT任务上击败了sonnet 4.6、gemini 3 flash和gpt 5.4 mini @interfaze_ai

X AI KOLs Following 2026/05/12 03:06 模型

model-release ocr vision stt ai-benchmarks multimodal

摘要

来自interfaze_ai的新AI模型声称在OCR、视觉和语音转文字任务上超越领先模型（sonnet 4.6、gemini 3 flash、gpt 5.4 mini）。

新发布的模型在OCR、视觉和STT任务上击败了sonnet 4.6、gemini 3 flash和gpt 5.4 mini @interfaze_ai

查看原文

相似文章

@rohanpaul_ai: 一个专为单一领域构建的小型模型，能否击败体积是其100倍的前沿通用模型？最近一篇论文显示……

X AI KOLs Following

PolyAI的Raven 3.5是一款较小的专业模型，在延迟低于300毫秒的情况下，在所有客户服务基准测试中超越了GPT-5和Claude Sonnet 4.6。该公司还推出了ADK和PolyPhone，以加速企业级语音AI部署。

@berryxia: 兄弟们，我后背没有发凉。但，我看到这个模型架构后高兴不已！大家还在疯狂堆参数、卷通用大模型的时候，Interfaze直接用一个全新混合架构。把OCR、视觉、STT、结构化输出这些确定性任务的准确率干到了吊打Gemini-3-Flas…

X AI KOLs Timeline

Interfaze introduces a new hybrid AI model architecture combining DNN/CNN encoders with transformers to achieve superior accuracy and cost-efficiency for deterministic tasks like OCR, vision, and STT compared to generalist models.

@charles_irl: 新基准测试刚刚发布

X AI KOLs Timeline

Andon Labs 发布了一项新的基准测试，测试AI模型是否会拒绝播放纳粹进行曲。结果显示，Claude Opus 4.8 和 GPT 5.5 总是拒绝，Gemini 3.5 Flash 有一半时间拒绝，而 Grok 4.3 几乎总是播放。

@AlphaSignalAI：一个66M参数的模型刚刚在树莓派上击败了ElevenLabs。文本转语音多年来一直存在于云端。每个语音…

X AI KOLs Timeline

Supertonic 3是一个99M参数的开源TTS模型，完全在设备上运行，在树莓派上击败了ElevenLabs，在笔记本电脑CPU上的性能是实时的167倍。

GPT-4o mini：推进成本高效的智能模型

OpenAI Blog

OpenAI 发布 GPT-4o mini，一款成本高效的小型模型，每百万输入令牌价格仅为 15 美分，比 GPT-3.5 Turbo 便宜 60%，在 MMLU 上表现强劲（82%），在推理、数学和编码任务上超越 Gemini Flash 和 Claude Haiku 等竞争对手。

相似文章

@rohanpaul_ai: 一个专为单一领域构建的小型模型，能否击败体积是其100倍的前沿通用模型？最近一篇论文显示……

@charles_irl: 新基准测试刚刚发布

@AlphaSignalAI：一个66M参数的模型刚刚在树莓派上击败了ElevenLabs。文本转语音多年来一直存在于云端。每个语音…

GPT-4o mini：推进成本高效的智能模型

提交意见反馈