@aaron_epstein: 新发布的模型在OCR、视觉和STT任务上击败了sonnet 4.6、gemini 3 flash和gpt 5.4 mini @interfaze_ai
摘要
来自interfaze_ai的新AI模型声称在OCR、视觉和语音转文字任务上超越领先模型(sonnet 4.6、gemini 3 flash、gpt 5.4 mini)。
相似文章
@berryxia: 兄弟们,我后背没有发凉。 但,我看到这个模型架构后高兴不已! 大家还在疯狂堆参数、卷通用大模型的时候,Interfaze直接用一个全新混合架构。 把OCR、视觉、STT、结构化输出这些确定性任务的准确率干到了吊打Gemini-3-Flas…
Interfaze introduces a new hybrid AI model architecture combining DNN/CNN encoders with transformers to achieve superior accuracy and cost-efficiency for deterministic tasks like OCR, vision, and STT compared to generalist models.
GPT-4o mini:推进成本高效的智能模型
OpenAI 发布 GPT-4o mini,一款成本高效的小型模型,每百万输入令牌价格仅为 15 美分,比 GPT-3.5 Turbo 便宜 60%,在 MMLU 上表现强劲(82%),在推理、数学和编码任务上超越 Gemini Flash 和 Claude Haiku 等竞争对手。
GPT-4
OpenAI 发布 GPT-4,一个大型多模态模型,接受图像和文本输入,在专业和学术基准测试中表现出人类水平的性能,在各种评估指标上的表现明显优于 GPT-3.5。
全新AI图像生成器碾压全场
OpenAI发布ChatGPT Images 2.0,新图像模型在11项真实场景测试中全面击败Google的Nano Banana Pro,测试涵盖动漫海报、UI截图、品牌画板与数据信息图,文字清晰可读,排版精准。
Hello GPT-4o
OpenAI发布GPT-4o,一个功能全面的多模态模型,可实时处理音频、视觉、文本和视频,平均音频响应延迟为232毫秒。该模型在文本和代码能力上与GPT-4 Turbo相当,同时显著改进了多语言、音频和视觉功能,API成本降低50%。