标签
Mistral AI 发布了 Mistral OCR 4,一款紧凑型文档智能模型,能够提供边界框、块分类和内置信度评分,用于结构化文本提取。该模型支持170种语言,可在单个容器中运行以实现自托管部署,并与 Mistral Search Toolkit 集成,用于企业搜索和 RAG 管线。
PP-OCRv6 是 PaddleOCR 通用 OCR 模型系列的最新版本,提供从 1.5M 到 34.5M 参数的三个档次,支持 50 种语言,并在准确率上较之前版本有显著提升。
Apertus 是由瑞士AI计划开发的一款完全开放的主权AI基础模型。它拥有开放权重、开放数据、开放科学,符合欧盟AI法案,在8B和70B参数规模上与顶级开放模型具有竞争力,支持超过1000种语言。
OpenAI 宣布推出 GPT-5.5 Instant,在健康相关问题上的表现现已媲美前沿思考模型,对所有免费用户开放,并在识别紧急护理需求和解释不确定性方面有所改进。
Liquid AI 推出 LFM2.5-Embedding-350M 和 LFM2.5-ColBERT-350M,这两款多语言检索模型经过优化,可在11种语言中实现快速准确的搜索,延迟低至1.5毫秒。
MOSS-TTS-Local Transformer v1.5 是一个开源的 48 kHz 立体声 TTS 模型,具有零样本语音克隆、原生流式传输,并支持31种语言,基于 Qwen3-4B 骨干网构建,通过 SGLang-Omni 提供。
MosiAI发布了MOSS-TTS Local Transformer v1.5,这是一款支持语音克隆、30多种语言以及48 kHz高质量输出的文本转语音模型。
本文提出了一种跨语言的LLM数学推理机制分析,发现数学相关参数在不同语言之间存在部分重叠,主要集中于中间层。英语拥有最大规模的数学相关参数集,而低资源语言则拥有较小的参数集。
VoxCPM2是OpenBMB开源的语音合成模型,采用无分词器的扩散自回归架构,支持30种语言、语音设计和可控语音克隆,仅需一句话即可克隆音色,或用文字创建全新声音,输出48kHz高质量音频,可商用。
本文通过七项任务、六种模型及类型多样的语言,实证研究了上下文学习中的跨语言迁移,表明基于微调的预期并不始终适用,并提出了源语言选择的新启发式方法。
本文解决了多模态大语言模型在ASR中的口语遵循问题,提出了一种软提示方法和新颖的度量标准来量化语言违规。它评估了三种缓解策略——零样本提示、监督微调和思维链推理——在多种语言上的效果,以提高转录保真度。
本文首次系统研究了视觉-语言-动作(VLA)模型中的多语言指令跟随问题,揭示了当模型基于英语训练时,在其他语言上的性能显著下降。作者提出了多语言主成分对齐(MPCA)方法来缩小多语言性能差距。
本文介绍了Multilingual-IRT,这是一个统计框架,通过每种语言的难度偏差和拆分可区分性扩展了项目反应理论,能够高效预测未观测到的评估、检测翻译错误以及恢复跨29种语言的文化特定项目。
本文介绍了语法错误表征(GER),一种基于错误模式而非语义相似性检索上下文示例的新方法,显著提升了具有上下文学习能力的大型语言模型在多语言语法错误纠正中的表现。
AmchiBias 引入了首个用于衡量果阿身份群体中社会文化刻板偏见的基准,覆盖英语和孔卡尼语中跨八个社会人口维度的313对最小配对。对多语言编码模型的评估显示,在孔卡尼语上的表现接近随机,且对果阿文化的能力有限。
本文介绍了AdaMame,一种两阶段训练方案(SFT + GRPO),用于在多语言数学推理中自适应地将推理语言与查询语言对齐,在不牺牲准确性的情况下缓解语言崩溃。
本文系统比较了涵盖11种东南亚语言的公平性分词器在多语言大语言模型中的表现,发现Parity-aware BPE在效率与公平之间取得了最佳平衡,并且跨语言公平性与分词效率并非根本冲突。
介绍ChLogic,这是一个英汉对齐的基准测试,用于检验大型语言模型在不同语言间是否保持逻辑推理性能,揭示了持续存在的差距,这些差距受到表面实现和翻译痕迹的影响。
GitHub宣布推出GitHub多语言仓库数据集,这是一个开放的元数据集,涵盖4000万个仓库中的超过8000万条分类记录,旨在帮助研究人员和开发者构建多语言AI工具。
发布Chandra 2.1,一个改进的OCR模型,更小、更快,并且在处理复杂表格和多语言内容方面显著改进,现已上线Datalab API。