multilingual

#multilingual

Mistral OCR 4

Hacker News Top ↗ · 8小时前缓存

Mistral AI 发布了 Mistral OCR 4，一款紧凑型文档智能模型，能够提供边界框、块分类和内置信度评分，用于结构化文本提取。该模型支持170种语言，可在单个容器中运行以实现自托管部署，并与 Mistral Search Toolkit 集成，用于企业搜索和 RAG 管线。

0 人收藏 0 人点赞

#multilingual

Hugging Face 上的 PP-OCRv6：支持 50 种语言、参数规模从 1.5M 到 34.5M 的 OCR 模型

Hugging Face Blog ↗ · 昨天缓存

PP-OCRv6 是 PaddleOCR 通用 OCR 模型系列的最新版本，提供从 1.5M 到 34.5M 参数的三个档次，支持 50 种语言，并在准确率上较之前版本有显著提升。

0 人收藏 0 人点赞

#multilingual

Apertus – 主权AI的开放基础模型

Hacker News Top ↗ · 2天前缓存

Apertus 是由瑞士AI计划开发的一款完全开放的主权AI基础模型。它拥有开放权重、开放数据、开放科学，符合欧盟AI法案，在8B和70B参数规模上与顶级开放模型具有竞争力，支持超过1000种语言。

0 人收藏 0 人点赞

#multilingual

@OpenAI：为了改进我们的模型，我们与遍布60个国家、涵盖49种语言的全球数百名医生网络合作……

X AI KOLs ↗ · 5天前缓存

OpenAI 宣布推出 GPT-5.5 Instant，在健康相关问题上的表现现已媲美前沿思考模型，对所有免费用户开放，并在识别紧急护理需求和解释不确定性方面有所改进。

0 人收藏 0 人点赞

#multilingual

@liquidai: 介绍 LFM2.5-Embedding-350M 和 LFM2.5-ColBERT-350M：两款为超快且精准的多语言检索模型

X AI KOLs Following ↗ · 5天前缓存

Liquid AI 推出 LFM2.5-Embedding-350M 和 LFM2.5-ColBERT-350M，这两款多语言检索模型经过优化，可在11种语言中实现快速准确的搜索，延迟低至1.5毫秒。

0 人收藏 0 人点赞

#multilingual

@lmsysorg: SGLang-Omni 现已于第0天提供来自 @Open_MOSS 的 MOSS-TTS-Local Transformer v1.5！这是一个开源的 48 kHz 立体声 TTS 模式…

X AI KOLs Timeline ↗ · 5天前缓存

MOSS-TTS-Local Transformer v1.5 是一个开源的 48 kHz 立体声 TTS 模型，具有零样本语音克隆、原生流式传输，并支持31种语言，基于 Qwen3-4B 骨干网构建，通过 SGLang-Omni 提供。

0 人收藏 0 人点赞

#multilingual

@MosiAI_Official: MOSS-TTS Local Transformer v1.5 现已推出。克隆任意声音。说任何语言。听到每一个细节。30多种语言，48 kHz …

X AI KOLs Following ↗ · 5天前缓存

MosiAI发布了MOSS-TTS Local Transformer v1.5，这是一款支持语音克隆、30多种语言以及48 kHz高质量输出的文本转语音模型。

0 人收藏 0 人点赞

#multilingual

多语言中数学推理的LLM参数：共享还是独立？

arXiv cs.CL ↗ · 5天前缓存

本文提出了一种跨语言的LLM数学推理机制分析，发现数学相关参数在不同语言之间存在部分重叠，主要集中于中间层。英语拥有最大规模的数学相关参数集，而低资源语言则拥有较小的参数集。

0 人收藏 0 人点赞

#multilingual

@FakeMaidenMaker: 炸裂！这个开源项目免费文字转无 AI 味人声，还能克隆任何人的嗓音，并且用文字调整音色！ GitHub 狂揽 30K star，出自面壁智能 OpenBMB，VoxCPM 之前拿过 GitHub 和 HuggingFace 双榜第一。做…

X AI KOLs Timeline ↗ · 6天前缓存

VoxCPM2是OpenBMB开源的语音合成模型，采用无分词器的扩散自回归架构，支持30种语言、语音设计和可控语音克隆，仅需一句话即可克隆音色，或用文字创建全新声音，输出48kHz高质量音频，可商用。

0 人收藏 0 人点赞

#multilingual

当英语并非最佳教师：跨语言上下文学习中的源语言效应

arXiv cs.CL ↗ · 6天前缓存

本文通过七项任务、六种模型及类型多样的语言，实证研究了上下文学习中的跨语言迁移，表明基于微调的预期并不始终适用，并提出了源语言选择的新启发式方法。

0 人收藏 0 人点赞

#multilingual

你在说我的语言吗？关于多模态大语言模型中的口语遵循问题

arXiv cs.CL ↗ · 6天前缓存

本文解决了多模态大语言模型在ASR中的口语遵循问题，提出了一种软提示方法和新颖的度量标准来量化语言违规。它评估了三种缓解策略——零样本提示、监督微调和思维链推理——在多种语言上的效果，以提高转录保真度。

0 人收藏 0 人点赞

#multilingual

超越英语：揭示视觉-语言-动作模型中的多语言差距

arXiv cs.CL ↗ · 2026-06-16 缓存

本文首次系统研究了视觉-语言-动作（VLA）模型中的多语言指令跟随问题，揭示了当模型基于英语训练时，在其他语言上的性能显著下降。作者提出了多语言主成分对齐（MPCA）方法来缩小多语言性能差距。

0 人收藏 0 人点赞

#multilingual

扩展项目反应理论以实现高效且有意义的多语言评估

arXiv cs.CL ↗ · 2026-06-16 缓存

本文介绍了Multilingual-IRT，这是一个统计框架，通过每种语言的难度偏差和拆分可区分性扩展了项目反应理论，能够高效预测未观测到的评估、检测翻译错误以及恢复跨29种语言的文化特定项目。

0 人收藏 0 人点赞

#multilingual

错误编码：多语言语法错误纠正的上下文示例表征检索

arXiv cs.CL ↗ · 2026-06-16 缓存

本文介绍了语法错误表征（GER），一种基于错误模式而非语义相似性检索上下文示例的新方法，显著提升了具有上下文学习能力的大型语言模型在多语言语法错误纠正中的表现。

0 人收藏 0 人点赞

#multilingual

AmchiBias：基于英语和孔卡尼语最小配对数据集测量果阿身份群体的刻板偏见

arXiv cs.CL ↗ · 2026-06-16 缓存

AmchiBias 引入了首个用于衡量果阿身份群体中社会文化刻板偏见的基准，覆盖英语和孔卡尼语中跨八个社会人口维度的313对最小配对。对多语言编码模型的评估显示，在孔卡尼语上的表现接近随机，且对果阿文化的能力有限。

0 人收藏 0 人点赞

#multilingual

AdaMame: 自适应多语言推理的训练方案

arXiv cs.CL ↗ · 2026-06-16 缓存

本文介绍了AdaMame，一种两阶段训练方案（SFT + GRPO），用于在多语言数学推理中自适应地将推理语言与查询语言对齐，在不牺牲准确性的情况下缓解语言崩溃。

0 人收藏 0 人点赞

#multilingual

兼顾公平与效率：多语言大语言模型分词器的实证研究

arXiv cs.CL ↗ · 2026-06-16 缓存

本文系统比较了涵盖11种东南亚语言的公平性分词器在多语言大语言模型中的表现，发现Parity-aware BPE在效率与公平之间取得了最佳平衡，并且跨语言公平性与分词效率并非根本冲突。

0 人收藏 0 人点赞

#multilingual

ChLogic: 评估中文表达中逻辑推理的鲁棒性

Hugging Face Daily Papers ↗ · 2026-06-16 缓存

介绍ChLogic，这是一个英汉对齐的基准测试，用于检验大型语言模型在不同语言间是否保持逻辑推理性能，揭示了持续存在的差距，这些差距受到表面实现和翻译痕迹的影响。

0 人收藏 0 人点赞

#multilingual

加速研究人员和开发者使用新开放数据集构建多语言AI（7分钟阅读）

TLDR AI ↗ · 2026-06-16 缓存

GitHub宣布推出GitHub多语言仓库数据集，这是一个开放的元数据集，涵盖4000万个仓库中的超过8000万条分类记录，旨在帮助研究人员和开发者构建多语言AI工具。

0 人收藏 0 人点赞

#multilingual

@datalabto: 发布Chandra 2.1 — 更小、更快，并且在OCR模型最难处理的两方面显著改进…

X AI KOLs Following ↗ · 2026-06-15 缓存

发布Chandra 2.1，一个改进的OCR模型，更小、更快，并且在处理复杂表格和多语言内容方面显著改进，现已上线Datalab API。

0 人收藏 0 人点赞

multilingual

提交意见反馈