speech-recognition

#speech-recognition

Dolphin-CN-Dialect：中文方言识别的重要性

arXiv cs.CL ↗ · 昨天缓存

Dolphin-CN-Dialect 是一款支持流式处理的 ASR 模型，通过基于温度的采样策略和重新设计的词元化方案提升了方言识别能力，在更小的模型规模下实现了具有竞争力的性能。

0 人收藏 0 人点赞

#speech-recognition

@SeongsikKi5837: 2.（实时事实核查）- 交互模型会聆听你的发言并实时进行事实核查——就像拥有一位……

X AI KOLs Following ↗ · 昨天缓存

本文重点介绍了“交互模型”，它能够在对话过程中对语音进行实时事实核查，充当一位专注的队友。

0 人收藏 0 人点赞

#speech-recognition

超越单一真实标准：作为认识论不公的参考一元论在自动语音识别评估中的体现

arXiv cs.CL ↗ · 2天前缓存

本文批判了自动语音识别（ASR）评估中使用单一参考真实标准的做法，指出这会导致对失语症患者说话人的认识论不公。文章提出了一种新指标——认识论不公距离（EID），并提倡使用WER-Range（词错率范围）来考虑多样化的转录惯例。

0 人收藏 0 人点赞

#speech-recognition

@seclink: OpenAI 发布了 GPT-Realtime-2，这是其迄今为止最智能的语音模型。该模型具备 GPT-5 级别的推理能力、128,000 个 token 的上下文窗口，并支持调节“投入程度”以实现更自然的对话体验。它可与 GPT-R…

X AI KOLs Following ↗ · 5天前

OpenAI发布了GPT-Realtime-2语音模型，具备GPT-5级别的推理能力和128,000 token上下文窗口，支持实时翻译70多种语言到13种输出语言，在Big Bench Audio Intelligence评测中达到96.6%准确率，Greg Brockman称其为语音翻译领域的里程碑。

0 人收藏 0 人点赞

#speech-recognition

API 推出全新模型，推动语音智能发展

OpenAI Blog ↗ · 6天前缓存

OpenAI 在 API 中发布了三款全新语音模型：具备高级推理能力的 GPT-Realtime-2、支持实时多语言翻译的 GPT-Realtime-Translate，以及用于流式转录的 GPT-Realtime-Whisper，旨在实现更自然、更具行动力的语音应用。

0 人收藏 0 人点赞

#speech-recognition

向 Open ASR Leaderboard 添加反 Benchmaxxing 机制

Hugging Face Blog ↗ · 2026-05-06 缓存

Hugging Face 宣布向 Open ASR Leaderboard 引入来自 Appen 和 DataoceanAI 的私有高质量数据集，以防止 benchmaxxing 和测试集污染，同时保留公开数据用于默认的平均 WER 计算。

0 人收藏 0 人点赞

#speech-recognition

Voice of India：面向印度真实场景的大规模语音识别基准

arXiv cs.CL ↗ · 2026-04-22 缓存

研究者发布 Voice of India，一个包含 536 小时、覆盖 15 种印度语言和 139 个区域集群的即兴电话对话闭源基准，揭示地理与人口统计学层面的 ASR 性能差异。

0 人收藏 0 人点赞

#speech-recognition

@aigclink: 阿里通义实验室最新发布了款ASR：Fun-ASR 1.5，核心能力：方言工业级可用单模型即可无缝覆盖30种语言、汉语七大方言体系及20+ 地方口音，古诗词吟诵也能精准转写典型方言场景CER相对上代下降56.2%，有5种方言准确率破 9…

X AI KOLs Timeline ↗ · 2026-04-20 缓存

阿里通义实验室发布Fun-ASR 1.5，单模型覆盖30种语言、汉语七大方言及20余种地方口音，典型方言场景字错率较上代下降56.2%，5种方言准确率突破90%。

0 人收藏 0 人点赞

#speech-recognition

BlasBench：爱尔兰语语音识别开放基准

arXiv cs.CL ↗ · 2026-04-20 缓存

BlasBench 为爱尔兰语语音识别引入了一个开放的评估基准，采用爱尔兰语感知的文本规范化，保留了长音符、浊化和日蚀等语言特征。该论文在四个架构家族的 12 个 ASR 系统上进行基准测试，揭示了显著的泛化差距，并表明现有多语言系统由于规范化不足而在爱尔兰语上表现不佳。

0 人收藏 0 人点赞

#speech-recognition

MUSCAT：多语言科学对话基准

arXiv cs.CL ↗ · 2026-04-20 缓存

MUSCAT是一个新的多语言科学对话基准数据集，用于评估ASR系统在具有挑战性的多语言场景中的表现，包括代码混合、特定领域词汇和混合语言输入。该数据集包含使用不同语言的说话者之间关于科学论文的双语讨论，结果表明当前的最先进系统在应对这些多语言挑战时存在困难。

0 人收藏 0 人点赞

#speech-recognition

ServiceNow 推出 EVA：评估语音智能体的新框架

Hugging Face Blog ↗ · 2026-03-24 缓存

ServiceNow 发布 EVA，这是一个面向对话式语音智能体的端到端评估框架，能够同时评估任务准确率和对话体验。

0 人收藏 0 人点赞

#speech-recognition

Speak 通过 AI 实现个性化语言学习

OpenAI Blog ↗ · 2025-04-22 缓存

Speak 是一款由 AI 驱动的语言学习应用，通过先进的语音识别和自然 AI 辅导功能实现教育个性化。CEO Connor Zwick 讨论了深度学习突破和 OpenAI 实时 API 如何能够实现更复杂的口音识别和多模态理解，以帮助流畅度训练。

0 人收藏 0 人点赞

#speech-recognition

Whisper 介绍

OpenAI Blog ↗ · 2022-09-21 缓存

OpenAI 推出 Whisper，这是一个端到端的编码器-解码器 Transformer 模型，在大规模多样化音频数据上进行训练，可提供强大的多语言语音识别、语言识别和语音到英文翻译功能。Whisper 在多样化数据集上的错误率比专业模型低 50%，并且在语音翻译方面优于有监督基准，尽管未针对特定数据集进行微调。

0 人收藏 0 人点赞

speech-recognition

提交意见反馈