标签
一篇关于自动化演讲辅导系统的综述,回顾现有系统,引入一个涵盖发音、重音、韵律、节奏和内容忠实度的五维任务分类法,并指出了标注稀缺、口音公平性和低延迟反馈等开放挑战。
2026年1月6日发布的《Speech and Language Processing》第3版草案由Dan Jurafsky和James H. Martin撰写,采用了修订后的结构,重点关注大型语言模型并更新了章节。
一个没有运行时依赖的 distilHuBERT C++ 实现,权重编译入库,支持动态大小,性能与 ONNX Runtime 相当,便于集成到 CMake 项目中。
本文引入了一种语义-时间尺度分析流程,研究人类和AI生成语音中通用与特定内容随时间分布的方式,揭示自相关窗口度量能够捕捉超越静态词汇分布的语义时间组织。
一种新颖的多语言词级强制对齐方法,结合了来自MMS的自监督表示和音素边界检测器,以及一个学习动态规划解码器,在英语和未见过的语言上优于现有对齐方法,无需额外训练。
InfoShield 提出了一种基于信息论优化的隐私保护语音表示方法,用于心理健康筛查,在减少敏感属性推断的同时保持诊断准确性。一种新颖的 TimeAwareMINE 估计器解决了时序语音中的时静态错位问题。
一位开发者记录了构建开源 Hinglish 文本转语音系统的过程,该系统通过修复上游推理 bug 并增加轻量级预处理封装,实现了超越现有模型的效果,且在无需训练或 GPU 资源的情况下达到了高质量。
MiniMind-O 发布了一个仅 0.1B 参数的端到端全模态模型,支持文本、语音和图片输入及流式语音输出。该项目开源了代码、权重、训练数据和技术报告,强调在普通 GPU 上即可快速训练和推理。
本文介绍了 MultiLinguahah,这是一种基于 BYOL-A 编码器表示并使用隔离森林(Isolation Forests)进行无监督多语言声学笑声分割的方法。作者证明,通过将笑声检测视为异常检测任务,该方法在非英语环境下的表现优于最先进(SOTA)的监督方法。
PersonaKit 是一个开源 Web 平台,旨在对全双工对话系统中的多样化角色进行快速原型设计和用户测试。它允许研究人员通过 JSON 配置角色特有的轮流对话行为,并进行 A/B 测试以评估社会语言学交互。
KTH Royal Institute of Technology 的研究人员提出了一种两阶段框架,通过在对话转写文本上微调 LLMs,并结合对比学习构建联合嵌入空间,以实现对对话附和信号与语境的精准对齐。结果表明,相较于以往方法,该方案显著提升了语境与附和信号的匹配检索性能。
easyaligner是一个开源强制对齐库,具有GPU加速和灵活的文本归一化功能,适配Hugging Face Hub上的所有wav2vec2模型。它针对实际工作流进行了优化,可以处理部分转录、无关语音段落和长音频(无需分块),同时保留原始文本格式。