speech-processing

#speech-processing

自动化演讲辅导综述：系统、方法与开放挑战

arXiv cs.CL ↗ · 昨天缓存

一篇关于自动化演讲辅导系统的综述，回顾现有系统，引入一个涵盖发音、重音、韵律、节奏和内容忠实度的五维任务分类法，并指出了标注稀缺、口音公平性和低延迟反馈等开放挑战。

0 人收藏 0 人点赞

#speech-processing

@jreuben1: Speech and Language Processing（第3版草案）Dan Jurafsky 和 James H. Martin https://web.stanford.edu/~jurafsky/slp3…

X AI KOLs Following ↗ · 2026-06-19 缓存

2026年1月6日发布的《Speech and Language Processing》第3版草案由Dan Jurafsky和James H. Martin撰写，采用了修订后的结构，重点关注大型语言模型并更新了章节。

0 人收藏 0 人点赞

#speech-processing

hubert.cpp，一个 distilHuBERT 的 C++ 实现 [P]

Reddit r/MachineLearning ↗ · 2026-06-12

一个没有运行时依赖的 distilHuBERT C++ 实现，权重编译入库，支持动态大小，性能与 ONNX Runtime 相当，便于集成到 CMake 项目中。

0 人收藏 0 人点赞

#speech-processing

人类与AI生成语言的动态：语义在不同时间尺度上的波动

arXiv cs.CL ↗ · 2026-06-11 缓存

本文引入了一种语义-时间尺度分析流程，研究人类和AI生成语音中通用与特定内容随时间分布的方式，揭示自相关窗口度量能够捕捉超越静态词汇分布的语义时间组织。

0 人收藏 0 人点赞

#speech-processing

基于自监督表示和学习动态规划的多语言词级强制对齐

arXiv cs.CL ↗ · 2026-06-10 缓存

一种新颖的多语言词级强制对齐方法，结合了来自MMS的自监督表示和音素边界检测器，以及一个学习动态规划解码器，在英语和未见过的语言上优于现有对齐方法，无需额外训练。

0 人收藏 0 人点赞

#speech-processing

InfoShield：基于信息论优化的隐私保护语音表示用于心理健康筛查

arXiv cs.CL ↗ · 2026-06-05 缓存

InfoShield 提出了一种基于信息论优化的隐私保护语音表示方法，用于心理健康筛查，在减少敏感属性推断的同时保持诊断准确性。一种新颖的 TimeAwareMINE 估计器解决了时序语音中的时静态错位问题。

0 人收藏 0 人点赞

#speech-processing

@HarshalsinghCN: 我打造了一个开源的 Hinglish TTS，性能碾压市面所有模型。我没有任何研究背景。上周我 w…

X AI KOLs Timeline ↗ · 2026-05-12 缓存

一位开发者记录了构建开源 Hinglish 文本转语音系统的过程，该系统通过修复上游推理 bug 并增加轻量级预处理封装，实现了超越现有模型的效果，且在无需训练或 GPU 资源的情况下达到了高质量。

0 人收藏 0 人点赞

#speech-processing

@QingQ77: 从0训练一个0.1B的端到端全模态模型，一个权重搞定文字、语音、图片输入，输出文字和流式语音。 https://github.com/jingyaogong/minimind-o… MiniMind-O 是一个只有0.1B参数的全模态模型…

X AI KOLs Timeline ↗ · 2026-05-09 缓存

MiniMind-O 发布了一个仅 0.1B 参数的端到端全模态模型，支持文本、语音和图片输入及流式语音输出。该项目开源了代码、权重、训练数据和技术报告，强调在普通 GPU 上即可快速训练和推理。

0 人收藏 0 人点赞

#speech-processing

MultiLinguahah：一种新的无监督多语言声学笑声分割方法

arXiv cs.CL ↗ · 2026-05-08 缓存

本文介绍了 MultiLinguahah，这是一种基于 BYOL-A 编码器表示并使用隔离森林（Isolation Forests）进行无监督多语言声学笑声分割的方法。作者证明，通过将笑声检测视为异常检测任务，该方法在非英语环境下的表现优于最先进（SOTA）的监督方法。

0 人收藏 0 人点赞

#speech-processing

PersonaKit (PK)：用于在全双工对话中测试多样化角色的即插即用平台

arXiv cs.CL ↗ · 2026-05-08 缓存

PersonaKit 是一个开源 Web 平台，旨在对全双工对话系统中的多样化角色进行快速原型设计和用户测试。它允许研究人员通过 JSON 配置角色特有的轮流对话行为，并进行 A/B 测试以评估社会语言学交互。

0 人收藏 0 人点赞

#speech-processing

基于对比 LLM 微调对齐对话附和信号与语境表征

arXiv cs.CL ↗ · 2026-04-21 缓存

KTH Royal Institute of Technology 的研究人员提出了一种两阶段框架，通过在对话转写文本上微调 LLMs，并结合对比学习构建联合嵌入空间，以实现对对话附和信号与语境的精准对齐。结果表明，相较于以往方法，该方案显著提升了语境与附和信号的匹配检索性能。

0 人收藏 0 人点赞

#speech-processing

easyaligner: 支持GPU加速和灵活文本归一化的强制对齐工具（兼容HF Hub上的所有w2v2模型）[P]

Reddit r/MachineLearning ↗ · 2026-04-18

easyaligner是一个开源强制对齐库，具有GPU加速和灵活的文本归一化功能，适配Hugging Face Hub上的所有wav2vec2模型。它针对实际工作流进行了优化，可以处理部分转录、无关语音段落和长音频（无需分块），同时保留原始文本格式。

0 人收藏 0 人点赞

speech-processing

提交意见反馈