标签
Simon Willison 更新了他的 OpenAI WebRTC 音频会话工具,以支持新的 GPT-Realtime-2 模型,并增加了文档上下文功能,用于对话式音频讨论。
本文介绍了MAD2,一个用于口语对话中多模态声明验证的新基准,并提出了音频和文本模型的校准融合,利用对话上下文来提高验证准确性。
一位资深音频评测员分享了他最常用的三款耳机,其中Soundcore Liberty 5 Pro因出色的通话质量和降噪效果而备受赞誉,尽管默认音效需要调整。
Google DeepMind 宣布推出 Gemma 4 12B,一种新颖的无编码器多模态 AI 模型,将视觉和音频直接集成到 LLM 主干中,在配备 16GB RAM 的笔记本电脑上提供高级推理和代理能力,以 Apache 2.0 许可证发布。
Teenage Engineering 宣布推出 APC-2,这是一款与 SUPERSENSE 合作打造的专业音频唱片录制系统,用于实时刻录黑胶唱片。
这篇文章解释了响度战争(通常是一种数字现象)如何在使用压缩数字母版进行黑胶刻录时降低黑胶唱片的质量,并以 Prince 的 Purple Rain 为例。
本周开放AI领域异常精彩,发布了超过25个开放权重模型,涵盖大语言模型、图像生成、音频/语音、视觉和视频/3D等领域,NVIDIA、Google等机构贡献突出。
《连线》杂志评测了2026年四款最佳Alexa音箱和智能显示屏,其中Echo Show 11被评为最佳智能显示屏,Echo Show 8(第三代)是最实惠的选择,文中还提及了广告和音质方面的权衡。
Xiaomi宣布Sound Play,一款紧凑便携音箱,18W输出,多彩灯光,14小时续航,IP68耐用性。
小米发布了Buds 6,具备舒适的半入耳佩戴、更丰富的声音、更清晰的通话以及更智能的日常便捷体验。
ChildVox 提出了一个全面的基准,用于分析儿童在不同发育阶段的声学交流,整合了来自17个以儿童为中心的音频和语音数据集的20多个子任务。
Cearvol Wave Lite耳机提供中等程度的听力辅助,但在音质方面表现不足,尤其是在对话和观影时。不过,在助听器市场中,其定价合理。
Audiomass 是一款完全在网页浏览器中运行的免费开源多轨音频编辑器。
一篇博客文章,详细描述了在Emacs中调试重复出现的XF86AudioPlay按键事件,最终通过libinput和evtest追踪到头戴式耳机设备驱动的问题。
Marshall发布了Milton A.N.C.,一款配备主动降噪功能的新型贴耳式无线耳机,售价229.99美元。它提供无ANC状态下长达80小时的播放时间、蓝牙6.0、空间音频以及可更换电池。
泄露图片和细节揭示了索尼即将推出的十周年纪念版ColleXion耳机,采用高级设计、更新音频驱动,售价649美元,预计5月19日发布。
AudioMosaic 提出了一种基于对比学习的音频编码器,通过对频谱图块应用结构化时频掩码来构建正样本对,实现高效的大批量训练,在音频基准测试中达到最先进性能,并提升了音频-语言模型的效果。