标签
Google DeepMind 宣布推出 Gemma 4 12B,一种新颖的无编码器多模态 AI 模型,将视觉和音频直接集成到 LLM 主干中,在配备 16GB RAM 的笔记本电脑上提供高级推理和代理能力,以 Apache 2.0 许可证发布。
Teenage Engineering 宣布推出 APC-2,这是一款与 SUPERSENSE 合作打造的专业音频唱片录制系统,用于实时刻录黑胶唱片。
本周开放AI领域异常精彩,发布了超过25个开放权重模型,涵盖大语言模型、图像生成、音频/语音、视觉和视频/3D等领域,NVIDIA、Google等机构贡献突出。
《连线》杂志评测了2026年四款最佳Alexa音箱和智能显示屏,其中Echo Show 11被评为最佳智能显示屏,Echo Show 8(第三代)是最实惠的选择,文中还提及了广告和音质方面的权衡。
Xiaomi宣布Sound Play,一款紧凑便携音箱,18W输出,多彩灯光,14小时续航,IP68耐用性。
小米发布了Buds 6,具备舒适的半入耳佩戴、更丰富的声音、更清晰的通话以及更智能的日常便捷体验。
ChildVox 提出了一个全面的基准,用于分析儿童在不同发育阶段的声学交流,整合了来自17个以儿童为中心的音频和语音数据集的20多个子任务。
Cearvol Wave Lite耳机提供中等程度的听力辅助,但在音质方面表现不足,尤其是在对话和观影时。不过,在助听器市场中,其定价合理。
Audiomass 是一款完全在网页浏览器中运行的免费开源多轨音频编辑器。
一篇博客文章,详细描述了在Emacs中调试重复出现的XF86AudioPlay按键事件,最终通过libinput和evtest追踪到头戴式耳机设备驱动的问题。
Marshall发布了Milton A.N.C.,一款配备主动降噪功能的新型贴耳式无线耳机,售价229.99美元。它提供无ANC状态下长达80小时的播放时间、蓝牙6.0、空间音频以及可更换电池。
泄露图片和细节揭示了索尼即将推出的十周年纪念版ColleXion耳机,采用高级设计、更新音频驱动,售价649美元,预计5月19日发布。
AudioMosaic 提出了一种基于对比学习的音频编码器,通过对频谱图块应用结构化时频掩码来构建正样本对,实现高效的大批量训练,在音频基准测试中达到最先进性能,并提升了音频-语言模型的效果。
作者描述了测试一个智能体工作流程,该流程将提示转化为音频课程以发布到Spotify,潜在用途包括会议简报、团队更新和学习笔记。
OpenAI宣布其播客现已上线主流流媒体平台,包括Spotify、Apple Podcasts和YouTube。
OmniGUI引入了一个针对GUI智能体的步骤级基准测试,该测试整合了静态图像、同步音频和视频片段,以模拟真实的智能手机交互。评估显示,当前模型在处理时序和听觉输入方面存在困难,凸显了对全方位模态能力的需求。