标签
在离职采访中,鲍勃·伊格尔透露迪士尼差点收购推特,曾探讨与苹果合并,并未能买下詹姆斯·邦德系列版权,突显了他在任期间错失的机会。
介绍了Nexus Sampling,一种无需训练的KV-cache驱逐方法,采用加权蓄水池采样代替确定性top-k选择,在固定内存预算下提升了长上下文LLM推理性能,在80%驱逐率下达到与密集注意力相匹配的性能。
MaineCoon是一款22B参数的实时文生音频视频模型,在单张H100 GPU上可达47.5 FPS,支持低成本、长时长的流式生成,同步语音与画面,用于实时AI角色。
NVIDIA 悄然发布了 Nemotron-3.5-ASR,这是一个轻量级、参数规模为 0.6B 的开源语音识别模型,专为实时流式传输设计,支持 40 多种语言、低延迟和缓存感知架构。
一款名为 ytr 的新型 Emacs 软件包可将 YouTube 音频流作为电台小部件播放,基于 mpv 和 yt-dlp 驱动,并已在 GitHub 上提供。
一篇关于使用 Gemini Live Translate、Next.js、LiveKit 和 Cloud Run 构建实时翻译应用的教程,涵盖音频流传输、翻译和部署。
福克斯收购Roku预计将带来重大变化,包括使The Roku Channel成为Roku设备独占,并放弃像灯泡这样的物联网产品,转而专注体育内容。
MOSS-TTS-Local Transformer v1.5 是一个开源的 48 kHz 立体声 TTS 模型,具有零样本语音克隆、原生流式传输,并支持31种语言,基于 Qwen3-4B 骨干网构建,通过 SGLang-Omni 提供。
Google的Gemini TTS现在支持流式音频生成,开发者可以构建即时响应的语音应用,无需等待完整音频输出。
一名安全研究人员发现,注册为FIFA代理人即可获得FIFA的Microsoft Entra租户访问权限,从而绕过客户端身份验证,访问2026年世界杯的实时直播流管理面板,包括所有比赛的RTMP流密钥。该研究人员不得不联系FIFA、MediaKind、HBS、CISA和FBI以修复此问题。
一篇技术博客文章,解释如何通过在代理和提供商之间放置一个持久缓冲区来避免浪费LLM token,从而在进程崩溃时无需重新获取已生成的token即可恢复。
美国司法部批准了派拉蒙/华纳兄弟的合并,令其自身律师感到意外,但多个美国州和欧盟正计划提起法律挑战。
John Carmack 分享了对 Fabrice Bellard 的敬意,指出其基础软件贡献为 YouTube 和 Netflix 等流媒体服务提供了动力。
Fox 宣布以 220 亿美元收购 Roku,获得对最受欢迎的流媒体平台之一的控制权以及用户数据的访问权限,并计划整合 Fox 内容以增加收入。该交易引发了人们对在 Lachlan Murdoch 领导下政治立场和数据隐私的担忧。
福克斯公司以220亿美元收购Roku,将其广播与流媒体业务与Roku的平台和广告业务整合,以进军智能电视领域,并成为美国电视行业的重要参与者。
StreamMemBench是一个新的流式基准测试,用于评估个人代理记忆系统如何利用观察到的证据和用户反馈来实现面向未来的辅助。实验表明,当前系统通常无法将存储的信息转化为可靠的后续行为。