标签
这是一个使用AI实时响应用户语音输入的互动故事游戏演示,玩家扮演吟游诗人与名为“死亡女士”的AI角色即兴对话,AI根据玩家每一句话动态推进剧情。
Elon Musk 宣布,Grok 借助实时访问 X 正在快速改进,并且现在已经可以在所有主要云平台上使用,包括 Bedrock、Vertex、Oracle 和 Azure。
一位开发者使用 Tiger Cloud (TimescaleDB) 和 Claude Code 构建了一个实时3D卫星追踪器,展示了用于时间序列数据的 Tiger CLI MCP 服务器。文章还重点介绍了 Speedcast 在生产规模上对该技术的应用。
Mel AI 展示了能够通过视频实时聊天、反应并响应视觉上下文的 AI 角色,超越了基于文本的角色聊天。
OpenAI计划发布GPT-Bidi-1,其下一代语音模型,可同时听和说,处理中断,并实现更自然的对话。
有人利用 Claude Opus 开发了一个 AI 屏幕画笔家教,能直接在用户屏幕上画图指导,例如在 YouTube 上标注勾股定理或圈出 FL Studio 按钮,提供沉浸式学习体验。
browser_use展示了他们的v4 AI代理如何自主玩在线游戏powerline.io:通过分析游戏状态并创建实时子代理来争夺第一名。
利用Claude Opus构建了一款AI导师,能够在屏幕上以像素级精确度绘制图形,引导用户完成复杂步骤,并通过勾股定理和FL Studio进行了演示。
MaineCoon是一个220亿参数的实时视听自回归模型,用于社交世界建模,能够在单个GPU上以高达47.5 FPS进行流式生成,并引入了新颖的训练技术和智能体推理框架。
MV3DT 是一种全分布式的多视角 3D 跟踪框架,通过点对点协调消除了中心化融合的计算瓶颈,在 100 台摄像头上以 30FPS 运行且通信开销仅 2.2%,零样本校准即可部署,性能达到或超过中心化方法。
VisualClaw是一种自我进化的多模态智能体,通过混合编码和技能进化降低部署成本,同时在多个基准测试中提高了视频问答的准确性。
A developer showcases a fully local voice chatbot running Qwen3.5-397B, Whisper-small, and Orpheus TTS with real-time streaming and interruption recovery. The chatbot, named Athena, engages in deep philosophical discussions about consciousness and self-preservation.
在PyTorch Conference Europe 2026上,Mistral AI的Patrick von Platen解释了为什么现实世界的AI交互需要能够处理连续输入并产生连续输出的流式架构,并以Vox Real Time作为实时转录示例。
Google Gemma 团队演示了在 Reachy Mini 机器人上使用 Gemini Live 的实时社交机器人技术,展示了使用 Gemma 4 进行云端和本地推理的能力。
WhisperX是一个用于快速自动语音识别的工具,提供词级时间戳和说话人分离,使用Whisper large-v2实现70倍实时转录。
Redroom 是一个开源的全栈地缘政治 OSINT 工作站,集实时情报采集、AI 处理、3D 可视化、卫星追踪和叙事分析于一体,技术栈扎实,适合情报分析爱好者。
本文介绍了一种低延迟实时音频游戏解说系统,该系统利用基于LLM的并行文本生成技术,将语句间的静默时间从9.6秒减少到0.3秒,与顺序基线相比显著改善了感知到的说话节奏。
LangSmith Observability 为 AI 代理提供实时监控,帮助快速识别性能问题。