real-time

#real-time

@itsafiz：这真不是夸张！LiteParse平均每页只需3毫秒，原因很简单：它跳过了繁重的AI处理……

X AI KOLs Following ↗ · 2天前缓存

LiteParse 是一款在本地运行的快速文档解析工具，通过跳过繁重的AI处理和云端开销，实现了约3ms/页的解析速度。它采用确定性的布局启发式算法和选择性OCR，直接输出结构化的Markdown，非常适合实时RAG流水线和编码代理。

0 人收藏 0 人点赞

#real-time

@xiaoying_eth: 这哥们儿刚开源了一个实时全球情报仪表板，完全免费。 >它实时追踪冲突、军事活动、基础设施、抗议和市场信号。 >在浏览器中运行 >MIT许可证。 https://github.com/koala73/worldmonitor…

X AI KOLs Timeline ↗ · 2天前缓存

一个开源的实时全球情报仪表板，追踪冲突、军事活动、基础设施、抗议和市场信号，在浏览器中运行，采用MIT许可证。

0 人收藏 0 人点赞

#real-time

@HowToPrompt__: 这个工具让你只需一张照片就能在实时网络摄像头上进行换脸。Zoom通话、Omegle、直播……你……

X AI KOLs Timeline ↗ · 2天前缓存

一款免费的开源工具，只需一张照片即可在实时网络摄像头上进行换脸，拥有93k GitHub星标。

0 人收藏 0 人点赞

#real-time

@calcsam: 我们很高兴在Mastra中推出Durable Agents。Durable Agents不仅会在代理轮次结束时写入存储；……

X AI KOLs Following ↗ · 3天前缓存

Mastra推出了Durable Agents，它们利用服务器缓存实时持久化流，以应对客户端断开连接、浏览器刷新或网络波动等情况。

0 人收藏 0 人点赞

#real-time

@IlirAliu_: 忘掉激光雷达吧。仅需一个摄像头。实时运行且开源：一个流式3D模型，实时重建场景…

X AI KOLs Timeline ↗ · 3天前缓存

LingBot-Map 是一个开源、实时流式3D重建模型，使用单个摄像头，通过前馈几何上下文转换器以约20 FPS运行，性能优于流式和离线方法。

0 人收藏 0 人点赞

#real-time

@LangChain: 在真实对话中，决定何时开口与决定说什么需要几乎同等的脑力。语音代理…

X AI KOLs Following ↗ · 3天前缓存

Sierra Platform 的语音代理方法将思考、倾听和说话并行化，以模拟人类对话，正如 Max Agency 播客中所讨论的。

0 人收藏 0 人点赞

#real-time

NeuraDock 视觉认知负荷代理教程：一个质量门控的开源EEG工作流，用于Alpha动态和实时应用

arXiv cs.AI ↗ · 3天前缓存

本教程论文介绍NeuraDock Agent，一个用于视觉认知负荷分析的开源EEG工作流，包含预处理、质量控制、实时API和LLM解读。

0 人收藏 0 人点赞

#real-time

@liquidai：推出LFM2.5-230M：这是我们最小的模型，专为快速运行而设计，可在任何地方（CPU、NPU和GPU）上运行，以实现代理型任务…

X AI KOLs Timeline ↗ · 4天前缓存

Liquid AI发布了LFM2.5-230M，这是一个拥有230M参数的小型模型，针对CPU、NPU和GPU上的快速推理进行了优化，适用于手机和机器人等设备上的代理型任务。

0 人收藏 0 人点赞

#real-time

Can I texture 3D objects with oil paint?

Lobsters Hottest ↗ · 4天前缓存

一位传统油画艺术家开发了开源工具Bob Jack Painter，通过实时摄像头将物理画布上的油画纹理映射到3D模型上，实现了用真实油画颜料纹理化数字3D物体的流程。

0 人收藏 0 人点赞

#real-time

语音代理的最佳STT API？我会先测试延迟再测试准确性

Reddit r/AI_Agents ↗ · 4天前

作者认为，对于实时语音代理，STT延迟和实时行为比原始转录准确性更为关键，并提出了不同的评估记分卡。

0 人收藏 0 人点赞

#real-time

@jxnlco: 电脑！激活防火墙！使用gpt-realtime-2，你可以通过上下文提示唤醒词、推理，并构建一些…

X AI KOLs Following ↗ · 5天前缓存

jxnlco 展示了 gpt-realtime-2 处理上下文唤醒词和推理的能力，通过构建一个能击败他的 Simon Says 游戏。

0 人收藏 0 人点赞

#real-time

Signspell

Product Hunt ↗ · 5天前

Signspell 是一个用于实时识别美国手语字母的Python包，可通过pip安装。

0 人收藏 0 人点赞

#real-time

韩国AI应用走红：可对话、反应并回应摄像头场景的AI角色

Reddit r/artificial ↗ · 5天前

一款韩国AI应用走红，它允许与AI角色进行逼真的视频对话，这些角色使用语音、唇形同步、面部表情和摄像头场景，标志着从文本界面到实时视频原生交互的转变。

0 人收藏 0 人点赞

#real-time

前谷歌Character AI时代正在演进

Reddit r/artificial ↗ · 5天前

Mel AI正在将AI角色从基于文本的互动演变为实时视频聊天，具备唇同步、面部表情和摄像头上下文感知能力，这是在Character AI成功之后。

0 人收藏 0 人点赞

#real-time

@rohanpaul_ai: 你可以导入5只股票，该工具能从主要网站抓取信息，生成实时AI摘要。它……

X AI KOLs Following ↗ · 6天前缓存

KroWork 是一款新推出的工具，能将AI聊天对话转化为可复用的桌面应用程序，让非技术用户通过自然语言创建工作流，这些工作流在本地运行，重启时不消耗令牌。它可以免费实现实时股票监控等任务。

0 人收藏 0 人点赞

#real-time

如果应用需要实时语音转文字，Whisper 是否仍是最佳默认选择？

Reddit r/AI_Agents ↗ · 6天前

探讨在考虑替代方案和性能权衡的情况下，OpenAI 的 Whisper 是否仍是实时语音转文字应用的首选。

0 人收藏 0 人点赞

#real-time

@DataChaz：@NVIDIA 刚刚悄悄发布了一个极其令人印象深刻的语音识别模型，它彻底改变了本地语音处理的计算方式……

X AI KOLs Timeline ↗ · 6天前缓存

NVIDIA 悄然发布了 Nemotron-3.5-ASR，这是一个轻量级、参数规模为 0.6B 的开源语音识别模型，专为实时流式传输设计，支持 40 多种语言、低延迟和缓存感知架构。

0 人收藏 0 人点赞

#real-time

边说话边思考：面向响应式智能对话语音代理的推理时知识迁移

Hugging Face Daily Papers ↗ · 2026-06-23 缓存

本文介绍了一种对话语音代理系统，该系统使用轻量级设备端“Talker”模型立即开始响应，然后随着前沿大语言模型“Reasoner”知识的可用而将其融入，实现了7-19倍的首响应时间缩短，同时在笔记本电脑上达到接近前沿水平的性能。

0 人收藏 0 人点赞

#real-time

Wan-Streamer v0.1：端到端实时交互基础模型

Hugging Face Daily Papers ↗ · 2026-06-23 缓存

Wan-Streamer是一个统一的端到端多模态模型，用于实时音视频交互，采用因果注意力机制，并集成处理视觉、音频和文本模态，实现了亚秒级延迟。

0 人收藏 0 人点赞

#real-time

我们使用本地模型免费对OpenClaw仓库进行问题分类！*

Hugging Face Blog ↗ · 2026-06-22 缓存

这篇博文介绍了在代理框架中使用Gemma、Qwen等本地开源权重模型，自动对OpenClaw仓库中的问题和拉取请求进行分类，从而实现实时通知，无需依赖昂贵的封闭API模型。

0 人收藏 0 人点赞

real-time

提交意见反馈