real-time

#real-time

@itsafiz：这真不是夸张！LiteParse平均每页只需3毫秒，原因很简单：它跳过了繁重的AI处理……

X AI KOLs Following ↗ · 昨天缓存

LiteParse 是一款在本地运行的快速文档解析工具，通过跳过繁重的AI处理和云端开销，实现了约3ms/页的解析速度。它采用确定性的布局启发式算法和选择性OCR，直接输出结构化的Markdown，非常适合实时RAG流水线和编码代理。

0 人收藏 0 人点赞

#real-time

@xiaoying_eth: 这哥们儿刚开源了一个实时全球情报仪表板，完全免费。 >它实时追踪冲突、军事活动、基础设施、抗议和市场信号。 >在浏览器中运行 >MIT许可证。 https://github.com/koala73/worldmonitor…

X AI KOLs Timeline ↗ · 昨天缓存

一个开源的实时全球情报仪表板，追踪冲突、军事活动、基础设施、抗议和市场信号，在浏览器中运行，采用MIT许可证。

0 人收藏 0 人点赞

#real-time

@HowToPrompt__: 这个工具让你只需一张照片就能在实时网络摄像头上进行换脸。Zoom通话、Omegle、直播……你……

X AI KOLs Timeline ↗ · 昨天缓存

一款免费的开源工具，只需一张照片即可在实时网络摄像头上进行换脸，拥有93k GitHub星标。

0 人收藏 0 人点赞

#real-time

@IlirAliu_: 忘掉激光雷达吧。仅需一个摄像头。实时运行且开源：一个流式3D模型，实时重建场景…

X AI KOLs Timeline ↗ · 2天前缓存

LingBot-Map 是一个开源、实时流式3D重建模型，使用单个摄像头，通过前馈几何上下文转换器以约20 FPS运行，性能优于流式和离线方法。

0 人收藏 0 人点赞

#real-time

@LangChain: 在真实对话中，决定何时开口与决定说什么需要几乎同等的脑力。语音代理…

X AI KOLs Following ↗ · 2天前缓存

Sierra Platform 的语音代理方法将思考、倾听和说话并行化，以模拟人类对话，正如 Max Agency 播客中所讨论的。

0 人收藏 0 人点赞

#real-time

NeuraDock 视觉认知负荷代理教程：一个质量门控的开源EEG工作流，用于Alpha动态和实时应用

arXiv cs.AI ↗ · 2天前缓存

本教程论文介绍NeuraDock Agent，一个用于视觉认知负荷分析的开源EEG工作流，包含预处理、质量控制、实时API和LLM解读。

0 人收藏 0 人点赞

#real-time

@liquidai：推出LFM2.5-230M：这是我们最小的模型，专为快速运行而设计，可在任何地方（CPU、NPU和GPU）上运行，以实现代理型任务…

X AI KOLs Timeline ↗ · 3天前缓存

Liquid AI发布了LFM2.5-230M，这是一个拥有230M参数的小型模型，针对CPU、NPU和GPU上的快速推理进行了优化，适用于手机和机器人等设备上的代理型任务。

0 人收藏 0 人点赞

#real-time

Can I texture 3D objects with oil paint?

Lobsters Hottest ↗ · 3天前缓存

一位传统油画艺术家开发了开源工具Bob Jack Painter，通过实时摄像头将物理画布上的油画纹理映射到3D模型上，实现了用真实油画颜料纹理化数字3D物体的流程。

0 人收藏 0 人点赞

#real-time

语音代理的最佳STT API？我会先测试延迟再测试准确性

Reddit r/AI_Agents ↗ · 3天前

作者认为，对于实时语音代理，STT延迟和实时行为比原始转录准确性更为关键，并提出了不同的评估记分卡。

0 人收藏 0 人点赞

#real-time

@jxnlco: 电脑！激活防火墙！使用gpt-realtime-2，你可以通过上下文提示唤醒词、推理，并构建一些…

X AI KOLs Following ↗ · 4天前缓存

jxnlco 展示了 gpt-realtime-2 处理上下文唤醒词和推理的能力，通过构建一个能击败他的 Simon Says 游戏。

0 人收藏 0 人点赞

#real-time

Signspell

Product Hunt ↗ · 4天前

Signspell 是一个用于实时识别美国手语字母的Python包，可通过pip安装。

0 人收藏 0 人点赞

#real-time

韩国AI应用走红：可对话、反应并回应摄像头场景的AI角色

Reddit r/artificial ↗ · 4天前

一款韩国AI应用走红，它允许与AI角色进行逼真的视频对话，这些角色使用语音、唇形同步、面部表情和摄像头场景，标志着从文本界面到实时视频原生交互的转变。

0 人收藏 0 人点赞

#real-time

前谷歌Character AI时代正在演进

Reddit r/artificial ↗ · 4天前

Mel AI正在将AI角色从基于文本的互动演变为实时视频聊天，具备唇同步、面部表情和摄像头上下文感知能力，这是在Character AI成功之后。

0 人收藏 0 人点赞

#real-time

@rohanpaul_ai: 你可以导入5只股票，该工具能从主要网站抓取信息，生成实时AI摘要。它……

X AI KOLs Following ↗ · 5天前缓存

KroWork 是一款新推出的工具，能将AI聊天对话转化为可复用的桌面应用程序，让非技术用户通过自然语言创建工作流，这些工作流在本地运行，重启时不消耗令牌。它可以免费实现实时股票监控等任务。

0 人收藏 0 人点赞

#real-time

如果应用需要实时语音转文字，Whisper 是否仍是最佳默认选择？

Reddit r/AI_Agents ↗ · 5天前

探讨在考虑替代方案和性能权衡的情况下，OpenAI 的 Whisper 是否仍是实时语音转文字应用的首选。

0 人收藏 0 人点赞

#real-time

@DataChaz：@NVIDIA 刚刚悄悄发布了一个极其令人印象深刻的语音识别模型，它彻底改变了本地语音处理的计算方式……

X AI KOLs Timeline ↗ · 5天前缓存

NVIDIA 悄然发布了 Nemotron-3.5-ASR，这是一个轻量级、参数规模为 0.6B 的开源语音识别模型，专为实时流式传输设计，支持 40 多种语言、低延迟和缓存感知架构。

0 人收藏 0 人点赞

#real-time

Wan-Streamer v0.1：端到端实时交互基础模型

Hugging Face Daily Papers ↗ · 6天前缓存

Wan-Streamer是一个统一的端到端多模态模型，用于实时音视频交互，采用因果注意力机制，并集成处理视觉、音频和文本模态，实现了亚秒级延迟。

0 人收藏 0 人点赞

#real-time

我们使用本地模型免费对OpenClaw仓库进行问题分类！*

Hugging Face Blog ↗ · 2026-06-22 缓存

这篇博文介绍了在代理框架中使用Gemma、Qwen等本地开源权重模型，自动对OpenClaw仓库中的问题和拉取请求进行分类，从而实现实时通知，无需依赖昂贵的封闭API模型。

0 人收藏 0 人点赞

#real-time

Show HN: TownSquare，一个用于网站的微型存在层

Hacker News Top ↗ · 2026-06-20 缓存

TownSquare 是一个用于网站的微型存在层，让访客无需账户或算法即可实时看到彼此并互动，只需一个脚本标签。

0 人收藏 0 人点赞

#real-time

研究人员推出T-Rex，一个统一视觉、语言和触觉感知的框架，使机器人能够实时响应物理接触，而非仅依赖视觉

Reddit r/singularity ↗ · 2026-06-20

研究人员推出了T-Rex，这是一个集成了视觉、语言和触觉感知的框架，使机器人能够实时响应物理接触，而非仅依赖视觉。

0 人收藏 0 人点赞

real-time

提交意见反馈