标签
LiteParse 是一款在本地运行的快速文档解析工具,通过跳过繁重的AI处理和云端开销,实现了约3ms/页的解析速度。它采用确定性的布局启发式算法和选择性OCR,直接输出结构化的Markdown,非常适合实时RAG流水线和编码代理。
一个开源的实时全球情报仪表板,追踪冲突、军事活动、基础设施、抗议和市场信号,在浏览器中运行,采用MIT许可证。
一款免费的开源工具,只需一张照片即可在实时网络摄像头上进行换脸,拥有93k GitHub星标。
LingBot-Map 是一个开源、实时流式3D重建模型,使用单个摄像头,通过前馈几何上下文转换器以约20 FPS运行,性能优于流式和离线方法。
Sierra Platform 的语音代理方法将思考、倾听和说话并行化,以模拟人类对话,正如 Max Agency 播客中所讨论的。
本教程论文介绍NeuraDock Agent,一个用于视觉认知负荷分析的开源EEG工作流,包含预处理、质量控制、实时API和LLM解读。
Liquid AI发布了LFM2.5-230M,这是一个拥有230M参数的小型模型,针对CPU、NPU和GPU上的快速推理进行了优化,适用于手机和机器人等设备上的代理型任务。
一位传统油画艺术家开发了开源工具Bob Jack Painter,通过实时摄像头将物理画布上的油画纹理映射到3D模型上,实现了用真实油画颜料纹理化数字3D物体的流程。
作者认为,对于实时语音代理,STT延迟和实时行为比原始转录准确性更为关键,并提出了不同的评估记分卡。
jxnlco 展示了 gpt-realtime-2 处理上下文唤醒词和推理的能力,通过构建一个能击败他的 Simon Says 游戏。
一款韩国AI应用走红,它允许与AI角色进行逼真的视频对话,这些角色使用语音、唇形同步、面部表情和摄像头场景,标志着从文本界面到实时视频原生交互的转变。
Mel AI正在将AI角色从基于文本的互动演变为实时视频聊天,具备唇同步、面部表情和摄像头上下文感知能力,这是在Character AI成功之后。
KroWork 是一款新推出的工具,能将AI聊天对话转化为可复用的桌面应用程序,让非技术用户通过自然语言创建工作流,这些工作流在本地运行,重启时不消耗令牌。它可以免费实现实时股票监控等任务。
探讨在考虑替代方案和性能权衡的情况下,OpenAI 的 Whisper 是否仍是实时语音转文字应用的首选。
NVIDIA 悄然发布了 Nemotron-3.5-ASR,这是一个轻量级、参数规模为 0.6B 的开源语音识别模型,专为实时流式传输设计,支持 40 多种语言、低延迟和缓存感知架构。
Wan-Streamer是一个统一的端到端多模态模型,用于实时音视频交互,采用因果注意力机制,并集成处理视觉、音频和文本模态,实现了亚秒级延迟。
这篇博文介绍了在代理框架中使用Gemma、Qwen等本地开源权重模型,自动对OpenClaw仓库中的问题和拉取请求进行分类,从而实现实时通知,无需依赖昂贵的封闭API模型。
TownSquare 是一个用于网站的微型存在层,让访客无需账户或算法即可实时看到彼此并互动,只需一个脚本标签。
研究人员推出了T-Rex,这是一个集成了视觉、语言和触觉感知的框架,使机器人能够实时响应物理接触,而非仅依赖视觉。