real-time

标签

Cards List
#real-time

@itsafiz:这真不是夸张!LiteParse平均每页只需3毫秒,原因很简单:它跳过了繁重的AI处理……

X AI KOLs Following · 昨天 缓存

LiteParse 是一款在本地运行的快速文档解析工具,通过跳过繁重的AI处理和云端开销,实现了约3ms/页的解析速度。它采用确定性的布局启发式算法和选择性OCR,直接输出结构化的Markdown,非常适合实时RAG流水线和编码代理。

0 人收藏 0 人点赞
#real-time

@xiaoying_eth: 这哥们儿刚开源了一个实时全球情报仪表板,完全免费。 >它实时追踪冲突、军事活动、基础设施、抗议和市场信号。 >在浏览器中运行 >MIT许可证。 https://github.com/koala73/worldmonitor…

X AI KOLs Timeline · 昨天 缓存

一个开源的实时全球情报仪表板,追踪冲突、军事活动、基础设施、抗议和市场信号,在浏览器中运行,采用MIT许可证。

0 人收藏 0 人点赞
#real-time

@HowToPrompt__: 这个工具让你只需一张照片就能在实时网络摄像头上进行换脸。Zoom通话、Omegle、直播……你……

X AI KOLs Timeline · 昨天 缓存

一款免费的开源工具,只需一张照片即可在实时网络摄像头上进行换脸,拥有93k GitHub星标。

0 人收藏 0 人点赞
#real-time

@IlirAliu_: 忘掉激光雷达吧。仅需一个摄像头。实时运行且开源:一个流式3D模型,实时重建场景…

X AI KOLs Timeline · 2天前 缓存

LingBot-Map 是一个开源、实时流式3D重建模型,使用单个摄像头,通过前馈几何上下文转换器以约20 FPS运行,性能优于流式和离线方法。

0 人收藏 0 人点赞
#real-time

@LangChain: 在真实对话中,决定何时开口与决定说什么需要几乎同等的脑力。语音代理…

X AI KOLs Following · 2天前 缓存

Sierra Platform 的语音代理方法将思考、倾听和说话并行化,以模拟人类对话,正如 Max Agency 播客中所讨论的。

0 人收藏 0 人点赞
#real-time

NeuraDock 视觉认知负荷代理教程:一个质量门控的开源EEG工作流,用于Alpha动态和实时应用

arXiv cs.AI · 2天前 缓存

本教程论文介绍NeuraDock Agent,一个用于视觉认知负荷分析的开源EEG工作流,包含预处理、质量控制、实时API和LLM解读。

0 人收藏 0 人点赞
#real-time

@liquidai:推出LFM2.5-230M:这是我们最小的模型,专为快速运行而设计,可在任何地方(CPU、NPU和GPU)上运行,以实现代理型任务…

X AI KOLs Timeline · 3天前 缓存

Liquid AI发布了LFM2.5-230M,这是一个拥有230M参数的小型模型,针对CPU、NPU和GPU上的快速推理进行了优化,适用于手机和机器人等设备上的代理型任务。

0 人收藏 0 人点赞
#real-time

Can I texture 3D objects with oil paint?

Lobsters Hottest · 3天前 缓存

一位传统油画艺术家开发了开源工具Bob Jack Painter,通过实时摄像头将物理画布上的油画纹理映射到3D模型上,实现了用真实油画颜料纹理化数字3D物体的流程。

0 人收藏 0 人点赞
#real-time

语音代理的最佳STT API?我会先测试延迟再测试准确性

Reddit r/AI_Agents · 3天前

作者认为,对于实时语音代理,STT延迟和实时行为比原始转录准确性更为关键,并提出了不同的评估记分卡。

0 人收藏 0 人点赞
#real-time

@jxnlco: 电脑!激活防火墙!使用gpt-realtime-2,你可以通过上下文提示唤醒词、推理,并构建一些…

X AI KOLs Following · 4天前 缓存

jxnlco 展示了 gpt-realtime-2 处理上下文唤醒词和推理的能力,通过构建一个能击败他的 Simon Says 游戏。

0 人收藏 0 人点赞
#real-time

Signspell

Product Hunt · 4天前

Signspell 是一个用于实时识别美国手语字母的Python包,可通过pip安装。

0 人收藏 0 人点赞
#real-time

韩国AI应用走红:可对话、反应并回应摄像头场景的AI角色

Reddit r/artificial · 4天前

一款韩国AI应用走红,它允许与AI角色进行逼真的视频对话,这些角色使用语音、唇形同步、面部表情和摄像头场景,标志着从文本界面到实时视频原生交互的转变。

0 人收藏 0 人点赞
#real-time

前谷歌Character AI时代正在演进

Reddit r/artificial · 4天前

Mel AI正在将AI角色从基于文本的互动演变为实时视频聊天,具备唇同步、面部表情和摄像头上下文感知能力,这是在Character AI成功之后。

0 人收藏 0 人点赞
#real-time

@rohanpaul_ai: 你可以导入5只股票,该工具能从主要网站抓取信息,生成实时AI摘要。它……

X AI KOLs Following · 5天前 缓存

KroWork 是一款新推出的工具,能将AI聊天对话转化为可复用的桌面应用程序,让非技术用户通过自然语言创建工作流,这些工作流在本地运行,重启时不消耗令牌。它可以免费实现实时股票监控等任务。

0 人收藏 0 人点赞
#real-time

如果应用需要实时语音转文字,Whisper 是否仍是最佳默认选择?

Reddit r/AI_Agents · 5天前

探讨在考虑替代方案和性能权衡的情况下,OpenAI 的 Whisper 是否仍是实时语音转文字应用的首选。

0 人收藏 0 人点赞
#real-time

@DataChaz:@NVIDIA 刚刚悄悄发布了一个极其令人印象深刻的语音识别模型,它彻底改变了本地语音处理的计算方式……

X AI KOLs Timeline · 5天前 缓存

NVIDIA 悄然发布了 Nemotron-3.5-ASR,这是一个轻量级、参数规模为 0.6B 的开源语音识别模型,专为实时流式传输设计,支持 40 多种语言、低延迟和缓存感知架构。

0 人收藏 0 人点赞
#real-time

Wan-Streamer v0.1:端到端实时交互基础模型

Hugging Face Daily Papers · 6天前 缓存

Wan-Streamer是一个统一的端到端多模态模型,用于实时音视频交互,采用因果注意力机制,并集成处理视觉、音频和文本模态,实现了亚秒级延迟。

0 人收藏 0 人点赞
#real-time

我们使用本地模型免费对OpenClaw仓库进行问题分类!*

Hugging Face Blog · 2026-06-22 缓存

这篇博文介绍了在代理框架中使用Gemma、Qwen等本地开源权重模型,自动对OpenClaw仓库中的问题和拉取请求进行分类,从而实现实时通知,无需依赖昂贵的封闭API模型。

0 人收藏 0 人点赞
#real-time

Show HN: TownSquare,一个用于网站的微型存在层

Hacker News Top · 2026-06-20 缓存

TownSquare 是一个用于网站的微型存在层,让访客无需账户或算法即可实时看到彼此并互动,只需一个脚本标签。

0 人收藏 0 人点赞
#real-time

研究人员推出T-Rex,一个统一视觉、语言和触觉感知的框架,使机器人能够实时响应物理接触,而非仅依赖视觉

Reddit r/singularity · 2026-06-20

研究人员推出了T-Rex,这是一个集成了视觉、语言和触觉感知的框架,使机器人能够实时响应物理接触,而非仅依赖视觉。

0 人收藏 0 人点赞
Next →
← 返回首页

提交意见反馈