模型

Cards List

Unlimited OCR: 一次性长程解析

Hacker News Top · 3小时前 缓存

百度发布Unlimited-OCR,这是一个基于Deepseek-OCR构建的开源模型,用于一次性长程文档解析,支持单张图片、多页文档和PDF。

0 人收藏 0 人点赞

Seedance 2.5 宣传视频

Reddit r/singularity · 5小时前

一段展示Seedance 2.5(一款AI视频生成模型)能力的宣传视频。

0 人收藏 0 人点赞

@DataChaz:@NVIDIA 刚刚悄悄发布了一个极其令人印象深刻的语音识别模型,它彻底改变了本地语音处理的计算方式……

X AI KOLs Timeline · 5小时前 缓存

NVIDIA 悄然发布了 Nemotron-3.5-ASR,这是一个轻量级、参数规模为 0.6B 的开源语音识别模型,专为实时流式传输设计,支持 40 多种语言、低延迟和缓存感知架构。

0 人收藏 0 人点赞

GLM-5.2的人类评估

Reddit r/LocalLLaMA · 7小时前

作者称赞GLM-5.2(一个MIT开源权重模型)在人类评估基准中表现出色,声称其能与Claude等最佳闭源模型相媲美。

0 人收藏 0 人点赞

@aikangarooking: https://x.com/aikangarooking/status/2069325659105861926

X AI KOLs Timeline · 7小时前 缓存

介绍了SAG(SQL-Retrieval Augmented Generation),一种基于SQL动态超边的新型检索增强生成架构,相比传统RAG和GraphRAG在多跳推理上更高效、成本更低,已在GitHub开源并取得不错评测结果。

0 人收藏 0 人点赞

@charles_irl: GLM 5.2 runs pretty fast on Modal.

X AI KOLs Following · 9小时前 缓存

GLM 5.2 在 Modal 云平台上展现出快速的性能表现。

0 人收藏 0 人点赞

Gemma 4 26b 为何不受关注?

Reddit r/LocalLLaMA · 10小时前

一位用户询问为什么 Gemma 4 26b 相比 Qwen 模型关注度较低,并分享了他们在 3090 上使用这些模型构建个人助手项目的经验。

0 人收藏 0 人点赞

Seed2.1 发布

Reddit r/singularity · 10小时前

字节跳动发布了新 AI 模型 Seed2.1,并附有博客文章和模型卡。

0 人收藏 0 人点赞

@theemozilla: 每日处理万亿Token,GitHub星标突破20万 为Hermes Agent团队及我们在@NousResearch构建的成果深感自豪…

X AI KOLs Following · 10小时前 缓存

NousResearch的Hermes Agent团队庆祝每日处理一万亿个Token,并达到20万GitHub星标,突显他们在AI代理开发方面的持续进步。

0 人收藏 0 人点赞

Boogu Base、Turbo、Edit —— 开源统一图像生成与编辑模型系列

Reddit r/LocalLLaMA · 12小时前

Boogu 发布了一系列开源统一图像生成与编辑模型,包括 Base、Turbo 和 Edit 变体。

0 人收藏 0 人点赞

@ErickSky: 百度刚刚打破了当前OCR最大的限制之一。Unlimited-OCR一次性处理整个文档…

X AI KOLs Timeline · 13小时前 缓存

百度发布了Unlimited-OCR,它可以一次性处理整个文档而无需分块,克服了当前OCR技术的一个主要限制。

0 人收藏 0 人点赞

@geekbb: 百度开源的视觉语言模型 OCR 项目,在 DeepSeek-OCR 基础上做了升级,主打一次性解析超长文档。模型有两种推理模式:gundam 模式用来对付单张图里的密集文字,base 模式处理多页或 PDF。 https://github…

X AI KOLs Timeline · 13小时前 缓存

百度开源了视觉语言模型Unlimited-OCR,基于DeepSeek-OCR升级,支持一次性解析超长文档,提供gundam(单图密集文字)和base(多页/PDF)两种推理模式。

0 人收藏 0 人点赞

YOLO26 简介

Hacker News Top · 13小时前 缓存

YOLO26 是一个于2026年1月发布的多任务计算机视觉模型系列,具备无需 Non-Maximum Suppression 的端到端检测功能以降低延迟,并针对边缘部署进行了优化,具有改进的CPU推理能力和紧凑设计。

0 人收藏 0 人点赞

@berryxia: 卧槽,这一波直接把DeepSeek的“墙角挖到了啊”! 昨晚看到HuggingFace刷到这个有意思的OCR开源模型和原来背后有趣的故事。 这个OCR模型直接与传统的OCR模型完全不同! 光着速度和精准度真的就无敌了~~ 先说说背景,熟悉…

X AI KOLs Timeline · 15小时前 缓存

百度开源了Unlimited OCR模型,采用R-SWA注意力机制,可一次性处理数百页文档,无需分页,KV Cache恒定。该模型创新性地借鉴了人类抄书时的注意力模式,并与DeepSeek OCR有技术渊源,引发了对人才流动的关注。

0 人收藏 0 人点赞

claude-sonnet-5(1分钟阅读)

TLDR AI · 15小时前 缓存

Anthropic合作伙伴提供商显示了即将推出的Claude Sonnet 5模型的slug,暗示即将发布。

0 人收藏 0 人点赞

GLM-5.2 为开放模型树立更高标杆(14分钟阅读)

TLDR AI · 15小时前 缓存

GLM-5.2 是一款新的开源AI模型,为开放模型树立了高标准,但仍在追赶专有前沿模型,并且缺乏一些功能,如视觉功能。

0 人收藏 0 人点赞

阿里巴巴AI视频模型全球排名升至第二,OpenAI的Sora与字节跳动的Seedance排名下滑(14分钟阅读)

TLDR AI · 15小时前 缓存

阿里巴巴发布HappyHorse 1.1,这是一次重大AI视频生成模型升级,现已通过API提供,在竞争对手Sora和Seedance表现不佳的情况下,全球排名升至第二。

0 人收藏 0 人点赞

@rohanpaul_ai: Sakana Fugu Ultra 在实时交易终端编码测试中凭借视觉精美度击败其他模型,接近 GLM 5.2,…

X AI KOLs Following · 17小时前 缓存

Sakana 的 Fugu Ultra 模型编排系统在交易终端 UI 的实时编码测试中表现优于其他模型,尽管成本高出 17 倍,但展示了其在视觉精美度和多智能体协调方面的优势。

0 人收藏 0 人点赞

突破Transformer僵局:一款在消费级硬件上运行的本地优先3D点云认知引擎

Reddit r/artificial · 18小时前

介绍SHD-CCP v2.0,这是一种新颖的AI架构,它用3D点云数据结构替代Transformer令牌序列,采用格拉斯曼流形融合和零拷贝内存映射流式处理,在消费级硬件上实现低延迟和低内存占用。

0 人收藏 0 人点赞

更新后的GPT-5.5 Cyber在CyberGym中击败Mythos 5

Reddit r/singularity · 19小时前

更新后的GPT-5.5 Cyber模型在CyberGym基准测试中超越了Mythos 5。

0 人收藏 0 人点赞
Next →
← 返回首页

提交意见反馈