模型

Cards List

Krea 2 在 Hugging Face 上发布

Reddit r/LocalLLaMA · 1小时前 缓存

Krea 2 是一个拥有120亿参数的文本到图像扩散模型,以开放权重形式在 Hugging Face 上发布,提供了 Raw(基础版)和 Turbo(后训练版)检查点。

0 人收藏 0 人点赞

@PaddlePaddle: PP-OCRv6技术深度解析第一集:在大模型时代,轻量级OCR为何仍具有不可替代的价值?——PP…

X AI KOLs Timeline · 2小时前 缓存

PP-OCRv6是一个轻量级OCR模型(3450万参数),凭借其MetaFormer架构挑战大型VLM,在多种部署场景下提供高效的文本检测与识别能力。

0 人收藏 0 人点赞

内容写作、逼真图像生成和氛围编码的最佳低价模型是什么?

Reddit r/AI_Agents · 2小时前

询问关于用于内容写作、图像生成和氛围编码的平价AI模型的推荐。

0 人收藏 0 人点赞

@vanstriendaniel: OCR模型又来了!百度公司的Unlimited-OCR是其中比较有趣的一个。你可以无需太多…

X AI KOLs Following · 3小时前 缓存

这篇文章展示了如何在Hugging Face Jobs上将百度的Unlimited-OCR模型作为临时的、兼容OpenAI的端点提供服务,支持多页文档解析,具有表格转HTML和公式转LaTeX提取等功能。

0 人收藏 0 人点赞

Unlimited OCR: 一次性长程解析

Hacker News Top · 5小时前 缓存

百度发布Unlimited-OCR,这是一个基于Deepseek-OCR构建的开源模型,用于一次性长程文档解析,支持单张图片、多页文档和PDF。

0 人收藏 0 人点赞

Seedance 2.5 宣传视频

Reddit r/singularity · 6小时前

一段展示Seedance 2.5(一款AI视频生成模型)能力的宣传视频。

0 人收藏 0 人点赞

@DataChaz:@NVIDIA 刚刚悄悄发布了一个极其令人印象深刻的语音识别模型,它彻底改变了本地语音处理的计算方式……

X AI KOLs Timeline · 7小时前 缓存

NVIDIA 悄然发布了 Nemotron-3.5-ASR,这是一个轻量级、参数规模为 0.6B 的开源语音识别模型,专为实时流式传输设计,支持 40 多种语言、低延迟和缓存感知架构。

0 人收藏 0 人点赞

GLM-5.2的人类评估

Reddit r/LocalLLaMA · 8小时前

作者称赞GLM-5.2(一个MIT开源权重模型)在人类评估基准中表现出色,声称其能与Claude等最佳闭源模型相媲美。

0 人收藏 0 人点赞

@aikangarooking: https://x.com/aikangarooking/status/2069325659105861926

X AI KOLs Timeline · 8小时前 缓存

介绍了SAG(SQL-Retrieval Augmented Generation),一种基于SQL动态超边的新型检索增强生成架构,相比传统RAG和GraphRAG在多跳推理上更高效、成本更低,已在GitHub开源并取得不错评测结果。

0 人收藏 0 人点赞

@charles_irl: GLM 5.2 runs pretty fast on Modal.

X AI KOLs Following · 10小时前 缓存

GLM 5.2 在 Modal 云平台上展现出快速的性能表现。

0 人收藏 0 人点赞

Gemma 4 26b 为何不受关注?

Reddit r/LocalLLaMA · 11小时前

一位用户询问为什么 Gemma 4 26b 相比 Qwen 模型关注度较低,并分享了他们在 3090 上使用这些模型构建个人助手项目的经验。

0 人收藏 0 人点赞

Seed2.1 发布

Reddit r/singularity · 11小时前

字节跳动发布了新 AI 模型 Seed2.1,并附有博客文章和模型卡。

0 人收藏 0 人点赞

@theemozilla: 每日处理万亿Token,GitHub星标突破20万 为Hermes Agent团队及我们在@NousResearch构建的成果深感自豪…

X AI KOLs Following · 11小时前 缓存

NousResearch的Hermes Agent团队庆祝每日处理一万亿个Token,并达到20万GitHub星标,突显他们在AI代理开发方面的持续进步。

0 人收藏 0 人点赞

Boogu Base、Turbo、Edit —— 开源统一图像生成与编辑模型系列

Reddit r/LocalLLaMA · 13小时前

Boogu 发布了一系列开源统一图像生成与编辑模型,包括 Base、Turbo 和 Edit 变体。

0 人收藏 0 人点赞

@ErickSky: 百度刚刚打破了当前OCR最大的限制之一。Unlimited-OCR一次性处理整个文档…

X AI KOLs Timeline · 14小时前 缓存

百度发布了Unlimited-OCR,它可以一次性处理整个文档而无需分块,克服了当前OCR技术的一个主要限制。

0 人收藏 0 人点赞

@geekbb: 百度开源的视觉语言模型 OCR 项目,在 DeepSeek-OCR 基础上做了升级,主打一次性解析超长文档。模型有两种推理模式:gundam 模式用来对付单张图里的密集文字,base 模式处理多页或 PDF。 https://github…

X AI KOLs Timeline · 14小时前 缓存

百度开源了视觉语言模型Unlimited-OCR,基于DeepSeek-OCR升级,支持一次性解析超长文档,提供gundam(单图密集文字)和base(多页/PDF)两种推理模式。

0 人收藏 0 人点赞

YOLO26 简介

Hacker News Top · 14小时前 缓存

YOLO26 是一个于2026年1月发布的多任务计算机视觉模型系列,具备无需 Non-Maximum Suppression 的端到端检测功能以降低延迟,并针对边缘部署进行了优化,具有改进的CPU推理能力和紧凑设计。

0 人收藏 0 人点赞

@berryxia: 卧槽,这一波直接把DeepSeek的“墙角挖到了啊”! 昨晚看到HuggingFace刷到这个有意思的OCR开源模型和原来背后有趣的故事。 这个OCR模型直接与传统的OCR模型完全不同! 光着速度和精准度真的就无敌了~~ 先说说背景,熟悉…

X AI KOLs Timeline · 16小时前 缓存

百度开源了Unlimited OCR模型,采用R-SWA注意力机制,可一次性处理数百页文档,无需分页,KV Cache恒定。该模型创新性地借鉴了人类抄书时的注意力模式,并与DeepSeek OCR有技术渊源,引发了对人才流动的关注。

0 人收藏 0 人点赞

claude-sonnet-5(1分钟阅读)

TLDR AI · 16小时前 缓存

Anthropic合作伙伴提供商显示了即将推出的Claude Sonnet 5模型的slug,暗示即将发布。

0 人收藏 0 人点赞

GLM-5.2 为开放模型树立更高标杆(14分钟阅读)

TLDR AI · 16小时前 缓存

GLM-5.2 是一款新的开源AI模型,为开放模型树立了高标准,但仍在追赶专有前沿模型,并且缺乏一些功能,如视觉功能。

0 人收藏 0 人点赞
Next →
← 返回首页

提交意见反馈