Krea 2 是一个拥有120亿参数的文本到图像扩散模型,以开放权重形式在 Hugging Face 上发布,提供了 Raw(基础版)和 Turbo(后训练版)检查点。
PP-OCRv6是一个轻量级OCR模型(3450万参数),凭借其MetaFormer架构挑战大型VLM,在多种部署场景下提供高效的文本检测与识别能力。
这篇文章展示了如何在Hugging Face Jobs上将百度的Unlimited-OCR模型作为临时的、兼容OpenAI的端点提供服务,支持多页文档解析,具有表格转HTML和公式转LaTeX提取等功能。
百度发布Unlimited-OCR,这是一个基于Deepseek-OCR构建的开源模型,用于一次性长程文档解析,支持单张图片、多页文档和PDF。
NVIDIA 悄然发布了 Nemotron-3.5-ASR,这是一个轻量级、参数规模为 0.6B 的开源语音识别模型,专为实时流式传输设计,支持 40 多种语言、低延迟和缓存感知架构。
介绍了SAG(SQL-Retrieval Augmented Generation),一种基于SQL动态超边的新型检索增强生成架构,相比传统RAG和GraphRAG在多跳推理上更高效、成本更低,已在GitHub开源并取得不错评测结果。
一位用户询问为什么 Gemma 4 26b 相比 Qwen 模型关注度较低,并分享了他们在 3090 上使用这些模型构建个人助手项目的经验。
NousResearch的Hermes Agent团队庆祝每日处理一万亿个Token,并达到20万GitHub星标,突显他们在AI代理开发方面的持续进步。
Boogu 发布了一系列开源统一图像生成与编辑模型,包括 Base、Turbo 和 Edit 变体。
百度发布了Unlimited-OCR,它可以一次性处理整个文档而无需分块,克服了当前OCR技术的一个主要限制。
百度开源了视觉语言模型Unlimited-OCR,基于DeepSeek-OCR升级,支持一次性解析超长文档,提供gundam(单图密集文字)和base(多页/PDF)两种推理模式。
YOLO26 是一个于2026年1月发布的多任务计算机视觉模型系列,具备无需 Non-Maximum Suppression 的端到端检测功能以降低延迟,并针对边缘部署进行了优化,具有改进的CPU推理能力和紧凑设计。
百度开源了Unlimited OCR模型,采用R-SWA注意力机制,可一次性处理数百页文档,无需分页,KV Cache恒定。该模型创新性地借鉴了人类抄书时的注意力模式,并与DeepSeek OCR有技术渊源,引发了对人才流动的关注。