small-model

标签

Cards List
#small-model

@VincentLogic: NVIDIA 刚开源的这个 LocateAnything 模型,真的有点强。 以前那种视觉定位模型,生成坐标是一个数字一个数字往外蹦(像挤牙膏一样),又慢又不稳定。 这个新模型用了“并行边界框解码”,直接一步预测完整坐标,速度快多了,框得…

X AI KOLs Timeline · 2026-06-03 缓存

NVIDIA 开源了 LocateAnything 模型,采用并行边界框解码技术,一步预测完整坐标,速度快且准确。模型仅 3B 参数,可在消费级显卡上运行,支持视频物体定位、UI 识别和 OCR 等任务。

0 人收藏 0 人点赞
#small-model

MiniCPM5 1B - 这是什么?

Reddit r/LocalLLaMA · 2026-06-01

MiniCPM5-1B 是 OpenBMB 推出的一款新型小语言模型,据称是从头构建的,拥有自己的分词器和独特行为,作为一款功能强大的 1B 模型引发了热议。

0 人收藏 0 人点赞
#small-model

@maximelabonne: 我们在@huggingface上火了!说实话,我们低估了这个模型。它在代理任务上的能力远超我的预期。…

X AI KOLs Following · 2026-06-01 缓存

Maxime Labonne分享说,他们的模型在Hugging Face上成为热门,并且尽管只有1B个活跃参数,但在代理任务上出人意料地强大。

0 人收藏 0 人点赞
#small-model

MiniCPM5-1B 表明小模型竞赛尚未结束

Reddit r/ArtificialInteligence · 2026-05-31 缓存

MiniCPM5-1B 是 OpenBMB 推出的一个拥有 10 亿参数的模型,在 AIME 2025 和 τ2-Bench Telecom 上取得了令人瞩目的成绩,超越了更大的模型。它从单个检查点同时提供快速模式和推理模式,这得益于包括监督微调、强化学习和在线策略蒸馏在内的三阶段后训练过程。

0 人收藏 0 人点赞
#small-model

@akshay_pachaar: - <1B参数 - 支持91种语言 - RTX 5090上每秒5页 - 可在CPU、GPU、MPS上运行 - 83.3% olmocr基准得分(3B以下最高)…

X AI KOLs Following · 2026-05-30 缓存

Surya OCR是一款最先进的开源OCR模型,参数少于10亿(<1B),支持91种语言,在3B参数以下的基准测试中取得最高分。

0 人收藏 0 人点赞
#small-model

@sitinme: 26M 参数的模型能做 Function Call,还比 Qwen-0.6B 强?这个团队反其道而行的思路太野了! 现在大模型的参数量越来越大,但有一个问题一直没有被认真对待过:调用一个工具真的需要几百亿参数吗? 想想看,当你说“查一下今…

X AI KOLs Timeline · 2026-05-26 缓存

Cactus 团队将 Gemini 3.1 蒸馏为仅 26M 参数的专用模型 Needle,专门用于 Function Call,性能超过 Qwen-0.6B,展示了小模型在工具调用场景下的潜力。

0 人收藏 0 人点赞
#small-model

MiniCPM5-1B

Reddit r/LocalLLaMA · 2026-05-25 缓存

OpenBMB 发布了 MiniCPM5-1B,这是一个密集型1B参数Transformer模型,在开源1B级模型中达到SOTA,专为设备端部署设计,支持混合推理和长上下文。

0 人收藏 0 人点赞
#small-model

HRM Seems To Be Going Off Right Now

Reddit r/LocalLLaMA · 2026-05-19 缓存

Sapient Intelligence发布了HRM-Text,一个1B参数的文本生成模型,仅用0.04万亿token训练(成本约1000美元),在多个推理基准上超越训练数据多100-1000倍的更大模型,标志着AI训练新范式的开始。

0 人收藏 0 人点赞
#small-model

@HappyyPablo: 开源 Marlin-2B,一个小型视觉语言模型,用于从视频中提取结构化信息。Marlin 针对两个问题进行了微调……

X AI KOLs Timeline · 2026-05-19 缓存

开源 Marlin-2B,一个用于从视频中提取结构化信息的小型VLM,经过微调以回答'发生了什么以及何时发生'。在其重量级别中最佳的开放模型,与 Gemini-2.5-flash 竞争。

1 人收藏 1 人点赞
#small-model

我让LLM们玩德州扑克。最小的模型因为太笨不会弃牌而击败了约1T参数的模型

Reddit r/singularity · 2026-05-19

一个让六个LLM玩德州扑克的实验;一个1.2B的小模型凭借其激进的“永不弃牌”策略赢了两次,凸显了特定格式如何偏向简单模型。作者构建了名为Hive的扑克引擎和智能体框架,并邀请社区反馈。

0 人收藏 0 人点赞
#small-model

@KrzakalaF: LightOn 使用一个 1.5 亿参数的后期交互模型,达到了 GPT-5 级别的深度研究检索性能,这简直……

X AI KOLs Following · 2026-05-13 缓存

LightOn 使用一个 1.5 亿参数的后期交互模型,达到了 GPT-5 级别的深度研究检索性能,这是一项了不起的成就。

0 人收藏 0 人点赞
#small-model

@berryxia: 小块有大智慧?这下真成真了! 7B小模型现在直接当上了GPT-5、Claude Sonnet 4、Gemini 2.5 Pro这些顶级大模型的老板。 一篇最新论文里,一个用强化学习训练的7B模型学会了写自然语言子任务、分配给不同大模型、精…

X AI KOLs Timeline · 2026-05-11

一篇最新论文提出通过强化学习训练7B小模型作为任务调度器,自动分解子任务并分配给GPT-5、Claude等顶级大模型,在多项硬核基准上超越单一前沿模型,证明端到端奖励学习可有效替代人工Prompt工程与多智能体流水线设计。

0 人收藏 0 人点赞
#small-model

CyberSecQwen-4B:为什么防御性网络安全需要小型、专用、本地可运行的模型

Hugging Face Blog · 2026-05-08 缓存

CyberSecQwen-4B 是一个小型、专用的 4B 参数模型,针对防御性网络安全任务进行了微调,设计为在单个 GPU 上本地运行,解决了隐私、成本和离线部署需求。

1 人收藏 1 人点赞
#small-model

@heyrobinai: 整个AI行业刚刚被羞辱了——一个仅用单张显卡训练几小时的微型模型正在规划...

X AI KOLs Timeline · 2026-05-08

Yann LeCun的团队发布了LeWorldModel,一个仅有1500万参数的物理模型,在单张GPU上训练数小时,在规划速度和物理合理性上超越了价值数十亿美元的基础模型,挑战了主流的规模扩展范式。

0 人收藏 0 人点赞
#small-model

@j_golebiowski:17 亿参数模型在 Schema Guided Dialogue 上击败 7440 亿参数的 GLM-5——即便训练数据被污染。这相当于……

X AI KOLs Timeline · 2026-04-21 缓存

17 亿参数模型在训练数据受损的情况下,仍在 Schema Guided Dialogue 任务上超越 7440 亿参数的 GLM-5,体积效率高达 437 倍。

0 人收藏 0 人点赞
#small-model

OpenAI o3-mini

OpenAI Blog · 2025-01-31 缓存

OpenAI 发布 o3-mini,一款成本高效的推理模型,具备强大的 STEM 能力,现已在 ChatGPT 和 API 中可用,支持函数调用、结构化输出和三个推理力度级别。该模型在数学和编码方面与 o1 性能相当,同时更快且更便宜,免费计划用户首次获得推理模型的访问权限。

0 人收藏 0 人点赞
#small-model

GPT-4o mini:推进成本高效的智能模型

OpenAI Blog · 2024-07-18 缓存

OpenAI 发布 GPT-4o mini,一款成本高效的小型模型,每百万输入令牌价格仅为 15 美分,比 GPT-3.5 Turbo 便宜 60%,在 MMLU 上表现强劲(82%),在推理、数学和编码任务上超越 Gemini Flash 和 Claude Haiku 等竞争对手。

0 人收藏 0 人点赞
← Previous
← 返回首页

提交意见反馈