batching

标签

Cards List
#batching

为什么你的智能体在温度0时仍会给出不同的答案?

Reddit r/AI_Agents · 22小时前

将温度设置为0并不能保证智能体中的工具调用具有确定性,原因在于批处理推理会导致浮点数归约顺序发生变化,从而引发token翻转,并在负载下产生不同的动作。

0 人收藏 0 人点赞
#batching

@LangChain: https://x.com/LangChain/status/2061864647884464430

X AI KOLs Following · 2天前 缓存

LangChain和Harvey的一项研究探索了通过分批标准评估和使用开源模型来降低验证法律代理输出成本的方法,实现了数量级的成本节约,同时保持了接近前沿的性能。

0 人收藏 0 人点赞
#batching

@Greptime: 关于Prometheus远程写入,瓶颈并非网络或memtable——而是Region Worker在dec…时持有&mut

X AI KOLs Following · 2天前 缓存

GreptimeDB v1.0引入了Pending Rows Batcher,这是一个三阶段流水线,将CPU密集型工作从Datanode的关键路径上移开,使Prometheus远程写入吞吐量从120万提升到217万points/sec,并将Datanode的CPU使用率降低20%。

0 人收藏 0 人点赞
#batching

基于阈值的LLM推理独占批处理

arXiv cs.AI · 2天前 缓存

本文分析了混合批处理与独占批处理在LLM推理中的权衡,表明最优选择取决于GPU内存带宽。提出了一种基于阈值的混合调度器,可在两种方法间动态切换,在带宽受限的GPU上实现高达41.9%的吞吐量提升。

0 人收藏 0 人点赞
#batching

@adrgrondin: 使用Codex CLI和@lmstudio在MacBook Pro M5上本地同时运行子代理以审查代码并查找漏洞……

X AI KOLs Following · 2026-05-20 缓存

演示了在MacBook Pro M5上使用Codex CLI和LM Studio(搭载Qwen 3.6,并利用MLX批处理功能)本地运行子代理以进行代码审查和漏洞检测。

0 人收藏 0 人点赞
#batching

@lmstudio: 视觉模型的批处理功能在我们的最新MLX引擎更新中现已进入Beta测试阶段。此更新还带来了主要……

X AI KOLs Following · 2026-05-14 缓存

LM Studio 宣布其 MLX 引擎的 Beta 更新,引入了视觉模型的批处理功能和改进的缓存,以加速推理。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈