标签
图书出版商及作者 Scott Turow 对 Meta 及其 CEO Mark Zuckerberg 提起集体诉讼,指控该公司非法复制数百万部版权作品用于训练其 Llama AI 模型,从而规避了许可和版权保护。
这篇研究论文探讨了大型语言模型如何将社会角色的细粒度性编码为一个结构化的潜在维度。研究证实,这一“细粒度轴”在 Qwen3 和 Llama-3 等不同架构中保持一致,并且可以通过激活 steering(activation steering)进行因果干预。
UniPool 为混合专家(MoE)模型引入了一种共享专家池架构,在降低参数随深度增长的同时,相较于标准 MoE 基线提高了效率和性能。
文章质疑为何没有创业公司推出售价 200–300 美元、内置 Llama 3 的消费级推理芯片,并暗示行业更偏爱靠 API 订阅持续赚钱,而非一次性硬件销售。
孟加拉国工程技术大学的研究人员提出了CBRS,一个多平台框架,采用双层架构并利用包含1.1万条孟加拉语和英语双语解析血液请求消息的新数据集,对社交媒体中的血液捐赠请求进行过滤和解析。其LoRA微调的Llama-3.2-3B模型实现了99%的过滤准确率和92%的零样本解析准确率,在减少35倍令牌使用量的同时,优于GPT-4o-mini等其他大语言模型。
用户报告成功部署 Qwen 3.6 与 ik_llama 量化,在消费级硬件(16GB VRAM、32GB RAM)上实现 200k 上下文窗口下 50+ token/秒。