标签
AutoMegaKernel 是一个开源代理框架,能将任意 HuggingFace 模型编译成一个持久的单一兆核(megakernel),将整个前向传播融合到一次 GPU 启动中,从而减少开销。在 L4 和 L40S 等推理级 GPU 上,它相比使用 CUDA Graph 的 cuBLAS 实现了最高 1.33 倍的加速,同时保证调度没有死锁和竞争条件。
本文使用机械可解释性对LLaMA 3.1-8B-Instruct中的伦理推理进行审计,发现了“情境锚定效应”,即特定领域的表征在道德计算中占主导地位,并提出了“机械对齐”作为研究计划。
一位斯坦福教授举办了一场公开讲座,全面剖析了GPT、Claude和LLaMA等现代LLM的底层构建方式,让大众也能了解先进的架构。
InfiniteKV 是一种开源 KV 缓存技术,将旧 token 压缩为 104 字节的可搜索记录,存储在内存或磁盘中,使模型能够处理超出训练窗口的百万 token 上下文而无需丢弃数据。已验证可与 Mistral-7B 和 SmolLM2 配合使用。
本文研究了使用与话语结构对齐的课程对LLaMA-3.1-8B进行序列微调用于自动化作文评分,结果表明与独立或随机训练相比,连贯性和性能均有提升。
Meta已放弃其开源权重Llama模型系列,转而支持由Alexandr Wang团队开发的完全专有模型Muse Spark,标志着Meta作为开源AI捍卫者角色的终结。
本文介绍了ImmigrationQA,一个包含17,058个问答对的、基于来源的美国移民法数据集,并使用LoRA对Llama 3.2 3B模型进行微调,在保留的评估集上相比基础模型提升了27%。
Llama Surgery 将学习到的块稀疏注意力拓扑注入预训练的 Llama 3.1 8B 中,无需从头重新训练,使用带有 Gumbel-Softmax 路由、温度退火和直通估计器的动态拓扑路由器以避免梯度崩溃,实现稳定收敛和连贯输出。
本文探讨如何利用大语言模型(LLM)在基于规则的交互式叙事系统中预测状态变化,旨在提升叙事连贯性与玩家表现力。使用 Llama 3 70B 和 Gemini 1.5 Flash 进行的实验表明,世界状态转换既能维持一致性,又能鼓励玩家进行创造性输入。
Steeve Morin 报告通过 ZML 在 Tenstorrent 硬件上运行 Llama 3.1 3B,达到 26 tok/s,接近 Tenstorrent 声称的 33 tok/s。
Heretic LLM去审查项目收到Meta的法律通知,导致衍生Llama模型被移除;该项目已迁移至Codeberg镜像,并计划采取技术措施以保持访问权限。
Meta 向 Heretic 项目发出法律通知,涉及对其 Llama AI 模型的衍生作品,促使该项目移除权重并宣布计划通过官方 Codeberg 镜像实现基础设施多样化。
Miso Labs 发布了 Miso TTS 8B,这是一个基于 Sesame CSM 架构和类似 Llama 3.2 骨干网络的文本转语音模型,旨在生成高质量对话语音及实现语音延续。
一项发表在PNAS上的新研究表明,诸如GPT-4.5等先进LLM已能通过图灵测试,且参与者认为它们比真人更具人性,这一结果促使学界重新审视该测试的衡量标准。
Meta的新论文介绍了一个智能体系统,它能在24小时的计算预算内自主发现神经架构,在350M、1B和3B规模上超越Llama 3.2。
一位研究人员让小型语言模型在自己生成的编程错误和修正上进行训练,在HumanEval上达到80%,并在数学上超越GPT-3.5,展示了在极少资源下的有效自我改进。
Cyankiwi 推出了其 AWQ 4-bit 量化方法的更新版本,该方法联合优化缩放因子和量化范围,在 Llama-3 模型上实现了比现有方法更低的 KL 散度。
用户将 Nvidia 的 Llama-Embed-Nemotron-8B 模型转换为 MLX 格式,包含 fp16、8位、4位和2位量化,从而能够通过 mlx-embeddings 在 Apple Silicon 上实现在进程内加载嵌入向量。