llama

标签

#llama

Llama基准测试与实际性能差距很大（求助）

Reddit r/LocalLLaMA ↗ · 2026-06-18

关于Llama模型基准测试分数与实际性能之间存在显著差距的讨论，作者正在寻求帮助。

0 人收藏 0 人点赞

#llama

@Akashi203: 我开源了 AutoMegaKernel —— 将任意 HuggingFace 模型编译成一个持久的单一兆核，batch-1 解码带宽受限……

X AI KOLs Timeline ↗ · 2026-06-17 缓存

AutoMegaKernel 是一个开源代理框架，能将任意 HuggingFace 模型编译成一个持久的单一兆核（megakernel），将整个前向传播融合到一次 GPU 启动中，从而减少开销。在 L4 和 L40S 等推理级 GPU 上，它相比使用 CUDA Graph 的 cuBLAS 实现了最高 1.33 倍的加速，同时保证调度没有死锁和竞争条件。

0 人收藏 0 人点赞

#llama

LLaMA 3.1-8B-Instruct中的框架条件道德计算：伦理推理的机械可解释性审计

arXiv cs.AI ↗ · 2026-06-16 缓存

本文使用机械可解释性对LLaMA 3.1-8B-Instruct中的伦理推理进行审计，发现了“情境锚定效应”，即特定领域的表征在道德计算中占主导地位，并提出了“机械对齐”作为研究计划。

0 人收藏 0 人点赞

#llama

@rewind02: 一位斯坦福教授刚刚做了一场公开讲座，详细讲解了GPT、Claude和LLaMA在底层是如何构建的，无需内部权限…

X AI KOLs Timeline ↗ · 2026-06-14 缓存

一位斯坦福教授举办了一场公开讲座，全面剖析了GPT、Claude和LLaMA等现代LLM的底层构建方式，让大众也能了解先进的架构。

0 人收藏 0 人点赞

#llama

开源 InfiniteKV：一种 KV 缓存，将旧 token 压缩为 104 字节的可搜索记录存储在内存或磁盘中，而非删除。Mistral-7B 从 token 76,747 处作答，超出其训练窗口 2.3 倍。附 Colab 演示

Reddit r/LocalLLaMA ↗ · 2026-06-12

InfiniteKV 是一种开源 KV 缓存技术，将旧 token 压缩为 104 字节的可搜索记录，存储在内存或磁盘中，使模型能够处理超出训练窗口的百万 token 上下文而无需丢弃数据。已验证可与 Mistral-7B 和 SmolLM2 配合使用。

0 人收藏 0 人点赞

#llama

顺序至关重要：LLaMA的序列微调实现连贯的自动化作文评分

arXiv cs.CL ↗ · 2026-06-10 缓存

本文研究了使用与话语结构对齐的课程对LLaMA-3.1-8B进行序列微调用于自动化作文评分，结果表明与独立或随机训练相比，连贯性和性能均有提升。

0 人收藏 0 人点赞

#llama

Meta放弃Llama转向Muse Spark — 开源AI最大捍卫者的终结

Reddit r/AI_Agents ↗ · 2026-06-08

Meta已放弃其开源权重Llama模型系列，转而支持由Alexandr Wang团队开发的完全专有模型Muse Spark，标志着Meta作为开源AI捍卫者角色的终结。

0 人收藏 0 人点赞

#llama

ImmigrationQA：一个基于来源的数据集及面向美国移民法的小型模型适配

arXiv cs.CL ↗ · 2026-06-01 缓存

本文介绍了ImmigrationQA，一个包含17,058个问答对的、基于来源的美国移民法数据集，并使用LoRA对Llama 3.2 3B模型进行微调，在保留的评估集上相比基础模型提升了27%。

0 人收藏 0 人点赞

#llama

Llama Surgery: 通过可微分超度量拓扑注入对预训练语言模型进行持续稀疏化

Reddit r/artificial ↗ · 2026-05-31

Llama Surgery 将学习到的块稀疏注意力拓扑注入预训练的 Llama 3.1 8B 中，无需从头重新训练，使用带有 Gumbel-Softmax 路由、温度退火和直通估计器的动态拓扑路由器以避免梯度崩溃，实现稳定收敛和连贯输出。

0 人收藏 0 人点赞

#llama

神经符号交互式叙事中的世界状态转换

arXiv cs.CL ↗ · 2026-05-26 缓存

本文探讨如何利用大语言模型（LLM）在基于规则的交互式叙事系统中预测状态变化，旨在提升叙事连贯性与玩家表现力。使用 Llama 3 70B 和 Gemini 1.5 Flash 进行的实验表明，世界状态转换既能维持一致性，又能鼓励玩家进行创造性输入。

0 人收藏 0 人点赞

#llama

@steeve: 进展：26 tok/s (llama 3.1 3b) .@tenstorrent 声称可达33 tok/s，所以相差不远

X AI KOLs Following ↗ · 2026-05-22 缓存

Steeve Morin 报告通过 ZML 在 Tenstorrent 硬件上运行 Llama 3.1 3B，达到 26 tok/s，接近 Tenstorrent 声称的 33 tok/s。

0 人收藏 0 人点赞

#llama

LLM去审查工具Heretic收到Facebook（“Meta”）的法律通知

Reddit r/singularity ↗ · 2026-05-21 缓存

Heretic LLM去审查项目收到Meta的法律通知，导致衍生Llama模型被移除；该项目已迁移至Codeberg镜像，并计划采取技术措施以保持访问权限。

0 人收藏 0 人点赞

#llama

Heretic 已收到 Meta, Inc. 的法律通知

Reddit r/LocalLLaMA ↗ · 2026-05-21

Meta 向 Heretic 项目发出法律通知，涉及对其 Llama AI 模型的衍生作品，促使该项目移除权重并宣布计划通过官方 Codeberg 镜像实现基础设施多样化。

0 人收藏 0 人点赞

#llama

MisoLabs/MisoTTS

Hugging Face Models Trending ↗ · 2026-05-21 缓存

Miso Labs 发布了 Miso TTS 8B，这是一个基于 Sesame CSM 架构和类似 Llama 3.2 骨干网络的文本转语音模型，旨在生成高质量对话语音及实现语音延续。

0 人收藏 0 人点赞

#llama

研究警告：AI已能比人类更出色地通过图灵测试

Reddit r/ArtificialInteligence ↗ · 2026-05-20 缓存

一项发表在PNAS上的新研究表明，诸如GPT-4.5等先进LLM已能通过图灵测试，且参与者认为它们比真人更具人性，这一结果促使学界重新审视该测试的衡量标准。

0 人收藏 0 人点赞

#llama

@dair_ai: Meta的新论文：Agentic Discovery of Neural Architectures。这是一个热门的新研究领域！请密切关注。

X AI KOLs Following ↗ · 2026-05-18 缓存

Meta的新论文介绍了一个智能体系统，它能在24小时的计算预算内自主发现神经架构，在350M、1B和3B规模上超越Llama 3.2。

0 人收藏 0 人点赞

#llama

MTP PR 已合并！！！

Reddit r/LocalLLaMA ↗ · 2026-05-16

与 LLaMA 模型相关的 MTP（可能指模型训练管道或类似内容）拉取请求已合并，标志着一个里程碑。

0 人收藏 0 人点赞

#llama

让小型模型在自身错误中训练：它在HumanEval上达到80%，并在数学上超越GPT-3.5

Reddit r/LocalLLaMA ↗ · 2026-05-14

一位研究人员让小型语言模型在自己生成的编程错误和修正上进行训练，在HumanEval上达到80%，并在数学上超越GPT-3.5，展示了在极少资源下的有效自我改进。

0 人收藏 0 人点赞

#llama

介绍 cyankiwi AWQ 4-bit 量化——26.05 更新

Reddit r/LocalLLaMA ↗ · 2026-05-14

Cyankiwi 推出了其 AWQ 4-bit 量化方法的更新版本，该方法联合优化缩放因子和量化范围，在 Llama-3 模型上实现了比现有方法更低的 KL 散度。

0 人收藏 0 人点赞

#llama

nvidia/llama-embed-nemotron-8b 的 MLX 16/8/4/2 位量化版本

Reddit r/LocalLLaMA ↗ · 2026-05-14

用户将 Nvidia 的 Llama-Embed-Nemotron-8B 模型转换为 MLX 格式，包含 fp16、8位、4位和2位量化，从而能够通过 mlx-embeddings 在 Apple Silicon 上实现在进程内加载嵌入向量。

0 人收藏 0 人点赞

← 返回首页

提交意见反馈