llama

标签

#llama

Llama-b9856 Win Cuda 12.4 - Windows Defender 声称其为木马

Reddit r/LocalLLaMA ↗ · 昨天

Windows Defender 将运行于 CUDA 12.4 的 Llama-b9856 版本标记为木马，引发安全担忧。

0 人收藏 0 人点赞

#llama

@jerryjliu0：完全解决文档解析包括覆盖准确性、成本和延迟的帕累托曲线上的每一个点：高…

X AI KOLs Timeline ↗ · 2天前缓存

Jerry Liu 提出了一个涵盖准确性、成本和延迟权衡的文档解析框架，介绍了 LiteParse 作为一个面向 AI 智能体循环的开源低延迟解析工具，以及 LlamaParse 用于高精度模式。

0 人收藏 0 人点赞

#llama

Meta一直秘密使用Google的Gemini，后因用量过大被切断访问

Reddit r/artificial ↗ · 3天前

Meta曾秘密使用Google的Gemini处理客户服务、广告工具和内容审核，因为其表现优于自家的Llama模型，直至Google因过度使用容量而切断访问。

0 人收藏 0 人点赞

#llama

基于思维树启发的混合方法：使用大语言模型进行法律案件判决摘要生成

arXiv cs.CL ↗ · 4天前缓存

提出一种基于思维树的抽取-生成混合方法，利用大语言模型进行法律案件判决摘要，在DeepSeek和LLama上的实验表明，该方法生成的摘要优于单独的抽取式或生成式方法。

0 人收藏 0 人点赞

#llama

从黑箱到临床洞察：一个用于语音认知障碍检测的多阶段可解释框架

arXiv cs.CL ↗ · 4天前缓存

本文提出一个多阶段可解释框架，结合基于SHAP的词元归因、理论指导的语言特征以及LLaMA-3.1-70B-Instruct大语言模型推理，用于解释基于Transformer的语音模型在认知障碍检测中的表现，取得了良好的临床一致性及高可用性评分。

0 人收藏 0 人点赞

#llama

人工智能中的政治偏见：各大AI模型立场分析

Hacker News Top ↗ · 2026-06-25 缓存

对六大主流AI模型的政治倾向分析显示，在经济轴上，其中4个模型偏左，且部分模型未意识到自身的偏见。

0 人收藏 0 人点赞

#llama

Llama基准测试与实际性能差距很大（求助）

Reddit r/LocalLLaMA ↗ · 2026-06-18

关于Llama模型基准测试分数与实际性能之间存在显著差距的讨论，作者正在寻求帮助。

0 人收藏 0 人点赞

#llama

@Akashi203: 我开源了 AutoMegaKernel —— 将任意 HuggingFace 模型编译成一个持久的单一兆核，batch-1 解码带宽受限……

X AI KOLs Timeline ↗ · 2026-06-17 缓存

AutoMegaKernel 是一个开源代理框架，能将任意 HuggingFace 模型编译成一个持久的单一兆核（megakernel），将整个前向传播融合到一次 GPU 启动中，从而减少开销。在 L4 和 L40S 等推理级 GPU 上，它相比使用 CUDA Graph 的 cuBLAS 实现了最高 1.33 倍的加速，同时保证调度没有死锁和竞争条件。

0 人收藏 0 人点赞

#llama

LLaMA 3.1-8B-Instruct中的框架条件道德计算：伦理推理的机械可解释性审计

arXiv cs.AI ↗ · 2026-06-16 缓存

本文使用机械可解释性对LLaMA 3.1-8B-Instruct中的伦理推理进行审计，发现了“情境锚定效应”，即特定领域的表征在道德计算中占主导地位，并提出了“机械对齐”作为研究计划。

0 人收藏 0 人点赞

#llama

@rewind02: 一位斯坦福教授刚刚做了一场公开讲座，详细讲解了GPT、Claude和LLaMA在底层是如何构建的，无需内部权限…

X AI KOLs Timeline ↗ · 2026-06-14 缓存

一位斯坦福教授举办了一场公开讲座，全面剖析了GPT、Claude和LLaMA等现代LLM的底层构建方式，让大众也能了解先进的架构。

0 人收藏 0 人点赞

#llama

开源 InfiniteKV：一种 KV 缓存，将旧 token 压缩为 104 字节的可搜索记录存储在内存或磁盘中，而非删除。Mistral-7B 从 token 76,747 处作答，超出其训练窗口 2.3 倍。附 Colab 演示

Reddit r/LocalLLaMA ↗ · 2026-06-12

InfiniteKV 是一种开源 KV 缓存技术，将旧 token 压缩为 104 字节的可搜索记录，存储在内存或磁盘中，使模型能够处理超出训练窗口的百万 token 上下文而无需丢弃数据。已验证可与 Mistral-7B 和 SmolLM2 配合使用。

0 人收藏 0 人点赞

#llama

顺序至关重要：LLaMA的序列微调实现连贯的自动化作文评分

arXiv cs.CL ↗ · 2026-06-10 缓存

本文研究了使用与话语结构对齐的课程对LLaMA-3.1-8B进行序列微调用于自动化作文评分，结果表明与独立或随机训练相比，连贯性和性能均有提升。

0 人收藏 0 人点赞

#llama

Meta放弃Llama转向Muse Spark — 开源AI最大捍卫者的终结

Reddit r/AI_Agents ↗ · 2026-06-08

Meta已放弃其开源权重Llama模型系列，转而支持由Alexandr Wang团队开发的完全专有模型Muse Spark，标志着Meta作为开源AI捍卫者角色的终结。

0 人收藏 0 人点赞

#llama

ImmigrationQA：一个基于来源的数据集及面向美国移民法的小型模型适配

arXiv cs.CL ↗ · 2026-06-01 缓存

本文介绍了ImmigrationQA，一个包含17,058个问答对的、基于来源的美国移民法数据集，并使用LoRA对Llama 3.2 3B模型进行微调，在保留的评估集上相比基础模型提升了27%。

0 人收藏 0 人点赞

#llama

Llama Surgery: 通过可微分超度量拓扑注入对预训练语言模型进行持续稀疏化

Reddit r/artificial ↗ · 2026-05-31

Llama Surgery 将学习到的块稀疏注意力拓扑注入预训练的 Llama 3.1 8B 中，无需从头重新训练，使用带有 Gumbel-Softmax 路由、温度退火和直通估计器的动态拓扑路由器以避免梯度崩溃，实现稳定收敛和连贯输出。

0 人收藏 0 人点赞

#llama

神经符号交互式叙事中的世界状态转换

arXiv cs.CL ↗ · 2026-05-26 缓存

本文探讨如何利用大语言模型（LLM）在基于规则的交互式叙事系统中预测状态变化，旨在提升叙事连贯性与玩家表现力。使用 Llama 3 70B 和 Gemini 1.5 Flash 进行的实验表明，世界状态转换既能维持一致性，又能鼓励玩家进行创造性输入。

0 人收藏 0 人点赞

#llama

@steeve: 进展：26 tok/s (llama 3.1 3b) .@tenstorrent 声称可达33 tok/s，所以相差不远

X AI KOLs Following ↗ · 2026-05-22 缓存

Steeve Morin 报告通过 ZML 在 Tenstorrent 硬件上运行 Llama 3.1 3B，达到 26 tok/s，接近 Tenstorrent 声称的 33 tok/s。

0 人收藏 0 人点赞

#llama

LLM去审查工具Heretic收到Facebook（“Meta”）的法律通知

Reddit r/singularity ↗ · 2026-05-21 缓存

Heretic LLM去审查项目收到Meta的法律通知，导致衍生Llama模型被移除；该项目已迁移至Codeberg镜像，并计划采取技术措施以保持访问权限。

0 人收藏 0 人点赞

#llama

Heretic 已收到 Meta, Inc. 的法律通知

Reddit r/LocalLLaMA ↗ · 2026-05-21

Meta 向 Heretic 项目发出法律通知，涉及对其 Llama AI 模型的衍生作品，促使该项目移除权重并宣布计划通过官方 Codeberg 镜像实现基础设施多样化。

0 人收藏 0 人点赞

#llama

MisoLabs/MisoTTS

Hugging Face Models Trending ↗ · 2026-05-21 缓存

Miso Labs 发布了 Miso TTS 8B，这是一个基于 Sesame CSM 架构和类似 Llama 3.2 骨干网络的文本转语音模型，旨在生成高质量对话语音及实现语音延续。

0 人收藏 0 人点赞

← 返回首页

提交意见反馈