标签
Windows Defender 将运行于 CUDA 12.4 的 Llama-b9856 版本标记为木马,引发安全担忧。
Jerry Liu 提出了一个涵盖准确性、成本和延迟权衡的文档解析框架,介绍了 LiteParse 作为一个面向 AI 智能体循环的开源低延迟解析工具,以及 LlamaParse 用于高精度模式。
Meta曾秘密使用Google的Gemini处理客户服务、广告工具和内容审核,因为其表现优于自家的Llama模型,直至Google因过度使用容量而切断访问。
提出一种基于思维树的抽取-生成混合方法,利用大语言模型进行法律案件判决摘要,在DeepSeek和LLama上的实验表明,该方法生成的摘要优于单独的抽取式或生成式方法。
本文提出一个多阶段可解释框架,结合基于SHAP的词元归因、理论指导的语言特征以及LLaMA-3.1-70B-Instruct大语言模型推理,用于解释基于Transformer的语音模型在认知障碍检测中的表现,取得了良好的临床一致性及高可用性评分。
AutoMegaKernel 是一个开源代理框架,能将任意 HuggingFace 模型编译成一个持久的单一兆核(megakernel),将整个前向传播融合到一次 GPU 启动中,从而减少开销。在 L4 和 L40S 等推理级 GPU 上,它相比使用 CUDA Graph 的 cuBLAS 实现了最高 1.33 倍的加速,同时保证调度没有死锁和竞争条件。
本文使用机械可解释性对LLaMA 3.1-8B-Instruct中的伦理推理进行审计,发现了“情境锚定效应”,即特定领域的表征在道德计算中占主导地位,并提出了“机械对齐”作为研究计划。
一位斯坦福教授举办了一场公开讲座,全面剖析了GPT、Claude和LLaMA等现代LLM的底层构建方式,让大众也能了解先进的架构。
InfiniteKV 是一种开源 KV 缓存技术,将旧 token 压缩为 104 字节的可搜索记录,存储在内存或磁盘中,使模型能够处理超出训练窗口的百万 token 上下文而无需丢弃数据。已验证可与 Mistral-7B 和 SmolLM2 配合使用。
本文研究了使用与话语结构对齐的课程对LLaMA-3.1-8B进行序列微调用于自动化作文评分,结果表明与独立或随机训练相比,连贯性和性能均有提升。
Meta已放弃其开源权重Llama模型系列,转而支持由Alexandr Wang团队开发的完全专有模型Muse Spark,标志着Meta作为开源AI捍卫者角色的终结。
本文介绍了ImmigrationQA,一个包含17,058个问答对的、基于来源的美国移民法数据集,并使用LoRA对Llama 3.2 3B模型进行微调,在保留的评估集上相比基础模型提升了27%。
Llama Surgery 将学习到的块稀疏注意力拓扑注入预训练的 Llama 3.1 8B 中,无需从头重新训练,使用带有 Gumbel-Softmax 路由、温度退火和直通估计器的动态拓扑路由器以避免梯度崩溃,实现稳定收敛和连贯输出。
本文探讨如何利用大语言模型(LLM)在基于规则的交互式叙事系统中预测状态变化,旨在提升叙事连贯性与玩家表现力。使用 Llama 3 70B 和 Gemini 1.5 Flash 进行的实验表明,世界状态转换既能维持一致性,又能鼓励玩家进行创造性输入。
Steeve Morin 报告通过 ZML 在 Tenstorrent 硬件上运行 Llama 3.1 3B,达到 26 tok/s,接近 Tenstorrent 声称的 33 tok/s。
Heretic LLM去审查项目收到Meta的法律通知,导致衍生Llama模型被移除;该项目已迁移至Codeberg镜像,并计划采取技术措施以保持访问权限。
Meta 向 Heretic 项目发出法律通知,涉及对其 Llama AI 模型的衍生作品,促使该项目移除权重并宣布计划通过官方 Codeberg 镜像实现基础设施多样化。
Miso Labs 发布了 Miso TTS 8B,这是一个基于 Sesame CSM 架构和类似 Llama 3.2 骨干网络的文本转语音模型,旨在生成高质量对话语音及实现语音延续。