llm-architecture

标签

Cards List
#llm-architecture

LLMs 现在变得复杂了

Hacker News Top · 2026-06-20 缓存

文章讨论了LLMs如何变得越来越复杂,从简单的Transformer堆栈演变为融入多种注意力变体、混合专家模型和多模态编码器,与推荐系统进行了类比,并强调了像FlexAttention这样可组合内核优化的必要性。

0 人收藏 0 人点赞
#llm-architecture

@rewind02: 一位斯坦福教授刚刚做了一场公开讲座,详细讲解了GPT、Claude和LLaMA在底层是如何构建的,无需内部权限…

X AI KOLs Timeline · 2026-06-14 缓存

一位斯坦福教授举办了一场公开讲座,全面剖析了GPT、Claude和LLaMA等现代LLM的底层构建方式,让大众也能了解先进的架构。

0 人收藏 0 人点赞
#llm-architecture

@MaximeRivest: 当前的LLM架构很蠢(如果不算蠢,至少也是浪费)。以下三个包含4个上下文块的提示词:…

X AI KOLs Following · 2026-06-09 缓存

一条推文批评了当前LLM架构因依赖顺序的上下文而导致浪费的重计算,并提出将上下文单元分开编码,以实现与顺序无关的高效缓存和生成。

0 人收藏 0 人点赞
#llm-architecture

@shabnam_774: https://x.com/shabnam_774/status/2058517919760355729

X AI KOLs Timeline · 2026-05-24 缓存

本文提供了关于现代大型语言模型(如ChatGPT和Claude)从零开始构建的全面逐步解析,涵盖了数据收集、分词、Transformer架构、训练、对齐和部署。

0 人收藏 0 人点赞
#llm-architecture

@shao__meng: 昨晚用 Cursor (Opus 4.7) + Remotion 做一个视频,第一个版本完成后,问题比较多,字体和背景色重合、文字重叠等。。 然后我话说的重了点 ,大概是说:很糟糕,问题很多,你输出前没有做检查吗?再加上几个举例的问题。 …

X AI KOLs Following · 2026-05-11 缓存

The article shares a personal experience using Cursor and Opus 4.7 to generate videos, highlighting the agent's rigorous self-correction process. It then transitions into a technical discussion on 'Agent = Model + Harness,' arguing that engineering systems like ratchets and context management are more critical to AI agent performance than the underlying model alone.

0 人收藏 0 人点赞
#llm-architecture

我不再尝试构建一个超级智能体,而是将其拆分为 4 个专用智能体。可靠性大幅提升。

Reddit r/AI_Agents · 2026-05-10

作者描述了如何通过将单个通用智能体替换为专注于接入、调研、执行和审查的四智能体工作流,来提高 AI 智能体的可靠性。这种转变优先考虑系统的可预测性和更轻松的调试,而非纯粹的自主性。

0 人收藏 0 人点赞
#llm-architecture

TIDE:每一层都知晓上下文中的令牌

arXiv cs.CL · 2026-05-08 缓存

本文介绍了 TIDE,一种通过嵌入记忆(Embedding Memory)将令牌身份注入每一层,从而解决大语言模型(LLM)中罕见令牌问题和上下文崩溃问题的方法。作者在理论上和经验上证明了该方法在语言建模和下游任务中的改进。

0 人收藏 0 人点赞
#llm-architecture

@YouJiacheng: > 直接将RoPE旋转应用于KV会泄露位置信息到值矩阵V 科学空间亦有记载 https://kexue.fm/…

X AI KOLs Timeline · 2026-05-07 缓存

一条社交媒体帖子讨论了直接将RoPE旋转应用于KV缓存的技术含义,指出这会泄露位置信息到值矩阵V。

0 人收藏 0 人点赞
#llm-architecture

Transformer 数学探索器 [P]

Reddit r/MachineLearning · 2026-05-07

这个交互式工具通过数据流图可视化 Transformer 模型的数学基础,涵盖了从 GPT-2 到 Qwen 3.6 的架构以及各种注意力机制。

0 人收藏 0 人点赞
#llm-architecture

StageMem:面向语言模型的生命周期管理记忆框架

arXiv cs.CL · 2026-04-21 缓存

StageMem 提出了一种面向语言模型的生命周期管理记忆框架,该框架将记忆划分为瞬态、工作状态和持久状态三个阶段,并引入明确的置信度与强度指标,将记忆视为一种有状态的处理流程而非静态存储,从而在容量受限的条件下更精准地管理信息的保留与遗忘。

0 人收藏 0 人点赞
#llm-architecture

@techyoutbe:斯坦福大学“LLM架构”1.5小时讲座

X AI KOLs Timeline · 2026-04-19 缓存

斯坦福大学提供一场时长1.5小时的讲座,全面涵盖大语言模型的基础概念与设计原则。

0 人收藏 0 人点赞
#llm-architecture

Transformer 中的专家混合模型 (MoEs)

Hugging Face Blog · 2026-02-26 缓存

Hugging Face 的博客文章,介绍 Transformer 中的专家混合模型 (MoEs) 架构,涵盖从密集模型到稀疏模型的转变、权重加载优化、专家并行计算以及基于 MoE 的语言模型训练技术。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈