标签
讨论了AI Agent和'Agent同事'的定义,指出LLM本质上是无状态的,并质疑Agent实体的具体形式。
讨论Pi编码代理如何在llama-server上控制Qwen 35B A3B模型的思考长度,而其他客户端却无法做到。
一条社交媒体帖子讨论了直接将RoPE旋转应用于KV缓存的技术含义,指出这会泄露位置信息到值矩阵V。