@itsclelia: 昨天在@techeurope_的柏林应用人工智能大会上玩得很开心！我做了一个关于构建文档...的演讲

X AI KOLs Following 2026/05/29 08:25 事件

摘要

参加了在柏林举办的应用人工智能大会，并做了关于构建文档代理的演讲，其中包括使用LlamaIndex构建的文档处理代理LobsterX的详细演示，该代理采用了结构化输出和事件驱动工作流。

昨天在@techeurope_的柏林应用人工智能大会上玩得很开心！我做了一个关于构建文档代理和代理开发一般性的演讲，你可以在这里找到：https://astrabert.github.io/agent-anatomy-presentation… 除了我的演讲，我还遇到了很多充满活力的开发者，他们

查看原文

查看缓存全文

缓存时间: 2026/05/30 04:04

昨天在@techeurope_的应用AI会议上玩得很开心！我做了一个关于构建文档智能体以及通用智能体开发的演讲，你可以在这里找到：https://astrabert.github.io/agent-anatomy-presentation… 除了我的演讲，我还遇到了很多充满活力的开发者。

LobsterX 解剖学

来源：https://astrabert.github.io/agent-anatomy-presentation/ 应用AI会议 · 柏林，2026年5月28日01 / 17

LobsterX 的解剖学

一个文档处理智能体

用AI智能体重塑文档工作流

简介

大脑

循环

世界

回顾

跟随操作01b / 17

在您的设备上打开

二维码

扫描以在手机或平板上跟随操作

用AI智能体重塑文档工作流

简介

大脑

循环

世界

回顾

介绍02 / 17

大家好，我是Clelia

LlamaIndex 的技术员工，负责智能体、检索系统和开源软件
背景是计算生物学，后来逐渐转向人工智能和工程
我构建小型、有主见的智能体来对我工作的框架进行压力测试
今天：逐一讲解其中一个 → LobsterX🦞

用AI智能体重塑文档工作流

简介

大脑

循环

世界

回顾

介绍03 / 17

LobsterX是什么？

一个运行在Telegram聊天中的文档处理AI智能体。你发送给它一份PDF和一个任务；它解析、提取、分类、推理，并在完成后异步回复。

~600

行智能体实现代码

~1.5k

行底层工作流编排代码

个可切换的LLM提供商（OpenAI、Anthropic、Google）

足够小，可以在台上拆解。足够真实，值得关注。

用AI智能体重塑文档工作流

简介

大脑

循环

世界

回顾

介绍04 / 17

为什么要拆解一个智能体？

大多数智能体看起来像黑盒：输入提示，输出答案。有趣的工程实现在两者之间的空隙中。我们将通过四个解剖学比喻来逐步深入：

大脑—— 被引导进入结构化行为的LLM
循环—— 驱动它的事件驱动工作流
眼睛和四肢—— 它接触的文件系统和工具
耳朵和嘴巴—— 它如何与人类交流

用AI智能体重塑文档工作流

简介

大脑

循环

世界

回顾

大脑05 / 17

大脑：一个有问题的LLM

LLM是唯一的决策者——它决定思考什么、调用什么、何时停止
但LLM是非确定性的：相同的提示，不同的输出形式
对于智能体来说，这是致命的。你不能用正则表达式解析“嗯，我想也许调用工具……”并指望最好的结果
我们需要一种方法来约束模型的输出，使其余系统能够依赖

如果大脑不可靠，每个下游步骤都会继承这种不可靠性。修复必须从LLM调用本身开始。

用AI智能体重塑文档工作流

简介

大脑

循环

世界

回顾

大脑06 / 17

引导：结构化输出

LobsterX中的每个LLM调用都受一个类型化JSON模式约束。模型不能以自由格式的散文回复——它必须填充一个已知的形状。

每个操作一个模式：思考与行动不同
强制推理和行动之间的清晰分离
LLM封装只暴露结构化生成方法——智能体代码中没有“原始聊天”逃生口
相同的模式适用于OpenAI、Anthropic和Google提供商

用AI智能体重塑文档工作流

简介

大脑

循环

世界

回顾

循环07 / 17

循环：智能体工作流

LobsterX构建在LlamaIndex Agent Workflows (https://github.com/run-llama/workflows-py) 之上：一个事件驱动、异步优先的逐步执行引擎。

每个步骤是一个类型化的Python函数，消费一个事件类型并发出另一个
没有中央编排器——事件类型隐式地将步骤连接在一起
异步构建：长时间运行的工具调用不会阻塞其他任何操作
循环不是特殊情况——它们只是重新发出上游事件类型的步骤

用AI智能体重塑文档工作流

简介

大脑

循环

世界

回顾

循环08 / 17

事件驱动执行

输入

用户提示

→

思考

推理下一步

→

行动

调用工具

→

观察

处理结果

↺

停止

最终答案

每个箭头是一个类型化事件。观察重新进入思考，直到思考决定任务完成并发出停止——此时工作流终止，答案返回给用户。

用AI智能体重塑文档工作流

简介

大脑

循环

世界

回顾

世界09 / 17

面向世界的三个窗口

大脑+循环是一个通用的脚手架。使LobsterX成为文档智能体的是它向世界暴露的三个接口。

文件系统

文档所在的位置以及智能体写入输出的位置

文档工具

通过LlamaCloud解析、提取和分类非结构化内容

聊天界面

Telegram机器人——异步上传和通知

用AI智能体重塑文档工作流

简介

大脑

循环

世界

回顾

世界 · 文件系统10 / 17

眼睛：虚拟文件系统

文件操作通过AgentFS (https://github.com/tursodatabase/agentfs) 路由，这是一个虚拟化层——不是实际的机器文件系统
智能体获得读/写/编辑/grep/glob——没有删除，没有Shell执行
作用域限定在一个工作目录；常见的凭据文件（.env和其他文件）被完全排除
通过Telegram上传的PDF被写入AgentFS，永远不会接触你的真实磁盘

如果智能体被越狱写出破坏性内容，损害会停留在虚拟文件系统内。除非你明确同步，否则没有任何内容泄露到主机。

用AI智能体重塑文档工作流

简介

大脑

循环

世界

回顾

世界 · 工具11 / 17

四肢：文档工具

仅文件系统操作只能看到纯文本。为了真正理解非结构化文档，智能体调用三个LlamaCloud (https://cloud.llamaindex.ai/) 工具——每个都有自己的类型化输入模式。

LlamaParse

通过OCR、VLM和智能体管道对PDF、Office文档等进行全文解析

LlamaExtract

模式驱动提取——你定义JSON形状，工具填充它

LlamaClassify

使用置信度信号将内容分类到用户定义的类别中

用AI智能体重塑文档工作流

简介

大脑

循环

世界

回顾

世界 · 工具12 / 17

为什么这些工具改变了游戏规则

文档智能体的好坏取决于它对非结构化内容的观察能力。通用的OCR不够——布局、表格和图表都承载着意义，而简单的文本提取会丢失它们。

LlamaParse

对PDF、DOCX、PPTX、XLSX、图像进行布局感知解析。表格保持为表格；图表由VLM描述；跨列的阅读顺序得以保留。

LlamaExtract

你给它一个JSON模式，它返回给你填充好的对象——类型化、带引用链接、经过验证。智能体端无需胶水提示工程。

LlamaClassify

用户定义类别，附带置信度信号——智能体在决定下一步做什么之前使用它来路由文档（发票？合同？报告？）

每个工具暴露一个类型化输入模式，因此行动步骤可以端到端地以完全结构化输出的保证调用它们。

用AI智能体重塑文档工作流

简介

大脑

循环

世界

回顾

世界 · 聊天13 / 17

耳朵和嘴巴：默认异步

选择Telegram是因为消息传递是异步的——没有旋转加载圈，没有保持打开的HTTP连接
文档作为消息附件进入并存储在AgentFS中。文本消息作为工作流输入被分派
文档工作流可能需要几分钟到半小时——智能体完成时会通知你
这清晰地映射到已经是异步优先的工作流引擎

对于长时间运行的智能体来说，正确的接口不是聊天机器人——而是一个做完事情再回复的同事。

用AI智能体重塑文档工作流

简介

大脑

循环

世界

回顾

世界 · API模式14 / 17

相同的智能体，不同的外壳

Telegram机器人是一个前端。相同的智能体核心也可以作为FastAPI服务器运行，其异步优先的工作流形状贯穿始终。

任务管理器

内存字典task_id → asyncio.Task，由锁保护。POST /task创建，GET轮询，DELETE取消。

速率限制

通过fastapi-throttle实现每个端点每分钟限制——上传、创建、轮询和删除各有自己的预算。

认证与CORS

Starlette中间件：Bearer令牌认证 + 可配置允许的来源

用AI智能体重塑文档工作流

简介

大脑

循环

世界

回顾

回顾 · 安全15 / 17

关于安全的说明

虚拟文件系统——不暴露主机文件系统
无Shell——智能体不能运行任意bash命令
仅读/写/编辑——没有删除原语
无技能——自定义行为通过AGENTS.md文件引入，而不是通过可能未经审查的指令
凭据文件从虚拟文件系统中排除——智能体甚至无法读取它们

这些都不能防止智能体被要求读取的恶意文档中的提示注入。这些缓解措施限制了影响范围，但不能消除风险。

用AI智能体重塑文档工作流

简介

大脑

循环

世界

回顾

回顾 · 解剖学16 / 17

完整的解剖学

大脑通过结构化输出引导成思考/行动/观察/停止的LLM

眼睛 AgentFS——一个带有边界原语的沙箱虚拟文件系统

四肢 LlamaParse、LlamaExtract、LlamaClassify——每个都是类型化工具调用

耳朵和嘴巴 Telegram（或FastAPI）——异步优先、通知驱动

用AI智能体重塑文档工作流

简介

大脑

循环

世界

回顾

回顾 · 要点17 / 17

关键要点

结构化输出是将LLM变成可靠智能体组件的最大杠杆
**布局感知文档工具（Parse/Extract/Classify）**让智能体真正理解非结构化文档
事件驱动工作流免费提供循环、分支和异步
虚拟文件系统让你授予文件系统风格的工具，而无需承担文件系统风格的风险
异步接口是长时间文档工作的正确形态

谢谢！有疑问吗？

简介

大脑

循环

世界

回顾

@itsclelia: 昨天在@techeurope_的柏林应用人工智能大会上玩得很开心！我做了一个关于构建文档...的演讲

LobsterX 解剖学

LobsterX 的解剖学

在您的设备上打开

大家好，我是Clelia

LobsterX是什么？

为什么要拆解一个智能体？

大脑：一个有问题的LLM

引导：结构化输出

循环：智能体工作流

事件驱动执行

面向世界的三个窗口

眼睛：虚拟文件系统

四肢：文档工具

为什么这些工具改变了游戏规则

耳朵和嘴巴：默认异步

相同的智能体，不同的外壳

关于安全的说明

完整的解剖学

关键要点

相似文章

@jerryjliu0: 我们在@aiDotEngineer Si…举办了一场90分钟的全方位工作坊，讲解如何基于企业文档构建智能体工作流。

@itsclelia: 你真的拥有你的文档解析基础设施吗？在 @llama_index，我们想让它更简单，所以构建了…

@qianl_cs: 我们刚刚发布了来自最新一期 @DBOS_Inc 用户组的演示视频！特别感谢来自 @llama_index 的 Adrian Lyjak 带来…

@Prince_Canuma: 我在 @aiDotEngineer 的演讲已上线：“基于 MLX 的端侧智能”。非常感谢 @swyx 和团队的邀请——ha…

@tavilyai：柏林怎么样，Tavily 现在来了！我们与 @GradiumAI 一起展示全新的语音集成，并主持...

提交意见反馈