@itsclelia: 昨天在@techeurope_的柏林应用人工智能大会上玩得很开心!我做了一个关于构建文档...的演讲
摘要
参加了在柏林举办的应用人工智能大会,并做了关于构建文档代理的演讲,其中包括使用LlamaIndex构建的文档处理代理LobsterX的详细演示,该代理采用了结构化输出和事件驱动工作流。
查看缓存全文
缓存时间: 2026/05/30 04:04
昨天在@techeurope_的应用AI会议上玩得很开心!我做了一个关于构建文档智能体以及通用智能体开发的演讲,你可以在这里找到:https://astrabert.github.io/agent-anatomy-presentation… 除了我的演讲,我还遇到了很多充满活力的开发者。
LobsterX 解剖学
来源:https://astrabert.github.io/agent-anatomy-presentation/ 应用AI会议 · 柏林,2026年5月28日01 / 17
LobsterX 的解剖学
一个文档处理智能体
用AI智能体重塑文档工作流
简介
大脑
循环
世界
回顾
跟随操作01b / 17
在您的设备上打开
二维码
扫描以在手机或平板上跟随操作
用AI智能体重塑文档工作流
简介
大脑
循环
世界
回顾
介绍02 / 17
大家好,我是Clelia
- LlamaIndex 的技术员工,负责智能体、检索系统和开源软件
- 背景是计算生物学,后来逐渐转向人工智能和工程
- 我构建小型、有主见的智能体来对我工作的框架进行压力测试
- 今天:逐一讲解其中一个 → LobsterX🦞
用AI智能体重塑文档工作流
简介
大脑
循环
世界
回顾
介绍03 / 17
LobsterX是什么?
一个运行在Telegram聊天中的文档处理AI智能体。你发送给它一份PDF和一个任务;它解析、提取、分类、推理,并在完成后异步回复。
~600
行智能体实现代码
~1.5k
行底层工作流编排代码
3
个可切换的LLM提供商(OpenAI、Anthropic、Google)
足够小,可以在台上拆解。足够真实,值得关注。
用AI智能体重塑文档工作流
简介
大脑
循环
世界
回顾
介绍04 / 17
为什么要拆解一个智能体?
大多数智能体看起来像黑盒:输入提示,输出答案。有趣的工程实现在两者之间的空隙中。我们将通过四个解剖学比喻来逐步深入:
- 大脑—— 被引导进入结构化行为的LLM
- 循环—— 驱动它的事件驱动工作流
- 眼睛和四肢—— 它接触的文件系统和工具
- 耳朵和嘴巴—— 它如何与人类交流
用AI智能体重塑文档工作流
简介
大脑
循环
世界
回顾
大脑05 / 17
大脑:一个有问题的LLM
- LLM是唯一的决策者——它决定思考什么、调用什么、何时停止
- 但LLM是非确定性的:相同的提示,不同的输出形式
- 对于智能体来说,这是致命的。你不能用正则表达式解析“嗯,我想也许调用工具……”并指望最好的结果
- 我们需要一种方法来约束模型的输出,使其余系统能够依赖
如果大脑不可靠,每个下游步骤都会继承这种不可靠性。修复必须从LLM调用本身开始。
用AI智能体重塑文档工作流
简介
大脑
循环
世界
回顾
大脑06 / 17
引导:结构化输出
LobsterX中的每个LLM调用都受一个类型化JSON模式约束。模型不能以自由格式的散文回复——它必须填充一个已知的形状。
- 每个操作一个模式:思考与行动不同
- 强制推理和行动之间的清晰分离
- LLM封装只暴露结构化生成方法——智能体代码中没有“原始聊天”逃生口
- 相同的模式适用于OpenAI、Anthropic和Google提供商
用AI智能体重塑文档工作流
简介
大脑
循环
世界
回顾
循环07 / 17
循环:智能体工作流
LobsterX构建在LlamaIndex Agent Workflows (https://github.com/run-llama/workflows-py) 之上:一个事件驱动、异步优先的逐步执行引擎。
- 每个步骤是一个类型化的Python函数,消费一个事件类型并发出另一个
- 没有中央编排器——事件类型隐式地将步骤连接在一起
- 异步构建:长时间运行的工具调用不会阻塞其他任何操作
- 循环不是特殊情况——它们只是重新发出上游事件类型的步骤
用AI智能体重塑文档工作流
简介
大脑
循环
世界
回顾
循环08 / 17
事件驱动执行
输入
用户提示
→
思考
推理下一步
→
行动
调用工具
→
观察
处理结果
↺
停止
最终答案
每个箭头是一个类型化事件。观察重新进入思考,直到思考决定任务完成并发出停止——此时工作流终止,答案返回给用户。
用AI智能体重塑文档工作流
简介
大脑
循环
世界
回顾
世界09 / 17
面向世界的三个窗口
大脑+循环是一个通用的脚手架。使LobsterX成为文档智能体的是它向世界暴露的三个接口。
文件系统
文档所在的位置以及智能体写入输出的位置
文档工具
通过LlamaCloud解析、提取和分类非结构化内容
聊天界面
Telegram机器人——异步上传和通知
用AI智能体重塑文档工作流
简介
大脑
循环
世界
回顾
世界 · 文件系统10 / 17
眼睛:虚拟文件系统
- 文件操作通过AgentFS (https://github.com/tursodatabase/agentfs) 路由,这是一个虚拟化层——不是实际的机器文件系统
- 智能体获得读/写/编辑/grep/glob——没有删除,没有Shell执行
- 作用域限定在一个工作目录;常见的凭据文件(
.env和其他文件)被完全排除 - 通过Telegram上传的PDF被写入AgentFS,永远不会接触你的真实磁盘
如果智能体被越狱写出破坏性内容,损害会停留在虚拟文件系统内。除非你明确同步,否则没有任何内容泄露到主机。
用AI智能体重塑文档工作流
简介
大脑
循环
世界
回顾
世界 · 工具11 / 17
四肢:文档工具
仅文件系统操作只能看到纯文本。为了真正理解非结构化文档,智能体调用三个LlamaCloud (https://cloud.llamaindex.ai/) 工具——每个都有自己的类型化输入模式。
LlamaParse
通过OCR、VLM和智能体管道对PDF、Office文档等进行全文解析
LlamaExtract
模式驱动提取——你定义JSON形状,工具填充它
LlamaClassify
使用置信度信号将内容分类到用户定义的类别中
用AI智能体重塑文档工作流
简介
大脑
循环
世界
回顾
世界 · 工具12 / 17
为什么这些工具改变了游戏规则
文档智能体的好坏取决于它对非结构化内容的观察能力。通用的OCR不够——布局、表格和图表都承载着意义,而简单的文本提取会丢失它们。
LlamaParse
对PDF、DOCX、PPTX、XLSX、图像进行布局感知解析。表格保持为表格;图表由VLM描述;跨列的阅读顺序得以保留。
LlamaExtract
你给它一个JSON模式,它返回给你填充好的对象——类型化、带引用链接、经过验证。智能体端无需胶水提示工程。
LlamaClassify
用户定义类别,附带置信度信号——智能体在决定下一步做什么之前使用它来路由文档(发票?合同?报告?)
每个工具暴露一个类型化输入模式,因此行动步骤可以端到端地以完全结构化输出的保证调用它们。
用AI智能体重塑文档工作流
简介
大脑
循环
世界
回顾
世界 · 聊天13 / 17
耳朵和嘴巴:默认异步
- 选择Telegram是因为消息传递是异步的——没有旋转加载圈,没有保持打开的HTTP连接
- 文档作为消息附件进入并存储在AgentFS中。文本消息作为工作流输入被分派
- 文档工作流可能需要几分钟到半小时——智能体完成时会通知你
- 这清晰地映射到已经是异步优先的工作流引擎
对于长时间运行的智能体来说,正确的接口不是聊天机器人——而是一个做完事情再回复的同事。
用AI智能体重塑文档工作流
简介
大脑
循环
世界
回顾
世界 · API模式14 / 17
相同的智能体,不同的外壳
Telegram机器人是一个前端。相同的智能体核心也可以作为FastAPI服务器运行,其异步优先的工作流形状贯穿始终。
任务管理器
内存字典task_id → asyncio.Task,由锁保护。POST /task创建,GET轮询,DELETE取消。
速率限制
通过fastapi-throttle实现每个端点每分钟限制——上传、创建、轮询和删除各有自己的预算。
认证与CORS
Starlette中间件:Bearer令牌认证 + 可配置允许的来源
用AI智能体重塑文档工作流
简介
大脑
循环
世界
回顾
回顾 · 安全15 / 17
关于安全的说明
- 虚拟文件系统——不暴露主机文件系统
- 无Shell——智能体不能运行任意bash命令
- 仅读/写/编辑——没有删除原语
- 无技能——自定义行为通过
AGENTS.md文件引入,而不是通过可能未经审查的指令 - 凭据文件从虚拟文件系统中排除——智能体甚至无法读取它们
这些都不能防止智能体被要求读取的恶意文档中的提示注入。这些缓解措施限制了影响范围,但不能消除风险。
用AI智能体重塑文档工作流
简介
大脑
循环
世界
回顾
回顾 · 解剖学16 / 17
完整的解剖学
B
大脑 通过结构化输出引导成思考/行动/观察/停止的LLM
E
眼睛 AgentFS——一个带有边界原语的沙箱虚拟文件系统
L
四肢 LlamaParse、LlamaExtract、LlamaClassify——每个都是类型化工具调用
M
耳朵和嘴巴 Telegram(或FastAPI)——异步优先、通知驱动
用AI智能体重塑文档工作流
简介
大脑
循环
世界
回顾
回顾 · 要点17 / 17
关键要点
- 结构化输出是将LLM变成可靠智能体组件的最大杠杆
- **布局感知文档工具(Parse/Extract/Classify)**让智能体真正理解非结构化文档
- 事件驱动工作流免费提供循环、分支和异步
- 虚拟文件系统让你授予文件系统风格的工具,而无需承担文件系统风格的风险
- 异步接口是长时间文档工作的正确形态
谢谢!有疑问吗?
简介
大脑
循环
世界
回顾
相似文章
@jerryjliu0: 我们在@aiDotEngineer Si…举办了一场90分钟的全方位工作坊,讲解如何基于企业文档构建智能体工作流。
在AI Engineer Singapore上,LlamaIndex举办了一场90分钟的工作坊,讲解如何构建智能体工作流以从企业PDF中提取信息;幻灯片将很快分享。
@itsclelia: 你真的拥有你的文档解析基础设施吗?在 @llama_index,我们想让它更简单,所以构建了…
LlamaIndex 推出了 liteparse-server,这是一个开源、可自托管的 HTTP 后端,用于解析 PDF、图像和 Office 文档,支持空间布局提取、OCR 和截图生成,专为 AI 和数据工作流设计。
@qianl_cs: 我们刚刚发布了来自最新一期 @DBOS_Inc 用户组的演示视频!特别感谢来自 @llama_index 的 Adrian Lyjak 带来…
演示视频展示了 DBOS 与 LlamaAgents 的集成,重点介绍了开发人员如何在不重写代码的情况下,为其 AI 代理应用程序添加持久化工作流功能。
@Prince_Canuma: 我在 @aiDotEngineer 的演讲已上线:“基于 MLX 的端侧智能”。非常感谢 @swyx 和团队的邀请——ha…
作者宣布其在 aiDotEngineer 活动上的演讲《基于 MLX 的端侧智能》已上线,并对主办方及社区贡献者表示感谢。
@tavilyai:柏林怎么样,Tavily 现在来了!我们与 @GradiumAI 一起展示全新的语音集成,并主持...
Tavily、Gradium、Nebius 和 Cursor 将于 5 月 29 日在柏林举办一场全天黑客马拉松,专注于构建能够交易和执行的自主 AI 智能体。活动内容包括技术讲座、开发实战和奖品。