@itsclelia: 昨天在@techeurope_的柏林应用人工智能大会上玩得很开心!我做了一个关于构建文档...的演讲

X AI KOLs Following 事件

摘要

参加了在柏林举办的应用人工智能大会,并做了关于构建文档代理的演讲,其中包括使用LlamaIndex构建的文档处理代理LobsterX的详细演示,该代理采用了结构化输出和事件驱动工作流。

昨天在@techeurope_的柏林应用人工智能大会上玩得很开心!我做了一个关于构建文档代理和代理开发一般性的演讲,你可以在这里找到:https://astrabert.github.io/agent-anatomy-presentation… 除了我的演讲,我还遇到了很多充满活力的开发者,他们
查看原文
查看缓存全文

缓存时间: 2026/05/30 04:04

昨天在@techeurope_的应用AI会议上玩得很开心!我做了一个关于构建文档智能体以及通用智能体开发的演讲,你可以在这里找到:https://astrabert.github.io/agent-anatomy-presentation… 除了我的演讲,我还遇到了很多充满活力的开发者。


LobsterX 解剖学

来源:https://astrabert.github.io/agent-anatomy-presentation/ 应用AI会议 · 柏林,2026年5月28日01 / 17

LobsterX解剖学

一个文档处理智能体

用AI智能体重塑文档工作流

简介

大脑

循环

世界

回顾

跟随操作01b / 17

在您的设备上打开

二维码

扫描以在手机或平板上跟随操作

用AI智能体重塑文档工作流

简介

大脑

循环

世界

回顾

介绍02 / 17

大家好,我是Clelia

  • LlamaIndex 的技术员工,负责智能体、检索系统和开源软件
  • 背景是计算生物学,后来逐渐转向人工智能和工程
  • 我构建小型、有主见的智能体来对我工作的框架进行压力测试
  • 今天:逐一讲解其中一个 → LobsterX🦞

用AI智能体重塑文档工作流

简介

大脑

循环

世界

回顾

介绍03 / 17

LobsterX是什么?

一个运行在Telegram聊天中的文档处理AI智能体。你发送给它一份PDF和一个任务;它解析、提取、分类、推理,并在完成后异步回复。

~600

行智能体实现代码

~1.5k

行底层工作流编排代码

3

个可切换的LLM提供商(OpenAI、Anthropic、Google)

足够小,可以在台上拆解。足够真实,值得关注。

用AI智能体重塑文档工作流

简介

大脑

循环

世界

回顾

介绍04 / 17

为什么要拆解一个智能体?

大多数智能体看起来像黑盒:输入提示,输出答案。有趣的工程实现在两者之间的空隙中。我们将通过四个解剖学比喻来逐步深入:

  • 大脑—— 被引导进入结构化行为的LLM
  • 循环—— 驱动它的事件驱动工作流
  • 眼睛和四肢—— 它接触的文件系统和工具
  • 耳朵和嘴巴—— 它如何与人类交流

用AI智能体重塑文档工作流

简介

大脑

循环

世界

回顾

大脑05 / 17

大脑:一个有问题的LLM

  • LLM是唯一的决策者——它决定思考什么、调用什么、何时停止
  • 但LLM是非确定性的:相同的提示,不同的输出形式
  • 对于智能体来说,这是致命的。你不能用正则表达式解析“嗯,我想也许调用工具……”并指望最好的结果
  • 我们需要一种方法来约束模型的输出,使其余系统能够依赖

如果大脑不可靠,每个下游步骤都会继承这种不可靠性。修复必须从LLM调用本身开始。

用AI智能体重塑文档工作流

简介

大脑

循环

世界

回顾

大脑06 / 17

引导:结构化输出

LobsterX中的每个LLM调用都受一个类型化JSON模式约束。模型不能以自由格式的散文回复——它必须填充一个已知的形状。

  • 每个操作一个模式:思考与行动不同
  • 强制推理行动之间的清晰分离
  • LLM封装只暴露结构化生成方法——智能体代码中没有“原始聊天”逃生口
  • 相同的模式适用于OpenAI、Anthropic和Google提供商

用AI智能体重塑文档工作流

简介

大脑

循环

世界

回顾

循环07 / 17

循环:智能体工作流

LobsterX构建在LlamaIndex Agent Workflows (https://github.com/run-llama/workflows-py) 之上:一个事件驱动、异步优先的逐步执行引擎。

  • 每个步骤是一个类型化的Python函数,消费一个事件类型并发出另一个
  • 没有中央编排器——事件类型隐式地将步骤连接在一起
  • 异步构建:长时间运行的工具调用不会阻塞其他任何操作
  • 循环不是特殊情况——它们只是重新发出上游事件类型的步骤

用AI智能体重塑文档工作流

简介

大脑

循环

世界

回顾

循环08 / 17

事件驱动执行

输入

用户提示

思考

推理下一步

行动

调用工具

观察

处理结果

停止

最终答案

每个箭头是一个类型化事件。观察重新进入思考,直到思考决定任务完成并发出停止——此时工作流终止,答案返回给用户。

用AI智能体重塑文档工作流

简介

大脑

循环

世界

回顾

世界09 / 17

面向世界的三个窗口

大脑+循环是一个通用的脚手架。使LobsterX成为文档智能体的是它向世界暴露的三个接口。

文件系统

文档所在的位置以及智能体写入输出的位置

文档工具

通过LlamaCloud解析、提取和分类非结构化内容

聊天界面

Telegram机器人——异步上传和通知

用AI智能体重塑文档工作流

简介

大脑

循环

世界

回顾

世界 · 文件系统10 / 17

眼睛:虚拟文件系统

  • 文件操作通过AgentFS (https://github.com/tursodatabase/agentfs) 路由,这是一个虚拟化层——不是实际的机器文件系统
  • 智能体获得读/写/编辑/grep/glob——没有删除,没有Shell执行
  • 作用域限定在一个工作目录;常见的凭据文件(.env和其他文件)被完全排除
  • 通过Telegram上传的PDF被写入AgentFS,永远不会接触你的真实磁盘

如果智能体被越狱写出破坏性内容,损害会停留在虚拟文件系统内。除非你明确同步,否则没有任何内容泄露到主机。

用AI智能体重塑文档工作流

简介

大脑

循环

世界

回顾

世界 · 工具11 / 17

四肢:文档工具

仅文件系统操作只能看到纯文本。为了真正理解非结构化文档,智能体调用三个LlamaCloud (https://cloud.llamaindex.ai/) 工具——每个都有自己的类型化输入模式。

LlamaParse

通过OCR、VLM和智能体管道对PDF、Office文档等进行全文解析

LlamaExtract

模式驱动提取——你定义JSON形状,工具填充它

LlamaClassify

使用置信度信号将内容分类到用户定义的类别中

用AI智能体重塑文档工作流

简介

大脑

循环

世界

回顾

世界 · 工具12 / 17

为什么这些工具改变了游戏规则

文档智能体的好坏取决于它对非结构化内容的观察能力。通用的OCR不够——布局、表格和图表都承载着意义,而简单的文本提取会丢失它们。

LlamaParse

对PDF、DOCX、PPTX、XLSX、图像进行布局感知解析。表格保持为表格;图表由VLM描述;跨列的阅读顺序得以保留。

LlamaExtract

你给它一个JSON模式,它返回给你填充好的对象——类型化、带引用链接、经过验证。智能体端无需胶水提示工程。

LlamaClassify

用户定义类别,附带置信度信号——智能体在决定下一步做什么之前使用它来路由文档(发票?合同?报告?)

每个工具暴露一个类型化输入模式,因此行动步骤可以端到端地以完全结构化输出的保证调用它们。

用AI智能体重塑文档工作流

简介

大脑

循环

世界

回顾

世界 · 聊天13 / 17

耳朵和嘴巴:默认异步

  • 选择Telegram是因为消息传递是异步的——没有旋转加载圈,没有保持打开的HTTP连接
  • 文档作为消息附件进入并存储在AgentFS中。文本消息作为工作流输入被分派
  • 文档工作流可能需要几分钟到半小时——智能体完成时会通知你
  • 这清晰地映射到已经是异步优先的工作流引擎

对于长时间运行的智能体来说,正确的接口不是聊天机器人——而是一个做完事情再回复的同事。

用AI智能体重塑文档工作流

简介

大脑

循环

世界

回顾

世界 · API模式14 / 17

相同的智能体,不同的外壳

Telegram机器人是一个前端。相同的智能体核心也可以作为FastAPI服务器运行,其异步优先的工作流形状贯穿始终。

任务管理器

内存字典task_id → asyncio.Task,由锁保护。POST /task创建,GET轮询,DELETE取消。

速率限制

通过fastapi-throttle实现每个端点每分钟限制——上传、创建、轮询和删除各有自己的预算。

认证与CORS

Starlette中间件:Bearer令牌认证 + 可配置允许的来源

用AI智能体重塑文档工作流

简介

大脑

循环

世界

回顾

回顾 · 安全15 / 17

关于安全的说明

  • 虚拟文件系统——不暴露主机文件系统
  • 无Shell——智能体不能运行任意bash命令
  • 仅读/写/编辑——没有删除原语
  • 无技能——自定义行为通过AGENTS.md文件引入,而不是通过可能未经审查的指令
  • 凭据文件从虚拟文件系统中排除——智能体甚至无法读取它们

这些都不能防止智能体被要求读取的恶意文档中的提示注入。这些缓解措施限制了影响范围,但不能消除风险。

用AI智能体重塑文档工作流

简介

大脑

循环

世界

回顾

回顾 · 解剖学16 / 17

完整的解剖学

B

大脑 通过结构化输出引导成思考/行动/观察/停止的LLM

E

眼睛 AgentFS——一个带有边界原语的沙箱虚拟文件系统

L

四肢 LlamaParse、LlamaExtract、LlamaClassify——每个都是类型化工具调用

M

耳朵和嘴巴 Telegram(或FastAPI)——异步优先、通知驱动

用AI智能体重塑文档工作流

简介

大脑

循环

世界

回顾

回顾 · 要点17 / 17

关键要点

  • 结构化输出是将LLM变成可靠智能体组件的最大杠杆
  • **布局感知文档工具(Parse/Extract/Classify)**让智能体真正理解非结构化文档
  • 事件驱动工作流免费提供循环、分支和异步
  • 虚拟文件系统让你授予文件系统风格的工具,而无需承担文件系统风格的风险
  • 异步接口是长时间文档工作的正确形态

谢谢!有疑问吗?

简介

大脑

循环

世界

回顾

相似文章