我用Go构建了一个AI代理运行时,在交付前编译并测试生成的代码,35个文件,156个测试,零依赖

Reddit r/AI_Agents 工具

摘要

ARK是一个开源的Go运行时,它管理AI代理的决策,在交付前编译和测试生成的代码,具有6阶段验证管道和成本高效的模型路由。

过去10个月我一直在构建ARK(AI Runtime Kernel)。它是一个开源运行时,位于你的AI代理和LLM之间,管理模型做出的每个决策。核心理念:模型不应该控制系统,运行时才应该。**它的功能:**当你要求ARK写Go代码时,它不会简单地将提示传给GPT然后把结果扔给你。运行时会对任务进行分类,优化提示,生成代码,然后在你看之前运行一个6阶段的验证管道:├─ 第1步: ✓ 推理已验证(置信度: 70%)│ 🧪 验证: 已测试(得分: 100%)│ ✅ 编译成功 ← go build │ ✅ 执行成功 ← go run │ ✅ 测试通过 ← 自动生成的测试 │ ✅ Lint干净 ← go vet 如果代码编译失败,ARK会将编译错误反馈给模型,强制使用更强的模型并重试。如果尝试两次后仍失败,它会拒绝交付有问题的代码。它永远不会宣称无法编译的代码成功。**可能引起本社区兴趣的Go相关内容:**整个运行时是纯Go,零外部依赖(仅标准库)。35个文件,约16,000行代码,156个测试,竞态检测器干净。一些我引以为豪的功能:* 加权工具排名,使用6个信号(相关性、成功率、贝叶斯置信度、成本、延迟、记忆奖励)——均在微秒内计算完成 * 上下文引擎,通过仅加载相关工具将工具模式令牌从60K减少到约93(减少99.9%)* 逐步骤模型路由:廉价模型(gpt-4o-mini)处理工具调用,强模型(gpt-4o)处理推理。降低成本80-90% * 认知管理者(Cognitive Governor),每次输出都用校准的置信度分数验证 * 自动修复生成的Go代码中的常见模型错误(孤立的括号、缺少错误处理)——检测制表符和空格缩进 * 事件发射器,写入JSONL以供单独的Python记忆层摄取 **成本:**一个典型任务花费$0.002-$0.005,而不是$0.05。**输出示例:** go run ./cmd/ark run agent.yaml --task "用Go编写一个读取CSV的函数" ✅ 任务成功完成 步骤: 1 | 令牌: 637 | 时间: 5.6秒 | 成本: $0.002 生成的代码在你看之前会编译、运行并通过自动生成的测试。我是芝加哥德保罗大学的一名计算机科学本科生,独自构建这个项目。已用此项目申请了YC S26。欢迎询问关于架构、验证管道或我为什么选择Go的问题。
查看原文

相似文章

Agentspan

Product Hunt

Agentspan 是一个用于构建持久性AI代理的开源运行时。