标签
介绍如何结合TLA+与Claude等LLM编写形式化规约,展示LLM如何在语法上提供帮助,同时专注于正确性。
本文提出了一种新颖框架,通过整合采样、自动机学习和模型检测,为部分可观察马尔可夫决策过程(POMDPs)合成有限状态控制器。该方法为现有形式化合成工具难以解决的阈值安全问题提供了形式化保证。
Specula 团队的研究人员创建了 SysMoBench 基准测试,用于评估大语言模型能否准确建模实际计算系统的 TLA+ 规范,还是仅仅照本宣科地背诵教材内容。该基准测试涵盖四个阶段共 11 个系统,揭示了当前大语言模型在准确建模系统实现与参考论文方面的系统性差距。
TLA+ 语义保证无序更新,但 TLC 模型检查器通过要求有序赋值并添加如 PrintT 等有副作用的运算符来破坏这些保证,导致初学者感到困惑。