LapidaryEngine:全对话式晶体生成
摘要
LapidaryEngine是一种新型AI模型,能够通过自由形式的自然语言实现全对话式晶体材料生成。它采用一种枢纽表示法进行双向翻译和迭代优化。通过支持直观的类对话交互,该模型优于现有的文本到晶体系统。
arXiv:2606.14215v1 Announce Type: new
摘要:大型语言模型(LLM)的出现激发了直接从自然语言指令生成定制晶体材料的愿景,使用户能够通过直观的对话式交互来设计材料。现有的文本到晶体生成模型代表了实现这一目标的重要早期步骤,但它们存在两个关键限制:(i)输入格式受限,需要高度结构化的描述(例如化学式);(ii)单向生成,模型可以将文本映射到晶体,但无法进行反向操作。这些限制阻碍了完全对话式工作流,并妨碍了与用户固有模糊且不断变化的需求的对齐。我们通过LapidaryEngine解决了这些挑战,这是首个支持完全对话式晶体生成的模型。LapidaryEngine接受自由形式的自然语言请求,并以类似对话的方式进行迭代优化和编辑。其关键创新是一种枢纽表示法,即第三种中间形式,能够在缺乏直接配对数据集的情况下实现文本与晶体结构之间的双向翻译。利用这一枢纽,可以稳健地解释用户反馈并实现精确的结构控制。我们展示了LapidaryEngine在多种任务上的表现,包括绝缘体发现、稳定性优化、成分修改和结构编辑,展示了其以交互方式使生成的材料与用户意图对齐的能力。
查看缓存全文
缓存时间: 2026/06/15 09:12
# LapidaryEngine:完全对话式晶体生成 来源:https://arxiv.org/html/2606.14215 Yusei Ito1,2,Yuta Suzuki1,Tomoya Murata1,Masaki Adachi1 1Lattice Lab,Toyota Motor Corporation,2Osaka大学本工作完成于第一作者在Toyota Motor Corporation Lattice Lab实习期间。通讯作者:tomoya\_murata\_aa@mail\.toyota\.co\.jp (https://arxiv.org/html/2606.14215v1/mailto:[email protected]) ###### 摘要 大语言模型 \(LLMs\) 的兴起激发了直接从自然语言指令生成定制晶体材料的愿景,使用户能够通过直观的对话式交互来设计材料。现有的文本到晶体生成模型虽是实现这一目标的重要早期步骤,但它们存在两个关键局限性:(i) 输入格式受限,要求高度结构化的描述(例如化学式);(ii) 单向生成,模型只能实现文本→晶体映射,无法进行反向映射。这些局限性阻碍了完全对话式工作流程,并限制了模型与用户固有模糊且不断变化的需求的对齐。我们通过 LapidaryEngine 应对这些挑战,这是首个支持完全对话式晶体生成的模型。LapidaryEngine 接受自由形式的自然语言请求,并以对话方式进行迭代精炼和编辑。其关键创新在于一种中枢表示——一种第三种中间形式,使得在缺乏直接配对数据集的情况下,也能实现文本与晶体结构之间的双向翻译。利用这种中枢表示,可以稳健地解释用户反馈并进行精确的结构控制。我们展示了 LapidaryEngine 在多种任务上的表现,包括绝缘体发现、稳定性优化、成分修改和结构编辑,展示了它以交互方式使生成材料与用户意图对齐的能力。 ## 1 引言 鉴于生成模型在图像[41 (https://arxiv.org/html/2606.14215#bib.bib52)]、视频[32 (https://arxiv.org/html/2606.14215#bib.bib53)]和音乐合成[2 (https://arxiv.org/html/2606.14215#bib.bib54)]方面的显著成功,人们自然期待生成建模的最新突破能够扩展到材料设计——事实上,AI 用于材料领域的论文数量已急剧增加[46 (https://arxiv.org/html/2606.14215#bib.bib67),42 (https://arxiv.org/html/2606.14215#bib.bib68),25 (https://arxiv.org/html/2606.14215#bib.bib66),35 (https://arxiv.org/html/2606.14215#bib.bib65),52 (https://arxiv.org/html/2606.14215#bib.bib20)]。特别是,随着大语言模型 \(LLMs\) 达到人类水平的表现[39 (https://arxiv.org/html/2606.14215#bib.bib13),14 (https://arxiv.org/html/2606.14215#bib.bib14),50 (https://arxiv.org/html/2606.14215#bib.bib15)],科学界正竞相将这些能力应用于科学领域的核心挑战,包括假设生成、实验规划和自动化科学推理[31 (https://arxiv.org/html/2606.14215#bib.bib72),33 (https://arxiv.org/html/2606.14215#bib.bib70),1 (https://arxiv.org/html/2606.14215#bib.bib69),43 (https://arxiv.org/html/2606.14215#bib.bib71)]。LLM 最具变革性的方面之一,是能够直接用自然语言表述科学问题——而此前这些任务需要精心构建、特定领域的形式化表述用于模拟和实验。在这些新可能性中,文本到晶体的生成尤为突出:它提供了一个界面,用户只需编写自然语言描述即可指定所需的材料。由于传统的材料科学工具——如原子模拟或量子化学分析——长期以来对非专家来说难以触及,文本到晶体系统有望普及专家知识。正如非专家现在可以用生成模型写小说或创作插图一样,工程师和设计师很快就能生成适合其需求的定制材料。 两项早期工作,Chemeleon 和 GenMS,代表了迈向文本到晶体模型的先驱步骤,分别在各自的应用中展示了有希望的结果[51 (https://arxiv.org/html/2606.14215#bib.bib3),40 (https://arxiv.org/html/2606.14215#bib.bib2)]。Chemeleon 表明,仅凭描述成分的模糊文本提示就能生成晶体,并且在 Zn-Ti-O 系统中,它探索了化学空间,提出了已知相之外的新候选晶体结构。GenMS 表明,指定晶体家族(例如钙钛矿)的自然语言描述可用于正确生成与该家族一致的晶体结构。然而,这些方法尚未实现普及的目标。为什么?因为编制精确的指令本身就需要专家级甚至 oracle 级别的知识。自然语言描述本质上可能是模糊的。例如,考虑提示:“生成一种尚未在文献中报道的绝缘材料。”可能答案的空间巨大,留下了关于材料家族、所需绝缘程度(例如带隙)以及各种物理或化学约束的未解问题。要指定这些细节,用户必须已经拥有清晰且技术上有依据的设计目标。此外,在科学前沿,即使专家也在不确定性中操作:他们通常不知道假设的结构能否被合成,或者是否展现出所需的性质。他们的设计目标通常通过迭代试错来演变。因此,要求用户事先提供明确且无错误的指令,与现实中的材料发现过程相冲突,并严重限制了适用性。 一种更自然、更友好的材料设计界面是迭代细化,这体现在由 ChatGPT 普及的对话范式。用户应该能够从一个模糊的想法开始,随着学习而逐步澄清需求,最终通过对话式交互收敛到一个明确指定的目标。然而,实现*对话式*晶体生成绝非易事。现有的两个文本到晶体系统[51 (https://arxiv.org/html/2606.14215#bib.bib3),40 (https://arxiv.org/html/2606.14215#bib.bib2)]无法支持这种交互式细化。这源于两个根本限制: 1. \(a\) 受限的指令格式。现有方法通常将文本输入限制为高度结构化的描述——例如化学式、空间群或对称性标记[40 (https://arxiv.org/html/2606.14215#bib.bib2)]。这些僵化的格式与自然语言相去甚远,需要专家级知识才能构建有效的提示。此外,它们排除了故意模糊或部分指定的请求,而这对真正的普及和早期构思至关重要。 2. \(b\) 单向建模。当前方法实现*文本*→*晶体*,但不实现*晶体*→*文本*[51 (https://arxiv.org/html/2606.14215#bib.bib3),40 (https://arxiv.org/html/2606.14215#bib.bib2)]。没有反向路径,模型就无法解释先前生成的结构,评估其如何与用户不断变化的意图对齐,或吸收来自早期轮次的反馈。因此,迭代细化是不可能的:系统没有机制根据先前迭代的输出更新或调整设计。 请参阅图注图1:LapidaryEngine 的关键思想与示例。\(a\) 由于没有直接链接文本描述与晶体结构的数据集,我们的方法引入了一种桥接语言和结构模态的中枢表示。\(b\) 我们的框架生成的晶体结构示例。从要求具有大带隙的绝缘体的提示开始,模型生成一个初始结构,并通过自然语言反馈迭代地进行细化。为此,我们提出 LapidaryEngine——*首个*实现*完全*对话式、多轮细化的晶体结构模型。我们的关键创新是引入*中枢表示*,灵感来源于经典的中枢机器翻译。正如两种没有平行数据的语言(例如斯瓦希里语和日语)可以通过共享的第三语言(英语)进行交流,我们建立了一个桥接文本和晶体结构的中枢表示。关键在于,虽然直接(性质,晶体)对的数据集不存在,但两种模态都可以双向映射到结构描述——即我们的中枢表示。如图1 (https://arxiv.org/html/2606.14215#S1.F1)\(a\) 所示,这个中枢提供了一个共同的语义基础,通过它,文本和晶体结构变得相互可解释,从而首次实现了稳定、迭代的对话式细化。 我们展示了 LapidaryEngine 在多种任务上的表现。图1 (https://arxiv.org/html/2606.14215#S1.F1)\(b\) 显示了主要结果。从要求绝缘材料(即具有大带隙的材料)的提示开始,生成一个初始结构作为粗略假设。然后系统通过迭代的用户反馈细化该结构,从粗略指导开始,逐步整合晶体结构设计过程中自然出现的约束。这个框架不是作为传统的优化任务提出的。相反,它允许用户的需求(包括偏好、设计意图和领域特定考虑)被持续注入并反映在不断演变的结构中。此外,我们进行了两项旨在改善可验证物理性质的任务。每项任务重复 1000 次,统计分析确认目标物理性质得到了改善。我们将代码和模型开源给社区。 ## 2 结果 为了实现完全对话式晶体生成,我们展示了一种基于结构描述的中枢表示如何同时解决灵活性和双向性挑战。关键思想很简单:我们不直接编辑晶体结构(这是离散的、高度受限且难以操作的),而是编辑表示结构信息的文本描述。这允许所有细化步骤完全保持在文本域内,而 LLM 在此域中擅长受控编辑和迭代改进。通过将问题从联合(文本,晶体)空间转移到纯文本的中枢空间,我们可以充分利用 LLM 的优势,同时保持对生成结构的精确控制。我们证明这种设计解决了现有方法未能克服的局限性。 ### 2.1 中枢表示 尽管目前没有生成模型支持*晶体*→*文本*,但存在一种*基于规则*的晶体结构文本生成器:Robocrystallographer[13 (https://arxiv.org/html/2606.14215#bib.bib16)]。关键在于,由于它是基于规则的,其映射本质上是双射的:一个晶体对应一个文本描述,反之亦然。这一性质使 Robocrystallographer 风格的输出成为理想的中枢表示,实现了文本与晶体之间无歧义的双向翻译。因此,编辑中枢直接控制晶体结构,解决了上述两个挑战。如图1 (https://arxiv.org/html/2606.14215#S1.F1)\(a\) 所示,我们的工作流程如下。我们首先使用 LLM 将用户不精确的自然语言提示映射到精确的中枢描述。然后,我们使用一个在配对(中枢,晶体)数据上训练的基于 GNN 的扩散模型[40 (https://arxiv.org/html/2606.14215#bib.bib2)]来生成候选结构。通过中枢,我们可以解释模糊或高层次的需求,克服了受限指令格式的限制(问题 \(a\))。此外,中枢实现了真正的双向细化。在生成候选结构后,我们将晶体转换回其中枢描述,并根据用户反馈进行更新。然后,精炼后的中枢再次被解码为新的晶体结构。这个闭环管道解决了第二个限制——单向纯文本生成——并使迭代、对话式的晶体设计成为可能。 完整的工作流程如图2 (https://arxiv.org/html/2606.14215#S2.F2) 所示。为了最大化生成质量,我们采用了 Best-of-N 采样策略[8 (https://arxiv.org/html/2606.14215#bib.bib74),37 (https://arxiv.org/html/2606.14215#bib.bib73)]:对于每个中枢描述,模型生成 N 个候选结构,验证其物理合理性(例如稳定性指标、有效成分),并选择与输入描述最一致的候选结构。生成结构后,它被呈现给用户以供反馈(*例如*,“过于扭曲”、“用钛替换锆”等评论)或定量指标(*例如*,密度、导电性)。LLM 接收此反馈以及先前生成晶体的中枢表示,并相应地精炼中枢。然后从更新的中枢生成新的晶体,整个过程重复直到用户满意。 通过这个迭代循环,系统逐步使生成的结构与用户不断变化的需求对齐。这样,我们的框架反映并直接增强了传统的材料发现工作流程,该流程长期以来依赖重复反馈和试错来细化候选结构。我们在第4.1节 (https://arxiv.org/html/2606.14215#S4.SS1) 中提供了算法的细节及其解释。 请参阅图注图2:LapidaryEngine 概览,这是一个基于反馈的文本引导晶体结构生成框架。LLM 将用户提供的提示解释为中极结构描述,然后基于 GNN 的生成模型根据该描述生成晶体结构。基于先前生成的晶体结构和用户反馈,LLM 为下一次生成创建结构描述。这种方法使框架能够利用 LLM 的材料科学知识以及基于 GNN 模型的几何推理能力。 ### 2.2 定量分析 请参阅图注图3:平均形成能和带隙及其在每个反馈迭代步骤的标准差,针对 \(a\) 稳定性聚焦生成和 \(b\) 带隙聚焦生成。为了比较,我们还展示了仅使用性质反馈和 LLM 直接生成完整晶体结构信息的结果。所提出的方法在多次迭代中逐步改善目标性质,并优于其他方法。这些结果表明它有效利用了反馈,并凸显了 LLM 和 GNN 晶体生成器的协同优势。数据点用线连接以增强可视化。为了定量评估反馈机制的有效性,我们测试了 LapidaryEngine 在两种情况下:\(a\) 关注结构稳定性的生成,和 \(b\) 关注大带隙的生成。使用了两种类型的提示: 1. \(a\) 稳定性聚焦生成:生成一种尚未报道的高稳定性、低形成能的材料。 2. \(b\) 带隙聚焦生成:生成一种尚未报道的大带隙且稳定(即具有低形成能)的材料。 对于每种提示类型,我们生成了晶体结构并进行了五轮反馈。
相似文章
@xbresson: 如何用AI设计材料?很高兴与@liu…合作推出Crys-JEPA这一新生成技术。
Crys-JEPA 引入了一种用于晶体的联合嵌入预测架构,该架构学习了一个能量感知的潜在空间,在从头晶体发现方面实现了稳定性和新颖性的显著提升。
Crystal
Crystal 是一款AI驱动工具,可即时识别岩石、晶体和宝石。
CrystalReasoner: 面向属性条件晶体结构生成的推理与强化学习
CrystalReasoner 是一个大型语言模型(LLM)框架,通过将物理先验作为思考令牌并使用强化学习,从自然语言生成晶体结构,确保有效性、稳定性和属性条件生成。
使用 Gemini 2.5 进行高级音频对话和生成
Google 宣布 Gemini 2.5 具备先进的原生音频功能,可实现实时对话型 AI,支持自然语音生成、风格控制和 24 种以上语言的多模态理解。
@paulabartabajo_:给AI工程师的建议 如果你正在构建语音智能体,别再连接3个独立模型了,用于音频转文本、文本转音频,或文本转文本……
宣布推出 liquid-audio,这是 Liquid AI 端到端语音转语音 LFM 模型(LFM2-Audio-1.5B 和 LFM2.5-Audio-1.5B)的开源仓库,支持交错和顺序生成模式以及微调功能。