PRISM:面向多层薄膜设计的位置编码回归逆光谱模型
摘要
PRISM是一种仅解码器的自回归变换器,通过联合预测材料选择和厚度来解决多层薄膜光学涂层设计的逆问题,以更小的模型实现了最先进的性能。
查看缓存全文
缓存时间: 2026/05/27 02:48
论文页面 - PRISM:用于多层薄膜设计的位置编码回归逆谱模型
来源:https://huggingface.co/papers/2605.26502
摘要
PRISM 是一种仅解码器的自回归Transformer,通过联合预测材料选择和厚度,同时利用频谱前缀条件化和累积深度旋转位置嵌入,高效解决了多层薄膜光学涂层设计的逆问题。
多层薄膜光学涂层设计的逆问题(https://huggingface.co/papers?q=inverse%20problem)是一个复杂的组合-连续优化(https://huggingface.co/papers?q=combinatorial-continuous%20optimization)挑战。我们提出了PRISM(位置编码回归逆谱模型),这是一个统一的仅解码器自回归Transformer(https://huggingface.co/papers?q=decoder-only%20autoregressive%20transformer),通过在同一骨干网络中联合预测离散的材料选择(https://huggingface.co/papers?q=material%20selection)和连续的厚度回归(https://huggingface.co/papers?q=thickness%20regression),简化了这一过程。PRISM引入了两个主要架构创新:(1)频谱前缀条件化(https://huggingface.co/papers?q=spectrum%20prefix%20conditioning),利用标准前缀令牌进行上下文目标注入;以及(2)累积深度旋转位置嵌入(https://huggingface.co/papers?q=cumulative-depth%20Rotary%20Position%20Embeddings),将连续厚度直接编码到位置表示中,以保持堆栈的物理空间关系。我们的基准测试表明,一个PRISM-13M模型相比其他Transformer基线,MAE降低了50%以上,同时仅使用五分之一的参数。此外,一个44M参数的变体在分布内验证基准上达到了最先进的性能(MAE = 0.010),并且运行速度显著快于模拟退火,为经典优化方法提供了一种高效的替代方案。
查看arXiv页面(https://arxiv.org/abs/2605.26502)查看PDF(https://arxiv.org/pdf/2605.26502)项目页面(https://www.prism-playground.com/)GitHub3(https://github.com/wang-henry4/prism)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2605.26502)
在你的代理中获取此论文:
hf papers read 2605\.26502
没有最新的CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用此论文的模型0
没有模型链接到此论文
在模型README.md中引用arxiv.org/abs/2605.26502以从此页面链接。
引用此论文的数据集0
没有数据集链接到此论文
在数据集README.md中引用arxiv.org/abs/2605.26502以从此页面链接。
引用此论文的Spaces0
没有Space链接到此论文
在Space README.md中引用arxiv.org/abs/2605.26502以从此页面链接。
包含此论文的收藏集0
没有收藏集包含此论文
将这篇论文添加到一个收藏集(https://huggingface.co/new-collection)以从此页面链接。
相似文章
PRISM:一种将漂移分解为尺度、形状和头部的几何风险界
本文介绍了 PRISM,这是一种几何风险界,将训练后大型语言模型(LLM)变体中的模型漂移分解为尺度、形状和头部三个维度,以诊断量化误差或灾难性遗忘等特定故障模式。
PRISM: 先验纠正与不确定性感知结构建模的基于扩散的文本图像超分辨率
PRISM是一个基于扩散的文本图像超分辨率框架,利用流匹配先验纠正和不确定性感知残差编码来提升严重退化下的准确性,实现了毫秒级推理的最新性能。
PRISM:用于顺序决策的感知与推理交织方法
本文介绍了 PRISM,这是一个通过动态问答流程整合视觉-语言模型和大语言模型的框架,旨在提升具身 AI 任务中的顺序决策能力。
PRISM: 程序化时空推理基准
PRISM是一个大规模基准,包含10,372个人工校准的指令-代码对,用于评估程序化视频生成,并采用了一个漏斗式框架,包含四个指标。对七个大型语言模型的评估揭示了代码可执行性与空间一致性之间存在显著差距。
prism-ml/bonsai-image-ternary-4B-gemlite-2bit
Prism ML发布Bonsai Image,一个1.21 GB的文本到图像扩散变换器,使用三元权重(1.58-bit)用于NVIDIA GPU,在RTX 3080上4.5秒生成1024²图像,体积远小于FP16。