Point-E:从复杂文本提示生成3D点云的系统
摘要
OpenAI推出Point-E,一个通过结合文本到图像和图像到3D的扩散模型,能在单个GPU上在1-2分钟内从文本提示生成3D点云的系统。该方法相比现有方法实现了显著的速度提升,同时发布了预训练模型和代码。
暂无内容
查看缓存全文
缓存时间: 2026/04/20 14:46
# Point-E:从复杂提示生成3D点云的系统
来源:https://openai.com/index/point-e/
虽然最近关于文本条件3D物体生成的工作已显示出有希望的结果,但最先进的方法通常需要多个GPU小时才能生成单个样本。这与最先进的生成式图像模型形成了鲜明对比,后者可以在几秒或几分钟内生成样本。在本论文中,我们探索了一种替代的3D物体生成方法,可以在单个GPU上仅用1-2分钟生成3D模型。我们的方法首先使用文本到图像扩散模型生成单个合成视图,然后使用第二个扩散模型生成3D点云,该模型以生成的图像为条件。虽然我们的方法在样本质量方面仍然低于最先进的水平,但它的采样速度快1-2个数量级,为某些用例提供了一个实用的折衷方案。我们发布了预训练的点云扩散模型,以及评估代码和模型,访问地址:https://github.com/openai/point-e
相似文章
@EHuanglu: AI视频已达到Pixar品质,你现在可以通过一个提示生成1分钟3D动画
一款新的AI工具能够根据单个提示生成具有Pixar品质的一分钟3D动画。
突破Transformer僵局:一款在消费级硬件上运行的本地优先3D点云认知引擎
介绍SHD-CCP v2.0,这是一种新颖的AI架构,它用3D点云数据结构替代Transformer令牌序列,采用格拉斯曼流形融合和零拷贝内存映射流式处理,在消费级硬件上实现低延迟和低内存占用。
DALL·E 3 现已在 ChatGPT Plus 和企业版中推出
OpenAI 宣布 DALL·E 3 现已在 ChatGPT Plus 和企业版中推出,具有改进的图像质量、更好的文字/手部/面部渲染,以及通过改进的图像描述训练实现的增强提示词遵循能力。该版本包括多层安全系统、艺术风格保护以及一个内部来源分类器,可以以超过 99% 的准确率检测 AI 生成的图像。
EVA01:通过混合变换器实现统一原生3D理解与生成
EVA01是一个统一框架,通过混合变换器架构将3D网格作为原生模态集成到多模态语言模型中,实现了先进的文本到3D生成以及长上下文多轮几何编辑。
@itsPaulAi: 哇哦,Nvidia刚刚发布了一个2.6B开源世界模型,你可以将单张图片、文本提示和轨迹转化为…
Nvidia发布了一个2.6B开源世界模型,能够从单张图片、文本提示和轨迹生成可控世界,并在单个GPU上运行。