腾讯发布混元世界 1.0 模型
如何从文本或图像中创建具有沉浸感和可交互性的三维世界,始终是计算机视觉与图形学领域的核心挑战。现有世界生成方法主要分为两类:基于视频的方法虽能提供丰富的多样性,却缺乏三维一致性且渲染效率低下;基于三维几何的方法虽能保证几何一致性,却受限于训练数据不足和内存效率低下的表征方式。为突破这些局限,腾讯开发者提出 HunyuanWorld 1.0 框架——一种融合双方优势的创新方案,能根据文本与图像条件生成兼具沉浸感、可探索性与交互性的三维世界。本方法具有三大核心优势:(1)通过全景世界代理实现 360°沉浸式体验;(2)支持网格导出功能,可与现有计算机图形管线无缝兼容;(3)采用解耦式物体表征以增强交互性。该框架的核心在于语义分层的三维网格表征技术,通过将全景图像作为 360°世界代理进行语义感知的世界解构与重建,从而生成多样化的三维场景。大量实验表明,本方法在生成连贯、可探索且可交互的三维世界方面达到最先进水平,同时可广泛应用于虚拟现实、物理仿真、游戏开发及交互式内容创作等领域。