文 | 周鑫雨
编辑 | 邓咏仪
36氪获悉,美国AI 3D创业公司「Luma AI」近日完成4300万美元B轮融资,由A16Z独家投资。
此前,Luma AI已经完成了2000万美元的A轮融资,投资方包括Amplify Partners、NVIDIA(NVentures)、General Catalyst。
成立于2021年,Luma AI是一家聚焦于3D内容生成的技术公司,提供3D内容生成和3D内容重建技术解决方案。
截至目前,Luma AI已经推出了拍摄捕获3D图片和视频、Image to 3D(图片生3D)、Video to 3D(视频生3D)、Text to 3D(文字生3D)等功能。基于Luma AI的技术,用户只需用一台手机,就可以短时间、低成本生成所需的3D模型。
Luma AI的核心团队,拥有海外头部大厂和高校的履历。创始人兼CEO Amit Jain出身Apple AR/VR 部门,在3D计算机视觉、深度技术产品等方面有丰富经验。创始人兼CTO Alex Yu毕业于UC Berkeley,曾与人工智能研究实验室教授Angjoo Kanazawa共同进行NeRF(Neural Radiance Fields,神经辐射场)相关的3D计算机视觉研究。
今年,来自Nvidia和斯坦福大学的Jiaming Song,来自UC Berkeley人工智能实验室、NeRF论文作者之一的Matt Tancik,分别加入Luma AI,担任首席科学家和应用研究团队的负责人。
随着技术的开源和更多玩家的涌入,3D内容生成行业的竞争也愈发激烈。对于3D行业而言,企业真正的“护城河”则在3D数据。
相较于文本和2D图像数据,可供训练的3D数据并不多,而经过标注和语义匹配的3D数据则更为稀缺。目前普遍的解决方案是利用2D扩散生成模型来指导3D表示的优化,从而实现3D内容生成。
所谓的NeRF技术,是Luma AI构建3D内容的核心。这一套最初由UC Berkeley和Google发布的深度学习系统,可以基于少量的2D图像,对3D场景的几何形状和外观进行建模。
Luma AI增长负责人Barkley Dai告诉36氪,基于NeRF和Gaussian Splatting 3D重建技术,Luma AI可以基于2D图像数据快速构建高质量3D数据,用于机器学习和算法训练。
减少生成高质量3D内容所需的算力资源和时间,则是AI 3D生成技术落地的关键。自今年以来,Text to 3D所耗时长已经从小时级,缩减到了分钟级。
2023年11月,Luma AI在Discord上发布了最新Text to 3D工具Genie,则将Text to 3D所耗时长缩减到秒级。基于大量3D形状、结构和场景数据进行深度神经网络训练,Genie建立了对语义和3D空间几何对应关系的理解能力。
Genie 3D内容生成效果。
Genie重建鞋子3D模型的效果。
根据输入的自然语言提示词,Genie可在10秒左右的时间生成相应的3D模型,并提供可下载的GLB、OBJ和FBX等3D数据的标准化文件格式。Barkley告诉36氪,目前市面上极少有厂商能做到10秒级的3D内容生成时间。
Genie使用页面。
在Jain看来,所有视觉生成模型的推理和生成过程都要基于对3D现实场景的理解,互联网的视觉呈现是降维到2D后的表达成果。而随着XR等内容载体的发展,3D内容生成落地的场景也远不止游戏和影视,而是将成为消费级的内容生产和表达形式。
欢迎交流!