实习3: 理想汽车-自动驾驶实验室-世界模型实习生
实习, 2023.12–2025.11, 北京
• 自动驾驶场景 多模态生成: 1) 参与设计 Delphi,一种基于扩散模型的长视频生成方法,引入跨视角共享噪声机 制与特征对齐模块以增强空间与时间一致性。 2) 提出首个端到端多模态场景生成框架 OmniGen,在统一 0-BEV 表征中融合 LiDAR 与图像,通过扩散模型生成多模态数据。 3) 提出 BEV-TSR,首个基于 BEV 空间的文本场 景检索框架,结合知识图谱与大语言模型增强语义理解,实现高精度多模态检索。
