给定带有图示与文本的分步说明书(左下)以及对应的 3D 零件集合(左上),我们在虚拟环境中执行装配,并输出逐步装配轨迹,可渲染为 4D 动画(右侧)。从零件装配物体需要理解多模态说明,将其与3D组件关联,并为每个装配步骤预测物理上合理的6自由度运动。现有数据集多聚焦于简化场景,忽视了工业装配中的形状复杂性和装配轨迹。我们提出AssemblyBench,一个包含2,789个工业对象的合成数据集,提供多模态说明手册、对应的3D零件模型以及零件装配轨迹。我们还提出基于Transformer的模型AssemblyDyno,利用说明手册与各零件3D形状联合预测装配顺序和零件装配轨迹。AssemblyDyno在装配位姿估计和轨迹可行性两方面均优于先前方法,其中后者通过我们基于物理的仿真进行评估。