说明书引导的 3D 零件装配任务示意图:给定 (a) 展示逐步装配流程的图示化说明书与 (b) 一组无纹理家具零件,目标是 (c) 根据说明书序列推断装配顺序,并预测每个零件的 6DoF 位姿,使空间变换后的零件装配成说明书描述的家具。家具装配可视为一个离散-连续联合优化问题:既要选择待装配的家具零件,也要以物理真实的方式估计其连接位姿。该问题的解空间组合规模巨大但又稀疏,使当前机器学习模型难以有效学习装配。本文尝试利用通常随家具零件提供的图示化装配说明来解决这一任务。我们的关键洞见是利用图示中的线索,将问题分解为离散与连续两个阶段。具体地,我们提出Manual-PA,一个基于Transformer、由说明书引导的3D零件装配框架:通过对比学习主干将3D零件与说明书图示进行语义对齐,用于预测装配顺序,并通过关联说明书中展示的最终家具来推断每个零件的6D位姿。为验证方法有效性,我们在PartNet基准数据集上进行实验。结果表明,利用图示与零件顺序可显著提升装配性能,优于现有最先进方法。此外,Manual-PA在IKEA-Manual数据集上的真实世界宜家家具装配任务中也展现出很强的泛化能力。