Deep Learning

Aligning Step-by-Step Instructional Diagrams to Video Demonstrations
文章讨论了如何对齐逐步说明图与现实世界中的视频演示,尤其是在家具组装场景下。传统的Ikea组装手册通常使用图解说明步骤,但这些图解有时可能含糊不清或与实际的产品存在差异,而通过视频来展示组装过程可以有效弥补这些不足。然而,网络上的DIY视频往往包含大量与实际任务无关的内容,这使得视频与说明图的对齐成为一个复杂的问题。为了解决这一问题,文章提出了一种新的对比学习框架,旨在通过多模态特征的对齐,将视频片段与图解进行匹配。文章引入了一个新的数据集——IAW(Ikea Assembly in the Wild),该数据集包含超过183小时的家具组装视频以及8000多张图解说明,用于评估该方法的效果。实验结果表明,该方法在视频片段和说明图解之间的检索和对齐任务上取得了显著的性能提升。此外,文章提出了三种针对性的新型损失函数,旨在通过对比学习更好地对齐视频和图解,包括视频与图解的全局对比损失、视频与手册的局部对比损失,以及手册内图解之间的对比损失。实验显示,使用这些损失函数可以显著提高模型的对齐性能。这项研究在视频-图解对齐、多模态对齐领域具有重要意义,尤其是在机器人模仿学习和人类组装任务辅助等应用中,具有广泛的潜在应用前景。(ChatGPT4o).
Aligning Step-by-Step Instructional Diagrams to Video Demonstrations