Aligning Step-by-Step Instructional Diagrams to Video Demonstrations

视频-图示对齐任务示意图:上方为 YouTube 视频 He0pCeCTJQM,下方为 IKEA 家具说明书 s49069795

摘要

跨模态对齐能够在一种模态中发起查询,并在另一种模态中检索对应实例。本文研究一种新的对齐设定:在(i)以装配图示形式呈现的说明步骤(常见于宜家装配手册)与(ii)野外视频中的片段之间建立对应关系,这些视频展示了现实世界中的装配动作。为学习这种对齐,我们提出一种新的有监督对比学习方法,在一组新设计损失的引导下,使视频与装配图示中的细粒度细节对齐。为研究该问题并验证方法有效性,我们构建了新数据集IAW(Ikea Assembly in the Wild),包含来自多种家具装配场景的183小时视频、近8,300张对应说明书图示,并标注其真实对齐关系。我们在该数据集上定义了两个任务:其一是视频片段与图示之间的最近邻检索;其二是对每个视频中的说明步骤与片段进行对齐。IAW上的大量实验表明,我们的方法显著优于现有替代方案。

类型
出版物
In Conference on Computer Vision and Pattern Recognition 2023
张家豪
张家豪
博士研究生

研究方向:视频理解与生成,代理与具身人工智能以及网页开发。