Academic-DavidZ
Academic-DavidZ
主页
文章
项目
经历
获奖
简历
浅色
深色
自动
中文 (简体)
中文 (简体)
English
Deep Learning
Temporally Grounding Instructional Diagrams in Unconstrained Videos
这篇文章的主要研究对象是在视频中同时定位多个查询序列,尤其是将说明性图解与视频中的时间点对齐的问题。作者指出,现有的很多方法只针对单个查询进行定位,忽略了查询之间的内在关系(如互斥性和时间顺序),这可能导致不同步骤图解的时间跨度重叠或顺序错误,进而影响定位的准确性。为了应对这个问题,作者提出了一种新的方法,通过构造复合查询(将步骤图解的视觉内容特征与固定数量的可学习位置嵌入结合)来同时定位多个步骤图解。该方法通过自注意力机制减少时间跨度的重叠,并通过内容和位置的联合指导校正时间上的错位。文章展示了该方法在Ikea Assembly in the Wild(IAW)数据集和YouCook2基准数据集上的有效性,能够显著优于现有方法,同时能够同时定位多个查询。这种方法的核心贡献是设计了一种新的检测Transformer模型,能够同时定位一系列步骤图解,并通过复合查询和联合指导的交叉注意力机制提高定位准确性。 (ChatGPT4o).
张家豪
,
Frederic Zhang
,
Cristian Rodriguez
,
Yizhak Ben-Shabat
,
Anoop Cherian
,
Stephen Gould
PDF
引用
ArXiv
Assembly Video Manual Alignment
CVPR'23 Aligning Step-by-Step Instructional Diagrams to Video Demonstrations的官方Pytorch实现。
代码
Aligning Step-by-Step Instructional Diagrams to Video Demonstrations
文章讨论了如何对齐逐步说明图与现实世界中的视频演示,尤其是在家具组装场景下。传统的Ikea组装手册通常使用图解说明步骤,但这些图解有时可能含糊不清或与实际的产品存在差异,而通过视频来展示组装过程可以有效弥补这些不足。然而,网络上的DIY视频往往包含大量与实际任务无关的内容,这使得视频与说明图的对齐成为一个复杂的问题。为了解决这一问题,文章提出了一种新的对比学习框架,旨在通过多模态特征的对齐,将视频片段与图解进行匹配。文章引入了一个新的数据集——IAW(Ikea Assembly in the Wild),该数据集包含超过183小时的家具组装视频以及8000多张图解说明,用于评估该方法的效果。实验结果表明,该方法在视频片段和说明图解之间的检索和对齐任务上取得了显著的性能提升。此外,文章提出了三种针对性的新型损失函数,旨在通过对比学习更好地对齐视频和图解,包括视频与图解的全局对比损失、视频与手册的局部对比损失,以及手册内图解之间的对比损失。实验显示,使用这些损失函数可以显著提高模型的对齐性能。这项研究在视频-图解对齐、多模态对齐领域具有重要意义,尤其是在机器人模仿学习和人类组装任务辅助等应用中,具有广泛的潜在应用前景。(ChatGPT4o).
张家豪
,
Anoop Cherian
,
Yanbin Liu
,
Yizhak Ben-Shabat
,
Cristian Rodriguez
,
Stephen Gould
PDF
引用
代码
数据集
海报
演示文稿
视频
DOI
ArXiv
补充材料
GoferBot: A Visual Guided Human-Robot Collaborative Assembly System
这篇文章介绍了一种名为GoferBot的视觉引导人机协作装配系统,旨在应对智能制造环境中人机协作的需求。文章中提出的GoferBot系统主要通过视觉感知来识别人类的动作和任务进展,并进行相应的反应。该系统包括三个子模块:视觉伺服模块、动作识别模块和视觉交接模块。GoferBot能够在动态且非结构化的环境中完成装配任务,例如通过识别和预测人类动作来实现零件的抓取和交接。研究表明,该系统在不依赖深度传感器、标记物或运动追踪器的情况下,仅使用两个RGB摄像头即可实现高效的协同工作。通过实验验证,GoferBot在家具装配任务(例如IKEA桌子装配)中表现出良好的效率,并且与基于语音指令的系统相比,人机交互更加直观自然。文章还讨论了GoferBot的评估方法,分为以机器人为中心的评估和以人为中心的评估。实验结果表明,GoferBot在多个装配循环中达到了90%的成功率,尽管在重复任务中系统的性能会有所下降。文章最后总结了GoferBot的局限性,并提出了未来改进方向。(ChatGPT4o)
Zheyu Zhuang
,
Yizhak Ben-Shabat
,
张家豪
,
Stephen Gould
,
Robert Mahony
PDF
引用
视频
DOI
ArXiv
Image Caption Generator
一个基于 encoder(Resnet152)-decoder(LSTM) 的图像描述模型实现。
代码
引用
×