Academic-DavidZ
Academic-DavidZ
主页
文章
项目
经历
获奖
简历
浅色
深色
自动
中文 (简体)
中文 (简体)
English
Deep Learning
Assembly Video Manual Alignment
CVPR'23 Aligning Step-by-Step Instructional Diagrams to Video Demonstrations的官方Pytorch实现。
代码
Aligning Step-by-Step Instructional Diagrams to Video Demonstrations
本文讨论了一种新颖的设置,其中指令步骤以装配图的形式表示,并与来自野外视频的片段进行对齐。作者引入了一种监督对比学习方法,该方法学习将视频与装配图的细微细节对齐,由一组新颖的损失指导。他们还引入了一个新的数据集:IAW-用于宜家野外装配-包括来自不同家具装配集合的183小时视频和近8,300幅来自相关说明手册的插图,并注释了其地面真实对齐。作者在此数据集上定义了两个任务:首先,在视频片段和插图之间进行最近邻检索;其次,将指令步骤和每个视频的片段对齐。在IAW上进行的广泛实验表明,我们的方法相对于替代方案具有优越的性能。(由 New Bing 生成).
张家豪
,
Anoop Cherian
,
刘彦斌
,
Yizhak Ben-Shabat
,
Cristian Rodriguez
,
Stephen Gould
PDF
引用
代码
数据集
项目
海报
演示文稿
视频
ArXiv
补充材料
GoferBot: A Visual Guided Human-Robot Collaborative Assembly System
GoferBot is a novel assembly system that seamlessly integrates all sub-modules by utilising implicit semantic information purely from visual perception.
庄哲宇
,
Yizhak Ben-Shabat
,
张家豪
,
Stephen Gould
,
Robert Mahony
PDF
引用
视频
DOI
ArXiv
Image Caption Generator
一个基于 encoder(Resnet152)-decoder(LSTM) 的图像描述模型实现。
代码
引用
×