他是澳大利亚国立大学计算机科学研究学院的三年级博士研究生。他不仅是一位充满激情的学术研究新人,对众多深度学习主题都有浓厚的兴趣,特别是在计算是视觉与视频理解领域。同时,他还是一名活跃的全栈网站开发人员。目前,他正在进行一个由Stephen Gould教授、Anoop Cherian博士、Yizhak Ben-Shabat博士和Cristian Rodriguez博士指导的研究项目。在此之前,他于2021年分别从澳大利亚国立大学和山东大学获得了高级计算(荣誉)学士学位和计算机科学与技术学士学位。
计算机科学博士, 2022至今
澳大利亚国立大学
高级计算(荣誉学位), 2019 - 2021
澳大利亚国立大学
计算机科学与技术, 2017 - 2019
山东大学
这篇论文提出了一种基于手册的3D部件装配方法,旨在通过学习装配顺序和预测6D位姿,自动化实现复杂家具的组装。本文利用对比学习和变换器架构,设计了Manual-PA框架,以手册中的步骤图为指导,进行部件的语义对齐和装配顺序推理,结合位置编码优化装配过程。实验表明,该方法在PartNet和IKEA-Manual数据集上显著提升了装配性能,尤其是在复杂结构和多部件任务上的鲁棒性和泛化能力。未来工作可进一步探索更灵活的检测机制、多视角处理,以及统一的类别无关模型。(ChatGPT4o)
这篇文章的主要研究对象是在视频中同时定位多个查询序列,尤其是将说明性图解与视频中的时间点对齐的问题。作者指出,现有的很多方法只针对单个查询进行定位,忽略了查询之间的内在关系(如互斥性和时间顺序),这可能导致不同步骤图解的时间跨度重叠或顺序错误,进而影响定位的准确性。为了应对这个问题,作者提出了一种新的方法,通过构造复合查询(将步骤图解的视觉内容特征与固定数量的可学习位置嵌入结合)来同时定位多个步骤图解。该方法通过自注意力机制减少时间跨度的重叠,并通过内容和位置的联合指导校正时间上的错位。文章展示了该方法在Ikea Assembly in the Wild(IAW)数据集和YouCook2基准数据集上的有效性,能够显著优于现有方法,同时能够同时定位多个查询。这种方法的核心贡献是设计了一种新的检测Transformer模型,能够同时定位一系列步骤图解,并通过复合查询和联合指导的交叉注意力机制提高定位准确性。(ChatGPT4o)
文章讨论了如何对齐逐步说明图与现实世界中的视频演示,尤其是在家具组装场景下。传统的Ikea组装手册通常使用图解说明步骤,但这些图解有时可能含糊不清或与实际的产品存在差异,而通过视频来展示组装过程可以有效弥补这些不足。然而,网络上的DIY视频往往包含大量与实际任务无关的内容,这使得视频与说明图的对齐成为一个复杂的问题。为了解决这一问题,文章提出了一种新的对比学习框架,旨在通过多模态特征的对齐,将视频片段与图解进行匹配。文章引入了一个新的数据集——IAW(Ikea Assembly in the Wild),该数据集包含超过183小时的家具组装视频以及8000多张图解说明,用于评估该方法的效果。实验结果表明,该方法在视频片段和说明图解之间的检索和对齐任务上取得了显著的性能提升。此外,文章提出了三种针对性的新型损失函数,旨在通过对比学习更好地对齐视频和图解,包括视频与图解的全局对比损失、视频与手册的局部对比损失,以及手册内图解之间的对比损失。实验显示,使用这些损失函数可以显著提高模型的对齐性能。这项研究在视频-图解对齐、多模态对齐领域具有重要意义,尤其是在机器人模仿学习和人类组装任务辅助等应用中,具有广泛的潜在应用前景。(ChatGPT4o)