我们提出 RoMo:一个包含 82 万条野外 3D 人体动作的大规模层级数据集,带有细粒度文本描述,并按三级分类体系(类别 -> 子类别 -> 原子动作)组织,同时提供信息丰富的文本提示标注。饼图展示了类别与子类别分布,右侧四个示例展示了动作多样性。语言、图像与视频生成建模的成功表明,大规模且高质量策划的数据集是构建强大模型的关键驱动力。然而,3D人体动作领域一直落后,受限于两难选择:要么使用小规模但高保真的动作捕捉数据集,要么使用大规模野外采集但以静态或低质量序列为主的数据集。我们提出RoMo,一个内容丰富、大规模且精心整理的野外人体动作数据集,解决了这一权衡。为保证质量,我们提出了具备分类体系感知的过滤流程,能够积极剔除静态及易产生伪影的序列。每条序列都配有细粒度文本描述,并按照新的三级语义分类体系组织。该层级结构首次支持按类别的细粒度评测基准,揭示了全局指标掩盖下的模型优势与不足。我们证明,在RoMo上训练的模型在保真度与多样性上达到最新水平,同时对复杂、细微文本提示具有更强理解能力。最后,我们发布Motion Toolbox,用于统一评测指标、数据转换与可视化,为可复现、可解释的人体动作生成研究奠定基础。