我使用的是基于 torch.nn.Transformer 的通用序列 Transformer 模型,不是视觉 ViT 或 NLP 模型。 模型的输入是环境感知与车辆状态的特征序列,输出是泊车轨迹点,属于时序预测类的 Transformer。