阅读笔记-ReMOTS__Self-Supervised Refining Multi-Object Tracking and Segmentation Keypoint Similarity Loss

ReMOTS: Self-Supervised Refining Multi-Object Tracking and Segmentation

🐋作者:

image-20221021142928234

📘**arXiv: ** https://arxiv.org/abs/2007.03200

1.1 摘要

我们的目标是通过后续修正跟踪结果来提高多目标跟踪和分割 (MOTS) 的性能。然而,修正 MOTS 结果仍然具有挑战性,这可能是由于外观特征不适合目标视频,也很难找到合适的阈值来区分它们(不同的轨迹)。为了解决这个问题,我们提出了一个基于自监督的修正MOTS(即 ReMOTS)框架。 ReMOTS主要从数据关联的角度修正MOTS(跟踪)结果,主要包括四个步骤: (1) 使用预测掩码(Mask)训练外观编码器; (2) 将相邻帧之间的检测结果关联起来形成短期轨迹 ;(3) 使用短期轨迹作为可靠的伪标签来训练(短轨迹的)外观编码器; (4)利用合适的外观特征(从外观编码器中获取)和从统计信息中获得的阈值将短期轨迹合并到长期轨迹。使用 ReMOTS,我们在 CVPR 2020 MOTS Challenge 1 中获得第一名,sMOTSA 得分为 69.9。

1.2 方法与总结

image-20221021144306785

🍂方法:

作者将跟踪结果的修正分为两个阶段:

  • 第一阶段逐两帧关联检测到的目标,具体方法是用训练后的ReID网络提取每帧目标的外观特征,然后根据相邻帧bbox的IoU和外观特征的Cosine similarity构建相邻帧的距离矩阵(IoU 和余弦相似度过小则目标之间的距离为INF),这里比较有意思的是余弦相似度的阈值不是作者认为指定的,而是通过统计分析两帧之间相同身份ID的目标之间外观相似度的分布,通过正态分布的$3\sigma$原则确定的。有了距离矩阵之后再通过匈牙利算法执行分配,确定相邻帧的连接关系,逐帧操作,以形成短轨迹(因为在跟踪过程中目标会出现被遮挡的情况,因此逐帧关联可能会把相同ID但是中间被遮挡的目标截成两个短轨迹)。
  • 第二阶段从整个视频序列来考虑,合并短轨迹,具体而言又用短轨迹构建正负样本重新训练了第一阶段的ReID网络,训练完成之后重新提取每一帧目标的外观特征,然后同样的构建短轨迹段之间的距离矩阵,与上一阶段不同的是这里通过轨迹时序约束和余弦相似度击中比例作为距离阈值。两个短轨迹只有出现时间上不重叠,且前后出现时间间隔不超过15帧,才能被有机会被彼此关联上,满足上述条件的轨迹再计算两段轨迹外观相似度矩阵的平均相似度作为短轨迹之间的距离矩阵。最后文章用了一种层次聚类的方法结合短轨迹距离矩阵进行轨迹聚类,聚类阈值选定的时候也是通过统计的方式在GT轨迹中构建相同ID相似度的分布以及不同ID相似度分布,确定聚类阈值。

训练数据构建方面,第一阶段,构建预测轨迹的正负样本对和GT轨迹的正负样本对。预测的轨迹中选择同一帧中另一个不同ID的目标作为负样本,轨迹自身数据增强后的样本作为正样本;对于GT轨迹而言选择不同帧同一ID的目标组成正样本,不同帧不同ID的目标作为负样本。1:1混合预测轨迹和GT轨迹构建的正负样本对进行ReID网络的训练。第二阶段,也是分为预测和GT的正负样本对。第一阶段生成的短轨迹的不同帧目标之间互为正样本,短轨迹同一帧但是ID不同的目标互为负样本;GT轨迹则和第一阶段一致,不同帧同ID为正样本,不同帧不同ID为负样本,同样也是1:1混合之后训练ReID网络。

总结

感觉这篇文章比较新颖的点就是尝试利用数据集的统计信息对关联阶段的禁止关联阈值和截断阈值进行了设置,省去了大量网格搜索的时间所得到的阈值也更具说服力(让数据来说话),其实不通过层次聚类而采用另一些无监督的聚类方法应该也能得到一个较好的结果。一点不足就是可能文章对目标的建模只停留在了外观表征方面,在目标时序和运动建模上考虑的还比较少。