百科问答小站 logo
百科问答小站 font logo



如何看待AAAI22《Mind Your Clever Neighbours》疑似真实标签做无监督? 第1页

  

user avatar   yu-ci-24-94 网友的相关建议: 
      

本人是论文二作,对各位大佬的疑问做如下回复:

1.关于利用图像名排序问题。本文是基于DBSCAN的无监督聚类方法,第一步是根据ResNet-50提取整个训练集的特征,如DukeMTMC-reID上16522x2048(样本个数x向量维数),然后计算Jaccard距离,得到16522x16522的相似度矩阵。根据这个相似度矩阵,DBSCAN算法会给每一张图片分配伪标签。

在这个过程中,使用图像名的排序与不排序并不会影响16522x16522相似度矩阵的计算,因为每张图片都会与整个训练集的图片计算相似性,因此生成的伪标签是一样的。

2.我们的出发点是说,不是简单地用Backbone之后的特征进行DBSCAN,而是想在训练集的特征上进行一次信息传播,再进行DBSCAN聚类生成伪标签。考虑到针对整个训练集构建一个16522个节点的图太大了,每个epoch训练我们又需要遍历整个训练集,难以实现。我们就采用构建Batch次/Group次的方式,就是论文里所描述的:基于排序同ID会聚在一起的先验知识,按照顺序构建了一系列的小图,直到遍历整个训练集。尽管同ID会聚在一起,但每个ID的图片数目是随机的,在顺序遍历的时候,每个图中的ID数目是随机的。同一个ID的图片也会分布在不同的小图中。而GCL的消息传播会让每个图中相似样本特征相互靠近。通过GCL遍历整个训练集,我们得到Refine后的特征16522x2048,与原始特征级联得到16522x4096的特征。接着与基线方法一样计算16522x16522的相似度矩阵,根据这个相似度矩阵,DBSCAN算法会给每一张图片分配伪标签。

值得指出的是:训练用的标签均由DBSCAN产生。

针对Batch次/Group次的方式:

AAAI2022审稿人的意见2:

The message passing via self-attention is performed at the batch/group level while the clustering (for generating the pesudo labels) is performed at the dataset level. Intuitively, using local-range feature refinement does not make enough sense to promote global-range pesudo lable generation via clustering.

Rebuttal的回答:

审稿人也认可并接受了我们的解释。

针对图像名排序问题:

事实上AAAI2022的审稿人3提到了:

In 'Graph Correlation Learning for Clustering' section, the paper mentioned to sort V according to the image names. But, the image names in the datasets often contain ID information. It implies that this method somehow takes advantage of ground truth labels, not just 'a prior knowledge'.

Rebuttal中我们也做了相应的回答:

我本人一直在做Re-ID任务,对主流无监督的方法也比较熟悉。本文给大家带来疑问,作如上解释,希望澄清事实。

另外,我们在做实验的时候也有不需要排序的改进版本,即二次聚类方法:第一次聚类就按照基线方法,根据ResNet-50提取整个训练集的特征16522x2048(DukeMTMC-reID上),得到相似度矩阵进行DBSCAN聚类,得到伪标签。因为DBSCAN聚类会有-1标签,我们根据最近邻的方法,给每个-1标签分配其最近邻对应的伪标签,从而完成整个训练集的伪标签分配。一旦完成,那么我们就可以对每个伪标签的所有图片,构建图,进行消息传递,得到优化后的特征。第二次聚类,与之前的描述一样,我们再将这个优化后的特征与原始特征级联,得到16522x4096的特征。接着与基线方法一样计算16522x16522的相似度矩阵,根据这个相似度矩阵,DBSCAN算法会给每一张图片分配伪标签。

这种设置在DukeMTMC-reID上的实验结果如下图所示:

上述结果也比全监督PCB 69.2 83.3 和无监督CC 72.8 85.7 高,说明不需要排序的改进版本仍具有优势。

其他数据集的结果我们也会放出来,供大家查阅。近期会开源我们的代码。


user avatar   zhpp-21 网友的相关建议: 
      

本人是该工作的通讯作者张平平,今天下午看到此问题,经所有作者讨论,回复如下:

1. 论文投稿和rebuttal经过学生已在(zhihu.com/question/5041)中回复,arXiv论文是投稿版本,并未包含rebuttal补充的修改与实验;

2. 正在全面的做random shuffle setting的实验,将在第一时间(不晚于12月18日)做好实验说明和分析再来更新答复;

3. 完成相关试验后,在camera-ready截止日期前根据新的结论和rebuttal阶段的讨论内容跟AAAI主席沟通是否撤稿。

=====================================================================

感谢各位网友的关注,经详细实验验证,二次回复如下:

1. 错误使用文件名问题:错误地使用图片名作为排序标准是我们的实验失误,深表抱歉;所有作者一致同意将向AAAI组委会申请撤稿。

在打乱顺序的情况下,各个数据集上的模型性能变化如下:

方法4:在3的模型结构基础上对训练集使用Random Shuffle操作。

Baseline[我们复现]:原论文是4卡训练,我们都是2卡训练。批次数是原论文的一半。需要指出的是:上表中我们复现的Baseline结果与原AAAI22投稿中Baseline方法(Dai et al 2021)汇报的结果有一定的差距(https://arxiv.org/pdf/2103.11568.pdf)。在重新检查Baseline论文后,我们发现Baseline原论文更新了Arxiv版本(arxiv.org/pdf/2103.1156),其结果有所变化。

2. 算法有效性问题:

在实验过程中发现的一些现象和结论,分享出来供大家参考:

(1)通过对错误排序版本和Random Shuffle版本的学习过程进行分析,发现GCL实际上需要每个小图内有相关正样本才能起到比较好的消息传播作用,否则会损害原始特征,导致效果进一步变差;

(2)在Rebuttal中我们采用了二次聚类策略来尝试给GCL好的初始化,避免使用文件名。在重新做实验的过程中,我们发现在一定条件下GCL可以起到不错的正向作用,也就是使用Baseline方法预训练的ResNet-50初始化+聚类。

其中涉及的关键技术和结论如下:

1. 为了避免标签泄露,我们对3个训练集的所有图片进行随机打乱。

2. 使用的Baseline方法

Baseline方法参考文献 (Dai et al. 2021), 分为三步:(a)伪标签生成;(b)监督训练;(c)测试集评估。

测试阶段:Baseline方法和我们方法均使用ResNet-50后的特征进行测试,流程如下图所示:

3. 投稿论文中方法

投稿论文中实际的算法流程如下图所示,核心的问题是错误地使用了图片名来排序,存在标签泄露问题。

4. 全打乱顺序方法

针对各位网友关心的打乱顺序方法,我们将Random Shuffle操作应用到生成伪标签过程中,如下图所示:

5. Rebuttal阶段提到的二次聚类方法

该方法的出发点是我们利用二次聚类避免使用文件名排序,具体流程如下图所示:

这里我们使用第一次聚类(K-means)得到的伪标签进行排序,顺序构建子图,然后每个子图施加GCL模块,得到传播后的特征。

6. 实验结果及分析

所有实验均在双卡2080ti上进行,环境主要配置:Python3.6、Pytorch1.0、Torchvision=0.3.0、Faiss=1.6.3、Cuda10.1/10.2。

Market1501数据集超参数: GCL中的参数(图的大小为16,温度参数5),K-means中的K设置为800。

DukeMTMC-reID数据集超参数: GCL中的参数(图的大小为16,温度参数为5),K-means中的K设置为750。

MSMT17数据集超参数: GCL中的参数(图的大小为16,温度参数为5),K-means中的K设置为1300。

从本表中可以看出:1)在Random Shuffle设置下,GCL将会反向优化,损害模型的性能。2) GCL能起作用的条件是:子图中有比较良好的近邻关系,也就是第一次的聚类结果要比较可靠。

小结:

(1) 在能挖掘到较为良好的近邻关系时,GCL会起到正向作用,提升网络的性能;反之,打乱顺序,则GCL会反向优化。

(2) 实验结果表明,在使用伪标签排序条件下,所提模型在Market1501和DukeMTMC-reID数据集上有一定的优势,但是在MSMT17数据集上表现较差。

最后,对于给大家带来困扰再次表示抱歉,今后会更加注重实验规范性。


user avatar   ding-ming-55-55 网友的相关建议: 
      

女王:求求题主放过我,我可不敢有什么政绩。。。




  

相关话题

  如何看待华为 2019 一季度手机出货超 5900 万,同比去年 3930 万增长 50%? 
  以当时的科技,周穆王时偃师的木质机器人,墨子的木鸢,孔明的木牛流马,能造出来么? 
  咱们国家有哪些称得上世界第一的科学技术? 
  如何看待三大运营商5G套餐降价:最低只要69元?降价原因是什么? 
  国外正在研发哪些黑科技?或者正在进行哪些领先的科学计划或者科研项目? 
  有哪些科技像「美洲文明的轮子」很简单很低端,人类文明却很晚发明或大规模使用的? 
  视频搜索会成为新的趋势吗? 
  俄罗斯的航空航天技术水平如何? 
  如何评价 11 月 17 日华为发布 WATCH GT3 系列?有哪些亮点和不足? 
  如何看待大疆因被美国列入了制裁名单而遭 Figma 冻结公司团队账户? 

前一个讨论
当前(2020年)机器学习中有哪些研究方向特别的坑?
下一个讨论
为什么 MobileNet、ShuffleNet 在理论上速度很快,工程上并没有特别大的提升?





© 2024-12-22 - tinynew.org. All Rights Reserved.
© 2024-12-22 - tinynew.org. 保留所有权利