博客地址:Understanding Self-Supervised and Contrastive Learning with "Bootstrap Your Own Latent" (BYOL)
为什么BYOL模型学习没有坍塌:增加 Batch Norm
做了很多消融实验,发现只要增加了Batch Norm,性能也就还行。但是换成Layer Norm效果还是很低。做了Batch Norm其实是把一个Batch的样本拿过来算了均值方差,然后用来做归一化,也就意味着在算某个正样本的loss的时候其实也看到了其他样本的特征,有信息泄露。因为有这种信息泄露的存在,所以这种学习可以理解是不是光是正样本在自己学习,相当于做了隐式的对比学习,让一个batch中的样本与平均样本进行对比学习。