ACL-2020 Contrastive Code Representation Learning

2022-03-25 PaperNote CL, SE 0 0 Comments Word Count: 607(words) Read Count: 2(minutes)

论文地址：Contrastive Code Representation Learning

论文代码：https://github.com/parasj/contracode

ContraCode：基于MoCo的代码对比学习

作者指出RoBERTa模型对于源代码的修改太敏感了，即使这种修改是保留了语义的，所以提出了ContraCode，是基于预训练的方法能够识别相似的变种。

在不改变语义的对抗性修改下，RoBERTa表现甚至比随机分类还差。

作者采用一些源到源的基于编译器的转换技术，比如删除”死“代码：移除不改变代码输出结果的操作

代码转换技术主要分为三类：

通过转换丢弃算法保证多样性，主要是为了保证变换后的代码是修改过的。作者发现再经过20个随机的序列转换方法后有89%的方法有不止一个替代产生。

预训练对比学习：

ContraCode对于编码器架构是无所谓的，作者试验了双层双向LSTM和六层Transformer

作者做了三个角度的实验，zero-shot推理的克隆检测，基于微调的类型推断。简略代码总结生成

对于序列到序列的总结，使用了以下增强技术

对于类型推断，使用了 LS和SW

还有一些代码增强技术：

本文链接： https://tyang816.github.io/2022/03/25/Contrastive Code Representation Learning/

版权声明： 本博客所有文章除特别声明外，均采用 CC BY 4.0 CN协议许可协议。转载请注明出处！