人工智能

浅析 Text and Code Embeddings by Contrastive Pre-Training

文本向量是在很多应用和文本相似度、语义搜索上有很大的应用。之前的工作通常是根据不同的应用来选择数据集定制模型架构。《Text and Code Embeddings by Contrastive Pre-Training》中展示无监督的对比学习可以获得更好的文本向量,并且在这个方法下得到的文本向量在 linear-probe 分类上达到了 SOTA(state-of-the-art),也有着很好的语义搜索能力,甚至可以与 fine-tuned 后的模型比较。