首页 » 从自然语言处理到计算机视觉

从自然语言处理到计算机视觉

SSL 还可以基于Transformer 架构训练新一代语言模型,其中同样由谷歌开发的 BERT 就是一个很好的例子。

与 Word2Vec 不同,BERT 是一种上下文表示模型。因此,Word2Vec 为每个单词生成一个向量(“Orange” 这个词虽然可以指颜色、水果、城市或公司,但其表示形式相同),而 BERT 可以根据单词使用的上下文生成多个向量。

首先,该模型在大量未标记的文本数据集(例如,所有英文维基百科页面)上进行预训练。

然后对它进行微调

 

即针对特定任务(例如情绪分析或文本生成)对它进行少量数据重新训练。这种方法使 墨西哥電話號碼 其结果比以前的算法更精确,学习速度也更快。

此外,它能够用很少的数据专门处理许多任务,并且在许多情况下比现有的专门模型表现更好。得益于谷歌发布的开放版本,BERT 已经衍生出多个衍生版本。

自我监督学习可能使自然语言处理取得进展,但所使用的技术不能轻易转移到新的领域,例如计算机视觉。

Yann LeCun写道,这主要可以通过这样一个事实来解释:在图像预测中有效地表示不确定 美元 三份最佳营销活动 性比在词语预测中困难得多。

“当无法准确预测缺失的单词时 […],系统可以将分数或概率与词汇表中所有可能的单词关联起来 […]。”这在计算机视觉中是不可能实现的。“我们无法列出所有可能的视频帧并为每个视频帧关联一个分数,因为它们的数量是无限的。”

SEER 配方的成分

为了解决这个问题,Facebook 开发了 SEER 模型,该模型结合了其实验室内部研发的多项创新技术。

第一个要素:SwAV是与 Inria 合作开发的在线聚类算法,它利用对比方法对具有相同视觉特征的图 西班牙比特币数据库  像进行聚类,而无需明确比较大量图像对。

对比学习可以训练模型识别图像之间的相似点和差异点,通过比较经过变换或以不同角度拍摄的图像对,从而学习物体的不变特征。

这是一种非常有效的无监督学习视觉概念的方法,但比较过程需要极高的计算时间,因此需要寻找替代方案。Facebook 声称,借助 SwAV,它取得了良好的性能,同时将模型的学习时间缩短了六倍。