Facebook 首席人工智能科学家Yann LeCun 在一篇博文中表示,自监督学习是“在人工智能系统中构建背景知识和近似常识的最有前途的方法之一”。这种常识,即“人工智能的暗物质”,可以帮助人类在不需要过长的学习期的情况下获得新技能。
自动贴标
自监督学习(SSL)是一种自动标记训练数据的学习方法。
与无监督学习不同
SSL 仍然基于注释和元数据,但这些元数据是由 AI 系统通过利用数据的底层结构及 墨西哥电话号 其关系自主生成的。
该技术通常包括获取输入数据集并隐藏其中的一部分。然后,SSL 算法必须分析仍然可见的数据,以预测隐藏的数据(或隐藏数据的某些属性)。在此过程中,它会创建使其能够学习的标签。
自监督学习有几个好处。第一个好处很明显,因为数据标记是监督学习的一个主要瓶颈。
为了提高效率,机器学习算法(尤其是深度算法)需要大量事先由人类选 移动应用程序已成为此次活动的重要组成部分 择和注释的数据。
这是一个极其漫长且昂贵的过程
些领域,例如医学,需要特定的专业知识,而且有时数据稀缺,因此这个过程可能非常复杂。
SSL 可以避免这个障碍,,无需管理或手动标记。
正如Facebook 所强调的那样,这种方法还可以限制这些阶段可能出现的偏见的编码,有时还可 西班牙比特币数据库 以改善标签(例如在医学成像中)。
广义上讲,SSL 使人工智能社区能够处理更大、更多样化的数据集,以及更快地创建和部署模型。
惊人突破
自监督方法推动了自然语言处理 (NLP) 的重大进步,其中在非常大的文本语料库上对人工神经网络进行预训练已经在机器翻译或问答系统等多个领域取得了突破。
Word2Vec 是使用 SSL 的一个很好的例子。谷歌研究人员开发的这一系列词嵌入模型依赖于两层人工神经网络,使用向量表示单词,并尝试根据上下文预测单词(连续词袋,CBOW)和反之亦然(Skip-gram 模型)。