Skip to content

自然语言处理:预训练

自然语言处理是指研究使用自然语言的计算机和人类之间的交互。

用来自大型语料库的现有文本序列, 自监督学习(self-supervised learning) 已被广泛用于预训练文本表示, 例如通过使用周围文本的其它部分来预测文本的隐藏部分。 通过这种方式,模型可以通过有监督地从海量文本数据中学习,而不需要昂贵的标签标注!

本章我们将看到:当将每个单词或子词视为单个词元时, 可以在大型语料库上使用word2vec、GloVe或子词嵌入模型预先训练每个词元的词元。 经过预训练后,每个词元的表示可以是一个向量。 但是,无论上下文是什么,它都保持不变。 例如,“bank”(可以译作银行或者河岸)的向量表示在 “go to the bank to deposit some money”(去银行存点钱) 和“go to the bank to sit down”(去河岸坐下来)中是相同的。 因此,许多较新的预训练模型使相同词元的表示适应于不同的上下文, 其中包括基于Transformer编码器的更深的自监督模型BERT。 在本章中,我们将重点讨论如何预训练文本的这种表示,如下图中所强调的那样。

alt text

京ICP备2024093538号-1