介绍词嵌入模型

Juniper约翰逊,朱莉娅•弗兰德斯和莎拉·康奈尔大学

字嵌入模型是一组技术从机器学习和自然语言处理(NLP)文本数据数值模型,利用数学类关系矢量地图在语料库词与词之间的语义关系。虽然有很多形式的文本分析,可以用来探索意义在语料库工具如词频率,和谐,和主题建模、字嵌入模型能够处理大量的文本数据预测语义和概念之间的关系。基于机器学习技术来发现行为之间的关系词,词中嵌入模型可以用于分析单词的方式出现在类似的情况下在语料库,并检查这些协会可能意味着什么。例如,把几个月的名字如“1”和“2月。大多数全集”模型训练可能会发现最接近的词项(也就是说,话说最有可能出现在类似的上下文)是其他月份。除了寻找相似性语料库词,词中嵌入模型可以用来探索不同,类比,甚至概念空间:通过定义一组关键字围绕一个主题(如电力或性别相关的单词),字嵌入模型可以用于分析概念跨大全集。能够探索大型文本数据集的密度信息是一个令人兴奋的可能性这个词嵌入模型提供的学者。

本文涵盖了核心概念,简要背景字嵌入的发展,和字嵌入模型的具体实现女性作家向量工具包(WWVT)。然而,这并非详尽的介绍。关于任何主题的更多信息,请访问带注释的阅读列表在WWVT网站上。此外,有一个有帮助的关键术语的词汇表WWVT和深入那样WWVT的方法。最后,还有进一步推荐阅读相关的话题像自然语言处理,机器学习,最后计算文本分析的介绍。

背景

在深入研究字嵌入模型的细节之前,重要的是光泽的起源在机器学习和自然语言处理模型。自然语言处理是一个域的计算机科学分析和处理人类语言(与“机”的语言,如软件代码)。NLP涵盖了广泛的方法和主题包括解析语言结构和语法,识别的意义和影响(如情绪分析),语音识别,机器翻译不同的语言,,最近,深度学习自然语言的应用。机器学习是人工智能的一种应用,在计算机科学中,专注于改进或“学习”的结果。在机器学习中,输入数据往往是分析算法的关系和模式来预测输出。为了促进这个过程,信息的机器学习使用不同的数学模型,包括模型称为“神经网络”,是基于认知科学和生物学。

字嵌入模型结合自然语言处理和机器学习建立空间模型,文本数据映射到数学模型预测语义关系。主要有两种算法嵌入模型:手套和Word2Vec。手套是一个机器学习算法由斯坦福大学自然语言处理组开发的使用语言产生词向量的加权模型。Word2Vec最初是由托马斯Mikolov在谷歌和其他研究人员在2013年。它使用神经网络来学习单词联想在语料库和预测相似的语义关系和上下文。

女作家向量工具包web接口使用一种Word2Vec用R表示软件包wordVectors由本·施密特和剑。还有其他软件包表示在其他编程语言(GenSim在Python包RadimŘehůřek-that,像wordVectors包,允许用户控制模型的训练过程中,设置特定的训练参数,查询一个训练模型。WWP创造了一系列的介绍和培训模板和查询词嵌入模型利用wordVectors R将这些可以下载在这里。或者,WWVT还包括一个web界面所以,研究人员可以查询和与训练模型,不需要下载任何软件。

模型的训练过程

以下部分概述了字嵌入模型的训练过程,概述了关键概念,展示了可能的应用。字嵌入模型表示一个文本语料库作为一个复杂、多维组词的关系,我们可以想象quasi-spatial的方式:作为一个高维的“云”距离模型内的单词表达相似的用法。字嵌入模型将整个语料库作为一个单元的分析。相反的一系列文件、部分或句子,这个模型代表一个语料库作为一个序列的话,无视语法、语法、标点符号和其他文本结构。清洗后语料库(通常涉及删除标点和转换所有字母为小写字符),语料库组合到一个文件中,然后通过wordVectors算法。的训练过程中,每个词被赋予一个随机向量(模型)的多维空间内的一个位置,然后精制在培训过程中,根据实际的词关系的观察。在培训过程中,结合文本通过观察“窗口”,沿着语料库,分析每个单词配对,窗口内的概率。这一过程持续进行整个语料库;这样一个通过构成一个“迭代。“完整的模型训练过程涉及多个迭代,提炼和调整每一个词在向量空间基于额外的词关系的观察。 Sequence and proximity are important in this process because, as a model is trained, it draws on information about word contexts to create a multi-dimensional model of the entire corpus that expresses the relationship of each word to all (or most) of the others.

一个词向量那么,代表一个单一特征的语料库的行为一个单词为一组。每个维度的信息之间的关系这个词语料库和其他人,这有助于指定这个词在向量空间的位置。理论上,可以有尽可能多的维度模型有独特的词汇在篇章,是模型中的每个单词的位置会与其他词表示。然而在实践中,这种模型包含很多无关紧要的信息;相反,“嵌入”过程崩溃这些成千上万的信息贫乏维度成较小的几个几百号—通常更有用信息维度。在训练一个模型中,您可以设置尺寸作为参数的数量。更多的尺寸意味着更多可能的单词之间的联系,但还需要更多的训练时间。

人文学者字嵌入模型是有用的,因为他们提供的见解到语言中使用语料库的方法。他们是异常强大的和细致的分析工具,因为水平的计算控制,复杂性,和提供的相对计算效率。字嵌入模型是相对容易训练和更容易改变。因为培训过程是概率,每个模型略有不同,但通过测试不同参数,学者可以完善他们的模型来适应他们的语料和研究目标。另外,字嵌入模型能够处理和分析大量的文本数据在一个相对小的时间。例如,它通常需要不到15分钟的时间来训练模型WWO语料库约1100万字,不用特别专业或强大的机器。

查询训练模型

有许多不同的方式来查询一个单词嵌入模型;WWVT接口使得一些基本查询用于探索性调查,包括加法、减法,集群和类比。例如,您可能使用加法和减法看看上下文之间的两个方面:

补充:词1 + 2,男人和女人。减法:词1 - 2,男-女。

在第一个示例中,查询将给你的上下文向量相结合的“男人”和“女人。“第二将“减去”的背景下,“女人”从向量中”的人。“另一个有用的例子是以下类比查询允许您减去相关的上下文从另一个然后添加一项与第三任期相关联的上下文:

类比:单词1 -词2 + 3,男人女人+王

这个查询的结果中包括的单词与男性统治者的地位:例如,“王子”、“君主”、“皇帝”。查询的“男-女”部分标识具体male-gendered语义空间,以及补充道:“王”的语义空间统治者的地位。类似地,如果我们逆转第一部分(“女人——人”)我们希望看到与女性统治者的地位:“女王”,“公主”,“皇后”。这个查询工作的前提下这两双词之间有一个类比:男:女::国王:女王。虽然这些例子是相对简单的,格式可用于探索复杂的概念,整个语料库语义域,和其他的东西。更深入地探索这些和其他查询,查看女作家矢量工具界面

为进一步阅读单词嵌入模型和相关的话题,看到WWVT带注释的源列表。此外,有越来越多的职位约字嵌入模型的集合WWP博客。这些包括: