方法

这个词向量接口

词向量接口的代码可以在GitHub上找到。接口本身是一个RStudio闪亮的应用程序开发的乔纳森·d·菲茨杰拉德和Parth Tandel。它使用本杰明·施密特的R包wordVectors(这本身包含一个托马斯Mikolov的原始版本代码word2vec)培训和查询词嵌入模型。

GitHub库包括一词向量接口中使用的模型,以及一个JSON目录包含这些模型的描述。

全集

这个词向量接口是由三个从三个不同的项目文档的集合。每个语料库是转录和XML编码的,以下的指南文本编码倡议(TEI)。通过使用文本标记在TEI,我们能够对文本做出微妙的选择特性用于生成的文件我们训练有素的嵌入模型。这个词

女性作家的项目女性作家在网上(WWO)语料库收集作品创作,翻译,或编制的妇女,在1526年和1850年出版。语料库是网上订阅的机构或个人(找到一个月免费试用的信息WWP网站)。XML文件是免费的。考虑,发送一封电子邮件的简要描述你的研究wwp@northeastern.edu

接口还包含模型的训练文本维多利亚时代的女性作家项目(VWWP),以及早期的英语书在线(EEBO),十八世纪集合在线(出版),埃文斯早期美国印TEI文本发表的文本创建伙伴关系(TCP)。从大量TCP语料库,我们选择sub-corpora大致镜子WWO语料库在每世纪的字数。印第安纳大学VWWP开始于1995年,是关心的不为人知的19世纪的英国女性作家。集合包含一系列的类型,包括:诗歌、小说、儿童读物、政治小册子,宗教,和历史。

语料库的准备

为了得到纯文本的WWO XML,我们改变了语料库使用XSLT和XQuery编写的一套工具,原生XML文档的编程语言。XSLT样式表使用TEI编码做出微妙的选择重要的文本内容。例如,缩写是扩大和纠正错误在我们的文本输出,基于编码<方法><依斯攀>,用< sic >< corr >元素。

除了改变输出特定元素的基础上,我们使用XQuery脚本删除元素,斜嵌入模型结果与词,如扬声器标签在戏剧。现代写作,如元数据和文本WWP编码器和工作人员写的,也会被删除。XQuery脚本也使我们能够构建sub-corpora使用XPath提取XML文档的指定部分。

这些工具可以在找到WWP公共代码共享在GitHub上。

我们还与一些额外的正则化包括两个模型,利用开发的例程可视化英语打印项目:一个版本的完整WWO语料库和一只包括归因于WWO作者的语言。全部细节VEP项目的正则化例程中可用VEP-Pipeline GitHub库文档我们借他们的代码与感谢和感激。

语料库解析

女性作家向量Toolkit (WWVT)提供了探索和比较各种模型。除了两个模型,包括WWO中的每个文件(包括前后物质和一个专门的主体文本),该接口还提供了选择比较模型通过出版日期和流派。

WWO语料库跨度超过三个世纪,包括信息之日起每个文本的第一个版本,使语料库的理想探索用词的变化。出版日期是用于排序和合并文档世纪出版的,与每个sub-corpus包含所有文件发表在一个世纪,除了16和17世纪,总和。16和17世纪一起提供更准确的模型和足够的词汇是大约相同的大小18世纪和19世纪的模型。这些模型可以用于历时研究的文学和文化变革。

为类型创建代理,我们能够利用TEI编码的文档结构。例如,界面包含两个模型,一个训练有素的专门语料库与段落的内容(TEI< p >元素)与线的内容组织和其他(TEI< lg >元素),使一个基本比较散文和诗歌。

另一个语料库来自WWO TEI标记的是“作者”语料库,只包括那些文本内容WWO作者写的,和不包括表的内容、指标,编辑前言证书,用户列表,等等。这个语料库是准备使用“FulltextBot”一个XSLT样式表由火山灰克拉克和莎拉·康奈尔可用WWP的GitHub库。

我们还利用TEI标记创建几个全集地方和人的名字被插入标记化的强调词与词之间的内部< persName ><地名>元素和删除多余的空格和标点符号。这些语料库是准备使用“元素记号赋予器”一个XSLT样式表由杜松约翰逊和灰克拉克可用WWP GitHub的存储库。

TCP全集准备和解析

TCP是WWO设计成平行语料库,近似在线单词计数每世纪女作家。从TCP收集文本文件中,我们使用一个Python脚本计算字数在每个文本,然后使用的纯文本版本出版日期选择元数据的一个子集文本从TCP收集每世纪大约相同数量的字如WWO收集。在未来,我们打算用更精确的方法来创建平行语料库,利用标记选择具有类似数量的文本<李>,< p >,< sp >元素,例如,以确保一个粗略的平衡两个语料库文本之间的类型。

模型试验

一旦每个文件的纯文本被净化,规范化,排序,并结合,生成的文本文件与word2vec可以用来训练模型。选择最佳拟合参数数据,我们比较模型的余弦相似词对,基于我们的知识这些语料,我们期望有高程度的相似性(如:“之前”和“之后”;“爸爸”和“妈妈”;“国王”和“王子”;和“神圣”和“神圣的”)。我们发现我们获得最好的结果从一个模型创建的窗口大小6,100向量,10次迭代,负采样设定在15。模型产生的最小数据集变化与最优略- 5点取样。

与模型参数,然后,我们测试我们的三个正则化过程:XSLT和XQuery孤独;西北大学的MorphAdorner;早期现代英语和MorphAdorner调谐敏感词汇和拼写的做法。我们再次测试模型与词搭配,发现XSLT和XQuery产生最好的结果。在未来,我们打算测试其他文本正则化方法,并添加模型一直在训练语料相同,但是由于不同的正则化过程,允许进行比较。我们还将添加更多的健壮的验证方法,更新我们的模型结果的基础上,验证,和出版我们的验证例程,随着代码用来训练模型,在这个空间。

模型版本控制

随着WWP团队不断添加新文本对女性作家在网上,我们将更新模型工具包。当前和以前版本的我们的模型是可用的GitHub库

下载

的链接查看和下载这个项目的例程和代码,看到我们下载页面