下载
词向量接口和模型
词向量接口的代码可以在GitHub上找到。接口本身是一个RStudio闪亮的应用程序开发的乔纳森·d·菲茨杰拉德和Parth Tandel。它使用本杰明·施密特的R包wordVectors(这本身包含一个托马斯Mikolov的原始版本代码word2vec)培训和查询词嵌入模型。
这GitHub库包括一词向量接口中使用的模型,以及一个JSON目录包含这些模型的描述。
纯文本生成的例程
的从XML生成明文的脚本和样式表可以发现在Github WWP公共代码共享。这个库包含一个XSLT样式表和几个XQueries由女性作家项目开发人员。
XSLT样式表需要一个文档编码根据约定的文本编码倡议(TEI)。XML被修改,主要内容中,大多数序列化器可以从文档中提取纯文本的文本节点。XQuery脚本用于从XML提取明文文本节点以最简单的方式。
走查
预演培训和查询一个模型使用wordVectors包可以在Github WWP公共代码共享。这个库包含两个RMarkdown文件:引入包括详细说明和评论;它旨在覆盖整个过程从安装包测试模型对那些有一个基本的熟悉与word2vec R但没有经验。培训的模板文件包括代码和查询模型与最小指令;它的目的是使这些过程方便那些熟悉这些基础知识。
存储库还包含一个“数据”文件夹与少量的测试文本,一个“输出”文件夹,任何出口可以得救,和项目文件在这个目录来帮助组织工作。
该工具包主机静态的,适用版本的R预演。
额外的资源
几个清单和导游可在主WWP网站。这些工作表缺少文档旨在帮助:
- 准备一个语料库,
- 验证模型,
- 试验设置训练模型,
- 使用向量模型来启动一个corpus-wide发现词搜索。