WWP高级研究院:词向量的周到的人文主义者

应用程序

申请参与WWP的机构之一字嵌入模型,请发送以下信息wwp@neu.edu:

  • 你的名字和机构联系。
  • 我们可以达到你的联系人的电子邮件地址。
  • 你申请参加的研讨会?
  • 短暂的利益(两个或三个段落)语句描述你的工作与数字方法(教学和/或研究),这个机构将如何支持它。如果你有一个特定的课程或研究项目,请描述它。
  • 这个研究所包含的选项让数据自己的语料库(详情见下文)。如果你有一个语料库的数据你想工作,请简要描述它:多少和什么样的文件?总共多少个字?目前的数据是什么格式?如果语料库使用TEI或其他XML标记,请简要描述标记和它的目的。
  • 请注意,2022年5月研讨会将几乎,所以没有行程安排是必要的。

申请者将被上市的日期通知研讨会日程安排

语料库的数据信息

所有四个学院将首先专注于几个建立数据收集包括大量的女性写作基于在线女性作家,和几个互补全集的文本中来自EEBO / ECCO和其他数字集合。参与者也鼓励但不需要给实验带来自己的语料库。这里有一些事情要考虑在规划你的主体:

  • 大小:您将需要至少500000字的语料,但统计学上有意义的结果,至少语料库规模200万字更好。由于物流原因,你语料库不应该超过5000万个单词。
  • 格式:你需要在纯文本语料库,我们可以从文字处理提供指导转换格式(例如,RTF)。尽管TEI数据为这些机构不是必需的,如果您的数据已经在TEI可能会有一些额外的形式的分析探讨;我们将与你利用任何标记。
  • 范围和内容:字嵌入模型提供的方法分析单词之间的联系,发现词汇表和词汇变化特征的文档集合,和语料进行比较。虽然你可以从任何语料库学习有趣的东西,你的结果可能是最明显的如果你的语料库一致在一段时间内,一个流派,或其他财产。的文本语料库主要应该在相同的语言。单个文本可以是任何长度或流派(只要语料库词总数就足够了)。因为我们将提供一个语料库的女性的写作从1550 - 1900年,和几个平行语料库的文本中覆盖同一时期(这两个将提供选项genre-specific子集),你可能会思考什么样的文档集合可能产生有趣的比较。

对于所有的机构,我们将pre-train模型将被托管在WWP实验室使用研究所和一段事件后三个月;在特殊情况下,我们可以延长托管期限(例如,支持课程)。

密集的机构,我们将指导参与者完成训练的过程模型和(如果合适的话)使用XQuery来选择特定的TEI / XML特性进行分析。在事件之前,我们将与参与者准备他们的数据,以确保平稳过程研究所本身。

我们将派遣更多的详细说明,参与者的活动准备。

词向量的深思熟虑的人文主义已成为可能的部分主要从国家人文基金会授予:探索人类的努力。任何观点,发现、结论或建议表示在这个项目中,不一定代表国家人文基金会的。