术语表

这个术语表术语的列表选择和定义的意图词嵌入模型访问患者多层次的专业知识。

算法
一个进程或一组规则用于解决一个问题或计算。一个算法可能表示在一个计算机程序等结构化语言,或流程图等可视化描述。算法尤其适用于可重复的任务与多个步骤。
聚类
在机器学习中,聚类算法的过程发现的自然分组数据。
代码
一个表达式的一个或多个算法。代码通常是标准的一个特定的编程语言写的。当以这种方式写的,代码可以阅读和其受到计算机的指令。
语境一词
在模型训练过程中,这句话出现在窗口目标词(即词评估”与“目标词)。
连续bag-of-words模型
一个方法来训练一个字嵌入模型的模型试图预测目标词从一组背景的话出现在一个窗口围绕目标词。“bag-of-words”一词指的是事实,窗口内单词的顺序并不重要:每个窗口(X字两侧的目标词)被视为一袋的话,而不是一个系列。单词的顺序在语料库作为一个整体(影响哪些单词被分组在窗口)仍然是重要的。
语料库(复数:全集)
文本数据的集合。语料库通常是分析或以某种方式处理。
余弦相似度
词中嵌入模型,两个词之间的关系,表示为各自之间的几何关系语料库向量空间中向量。如果两个词向量的余弦值是1,这两个词是相同的向量空间中的定位。如果cos是0,这两个词在向量空间中尽可能无关(负余弦相似性不发生以来,这种分析计算导致的数字都是正)。
数据(单数:基准)
事实、统计数据、或收集的信息进行分析。数据可以有各种形状和大小和可能看起来不同的跨学科以及组间在学科。
文档
提供的信息的一种方式选择项目;文档是有用的可访问性、透明度和归档。在这个网站上,我们有文档的代码是如何实现,语料库是如何选择和准备,以及更多。
嵌入
一般来说,一个语料库的嵌入是一个压缩向量表示使得数据更加密集,导致更快的处理以及在更有意义的分析结果。代表一个语料库时(例如)一篇1000字的词汇作为一个向量空间,每个单词本身可以被认为是与1000维向量,其中999为零。然而,这种“稀疏”向量空间不给任何连接词与词之间的信息,也是计算笨拙,因为大量的维度。(想到1000 -维立方体!)当我们训练一个嵌入模型,我们使用语料库本身(以及通过观察到的词汇窗口)发现单词之间的关系:从这个培训过程中,我们得到一个模式,在这种模式中,每个单词是一个向量和一个小数量的维度代表实际的公司最常见的词汇。(“嵌入”这一术语描述的方式训练过程高维空间“平坦”;想想如果一个重物落在纸的多维数据集和嵌入式的顶层底层)。这个模型有更少的维度,也更“密度”(“稀疏”),因为没有一个维度是零(所有代表实际的词关系)。因此,它既容易处理计算,也丰富,因为它捕获的所有观测的结果实际的语料库。
迭代
在模型训练过程中,一个循环的过程,检查每个单词和它的上下文(参见窗口)在向量空间和调整其定位。模型训练过程需要多个迭代,迭代越多,越精炼模型(但生产它所需要的更多的时间)。细化的程度取决于输入语料库的大小,与大全集要求更少的迭代。迭代的数量被指定为一个参数在模型训练过程中,和一个合理的起点(作为一种通用的默认)是10。
k聚类则
一般来说,“集群”是一个分析数据集的过程发现集群相关的数据点。从决定有多少集群(这是一个参数,可以设置由研究员),聚类算法试图找到最适合的数据集:也就是说,集群边界的集合导致数据点在每个集群之间的最小距离。(凭直觉,这有点像一个人看地图用点代表人类,并确定可能的城镇中心的位置)k - means聚类使用一个算法,试图确定一个指定数量(k)的“质心”:也就是说,点的数学中心集群。首先随机选择一组k点(认为这些是像“候选人重心”),然后将每个数据点的质心设置为最接近的候选人。接下来,它的实际质心计算每个结果集群(导致重心移动一点)。接下来,它把每个数据点转移的重心正在接近。这两个步骤是重复的,重心的位置和数据点,形成自己的“集群”被不断调整,直到这个过程达到平衡或直到迭代完成指定的最大数量。词中嵌入模型,k - means聚类可以用来识别集群模型内的相关词汇。
模型
表示一个概念或事情。当创建分析模型的可用数据。模型总是包含更少的信息相比,最初的版本都降低复杂性,以帮助理解。因此,必须仔细构造模型,因此损失最小化模型需要的区域代表。在这个项目中,我们使用文本模式(XML表示实际的书)来创建词嵌入模型。
自然语言处理(NLP)
域的计算机科学和相关领域集中在处理和分析人类的语言(“自然”,而不是机器)。NLP包括机器翻译的文本从一种语言到另一个地方,语言的解析(识别词类和句法结构),识别的意义和影响(如情绪分析),和语音识别。
消极的抽样
在训练一个字嵌入模型的过程中,负采样技术减少计算负担的培训过程。在培训过程中,原则上每个迭代可以更新信息模型中的每个单词的位置(使它逐步更和更准确)。然而,由于模型中有成千上万的词汇,这样每次迭代更新是耗时和成本计算。抽样为负,而不是更新在每个迭代中,每一个字的训练过程只更新内直接观察窗口,再加上一个随机抽样的指定数量的模型中。推荐值(多少句话说更新)5到20小型语料库和较大的2到5。
编程语言
一套严格定义的语法规则,在写作或执行代码时使用。“编程语言”一词也可以使用更广泛的描述语言的实现,或程序,读取、验证、编译或执行代码。
R
编程语言和环境用于统计计算和图形。
Skip-gram模型(或连续Skip-gram模型)
一个方法来训练一个字嵌入模型的训练过程试图预测背景的话这将出现在一个窗口在一个给定的目标词。术语“skip-gram”(类似于“语法”)是指培训过程的事实考虑上下文的目标词连同每个字反过来;每一对的单词是“skip-gram”在某种意义上,它跳过干预窗口中的单词。句子中(例如“只敏捷的棕色狐狸跳过了懒惰的狗”,对“快速狗”这个词是一个skip-gram因为它跳过“的棕色狐狸跳过了懒惰的”)。skip-gram方法给单词根据他们不同的权重距离目标词,所以不像连续bag-of-words模型,词序在某种程度上被视为重要的窗口。
目标词
在模型训练过程中,这个词的窗口集中(的背景的话评估的一部分单词相关的计算)。
TEI
代表“文本编码倡议TEI。”是一个协作的XML模式,用于规范文本文档的标记。女性作家项目使用TEI编码的文本WWO和这个项目使用模型训练TEI-encoded文件选择性转换成纯文本。
培训
词中嵌入模型,训练的过程我们创建一个模型的文本语料库:换句话说,语料库分析观察单词的过程出现在对方,并把这些观测计算数学模型。培训过程和结果模型由几个控制参数影响的观察和计算完成:例如,单词的水平考虑(接近窗口)和观测的数量(迭代在培训过程中)。
主题建模
主题建模是一个类的一部分文本分析方法,分析“袋”或组的单词而不是计算单独的以便捕获单词的意义是如何依赖的广阔背景中使用的自然语言。主题建模并不是唯一的方法,这样做聚类分析,潜在语义分析和其他技术也被用于识别聚类内的文本。
向量
在数学中,一个向量是一条连接两个点空间既有方向(即从a点到B点而不是反过来)和范围(即两个点相距一个特定的距离)。如果你想象一个蒲公英的头小银种子伸出,或与他们的头发站在一个人,每一个种子或头发可以由不同的向量表示。(和他们的角的关系可以表示为余弦相似度;见上文)。在字(词)嵌入模型,语料库中的每个单词可以想象作为一个矢量的端点(最后一个蒲公英种子的小茎),与其他端点是几何的起源,在所有密度为零(类似于蒲公英的中心)。当蒲公英存在于三维空间,一个模型是向量空间有成百上千的维度。给定单词的具体向量计算基于词往往出现在它(见消极的抽样,连续bag-of-words, skip-gram如上图所示)。(什么是“近似”窗口的大小控制着我们当我们训练模型;看到窗口下面)。每个迭代训练的过程中添加信息来计算每个单词的位置在向量空间中,通过重新审视语料库中的相对位置的单词。
窗口
的文本的两侧目标词决定多少背景的话考虑当识别词为“接近”或“相关”或“一起使用。“窗口的长度在模型训练过程中被指定为一个参数。窗口的大小影响的相似词带来的可见性:一个更大的窗口将倾向于强调局部相似之处,而一个小窗口将倾向于强调功能和句法相似之处。窗口的合适的大小将取决于形式和语料库的文本的长度,以及研究者正试图回答的问题。在5到10之间的窗口大小对许多项目作为起点。
字嵌入模型
字嵌入模型技术从机器学习和自然语言处理领域的单词在大文本数据集的数值和映射到向量表示。本质上,字嵌入模型允许空间语料库对单词的理解,这样一个可以计算特定单词的距离(近词都是用于更多类似的上下文)以及他们的定位路径,或向量(相同的向量上的文字是有类似的彼此之间的关系)。
XML
代表“可扩展标记语言。“就像HTML、XML使用标签层意义和层次关系到文本。与HTML, XML没有定义的标记名称,实际上是可定制的。任何人都可以定义自己的XML的味道;唯一的限制是,必须是格式良好的XML文档(也就是说,文件只有一个外层标签,和所有标签关闭)。TEI就是这样一种的味道XML、XSLT。
XQuery
一种编程语言用来获取和操作XML数据。XSLT的XQuery股票的许多特点,但XQuery代码不是用XML编写的。
XSLT
代表“可扩展样式表语言转换。“XSLT是一种编程语言用于将XML文档转换成其他类型的文件,如HTML、普通文本,甚至另一个XML文件。XSLT代码是通过XML表示。