带注释的源
这个注释的书目是一个有用的来源列表被组织成四个主要类别为简单的导航:入门读物,先进的读数,背景阅读,和数字教育学读数。
入门读物更平易近人的关于词块嵌入和类似的基于语料库技术。先进的数据进入方法的详细信息,更具体地说看代码和数学概念。背景数据提供一个理论依据自己的项目的方法。最后,数字阅读教育学由从业人员提供一个案例研究或理论模型结合数字技术在教室里。
Cherny,林恩。”可视化词嵌入在《傲慢与偏见》。”Ghostweather研究和设计的博客,2014年11月22日。
阅读是一个访问面向流程的反思训练一个字嵌入模型使用Javascript和展示模型;Cherny演示实验和的值在她的反思创建这个模型。Cherny训练word2vec模型对奥斯丁小说的全部语料库,然后更换了所有的名词《傲慢与偏见》最相似的单词每个;一个关联可视化填写名词对和它们之间的路径在二维空间的某个扇区上时,导致累积词汇云由观众的探索。Cherny还讨论了她的研究结果的性别话语奥斯汀小说(这个词最密切相关的“丈夫”是“神经”)。
处,瑞安。”词向量在十八世纪,第一集:概念。”美德和虚拟,2016年4月14日。
休斯介绍词向量在这第一篇博文的主题,包括一些详细分析18世纪的散文成就表明词向量分析可以用于奖学金在早期的文本。与一个可访问的修辞框架,强调自己的发展中对方法的理解,休斯的文章阐明语用学和使用这些模型的核心概念。
处,瑞安。”词向量在十八世纪,一集2:方法。”美德和虚拟,2016年6月1日。
处的第二篇博文解释背后的概念逻辑词向量。在一个模型中,两个词的相似度的结果如何,他们一起出现在输入数据,因此词嵌入模型考虑上下文信息和语义相似或不同。单词的过程成为表示为向量,然后嵌入到模型是不同的在不同的算法和软件,和休斯承认基础数学的清晰度是字嵌入模型的失败之一。说明词向量的函数模型,他概述了国王和女王之间的语义关系/女人/男人,那么他们的矢量关系,揭示如何以及为什么数学向量算法执行的过程会产生相同的结果作为人类的逻辑。
克莱恩,劳伦。f .”缺席的形象:档案沉默,数据可视化,詹姆斯·海明斯。”美国文学,卷85,不。4、2013年1月,页661 - 88。
尽管克莱因不使用词向量模型具体来说,这一块提供了一个宝贵的框架进行显式的散漫的阅读实践中创建数据模型和可视化。克莱恩地址档案沉默,或特定的叙事的擦除和人民在档案工作中,可见詹姆斯·海明斯的存在,莎莉赫明的哥哥和一个奴隶由托马斯·杰斐逊,在杰弗逊的数字化信。克莱因提出她的步骤创建一个社交网络的可视化来捕获一个更微妙的表示这些通讯中提到的人之间的关系。
Recchia,加布里埃尔。“‘无数的相似度”:应对瑞安·休斯的词向量在十八世纪,第1部分”。”加布里埃尔Recchia2016年6月11日。
Recchia始于一个解释算法前辈的向量空间模型和谨慎的清晰度,数字人文主义者的话应该知道如何解释结果向量模型,哪些信息是通过将语言转化为统计数据,和时间/地点统计表示不会有效。Recchia然后定义了四种不同类型的模型和训练方法:count-based模型,随机向量模型,“连续袋字”算法,和“skip-gram”算法。大部分Recchia相同的文章探讨了“天才”之间的关系“学习”,“美德,”和“财富”,瑞恩处探索在“词向量在十八世纪”(见上图)为了阐明词向量分析的复杂性和局限性。最终,Recchia结尾声称计算方法可以帮助集中研究,但结果应该证实了灯塔的方法。
施密特,本。”向量空间模型的数字人文。”本•施密特,2015年10月25日。
在这篇文章中,施密特字嵌入模型提供了一些主要原因是如此有用的词关系进行深入的分析。这篇文章清楚地定义了什么字嵌入模型,走过几个例子有助于澄清什么是参与培训和查询这些模型。
施密特,本。”拒绝性别二元:向量空间操作。”本•施密特,2015年10月30日。
在这篇文章中,施密特使用字嵌入模型分离向量与性别相关的词汇教学从网站评论我的教授。他也使用这一过程被称为“向量减法”或“向量拒绝”定义为“建立一个新的向量空间从旧的每个元素通过将不再有任何方向向量,把男性和女性。“这读书是有用的,因为它展示了文本分析可以明确的社会偏见的数据,提供了一个循序渐进的介绍如何创建施密特这个模型和代码片段,并解释结果。
”Word2vec是如何工作的呢?谁能走进一个具体的例子吗?”Quora,2014年10月20日。
这个Quora线程提供一个答案,一个全面的解释的多样性word2vec算法。俄梅珥利维简要概述,Ajit Rajaskharan源代码,提供了详细的评论Borislav Agapiev阐述了概率统计在代码中,斯蒂芬gouw向量空间的几何理论解释说,阿布Patnia澄清这个基本假设从自然语言处理(NLP)的角度来看。总的来说,这是特别有用,公开资源非计算机科学家算法本身的理解。
艾莉森,莎拉,et al。”定量的形式:一个实验。”斯坦福大学文学实验室小册子1卷,2011年1月。
这项研究提供了一个简短的解释算法如何理解语言,计算机理解的局限性,数字人文主义者把它工作的可能性。作者感兴趣的是,文学作品的形式主义的特征是否(如类型)可以通过定量方法确定。这里使用的两个工具,Docuscope最频繁的词语,都依赖一个无人管理的因素分析用语言行动类型(背阔肌)——这是一个聪明的字典,可以确定一个词的功能。研究人员得出结论,语言和风格还不够划定一个流派从另一个,而且,尽管系统跟踪特性,使一个流派不同于另一个,这告诉我们对某种形式的内部结构。
Gagliano,安德里亚,et al。”相交词向量采取比喻性语言,新的高度”。在第五车间对计算语言学文学。2016年。
Gagilano等人使用word2vec隐喻创建一个模型,以便更好地理解如何使用比喻性语言开发系统的诗歌。因为隐喻是由连接词或概念来表示其他词和概念,一个统计模型的比喻应该创建一组连接器的单词表达之间的“形象关系”两个字对。作者解释他们如何能够模型连接器单词使用词对和基本词向量函数之外,十字路口,和减法。他们还使用一个案例研究来展示他们可能定性分析这种方法的结果。本文演示了如何一个亲密的理解单词嵌入模型会导致不同的方法探索词汇之间的关系。
大学运动员,马修和茱莉亚佛兰德斯。”问题的规模“主题。波士顿地区的数字人文科学会议,2013年。
这一块是一个转录的辩论在波士顿地区的日子数字人文会议2013年东北大学。raybet雷竞技雷竞技app最新版讨论围绕着规模的想法,以及它如何对理解数字人文研究是不可或缺的。演示幻灯片和两人之间的对话强调两者的相互联系和相互依存DH项目的宏观和微观的视角。
拉姆齐,斯蒂芬。”鬼混的诠释学;或者你做什么一百万本书。”Pastplay:教学和学习历史与技术由凯文·凯编辑,密歇根大学出版社,2014年。
最少的技术文章,拉姆齐的文章关注的概念一直存在在有生之年让人类读太多的书,因此总是列表表明这书是值得一读。拉姆齐认为这些列表是通过文化或路径,换句话说,一种人将一本网络内的已知关联之前,阅读它。通过谷歌搜索(比如)也会使具体化这已知的网络协会;而浏览的行为(比如,在库)允许一个人发现未知的关联。拉姆齐希望算法数字化图书的编目,允许浏览,或“随便玩玩罢了。”However, Ramsey acknowledges that humanists are concerned with shared culture, especially in the public sphere, and hopes that digitization and algorithmic efforts can balance these different paths through culture.
罗森,凯蒂和特雷福穆尼奥斯。”对清洗”。2016年7月。curatingmenus.org
“数据清理”一词使不透明的数据转换的实际过程。清洁意味着有一个潜在的标准订单需要被发现,和所有从业者所要做的就是“清洁”“混乱的”数据。Rawson和穆尼奥斯还认为从业者方法数据转换通过这个框架可能不是批判性地思考如何改变和标准化数据,包括有价值的数据可能被删除。Rawson和穆尼奥斯归心提倡多样性数据,使通过index-making透明数据转换过程,分享“混乱的”数据,并将社区直接影响或有兴趣这个数据时数据转换。
Schoch,创造者。”大吗?聪明吗?干净吗?混乱的?人文学科中的数据。”数字人文杂志,卷2,不。3,2013。
这个阅读介绍定义和理解人文学科的“数据”。人文Schoch提出了两种类型的数据:“智能数据”和“大数据。”Smart data is data that has been transformed from the original form in which it was collected; Schöch proposes TEI-encoded documents as an example of smart data. He also argues that the term “big data” is more of a paradigmatic shift in humanistic inquiry, in which instead of looking at just a few texts, “macroanalysis” (also called distant reading, corpus analysis, etc.) can be performed on a corpus. Schöch concludes with advocates for what he calls “smart big data”: better quantitative processes when performing humanistic inquiries.
Witmore,迈克尔。”文字:一个大规模可寻址的对象。”辩论在数字人文,2012年第2012版。。
Witmore认为特征区分数字文本和物理同行审查的能力,或“解决”一个大品种的规模和层次的抽象。这些水平是众多:看文本/文本通过一个单词,一个folio-style书,一个类型是根据不同,灵活的尺度的抽象。尽管这可寻址能力并不是唯一的数字文本,缓解和查询速度的这种灵活性。
Christian-Lamb,凯特琳和Anelise Hanson乔舒亚。”“从零开始”?车间新方向本科数字人文。”数字人文季度,11卷,不。3,2017。
本文报告一个车间对联盟的发展本科DH课程和课程数字人文协会的会议。这个车间和生产讨论模式对于一个成功的大学生DH课程中心学生机构:这些课程通常强调协作,b)被安置在传统空间整合文科教育,和c)是高度灵活。作者推“数字土著”和“apprentice-researcher”,因为这些模型不准确地捕捉学生的关系技术,可以促进误解DH体制层面上教室。本文演示了什么数字人文主义者本科教育的价值。
戴维斯,丽贝卡·弗罗斯特,et al .,编辑。数字在人文学科教育学:概念、模型和实验。现代语言协会,2016。
这一块是一个集合的概念和应用例子从知名从业者将数字纳入他们的教育学。这些概念从构件特定的条件查找构件如“可视化”和“ePortfolios”;pedagogy-inspired条款如“协作”和“评估”;justice-centered概念如“种族”和酷儿。”Terms such as “Visualization,” “Code,” and “Text Analysis” are particularly relevant for this project.
塞耶斯,Jentery。”Tinker-Centric教育学在文学和语言教室。”合作的数字在英语学习方法犹他州立大学出版社,编辑劳拉·麦格拉思:电脑和组成数字出版社,2011年。
塞耶斯倡导tinker-centric教育学、学习风格,围绕着玩,合作,冒险进入陌生的领域的知识。为了显示这个教学法的有效性和权力,塞耶斯提供的例子和依据从自己的教室。塞耶斯强调分配的重要性“更改日志”,或反映学生作家构建他们的“大创意”如何改变“从实验实验”(285)。每个任务背后的基本原理/教训,鼓励研究人员和教师继续学习这些任务的实现提供一个令人信服的理由欢迎在教育学。
歌手,凯特。”数字精读:教学TEI诗意的词汇表。”《互动技术和教育学,3卷,2013年5月。
本文提供了一种方法使用教室里TEI,专注于个人TEI文档和编码实践。歌手用TEI作为教学工具,鼓励缓慢、深思熟虑,精读的诗歌。使用TEI邀请学生理解诗意的术语和应用它,而阅读。歌手为她提供了一个叙事整合TEI在教室里,她打算如何修改,玩她的教学结构,和她的作业和日常经验在这个特定类的样子。课堂讨论也将可视化的学生作家编码的文件,它允许学生作家/编码器与同学的阅读和文本解读。