数字集合

Katz磁带提供宝贵的资源在音乐行业的历史

这篇文章的作者是肖恩Plaistowe和编辑莫莉布朗和Giordana Mecagni清晰。

Larry Katz是一个音乐记者花了漫长的职业生涯在波士顿地区的报纸和杂志工作。在为即将到来的文章收集信息,这成了他的练习记录采访音乐家和艺术家和把他们放在一边,以防他们被证明是有用的在未来。随着时间的推移,他积累了超过1000的集合这些访谈,与艺术家厄撒基特、卡莉·西蒙,这位丰塔纳(猫王的鼓手),飞船,大卫·鲍伊,Ornette科尔曼,艾瑞莎•弗兰克林,鲍勃·马利,詹姆斯·布朗,迈尔斯·戴维斯,和爱尔摩伦纳德,以及演员包括泰德·丹森、梅尔·布鲁克斯和洛雷塔迪瓦恩。

2020年,拉里把他收藏的东北大学档案(NUASC)和特殊的集合。raybet雷竞技雷竞技app最新版

一个拼贴画各种音乐家和艺术家。中心是一个盒式磁带,贴上“Katz磁带”

这些采访创建一个迷人的资源,提供洞察音乐和艺术行业在各种各样的风格和时代。,你都可以抓一些小说和音乐历史的亲密时光。在一段录音中,你会听到奇怪的Al Yankovic讨论获得许可的困难模仿艾米纳姆的音乐。其他磁带和艺术家尼娜西蒙艾梅曼讨论音乐的影响,甚至在唱片业的挑战和偏见。这些访谈包含无数的安静时刻,比如王子讨论他偏爱他的家在明尼阿波利斯海岸,以及他最喜欢的电影。安静的点击茶杯碟子的联系厄撒基特讨论她的事业提供了一个受欢迎的连接和归属感的感觉,会觉得珍贵在研究这些数字和音乐新闻更普遍。

黑白图像的一个卷曲的黑发和一件衬衫。
Larry Katz。照片由卡茨磁带的网站。

1975年曼哈顿音乐学校毕业后,拉里·卡茨担任贝斯手开始前他在波士顿的新闻业的职业生涯真正的纸在1980年。1981年,拉里一直是一个自由作家的音乐波士顿环球报波士顿凤凰之前被录用的波士顿先驱报作为一个特色的作家,他涵盖了各种各样的艺术和生活方式比之前作为音乐评论家和专栏作家。2006年,他成为艺术先驱报》的编辑,2008年他接管了功能部门,一个角色,他直到2011年。

2013年,拉里重新审视他的磁带收藏。Re-listening采访了记忆的环境和背景下,这些录音是在,他觉得必须分享信息。他开始一个博客,Katz录音带,在那里他开始写反思艺术家和他们的采访,经常考虑事件发生以来最初的对话。伴随着这些倒影,拉里提供了一个转录采访记录的他经常穿插著名表演艺术家或歌曲相关的链接。拉里还捐赠NUASC这个博客的内容。

公众可以访问此集合可用涉及许多手和协作,内部和外部。首先,磁带被数字化乔治血液LP提供的慷慨资助图书馆的英联邦项目由波士顿公共图书馆。一旦数字化卷录音带是安全地回到NUASC集合工作人员的手中,然后交给的文件数字生产服务部门做艰苦的工作处理和分类收集。他们把音频文件包含多个访谈,访谈相结合,在多个空白磁带编辑,并创建了目录记录。

博客的内容是另一个挑战。尽管已经数字化,将内容从拉里东北部的独立网站托管证明是困难的。最初,我是希望我们可以使用一个方便的WordPress功能,将使整个布出口他的博客。没有这样的运气。相反,我发现了一些脚本,使我可以刮拉里的许多独特的图像包含在每个帖子。博客也与许多歌曲和表演托管在YouTube,但不幸的是,由于时间和版权法的变幻莫测,这些视频被删除。在可能的情况下,我试图恢复认可的视频的链接。作为一个额外的功能,我创建了一个播放列表包括许多歌曲中引用这些文章。

现在收集已经编目和博客已经摄入,我们欢迎任何搜索自己喜欢的艺术家,倾听他们的采访中,读一些关于艺术家的回忆和见解形式拉里和面试,和听音乐播放列表的一些艺术家拉里采访thekatztapes.library.northeastern.edu

除了Larry Katz集合,在波士顿的研究者和爱好者的艺术可能会感兴趣的真正的纸记录和波士顿凤凰记录在NUASC,可用。

图书馆数字学术团体和NULab NEH格兰特收到500000美元

东北大学雷竞技app最新版raybet雷竞技图书馆数字奖学金集团NULab为文本、地图和网络收到了500000美元格兰特从国家人文基金会NEH的美国救援计划计划的一部分。

美国救市计划旨在提供资金组织开展人文项目由冠状病毒大流行造成不利影响。授予DSG和NULab专门关注支持人文组织。

这个格兰特将有助于基金一系列数字项目目前正在通过DSG NULab,但被延迟或推迟由于COVID-19大流行。它将支持开展合作研究、数字化和处理档案材料,创建元数据,增加网页可及性,和更多,而创建许多研究生和本科生研究职位进行这项工作。

将受益于这个格兰特所有涉及的项目协作参与东北以外的社区,他们中的许多人关注资源与弱势群体和社会正义的努力。这些包括:

格兰特还包括额外的资金通过NULab项目组织。

朱莉娅•弗兰德斯的主任数字学术团体,开始很兴奋:“我们被这个奖项荣誉和精力充沛。它为学生创造了美好的研究机会和将帮助整个数字人文生态东北。”

简要概述机器学习实践的数字集合

雷竞技app最新版raybet雷竞技东北大学图书馆数字化过程物理材料利用几个不同的工作流处理打印文档、照片、和模拟音频和视频记录。数字化工作流程的每一步,从收集审查扫描到元数据描述,进行彻底的对细节的关注,可能需要数年时间才能完全过程集合。例如,大约160万张照片《波士顿环球报》图书馆收藏由东北大学档案馆和特殊集雷竞技app最新版raybet雷竞技合可能需要几十年才能完成!

如果这些步骤可以提高使用人工智能技术来完成的部分工作,释放员工将更多精力投入在工作流的元素需要人类的注意呢?读了一个非常简短的概述人工智能和三个潜在的选择处理《波士顿环球报》馆藏和其他数字图书馆收藏。

一个由三部分组成的循环,与“输入”导致“模型学习和预测”导致“反应”回到“输入”

人工智能和机器学习是什么?
人工智能(AI)是一个广泛的术语用于许多不同的技术,试图模仿人类推理。机器学习(ML)是人工智能的一个子集,一个程序教自己如何学习和理性。项目学习通过使用一种算法来处理现有的数据和发现模式。每个模式预测评估和得分根据准确的预测可能是也可能不是,直到达到一个可接受的水平的准确性预测。

毫升可以监督或无监督,根据结果所需的类型。监督学习是当指令提供协助算法将研究人员学习如何识别模式。无监督学习算法时美联储数据和发现自己的模式,研究人员可能不知道。

道德
我们进行这项工作,重要的是要注意,人工智能技术是人造的,因此人类偏见中直接嵌入技术本身。因为可以使用人工智能技术在如此大的规模,这些偏见造成的潜在的负面影响大于需要标准人类努力的工具。尽管人们很容易接受并尽快使用一个很有用的技术,这是一个研究领域,我们必须确保工作符合我们的制度伦理和隐私实践才能实现。

人工智能或ML技术可以用来帮助过程数字集合?
光学字符识别:最广为人知和使用形式的人工智能在数字集合实践可能识别印刷文本使用光学字符识别,或光学字符识别。光学字符识别是一个过程,分析印刷文本和提取文本对象,如字母,单词,句子。结果可以直接嵌入在这个文件中,像一个PDF OCR文字,或单独存储,像METS-ALTO文件,或两者兼而有之。

温彻斯特的头版新闻的截图
图片来源:一个OCR页面的截图温彻斯特的新闻AltoViewer METS-ALTO编码了。

OCR现代文本文档工作相当好,尤其是英语,但OCR的一个特别的挑战是历史文献。更多关于这个挑战,我建议历史和多语种OCR的研究议程,一个相当NULab发布的最新报告。

搜索结果的屏幕截图,显示返回的结果是,因为搜索词匹配OCR文档中的文本。

我们已经可以看到在图书馆的使用OCR的好处数字库服务与OCR文本嵌入到文件,文件的全文提取并存储在文本文件中。文本索引,提高文本文件通过检索文件的可发现性与搜索条件相匹配的文件的元数据或全文。


从《波士顿环球报》的照片库集合,以读手写标记描述。
数字化的照片从《波士顿环球报》图书馆收藏。

HTR:手写文本识别、HTR像OCR,但对于手写,不打字的,文本。笔迹非常独特的个体,给教学带来了一个困难的挑战机器来解释它。HTR严重依赖有大量数据训练模型(在这种情况下,大量的数字化图像手写),所以即使一次模型是准确地训练一组的笔迹,它可能不是有用的准确解释另一组。Transkribus项目试图导航这一挑战通过创建批手写数据训练集。研究人员提交至少100转录为特定的笔迹图像集Transkribus和Transkribus使用集作为训练数据来创建一个HTR模型来处理剩下的手写文本的语料库。HTR呼吁《波士顿环球报》收集的后背照片包含手写文本描述图像,包括摄影师的名字,照片拍摄日期,分类信息,描述或者一个地址。

计算机视觉:计算机视觉是指人工智能技术,使机器能够处理图像和视频,本质上训练机器“看见”。这种类型的人工智能机器是特别具有挑战性,因为它需要学习如何观察和分析图片和理解的内容。计算机视觉算法训练来识别模式不同的物体或人,试图准确地分类和识别模式。在东北校园的图片,例如,计算机视觉算法可以识别建筑对象或对象或树对象的人。

一张黑白照片的男人被逮捕了两名警察旁边的分析照片的内容:鞋类(98%);鞋(96%);手势(85%);风格(84%);军事的人(84%);黑白(84%);军装(80%);帽(80%);帽子(78%);街头时尚(75%); Overcoat (75%)
谷歌云的愿景API的分析结果黑白照片

在数字工作流集合,使用时产生的输出计算机视觉工具将需要评估其有效性和准确性。在上面的例子中,返回的术语来描述图像技术出现在照片(主题是穿鞋和帽子和大衣),但条件不充分捕捉图像的精神(一个人被拘留在一个演示)。

有很多使用计算机视觉伦理担忧,尤其是识别人脸和分配的情绪。如果我们使用这个特定的技术,它可以生成关键词或其他描述性元数据可能不是现在的波士顿环球报收集的图片,但是我们需要小心,以确保不嵌入问题评估过程描述,像一个抗议的形象描述为一场骚乱。

计算机视觉已经被应用在一些数字工作流集合。卡内基梅隆大学图书馆开发了一个称为内部工具帮助档案员提高元数据。一个档案管理员使用软件来标记选择图片,然后程序返回其他图像标识在视觉上相似,无论其盒,文件夹,允许档案管理员轻松地应用相同的标记那些看起来很相似的图像,而无需手动寻找。

许多其他方面的人工智能和ML技术需要研究和评估之前他们可以集成到我们的数字集合的工作流。我们需要评估工具和确定需要培训员工的技能来执行工作。我们也会继续看领导人在这个领域深入探究世界的人工智能图书馆的工作。

推荐的资源:
机器学习+库:报告字段/柯莱恩的状态:https://blogs.loc.gov/thesignal/2020/07/machine-learning-libraries-a-report-on-the-state-of-the-field/
数字图书馆、智能数据分析和增强描述/布拉斯加-林肯大学:https://digitalcommons.unl.edu/libraryscience/396/

100000公共物品可用DRS !

第100000公开文件数字库服务是7月存入:论文从英语系题为女性写作Racelessness:表演和种族没有在二十世纪女性写作莎拉·佩恩。这个里程碑是通过图书馆和大学承诺支持开放获取大学的学术产出,以及文档的归档构件大学的历史。

许多100000年的公共文件可以通过Google和其他搜索引擎,以及门户网站等数字英联邦美国公共图书馆数字,旨在汇集数字化材料从各种来源。由于这些材料的开放,DRS平均超过2000独立访问者和3600多个文件交互。公共资料存储在DRS区域和国家新闻机构援引的一直,包括纽约时报更大在Reddit,以及讨论和维基百科文章。

这里有一些你来探索数字集合:

与东北教员DRS将继续增长,员工,和学生继续生产的文章,图片,研究,和工件代表大学发生了巨大的工作。教职员工欢迎登录DRS和上传自己的研究出版物、演示文稿、专著,在闲暇时和数据集。开始上传大量的材料对于大型项目,联系你学科馆员或图书馆的存储库团队:Library-Repository-Team [@] neu.edu。

一个骄傲的过去

一个值得骄傲的过去的网站

斯奈尔位于图书馆,东北的档案和特殊的集合部门收集大学的历史,以及在波士顿社会运动的历史。他们的目标是安全的,使访问重要和有风险的历史记录。一个住在特殊的集合数字库服务(DRS)是Boston-Bouve学院收藏。照片和记录从学院的成立在1913年到1981年,这个档案帮助跟踪的复杂历史波士顿学院的体育教育如何成为Boston-Bouve大学。

收集在2003年首次制成一个网站。十多年后,网站变得过时,难以维护。的试点项目DRS项目工具包(现在被称为CERES:展览工具包),有一个旧的网站注入新生命的机会。

该工具包基于储存库工作架构。首先,组织档案项目加载到DRS。然后,他们是编目。对于这个项目,编目仍在进行中由于大量的数字集合中的项目。一旦一个集合在DRS,工具箱可以帮助用户轻松地创建WordPress-based网站充满了展品。在这种情况下,奥布里的屁股,一个公共历史硕士学生,使用CERES:展览工具包重建旧网站以全新的面貌,新的元数据,和一个探索,搜索数字档案。

在新网站,用户可以了解学校的历史,它的课程,其领导人和学生生活。除了策划展览,存档保存128张照片和7个文件,用户可以探索和互动。

查看新网站aproudpast.library.northeastern.edu