Corpus搜索指南

和工具一样,词嵌入模型通常最能显示使用其他工具和方法时,以便能感知工具本身如何反射所见内容。返回您的文体确认有趣的结果 并确信你理解这些结果的推导方式 也是有用的返回您的文体也可以帮助识别 模型中可能影响结果的任何问题讲义提供一些策略思想 检查您的文体 和一些推荐工具

搜索策略

如果您的文体在一个大文档中(但非大文档中),您可以打开并用简洁文本编辑器搜索它!某些好选项包括:

  • BBEDTE
  • Oxygen XML编辑器

通配符和正则表达式有助于拼写或部分语音变化

如果您的文库由多文档组成,您可以在文本编辑器中跨文件搜索也可以把文体加载到分析工具中,如AntConc或Lexos-seatConc和Lexos提供中可能有用的特征是查找上下文词和计字频率

servee编辑器像OxygenXML认知词指文本编辑器知道XML和读取方式

  • XML认知编辑器中,您可选择只搜索文本内容,排除标签还可以选择隔离某些标签,这些标签可能有助于更具体的搜索
  • 如果要限制搜索到特定上下文,您也可以使用 XPath:例如,发现词如何用于诗歌或戏剧

除简单字搜索外,还有其他种类文本分析可提供实用比较透视您的文库中语言:

  • 验证具体词总频率,作为对余弦相似性的现实检验,可能有所帮助举例说,如果模型显示异词配对, 可能是因为单词或双词都相当稀有这可能促使你用高字频要求重新培训模型
  • 快速查看常用词空格会大有帮助:什么类型、文本的哪些部分(例如,如果字分布均匀可观察文本)。
  • 感知具体词使用方式
    • 正则表达式可用BBEDI或Oxygen等工具
    • 可使用AntConc或Voyant等工具近距离搜索
    • 可使用Voyant或AntCon
  • 实验其他工具/方法(例如专题建模)可能也很有趣,看它们显示你文库词汇的内容理解您的文体词汇可以为结果提供必备上下文 并全面提高发现精确度

正则表达式

有许多有用的资源学习正则表达式,包括本教程by编程历史Regex10网站测试正则表达式上头正则表达式信息网站拥有多资源,包括指令解析Regexs搜索相邻词类

工具类

BBEDI应用免费BareBones文编辑支持使用正则表达式跨多文件搜索

Oxygen XML编辑器: XML编辑器可用于各种文本文件支持使用正则表达式跨多文件搜索Oxygen非免费,但可用30天测试访问

维安特网络阅读分析环境数字文本套工具提供字数并允许比较字位和频率模式,或审查上下文关键字,并附加几个其他选项Voyant可处理约400万字并可用于探索您的Corpora用词的一般模式

列克索斯工具制作分析数字文本提供几种相当精密的文本编译选择和各种分析可能性,包括单文本操作和文体操作等重要的是,它还保留对文本的所有修改,以便复制结果可使用 web版本了解Lexos操作方式,但你可能想下载本地拷贝用于分析,因为大文件效果会更好

AntCon库分析工具箱协调文本分析AntConc免费下载MacOS和WindowsantConc使用多件小文件比一二大文件效果更好-对多字分析没有限制,但大型Corpora工作需要较长时间上头编程历史拥有教程AntConc协同工作教程分析文本)