语料库与语言知识库

本章介绍两个语料库,英文语料库WordNet和中文语料库HowNet。

WordNet

  WordNet是美国普林斯顿大学认知科学实验室George A. Miller领导的研究组开发的英语机读词汇知识库。
  WordNet按照语义关系网络组织,多种词汇关系和语义关系被用来表示词汇知识的组织方式。词形式(word form)和词义(word meaning)是WordNet源文件中可见的两个基本构件,词形式以规范的词形表示,词义以同义词集合(synset)表示。词汇关系是两个词形式之间的关系,而语义关系是两个词义之间的关系。
  WordNet的建立有三个基本前提
  1.“可分离性假设(separability hypothesis)”:语言的词汇成分可以被离析处理并专门针对它加以研究。
  2.“模式假设(pattern hypothesis)”:一个人不可能掌握他运用一种语言所需的所有词汇,除非他能够利用词义中存在的系统的模式和词义之间的关系。
  3.“广泛性假设(comprehensiveness hypothesis)”:计算语言学如果希望能像人那样处理自然语言,就需要像人那样储存尽可能多的词汇知识。

知网(HowNet)

  知网(HowNet)是机器翻译专家董振东和董强建立的语言知识库,是一个以汉语和英语的词语所代表的概念为描述对象,以揭示概念与概念之间以及概念所具有的属性之间的关系为基本内容的常识知识库。
  知网体系的基本设想是:所有的概念都可以分解成各种各样的义原(最基本的、不易于再分割其意义的最小单位),同时,也存在一个有限的义原集合,其中的义原组合成一个无限的概念集合。
  常识性知识库是知网最基本的数据库,又称为知识词典。
  知网是在线的,其规模是动态的,它的规模主要取决于双语知识词典数据文件的大小。
  知网的知识词典主要为那些具有多个义项的词提供了使用例子。这些例子的要求是:强调例子的区别能力而不是它们的释义能力,它们的用途在于为消除歧义提供可靠的帮助。

参考

  宗成庆《统计自然语言处理》第四章