自然语言处理之语料库资源

巧妇难为无米之炊

语料库

语料库(corpus)一词在语言学上意指大量的文本,是在语言的实际使用中真实出现过的语言材料,通常经过整理,具有既定格式与标记

事实上,语料库英文 "text corpus" 的涵意即为 "body of text"。

语料库是语料库语言学研究的基础资源,也是经验主义语言研究方法的主要资源。

本文主要关注中文语料库(顺便一提英文语料库)

英文语料库

NLTK的nltk_data囊括数个在 NLP 研究圈里广泛使用的实用语料库,针对英文的自然语言处理,已经成果显著,资源也易于获取,这里列出一些不错的语料库,我们更多的精力放在中文语料库上

先列出NLTK里的语料库:

  • 布朗语料库(Brown Corpus):第一个可以在计算语言学处理中使用的通用英语语料库。它包含了一百万字 1961 年出版的美语文本。它代表了通用英语的样本,采样自小说,新闻和宗教文本。随后,在大量的人工标注后,诞生了词性标注过的版本。
  • 古登堡语料库(Gutenberg Corpus):古登堡计划(Gutenberg Project)致力于将文化作品的数字化和归档,并鼓励创作和发行电子书。古登堡语料库选择了 14 个文本,整个语料库包含了一百七十万字v
  • Stopwords Corpus:NLTK 所收集的停用词语料库(Stopwords Corpus)包含了 来自 11 种不同语言(包括英语)的 2400 个停用词

其他的著名语料库

中文语料库

github的一些资源

搜狗实验室

其他

  • google-10000-english:list of the 10,000 most common English words in order of frequency, as determined by n-gram frequency analysis of the Google's Trillion Word Corpus
  • corpora:A collection of small corpuses of interesting data for the creation of bots and similar stuff.
  • pattern 从互联网获取语料

参考




Fork me on GitHub