中文互联网5-gram语料库 Google 2008 版权所有 1. 简介 本数据集包含了中文n-gram数据以及它们在互联网文档中的观测频率。包含的n-gram的长度从ungram到5-gram。 我们希望本数据集对基于统计语言模型的工作有所帮助,包括中文分词,机器翻译等。 同时,本数据也包含一个Perl语言书写的简单分词器。该分词器所用算法与生成本数据集的分词器相同。 1.1 数据源 本数据产生于互联网可公开访问的文档,这些文档总共大约包含八千八百三十亿词。 在产生过程中,我们尽量只使用中文数据,但是也可能包含其他语言的数据。 1.2 数据生成时间 数据于2008年3月,任何出现于此之后的数据不再包含在本数据集中。 2. 数据预处理 2.1 字符编码 所有网页文档的编码都被自动检测并转换为UTF8。 2.2 词的切分 我们使用一个自动工具来对句子进行词的切分,所有的连续中文字符串将被送到分词器进行分词。 下面几种词是被认为有效的,并保留到最终数据集中: - 只包含中文字的中文词 - 数字,比如:198,2,200,2.3等 - 不含空格的外文单词: 例如:Google,&ab等 2.3 过滤 我们过滤掉所有对中文n-gram数据无用的词,主要包括如下情形: - 过长的词。 - 包含ASCII控制符的词。 - 混合了字母,数字,标点,而看起来似乎又没有什么意义的词。 2.4 符号 所有被过滤掉的词,以及出现次数不够的词(参见3.1节)都用代替。 代表unknown words(未知词)。 2.5 句子边界 我们自动检测句子边界,并在句子的开始标以,结束标以。 加入的符号和文档中出现的其他词一样记数,并出现在最后的数据中。 3. 频虑过滤 3.1 词频 所有的词,符号,数字,如果他们出现的次数少于200次,将被符号代替。 3.2 N-gram频率 所有的n-gram至少出现40次以上,少有40次被滤掉。 4. 数据格式 4.1 顶层目录内容 doc目录: 说明文档 (包含于所有7张DVD)。 data目录: n-gram数据。 segmenter目录: 分词器程序(仅在DVD1). 4.2 doc目录内容 包含说明文档: - readme_en: 英文版 - readme_zh: 中文版 4.3 data目录内容 n-gram数据一共包含394个文件ngrams-[00000-00393]-of-00394.gz,分开存储于 每张DVD的/data目录。 不同长度的n-gram存储的文件映射为: unigrams: ngrams-00000-of-00394.gz bigrams: ngrams-[00001-00029]-of-00394.gz trigrams: ngrams-[00030-00132]-of-00394.gz fourgrams: ngrams-[00133-00267]-of-00394.gz fivegrams: ngrams-[00268-00393]-of-00394.gz 4.3.1 ngrams-?????-of-00394.gz内容 每个单独的ngrams-KKKKK-of-00394.gz是一个gzip压缩文件,包含了具体的n-gram数据。 每个文件包含一千万个unix-sort排序过的n-gram,每个单独的n-gram的格式如下: WORD_1 WORD_2 ... WORD_N COUNT 4.4 segmenter 目录内容 segmenter包含了一个Perl脚本的简单分词器,它和我们用于生成本数据时所用的分词器使用相同的算法和数据。 - segmenter.pl: 分词器的Perl脚本。 - vocab.txt: 词表以及相应的频率信息。 我们在另外一组文本上自动抽取了词和相应频率。 5. 数据大小 文件大小:大约30G的gzip文本文件 词总数: 882,996,532,572 句子总数: 102,048,435,515 Unigrams数: 1,616,150 Bigrams数: 281,107,315 Trigrams数: 1,024,642,142 Fourgrams数: 1,348,990,533 Fivegrams数: 1,256,043,325 6. 数据使用 我们非常高兴能发布本数据集,并希望更多的结构能从中获益。 如果您使用了本数据集,请在您的论文或者演讲稿中声明。 我们同时也希望能够从使用者处了解数据的使用情况和其他反馈信息。 7. 联系信息 我们欢迎任何形式的关于本数据集以及其他将来我们有可能提供的数据集的意见,建议, 问题和其他反馈信息,请将他们发送到chinese-ngrams@google.com,我们将尽快答复。 刘方 阳萌 林德康 Google研究院 2008年6月4日