Web N-gram を用いた英語の共起コーパス wncc-en を作った

Web N-gram を用いた英語の共起コーパス wncc-en を作りました。名前は Web N-gram based Collocation Corpus の略です。検証用に作ったものなのですが、まあまあの出来には見えます。日本語版がうまくできたのでノリで作りましたが、日本語ほど使いやすくないかな？

wncc-en

英語では Google N-gram を使って共起関係を抽出します。 Google N-gram は大きすぎるので、事前に軽量な N-gram データ (google-ngram-small-en) を作って、そちらから作っています。 Google N-gram には単語_品詞の形で品詞情報が付いているので色々と活用もしやすいです。ちなみに 4gram はデータ量がヤバイので解析していません。

品詞情報は DB を生成してみたところ微妙だったので無視しました。他にも過去形を正規化するべきかどうか迷いましたが、日本語より正規化が面倒なので、正規化せず処理することにしました。少しデータサイズが大きくなりますが、気にするほどではないかも。

抽出できると嬉しそうな基本ルールは以下ですが、英語は割と雑に順序を入れ替えても何とかなります。実のところ何も考えずにすべての N-gram を登録してみました。

2gram

S [verb]
[verb] [adverb]
[adverb] [verb]
[adjective] [adverb]
[adverb] [adjective]
[noun] [noun]

3gram

S [verb] [adverb]
S be [adjective]
S be [noun]

今回作ったデータをもとに、また何か作れそうです。ただ最初に書いたように、あまり使い勝手は良くなさそう。サジェストにでも使えるかな、というくらい。

marmooo's blog

2022年4月22日金曜日