2022年4月22日金曜日

Web N-gram を用いた英語の共起コーパス wncc-en を作った

Web N-gram を用いた英語の共起コーパス wncc-en を作りました。 名前は Web N-gram based Collocation Corpus の略です。 検証用に作ったものなのですが、まあまあの出来には見えます。 日本語版がうまくできたのでノリで作りましたが、日本語ほど使いやすくないかな?



英語では Google N-gram を使って共起関係を抽出します。 Google N-gram は大きすぎるので、事前に軽量な N-gram データ (google-ngram-small-en) を作って、そちらから作っています。 Google N-gram には 単語_品詞 の形で品詞情報が付いているので色々と活用もしやすいです。 ちなみに 4gram はデータ量がヤバイので解析していません。

品詞情報は DB を生成してみたところ微妙だったので無視しました。 他にも過去形を正規化するべきかどうか迷いましたが、日本語より正規化が面倒なので、正規化せず処理することにしました。 少しデータサイズが大きくなりますが、気にするほどではないかも。

抽出できると嬉しそうな基本ルールは以下ですが、英語は割と雑に順序を入れ替えても何とかなります。 実のところ何も考えずにすべての N-gram を登録してみました。

2gram

  • S [verb]
  • [verb] [adverb]
  • [adverb] [verb]
  • [adjective] [adverb]
  • [adverb] [adjective]
  • [noun] [noun]

3gram

  • S [verb] [adverb]
  • S be [adjective]
  • S be [noun]

今回作ったデータをもとに、また何か作れそうです。 ただ最初に書いたように、あまり使い勝手は良くなさそう。 サジェストにでも使えるかな、というくらい。

0 件のコメント: