英語では Google N-gram を使って共起関係を抽出します。 Google N-gram は大きすぎるので、事前に軽量な N-gram データ (google-ngram-small-en) を作って、そちらから作っています。 Google N-gram には 単語_品詞 の形で品詞情報が付いているので色々と活用もしやすいです。 ちなみに 4gram はデータ量がヤバイので解析していません。
品詞情報は DB を生成してみたところ微妙だったので無視しました。 他にも過去形を正規化するべきかどうか迷いましたが、日本語より正規化が面倒なので、正規化せず処理することにしました。 少しデータサイズが大きくなりますが、気にするほどではないかも。
抽出できると嬉しそうな基本ルールは以下ですが、英語は割と雑に順序を入れ替えても何とかなります。 実のところ何も考えずにすべての N-gram を登録してみました。
2gram
- S [verb]
- [verb] [adverb]
- [adverb] [verb]
- [adjective] [adverb]
- [adverb] [adjective]
- [noun] [noun]
3gram
- S [verb] [adverb]
- S be [adjective]
- S be [noun]
今回作ったデータをもとに、また何か作れそうです。 ただ最初に書いたように、あまり使い勝手は良くなさそう。 サジェストにでも使えるかな、というくらい。
0 件のコメント:
コメントを投稿