実際に作ってみた結論としては、
- IPAdic には読みデータが付いているメリットがある
- IPAdic のほうが低頻度領域のノイズは強い
- その一方で頻度分布自体が不正確なので n-gram のほうが利用しやすい
- カタカナ熟語は IPAdic だとやや不安定
- カタカナ熟語は IPAdic だとインターネット語に弱い
漢字に関しては、生成されたデータを目視で確認した限り、数が多ければ IPAdic でも問題ありません。 ただ数が少なくなってくると IPAdic はあまり使わない熟語が生成されやすい傾向は見て取れ、データ量の少なさによって生じる頻度問題を感じます。 n-gram 方式のほうがより良い熟語が取れるように思います。 とはいえ IPAdic には読みが付いているメリットがあるので、読みを活用したい場合には IPAdic が良さそうです。
まー n-gram に Mecab などで読みを付与する方法もあるとは思うんですが、エラー訂正面倒なので…。 それやるともはや形態素解析器の重み計算をやり直すようなものなので、今回はパス。 ちなみに IPAdic / n-gram どちらの場合もフィルターを付けないと、熟語として使いにくいことは変わりません。 これは n-gram からの熟語生成 と同様のフィルターを流用すると、いい感じでした。
IPAdic を使った熟語生成も コードを公開 しました。
0 件のコメント:
コメントを投稿