Google Ngram (English) の small 版 を作りました。
Google Ngram はとても便利なものですが、いかんせんサイズが大きすぎて個人には使いにくい代物です。
そこで、英語に限定、時間軸は latest、閾値 > 999 で小さくして 1GB 以内に収めたデータセットを作りました。
ほとんどのユースケースはこの条件で足りると思います。
名前は google-ngram-small-en としました。
案の定データ量がやばかったので、構築には一ヶ月くらい掛かりました。
並列実行すればもっと早くできたと思いますが、あまり Google に負荷掛けるのも嫌なので、まったり作りました。
3gram でもデータ量がキツイので、4gram は作ってません。
英語を使って何かしようとすると、なんやかんやこのデータセットを作らないといけないケースが多々ありました。
割と使えるデータセットになっているんじゃないかな。
0 件のコメント:
コメントを投稿