そこで、英語に限定、時間軸は latest、閾値 > 999 で小さくして 1GB 以内に収めたデータセットを作りました。 ほとんどのユースケースはこの条件で足りると思います。 名前は google-ngram-small-en としました。 案の定データ量がやばかったので、構築には一ヶ月くらい掛かりました。 並列実行すればもっと早くできたと思いますが、あまり Google に負荷掛けるのも嫌なので、まったり作りました。 3gram でもデータ量がキツイので、4gram は作ってません。
英語を使って何かしようとすると、なんやかんやこのデータセットを作らないといけないケースが多々ありました。 割と使えるデータセットになっているんじゃないかな。
0 件のコメント:
コメントを投稿