2021年8月29日日曜日

Tanaka Corpus をオレオレ改良した

日英対訳コーパスの Tanaka Corpus を改良したものを GitHub で配布し始めました。 だいぶ前に作って「誰も使わんしええやろ」と思って記事にし忘れていたんですが、記事にしておいたほうが良い情勢になってきたので、書いておきます。

tanaka-corpus-plus

まず機械翻訳や英語アプリを作るにあたって、対訳コーパスは大切です。 今なら C4 がデータセットとして一番有名ですが、 私のような一般人には「 HDD に入らないっす」となりがちです。 そこで中規模の使いやすい日英対訳コーパスとして、Tanaka Corpus を使うのは良い選択肢です。

しかし Tanaka Corpus は結構扱いに困るところもあります。 まず 1年前はあまり更新されない静的な形式のデータがダウンロードできたのですが、 一時期ダウンロードできない時期があって、 その後気付いたらデータが自動更新されるようになっていました。 データは Tatoeba と同期しているのだと理解しています。 Tatoeba は Tanaka Corpus のデータセットを引き継ぎ、多言語化したデータセットです。 じゃあ Tatoeba や自動更新されるデータを使えば良いんじゃないか? そうでもないです。

もともとの Tanaka Corpus はややノイズがあるものの、大学生の方が頑張って作ったものです。 しかし Tatoeba は自由にユーザ投稿できるコーパスで、データチェックはしていません (と理解しています)。 そのためバージョン付きの配布形式でメンテしないと用途によっては扱いに困る部分があるような気がしました。 そこで古いデータを保存し、ベースにした上で、Tanaka Corpus を自分でノイズ除去をしようと思いました。 しかし何の目的もなくメンテするのはつらいので、いくつかの英語ゲーム (下) を作って、 遊びながらノイズのある翻訳を削除しています。



遊んでいたら割と気楽にノイズが削れたので、 ノイズを除去した日英対訳コーパスを配布することにしました。 ちなみに明らかにノイズなものは、手間を考えて再翻訳ではなく削除してます。 名前を保持したほうがわかりやすいと思い、安直に Tanaka Corpus Plus としました。 改変内容を確認しながら共有したほうが良いと思うので、そこをきちんと残しつつ CC-BY で配布しています。 データが欲しい人はここからどうぞ。 もちろん大学生の方が頑張って作ったオリジナルのものも含まれています。

0 件のコメント: