2022年6月5日日曜日

Yomico: 半手動でふりがなのルビを振るライブラリを作った

半手動でふりがなのルビを振るライブラリ Yomico を作りました。 いまさらそんなものが必要なのかと思う人もいるかも知れませんが、 小さな子のためのページをたくさん作っているので、どうしても必要になってきました。



漢字に対してふりがなをルビで振る方法としては、真っ先に Mecab / TinySegmenter を思い浮かべるかと思います。 最近は Vaporetto もあるかな。 しかしそれらの技術では精度の問題があって、読み推定に関して言えば、残念ながらかなり気になるレベルです。 毎日見るようなアプリに適用するのは、さすがに抵抗があります。 形態素解析を真面目にやるとメモリ使用量や通信容量が大きくなる問題もあります。 といって手動でルビを振る作業は苦痛です。

そこでローカル環境で Mecab にルビを振ってもらい、事前にふりがなの候補をリスト化します。 そして間違っている箇所を手動で修正し、フロントエンド上ではボタン一つで、形態素解析器なしにルビを振れるような仕組みを用意しました。 この方式なら、95% の仕事は Mecab に任せられ、残り 5% だけを頑張れば良いです。 またふりがなの精度は常に 100% にでき、省メモリ・高速なルビ振りが実現できます。

かなり便利です。使う人は私くらいかも知れませんが…。

0 件のコメント:

コメントを投稿