形態素解析と「すもももももももものうち」

MeCabが「すもももももももものうち」は綺麗にパーズするけど，「きしゃのきしゃがきしゃできしゃした」とか「うらにわにはにわにわとりがいる」はイマイチで，裏庭に埴輪が生えがち，みたいな話をした．
— Iwao KIMURA (@iwaokimura) June 23, 2021

「きしゃのきしゃがきしゃできしゃした」は知らなかったので、自分用メモです。私はこの手の話については「すもももももももものうち」自体がヒューリティクスという認識でいます。

そもそも、すももは「桃のうち」ではなく、実は桃とは異なる、バラ科の別の植物です。つまり誤文で、私はこれを知った時にがっくり来ました。ではなぜ「すもも」になるのかと思ったことがあります (キレ気味)。形態素解析は統計順で行うから「すもも」が正しいのですと言う主張も、納得感がありません。そもそも間違ってるし、別に統計順を知りたい訳でもない。どちらかと言えば「酢も藻も桃も股の内」のほうが間違いがない。まあこれも「も」が多すぎるので lint 的にはあまりよろしくないのですが。

このような問題を考えていくと、完全に意味論の話になってて、形態素解析という枠組みではもう解けない問題です。よって形態素解析器の平仮名問題は考える必要がなく、日本語の lint で検出すべき問題と思います。ひらがなの連続回数やひらがなの文字列パターンで、読みやすさが決まることは明白なので、警告を出せば良い。形態素解析器の精度の議論にも含めてはいけないと思う。さらに言えばそのへんも考慮して形態素解析すべきなのだと思います。

この話って、たぶん話し言葉の解析に通じます。話し言葉は Tiny Segmenter で 95% の精度が出て、Mecab も同じくらいの精度です。そして数GB の rank 情報を無理やり入れても 98% なので、そもそも形態素解析器とは…うごごご…と思ったりします。平仮名をしっかりすることのほうがよほど重要ではないのかと。これはずっと思ってることなんですが、Tiny Segmenter 周りってもっと深堀りしたほうが良いんじゃないのかなあ。 3-hop で 95% が出るので詳細なラティスはいらないと思います。個人的には品詞もうーんと思ったりするのですが、そこはさらに意見が分かれそうかなあ。

いろいろと良い手法が浮かびはするのですが、巷の検証用コーパス自体が有料なので、やる気がしないんですよね…。誰か Deep でポンしてくれないかなのところがある。

marmooo's blog

2021年6月24日木曜日

形態素解析と「すもももももももものうち」

0 件のコメント: