作り方
作り方は、まずは読み方が常用漢字の表内音訓で構成されるかどうかで判断します。表外音訓が含まれるものは自動的に難読にしました。 ただそれだけだと使い物にならないので、「他の字又は語と結び付く場合に音韻上の変化を起こす語」を解析する必要があります。 例えば常用漢字表には以下の例があります。納得(ナットク) 格子(コウシ)手綱(タヅナ) 金物(カナモノ)
音頭(オンド) 夫婦(フウフ)順応(ジュンノウ)
因縁(インネン)春雨(ハルサメ)
これらの大半は連濁・連声・促音化・半濁音化で対応できます。
たとえばタヅナ→ツ+濁音(連濁)、ノウ→ン+オ→ノ(連声)、ン+エ→ネ(連声) で対処できます。
他にも発表(ハッピョウ)は、ツ→ッ(促音化)、ヒ→ピ(半濁音化)で対処できます。
こういった典型的な読み方の変化で構成される語は難読漢字とは言えません。
上例で難しいのは音韻変化のカナモノ、音韻添加のハルサメです。 このような読み方の変化は予測できないので難読漢字です。 他にも転音・音便・音韻脱落・音韻融合などは変化が不明瞭で、たぶん正確には予測できません。 他に難しいのは「取引、入口、場合、組合、立場、引換」などの送り仮名を省略した語句です。 この処理はたぶん形態素解析の知識を入れないと無理だと思うのですよね。 yomi-dict を使えば漢字一字の特殊読みを取得できるので一応は対処できましたが、 わかりやすいルールで処理できないので、日本語は本当に難しいなあと感じさせられました。
まとめ
完成品を見てみると、常用漢字レベルでも簡単に見えるものが多々ありますが、全体としては良い出来です。 常用漢字表は意外と訓読みが載っていないことが多いのだなと感じました。 また小1では「一人(ひとり)」、小2では「時計(とけい)」などが普通に出てくるので、 難読漢字だからといって学習から除外しないほうが良いこともすぐにわかります。 やはり語句の利用頻度を見て例文を作るほうが大切なのでしょう。また思ったより難読漢字は数が少ないこともわかりました。 先の条件だと 8,000 くらい。 Unihan Database に登録されている音訓を表内と見なした場合は 3,000 くらい。 Unihan Database の音訓もまあまあ使えるんだなとわかります。
0 件のコメント:
コメントを投稿