難読漢字一覧を作った

難読漢字辞書を作りました。念のため書いておくと、地名・人名などの固有名詞を含まない辞書です。それらを含むとキラキラネームで酷いことになるからね…。まず問題意識としては、漢検準1級からは表外読みもテストに出題される仕組みがあります。このとき準1級と1級のどちらにその漢字を載せるかの問題があります。準1級に載せると数が多くなり過ぎてしまうので、レベル別に分けた難読漢字辞書があると良いなと思って作りました。他にはない基準で辞書を作っていて、小学生にとっての難読漢字、中学生にとっての難読漢字、高校生にとっての難読漢字、大人にとっての難読漢字の 4種類で分けています。このほうがわかりやすいでしょ？

難読漢字一覧

作り方

作り方は、まずは読み方が常用漢字の表内音訓で構成されるかどうかで判断します。表外音訓が含まれるものは自動的に難読にしました。ただそれだけだと使い物にならないので、「他の字又は語と結び付く場合に音韻上の変化を起こす語」を解析する必要があります。例えば常用漢字表には以下の例があります。

納得（ナットク） 格子（コウシ）手綱（タヅナ） 金物（カナモノ）
音頭（オンド） 夫婦（フウフ）順応（ジュンノウ）
因縁（インネン）春雨（ハルサメ）

これらの大半は連濁・連声・促音化・半濁音化で対応できます。たとえばタヅナ→ツ＋濁音(連濁)、ノウ→ン＋オ→ノ(連声)、ン＋エ→ネ(連声) で対処できます。他にも発表（ハッピョウ）は、ツ→ッ(促音化)、ヒ→ピ(半濁音化)で対処できます。こういった典型的な読み方の変化で構成される語は難読漢字とは言えません。

上例で難しいのは音韻変化のカナモノ、音韻添加のハルサメです。このような読み方の変化は予測できないので難読漢字です。他にも転音・音便・音韻脱落・音韻融合などは変化が不明瞭で、たぶん正確には予測できません。他に難しいのは「取引、入口、場合、組合、立場、引換」などの送り仮名を省略した語句です。この処理はたぶん形態素解析の知識を入れないと無理だと思うのですよね。 yomi-dict を使えば漢字一字の特殊読みを取得できるので一応は対処できましたが、わかりやすいルールで処理できないので、日本語は本当に難しいなあと感じさせられました。

まとめ

完成品を見てみると、常用漢字レベルでも簡単に見えるものが多々ありますが、全体としては良い出来です。常用漢字表は意外と訓読みが載っていないことが多いのだなと感じました。また小1では「一人(ひとり)」、小2では「時計(とけい)」などが普通に出てくるので、難読漢字だからといって学習から除外しないほうが良いこともすぐにわかります。やはり語句の利用頻度を見て例文を作るほうが大切なのでしょう。

また思ったより難読漢字は数が少ないこともわかりました。先の条件だと 8,000 くらい。 Unihan Database に登録されている音訓を表内と見なした場合は 3,000 くらい。 Unihan Database の音訓もまあまあ使えるんだなとわかります。

marmooo's blog

2024年7月2日火曜日

難読漢字一覧を作った

作り方

まとめ

0 件のコメント: