コンテンツにスキップ

モジュール:CharacterJPN/doc

提供:Wikisource

モジュール:CharacterJPNは、日本語環境固有の文字処理を提供します。

  • 関数kanji_old2newは、テキスト中の旧字を新字に置き換えます。
    • 引数textで新字に置き換えるテキストを指定します。
    • 引数oldnewで新旧字以外の変換前後文字を旧新旧新旧新…の順に一列に並べます。
    • 引数exoldexnewで新旧字以外の変換前文字と変換後文字を一つ以上指定します。
      • 上述の引数oldnewとexold,exnewは併用できます。同じ旧字が含まれる場合は、oldnewよりexnewが優先されます。
      • exoldとexnewは一文字ずつがそれぞれ組になる必要がありますが、漢字を等幅表示できない環境ではそれぞれの漢字の横座標がずれて閲覧・編集しにくいのでoldnewの使用をお勧めします。
    • 引数excludeで新字への変換を行わない旧字を一つ以上指定します。ただし異体字セレクター使用領域(U+F900からU+FAFF、U+2F800からU+2FA1Fなど)は必ず新字に変換されます。
      • 「萬」や「龍」など今も広く用いられている旧字を新字に変換したくない時に有用です。
    • 関数kanji_old2newで旧字を新字に変換した例を以下に示します。引数oldnewで新旧字体だけでなく「脫」を「脱」に変換するなどしています。引数excludeで旧字の「眞」と「卷」を新字変換から除外しています。
  • 入力

{{#Invoke:CharacterJPN|kanji_old2new |text=成吉思汗實錄卷の三、帖木眞、合撒兒、脫斡哩勒 |oldnew=內内吳呉吿告姬姫寗寧尙尚强強戶戸旣既朵朶歲歳煑煮產産眾衆稅税絕絶繫繋脫脱說説銳鋭雞鶏頰頬顚顛 |exclude=眞卷}}

  • 出力

成吉思汗実録卷の三、帖木眞、合撒児、脱斡哩勒

  • 関数replace_kanji_number_to_arabicは、テキスト中の漢数字や全角数字を算用数字に置き換えます。
    • 引数textで算用数字に置き換えるテキストを指定します。
    • 引数ketaでゼロ埋めする桁数を数字で指定します。何も指定しない場合はゼロ埋めされません。
    • 引数errstrで不正な漢数字書式だった場合に出力するエラー文字列を指定します。何も指定しない場合は該当部分文字列が除去され、「ignore」を指定した場合はそのままになります。
    • 引数trimfirstに'1'を指定すると最初に見つかった数字に置き換えます。
    • 関数replace_kanji_number_to_arabicでテキスト中の漢数字や全角数字を算用数字に変換した例を以下に示します。「二十万四億」は不正な漢数字書式なので「エラー」に置き換わります。
  • 入力

{{#Invoke:CharacterJPN|replace_kanji_number_to_arabic |text=見本Aは三兆百五十億十七、見本Bは二十万四億、見本Cは廿二です|keta=5|errstr=エラー}}

  • 出力

見本Aは3015000000017、見本Bはエラー、見本Cは00022です

  • 入力

{{#Invoke:CharacterJPN|replace_kanji_number_to_arabic |text=見本Aは四十兆百五十億十七、見本Bは二十万四億、見本Cは廿二です|keta=5|errstr=エラー|trimfirst=1}}

  • 出力

40015000000017