淺入深出日語假名轉換

摘要：知其然更要知其所以然。

平片假名轉換#

結論#

片假名轉平假名

def convert_kata_to_hira(input_text):
    process_texts = []
    for gana in input_text:
        if 12448 <= ord(gana) <= 12534:  # 匹配片假名字符
            hira = chr(ord(gana) - 96)  # 轉換為平假名
            process_texts.append(hira)
    output_text = "".join(process_texts)
    return output_text

平假名轉片假名

def convert_hira_to_kata(input_text):
    process_texts = []
    for gana in input_text:
        if 12353 <= ord(gana) <= 12438:  # 匹配平假名字符
            hira = chr(ord(gana) + 96)  # 轉換為片假名
            process_texts.append(hira)
    output_text = "".join(process_texts)
    return output_text

平假名 Unicode#

按 Unicode 組織提供的 Unicode 標準文件 U3040.pdf，平假名的十進制範圍是 12353-12447，十六進制範圍是[\u3041-\u309f]（正則表達式的字符轉義使用的是十六進制）。

字符	十進制	十六進制
ぁ	12353	3041
あ	12354	3042
ぃ	12355	3043
い	12356	3044
ぅ	12357	3045
う	12358	3046
ぇ	12359	3047
え	12360	3048
ぉ	12361	3049
お	12362	304A
か	12363	304B
が	12364	304C
き	12365	304D
ぎ	12366	304E
く	12367	304F
ぐ	12368	3050
け	12369	3051
げ	12370	3052
こ	12371	3053
ご	12372	3054
さ	12373	3055
ざ	12374	3056
し	12375	3057
じ	12376	3058
す	12377	3059
ず	12378	305A
せ	12379	305B
ぜ	12380	305C
そ	12381	305D
ぞ	12382	305E
た	12383	305F
だ	12384	3060
ち	12385	3061
ぢ	12386	3062
っ	12387	3063
つ	12388	3064
づ	12389	3065
て	12390	3066
で	12391	3067
と	12392	3068
ど	12393	3069
な	12394	306A
に	12395	306B
ぬ	12396	306C
ね	12397	306D
の	12398	306E
は	12399	306F
ば	12400	3070
ぱ	12401	3071
ひ	12402	3072
び	12403	3073
ぴ	12404	3074
ふ	12405	3075
ぶ	12406	3076
ぷ	12407	3077
へ	12408	3078
べ	12409	3079
ぺ	12410	307A
ほ	12411	307B
ぼ	12412	307C
ぽ	12413	307D
ま	12414	307E
み	12415	307F
む	12416	3080
め	12417	3081
も	12418	3082
ゃ	12419	3083
や	12420	3084
ゅ	12421	3085
ゆ	12422	3086
ょ	12423	3087
よ	12424	3088
ら	12425	3089
り	12426	308A
る	12427	308B
れ	12428	308C
ろ	12429	308D
ゎ	12430	308E
わ	12431	308F
ゐ	12432	3090
ゑ	12433	3091
を	12434	3092
ん	12435	3093
ゔ	12436	3094
ゕ	12437	3095
ゖ	12438	3096
空	12439	3097
空	12440	3098
゙	12441	3099
゚	12442	309A
゛	12443	309B
゜	12444	309C
ゝ	12445	309D
ゞ	12446	309E
ゟ	12447	309F

片假名 Unicode#

按 U30A0.pdf，十六進制的範圍是[\u30a0-\u30ff]，十進制範圍是 12448-12543。

字符	十進制	十六進制
゠	12448	30A0
ァ	12449	30A1
ア	12450	30A2
ィ	12451	30A3
イ	12452	30A4
ゥ	12453	30A5
ウ	12454	30A6
ェ	12455	30A7
エ	12456	30A8
ォ	12457	30A9
オ	12458	30AA
カ	12459	30AB
ガ	12460	30AC
キ	12461	30AD
ギ	12462	30AE
ク	12463	30AF
グ	12464	30B0
ケ	12465	30B1
ゲ	12466	30B2
コ	12467	30B3
ゴ	12468	30B4
サ	12469	30B5
ザ	12470	30B6
シ	12471	30B7
ジ	12472	30B8
ス	12473	30B9
ズ	12474	30BA
セ	12475	30BB
ゼ	12476	30BC
ソ	12477	30BD
ゾ	12478	30BE
タ	12479	30BF
ダ	12480	30C0
チ	12481	30C1
ヂ	12482	30C2
ッ	12483	30C3
ツ	12484	30C4
ヅ	12485	30C5
テ	12486	30C6
デ	12487	30C7
ト	12488	30C8
ド	12489	30C9
ナ	12490	30CA
ニ	12491	30CB
ヌ	12492	30CC
ネ	12493	30CD
ノ	12494	30CE
ハ	12495	30CF
バ	12496	30D0
パ	12497	30D1
ヒ	12498	30D2
ビ	12499	30D3
ピ	12500	30D4
フ	12501	30D5
ブ	12502	30D6
プ	12503	30D7
ヘ	12504	30D8
ベ	12505	30D9
ペ	12506	30DA
ホ	12507	30DB
ボ	12508	30DC
ポ	12509	30DD
マ	12510	30DE
ミ	12511	30DF
ム	12512	30E0
メ	12513	30E1
モ	12514	30E2
ャ	12515	30E3
ヤ	12516	30E4
ュ	12517	30E5
ユ	12518	30E6
ョ	12519	30E7
ヨ	12520	30E8
ラ	12521	30E9
リ	12522	30EA
ル	12523	30EB
レ	12524	30EC
ロ	12525	30ED
ヮ	12526	30EE
ワ	12527	30EF
ヰ	12528	30F0
ヱ	12529	30F1
ヲ	12530	30F2
ン	12531	30F3
ヴ	12532	30F4
ヵ	12533	30F5
ヶ	12534	30F6
ヷ	12535	30F7
ヸ	12536	30F8
ヹ	12537	30F9
ヺ	12538	30FA
・	12539	30FB
ー	12540	30FC
ヽ	12541	30FD
ヾ	12542	30FE
ヿ	12543	30FF

片假名語音擴展 Unicode#

按 U31F0.pdf，十進制範圍：12784-12799，十六進制範圍是[\u31f0-\u31ff]

P.S. 按 Unicode 官方的說明，這部分的假名用於「阿伊努語」，但我看不出這部分和上面的區別 233

字符	十進制	十六進制
ㇰ	12784	31F0
ㇱ	12785	31F1
ㇲ	12786	31F2
ㇳ	12787	31F3
ㇴ	12788	31F4
ㇵ	12789	31F5
ㇶ	12790	31F6
ㇷ	12791	31F7
ㇸ	12792	31F8
ㇹ	12793	31F9
ㇺ	12794	31FA
ㇻ	12795	31FB
ㇼ	12796	31FC
ㇽ	12797	31FD
ㇾ	12798	31FE
ㇿ	12799	31FF

全半角假名轉換#

半角字符 Unicode#

按 UFF00.pdf，日語半角字符的範圍是 65381-65439，十六進制範圍：[\uff65-\uff9f]。

字符	十進制	十六進制
･	65381	FF65
ｦ	65382	FF66
ｧ	65383	FF67
ｨ	65384	FF68
ｩ	65385	FF69
ｪ	65386	FF6A
ｫ	65387	FF6B
ｬ	65388	FF6C
ｭ	65389	FF6D
ｮ	65390	FF6E
ｯ	65391	FF6F
ｰ	65392	FF70
ｱ	65393	FF71
ｲ	65394	FF72
ｳ	65395	FF73
ｴ	65396	FF74
ｵ	65397	FF75
ｶ	65398	FF76
ｷ	65399	FF77
ｸ	65400	FF78
ｹ	65401	FF79
ｺ	65402	FF7A
ｻ	65403	FF7B
ｼ	65404	FF7C
ｽ	65405	FF7D
ｾ	65406	FF7E
ｿ	65407	FF7F
ﾀ	65408	FF80
ﾁ	65409	FF81
ﾂ	65410	FF82
ﾃ	65411	FF83
ﾄ	65412	FF84
ﾅ	65413	FF85
ﾆ	65414	FF86
ﾇ	65415	FF87
ﾈ	65416	FF88
ﾉ	65417	FF89
ﾊ	65418	FF8A
ﾋ	65419	FF8B
ﾌ	65420	FF8C
ﾍ	65421	FF8D
ﾎ	65422	FF8E
ﾏ	65423	FF8F
ﾐ	65424	FF90
ﾑ	65425	FF91
ﾒ	65426	FF92
ﾓ	65427	FF93
ﾔ	65428	FF94
ﾕ	65429	FF95
ﾖ	65430	FF96
ﾗ	65431	FF97
ﾘ	65432	FF98
ﾙ	65433	FF99
ﾚ	65434	FF9A
ﾛ	65435	FF9B
ﾜ	65436	FF9C
ﾝ	65437	FF9D
ﾞ	65438	FF9E
ﾟ	65439	FF9F

注：第一個字符是半角的・。

觀察上面的表格，可以注意到下面 2 點：

平假名沒有半角假名（這一點可以和維基百科的半形假名相印證）
有部分平假名的半角假名是由 2 個字符構成，所以不可能像平片假名轉換那樣用hira = chr(int(ord(gana) - 96))輕鬆轉換，而是要用字符串替換的方式。

所以，全半角假名的轉換比平片假名的轉換麻煩得多，個人建議使用第三方庫。

mojimoji#

如果想從全角轉為半角，那麼 mojimoji 可能是唯一的選擇了。

import mojimoji
print mojimoji.zen_to_han(u'アイウａｂｃ０１２')
# ｱｲｳabc012
print mojimoji.zen_to_han(u'アイウａｂｃ０１２', kana=False)
# アイウabc012
print mojimoji.zen_to_han(u'アイウａｂｃ０１２', digit=False)
# ｱｲｳabc０１２
print mojimoji.zen_to_han(u'アイウａｂｃ０１２', ascii=False)
# ｱｲｳａｂｃ012

print mojimoji.han_to_zen(u'ｱｲｳabc012')
# アイウａｂｃ０１２
print mojimoji.han_to_zen(u'ｱｲｳabc012', kana=False)
# ｱｲｳａｂｃ０１２
print mojimoji.han_to_zen(u'ｱｲｳabc012', digit=False)
# アイウａｂｃ012
print mojimoji.han_to_zen(u'ｱｲｳabc012', ascii=False)
# アイウabc０１２

另外，按Python で半角・全角の変換を高速に行う提供的測評來看，mojimoji 也是速度最快的。

%%time
import mojimoji
import zenhan
import jctconv

s = u'アイオエオ０１２３４５' * 10

%time for n in range(1000000): mojimoji.zen_to_han(s)
>>> CPU times: user 3.90 s, sys: 0.03 s, total: 3.93 s Wall time: 3.97 s

%time for n in range(1000000): zenhan.z2h(s)
>>> CPU times: user 71.05 s, sys: 0.16 s, total: 71.22 s Wall time: 71.45 s

%time for n in range(1000000): jctconv.z2h(s)
>>> CPU times: user 19.75 s, sys: 0.06 s, total: 19.81 s Wall time: 19.86 s

unicodedata#

考慮到更普通的需求其實就是半角轉全角，所以 Python 內置的標準庫unicodedata就已經夠用了。

%%time
import unicodedata

input = "アイオエオ０１２３４５" * 10
for n in range(1000000):
    unicodedata.normalize("NFKC", input)

>>> CPU times: total: 11.5 s Wall time: 11.6 s

雖然是標準庫，但轉換速度不如上面提到的 mojimoji。

另外，按照 Python 官方文檔的說法，還有NFC、NFD 、NFKD三種模式，這裡不做過多解釋~~其實是因為我也沒搞懂啦 233~~

下面再提供一個測試用例：

import unicodedata

HAN_MOJI = "ｧｱｨｲｩｳｪｴｫｵｶｶﾞｷｷﾞｸｸﾞｹｹﾞｺｺﾞｻｻﾞｼｼﾞｽｽﾞｾｾﾞｿｿﾞﾀﾀﾞﾁﾁﾞｯﾄﾂﾞﾃﾃﾞﾄﾄﾞﾅﾆﾇﾈﾉﾊﾊﾞﾊﾟﾋﾋﾞﾋﾟﾌﾌﾞﾌﾟﾍﾍﾞﾍﾟﾎﾎﾞﾎﾟﾏﾐﾑﾒﾓｬﾔｭﾕｮﾖﾗﾘﾙﾚﾛﾜｦﾝｳﾞﾞﾟ"
ZEN_MOJI = "ァアィイゥウェエォオカガキギクグケゲコゴサザシジスズセゼソゾタダチヂッツヅテデトドナニヌネノハバパヒビピフブプヘベペホボポマミムメモャヤュユョヨラリルレロワヲンヴ゙゚"
if ZEN_MOJI == unicodedata.normalize("NFKC", HAN_MOJI):
    print("OK")

手寫函數 half_to_fullwidth#

前面提到「由於有部分平假名的半角假名是由 2 個字符構成，所以要想全半角的轉換的話，得用用字符串替換的方式」，但本人實現後發現這種方式的性能還不如 unicodedata

def half_to_fullwidth(text):
    zenkaku_mapping = {
        "ｶ": "カ",
        "ｷ": "キ",
        "ｸ": "ク",
        "ｹ": "ケ",
        "ｺ": "コ",
        "ｻ": "サ",
        "ｼ": "シ",
        "ｽ": "ス",
        "ｾ": "セ",
        "ｿ": "ソ",
        "ﾀ": "タ",
        "ﾁ": "チ",
        "ﾂ": "ツ",
        "ﾃ": "テ",
        "ﾄ": "ト",
        "ﾅ": "ナ",
        "ﾆ": "ニ",
        "ﾇ": "ヌ",
        "ﾈ": "ネ",
        "ﾉ": "ノ",
        "ﾊ": "ハ",
        "ﾋ": "ヒ",
        "ﾌ": "フ",
        "ﾍ": "ヘ",
        "ﾎ": "ホ",
        "ﾏ": "マ",
        "ﾐ": "ミ",
        "ﾑ": "ム",
        "ﾒ": "メ",
        "ﾓ": "モ",
        "ﾔ": "ヤ",
        "ﾕ": "ユ",
        "ﾖ": "ヨ",
        "ﾗ": "ラ",
        "ﾘ": "リ",
        "ﾙ": "ル",
        "ﾚ": "レ",
        "ﾛ": "ロ",
        "ﾜ": "ワ",
        "ｦ": "ヲ",
        "ﾝ": "ン",
        "ｧ": "ァ",
        "ｨ": "ィ",
        "ｩ": "ゥ",
        "ｪ": "ェ",
        "ｫ": "ォ",
        "ｯ": "ッ",
        "ｬ": "ャ",
        "ｭ": "ュ",
        "ｮ": "ョ",
        "ｰ": "ー",
        "ﾞ": "゛",
        "ﾟ": "゜",
    }

    full_width_text = ""
    for char in text:
        if char in zenkaku_mapping:
            full_width_text += zenkaku_mapping[char]
        else:
            full_width_text += char

    return full_width_text

# 測試函數
text = "ｧｱｨｲｩｳｪｴｫｵｶｶﾞｷｷﾞｸｸﾞｹｹﾞｺｺﾞｻｻﾞｼｼﾞｽｽﾞｾｾﾞｿｿﾞﾀﾀﾞﾁﾁﾞｯﾄﾂﾞﾃﾃﾞﾄﾄﾞﾅﾆﾇﾈﾉﾊﾊﾞﾊﾟﾋﾋﾞﾋﾟﾌﾌﾞﾌﾟﾍﾍﾞﾍﾟﾎﾎﾞﾎﾟﾏﾐﾑﾒﾓｬﾤｭﾕｮﾖﾗﾘﾙﾚﾛﾜｦﾝｳﾞﾞﾟ"
converted_text = half_to_fullwidth(text)
print("轉換後的全角假名文本：", converted_text)

測試下性能：

%%time
input = "アイオエオ０１２３４５" * 10
for n in range(1000000):
    half_to_fullwidth(input)

>>> CPU times: total: 25.2 s Wall time: 25.3 s

單就速度和功能來看，mojimoji 都是第一，但大多數時候只需要半角轉全角這一個功能，所以我更推薦內置庫 unicodedata 。另外提醒一下： mojimoji 需要 C++ 環境，打包時會比較麻煩。

其他#

打印一定範圍內的 Unicode 字符#

def print_characters(start_unicode):
    for i in range(start_unicode, start_unicode + 100):
        print(i+" : "chr(i))

# 調用函數並傳入起始 Unicode 碼作為參數
start_unicode = int(input("請輸入起始的 Unicode 碼: "))
print_characters(start_unicode)

參考#

Python で全角・半角を変換（mojimoji など）：非常詳細地解釋了本文談到的所有類型轉換

Python で半角・全角の変換を高速に行う：mojimoji 作者親自撰寫的文檔，比較了 3 個常見的半角轉全角的第三方庫的性能。

Unicode 15.0 Character Code Charts：從官網查看完整的碼表。