Ruby (1.9以降) での日本語の扱い方まとめ

[履歴] [最終更新] (2014/12/14 21:22:49)

プログラミング/IoT の関連商品 (Amazonのアソシエイトとして、当メディアは適格販売により収入を得ています。)

モンスターハンターワールド:アイスボーンマスターエディション - PS4

ポケットモンスターソード -Switch

実用ロボット開発のためのROSプログラミング

サインスマート DSO202 Note II ポケットサイズデジタルオシロスコープ Nano ARM タッチパネル操作 8MBメモリストレージ 2MHz 10Mps

オープンソース・ソフトウェアルータVyatta入門　――実践ルーティングから仮想化まで (Software Design plus)

tybot

概要

日本語を含めて多言語対応する際には、Asciiコード以外の文字コードセットが必要になります。日本語が主となる場合、よく使われる文字セットにはUnicode, Shift_JIS, EUC-JPがあります。このうち Unicode だけは特殊であり、世界中のあらゆる文字を収録しようとしていることから 1 文字を表現するために必要なバイト数が大きくなってしまっています。そのため Unicode のうちよく使用する文字は少ないバイト数で表現でき、あまり使用しない文字を表現する際にはバイト数が大きくなるようなエンコーディングを行って使用します。Web上で最も使用されているものは UTF-8 符号化方式です。Asciiコード範囲内の文字は 1 バイトで表現できるようになります。ただ、日本語に特化している Shift_JIS などと比較して、日本語 1 文字を表現するために必要なバイト数は大きくなってしまっています。そのため、日本語が頻出する文章の場合 UTF-8 よりも UTF-16 符号化方式の方が文章全体として効率的にエンコーディングできます。

UTF-16 は 2 バイト単位であることからも想像のつくようにバイトオーダを判別する必要があり、文章の最初にはBOM (Byte Order Mark) が必ず付与されています。このBOMによって UTF-8 と UTF-16 の判別も可能です。このBOMは UTF-8 に対しては必須ではありません。BOMがない UTF-8 を特に UTF-8N ともよびます。

ファイルのエンコーディング

ソースファイルに記述された

str = "日本語"

は、str変数に「日本語」というUnicode文字列を何らかの形式でエンコーディングした結果を代入する式です。
つまり、ソースファイルのエンコーディング次第で異なる値が代入されます。

# -*- coding: utf-8 -*-

とファイルの一行目 (または #!/path/to/ruby の次) に記述することで、Rubyはエンコーディング形式を知ることができます。
Perlでいうところの、"use utf8;" です。

sample.rb (utf-8で保存)

#!/usr/bin/ruby
# -*- coding: utf-8 -*-

utf = "日本語"
p utf
p utf.encoding
p utf.length
p utf.bytesize

出力例

$ ruby sample.rb 
"\u65E5\u672C\u8A9E"
#<Encoding:UTF-8>
3
9

エンコーディング形式を変更

sample.rb (utf-8で保存)

#!/usr/bin/ruby
# -*- coding: utf-8 -*-

utf = "日本語"
p utf
p utf.encoding
p utf.length
p utf.bytesize

sjis = utf.encode("Shift_JIS")
p sjis
p sjis.encoding
p sjis.length
p sjis.bytesize

euc = sjis.encode("EUC-JP")
p euc
p euc.encoding
p euc.length
p euc.bytesize

# 16進数で表現された文字列など、そのエンコーディングが
# 必ずしも自動判別できない場合は、明示的に指定する必要があります。
puts "\xE3\x81\x82\xE3\x81\x84\xE3\x81\x86\xE3\x81\x88\xE3\x81\x8A".encode('Shift_JIS', 'UTF-8')
# (UTF-8 から Shift_JISへ)

出力例

$ ruby sample.rb 
"\u65E5\u672C\u8A9E"
#<Encoding:UTF-8>
3
9
"\x{93FA}\x{967B}\x{8CEA}"
#<Encoding:Shift_JIS>
3
6
"\x{C6FC}\x{CBDC}\x{B8EC}"
#<Encoding:EUC-JP>
3
6
あいうえお

putsなどと異なり、pはデバッグ用の出力メソッドでありバイト列を出力します。
例えばターミナルのエンコーディング形式がEUC-JPの場合、

p euc
puts euc

とすると

"\x{C6FC}\x{CBDC}\x{B8EC}"
日本語

となります。

比較

エンコーディングが異なる場合は比較結果が偽になります。

sample.rb

#!/usr/bin/ruby
# -*- coding: utf-8 -*-

utf = "日本語"
sjis = utf.encode("Shift_JIS")

p utf == sjis
p utf == sjis.encode("UTF-8")

出力例

$ ruby sample.rb 
false
true