native2ascii コマンドで Unicode 表記の文字列を処理
[履歴] [最終更新] (2016/03/13 18:57:02)

概要

日本語を含む実用上すべての文字は Unicode 表記できます。例を示します。

  • 'あ' → \u3042
  • '日' → \u65e5
  • '本' → \u672c
  • '語' → \u8a9e

Unicode 表記ではすべての文字を対等に扱います。そうではなく文字の使用頻度に応じてバイト数を変動させることによって、文字の集合である文章全体のバイト数を小さくできます。Shift_JIS は日本語の文字に小さなバイト数の符号を対応させています。UTF-8 は Web などで一般的な符号化方式です。ファイルに保存された文字は何らかの符号化方式でエンコーディングされています。これを ASCII 文字の範囲外についてその符号化方式でデコードして Unicode 表記に変換するコマンドが native2ascii です。JDK に含まれています。

ori.txt (UTF-8, 改行コードは DOS)

あ

ABCDE

日本語

デコーディングするためのコマンド実行例

$ native2ascii -encoding UTF-8 ori.txt ascii.txt

ascii.txt

\u3042

ABCDE

\u65e5\u672c\u8a9e

これを再度 Shift_JIS, UTF-8 でエンコーディングしてみます。

$ native2ascii -reverse -encoding Shift_JIS ascii.txt
$ native2ascii -reverse -encoding UTF-8 ascii.txt
あ

ABCDE

日本語

ターミナルのエンコーディング設定によって少なくともどちらかが文字化けするはずです。

関連ページ
    概要 Rails における ERB と同様に、Spring Boot でもテンプレートエンジンを利用できます。今回は特に Thymeleaf (タイムリーフ) のサンプルコードを、こちらのページで構築した環境をもとにまとめます。 公式ドキュメント Serving Web Content with Spring MVC
    概要 Spring Boot のテンプレートエンジンとしては、こちらで使用方法を把握した Thymeleaf が有名です。本ページでは、フォーム関連の処理について、基本的なサンプルコードをまとめます。Rails におけるビューヘルパーや、フォーム入力値のバリデーションに相当する機能です。 公式ドキュメント Handling Form Submission