入力

IN
入力
0 文字

出力

OUT
出力
0 文字

UTF-8エンコードについて

UTF-8 (Unicode Transformation Format - 8-bit) は、1文字を1-4バイトで表す可変長文字エンコードです。ASCIIとの後方互換性があり、Webで最も広く使われています。このツールはUnicodeコードポイントではなく、メモリに保存されネットワークで送信される実際のUTF-8バイト値を表示します。

実際のUTF-8バイトを表示
Unicode & 絵文字対応
10進数 & 16進数形式
ライブバイト数表示

UTF-8エンコードの完全ガイド

無料オンライン テキスト→UTF-8バイト変換

テキストを実際のUTF-8バイト値に変換、またはUTF-8バイトをテキストへすぐにデコードできます。このツールはコードポイントだけでなく、コンピューターがテキストの保存や送信に使う実際のバイトを表示します。文字化けや文字エンコード問題をデバッグする開発者、ネットワークエンジニアに最適です。

主な機能

🔐 テキストからUTF-8へエンコード

  • 任意のテキストをUTF-8バイトへ変換
  • Unicode文字を完全サポート
  • 絵文字や特殊記号を処理
  • 入力しながらリアルタイム変換
  • 10進数と16進数のバイト出力

🔓 UTF-8からテキストへデコード

  • UTF-8バイトを読みやすいテキストへ変換
  • バイト列を検証
  • エラー検出とメッセージ表示
  • スペース/カンマ区切りに対応
  • 0xFF形式のhex入力に対応

リアルタイム処理

  • 入力に合わせて即時変換
  • パフォーマンスのため300msデバウンス
  • ライブバイト数表示
  • ボタンクリック不要

💾 エクスポート

  • .txtファイルでダウンロード
  • .htmlファイルでエクスポート
  • .json形式で保存
  • ワンクリックでクリップボードへコピー

UTF-8とは?

UTF-8はUnicode標準のすべての文字を表現できる可変長文字エンコードです。ASCIIと後方互換性があり、最初の128文字はASCIIと同じです。1文字につき1-4バイトを使い、現在ではWebの主要な文字エンコードとして、あらゆる言語、記号、絵文字をサポートしています。

UTF-8のバイト範囲:

1バイト (0x00-0x7F): 基本ASCII文字 (A, B, 0-9など)

2バイト (0xC0-0xDF + 0x80-0xBF): 拡張ラテン文字、ギリシャ文字、キリル文字、アラビア文字、ヘブライ文字

3バイト (0xE0-0xEF + 2×0x80-0xBF): 多くのアジア言語 (中国語、日本語、韓国語)、記号

4バイト (0xF0-0xF7 + 3×0x80-0xBF): 珍しい文字、音楽記号、絵文字

UTF-8とコードポイントの違い

「UTF-8を表示する」と言うツールの中には、実際にはUnicodeコードポイント (各文字に割り当てられた抽象的な番号) を表示しているものがあります。このツールは、ファイルに保存されネットワークで送られる実際のUTF-8バイトを表示します。違いは次の通りです。

例: "€" (ユーロ記号)

コードポイント: U+20AC (10進数: 8364) - 1つの番号

UTF-8バイト: 0xE2 0x82 0xAC (10進数: 226 130 172) - 3バイト

例: "😀" (笑顔)

コードポイント: U+1F600 (10進数: 128512) - 1つの番号

UTF-8バイト: 0xF0 0x9F 0x98 0x80 (10進数: 240 159 152 128) - 4バイト

UTF-8エンコードの仕組み

  1. ASCII文字 (U+0000からU+007F): ASCIIと同じ1バイトでエンコードされます。例: 'A' → 0x41
  2. 2バイト文字 (U+0080からU+07FF): 先頭バイトは110xxxxx、2バイト目は10xxxxxxで始まります。例: 'é' → 0xC3 0xA9
  3. 3バイト文字 (U+0800からU+FFFF): 先頭バイトは1110xxxxで始まり、2つの10xxxxxxバイトが続きます。例: '€' → 0xE2 0x82 0xAC
  4. 4バイト文字 (U+10000からU+10FFFF): 先頭バイトは11110xxxで始まり、3つの10xxxxxxバイトが続きます。例: '😀' → 0xF0 0x9F 0x98 0x80

よくある用途

エンコード問題のデバッグ: ファイル内に保存された実際のバイトを確認し、文字化け、壊れた表示、エンコード不一致を診断できます。

ネットワーク解析: HTTP、WebSocket、その他のプロトコルで送信されるテキストがどのようにエンコードされるか確認できます。

データベースのデバッグ: データベースに保存されたUTF-8バイト列を確認し、文字セットの問題を調査できます。

学習: UTF-8エンコードがバイトレベルでどう動くか、可変長エンコードの仕組みを学べます。

ファイル解析: テキストエディタやシステムがUTF-8ファイル内で文字をどう保存するか理解できます。

クイックリファレンス: UTF-8バイト例

文字UTF-8バイト (Hex)バイト数
A411バイト
éC3 A92バイト
E2 82 AC3バイト
E4 B8 AD3バイト
😀F0 9F 98 804バイト
🌍F0 9F 8C 8D4バイト

プログラミング例

各言語でUTF-8バイトを取得する方法:

JavaScript:

new TextEncoder().encode('€') // Uint8Array [226, 130, 172]
new TextDecoder().decode(new Uint8Array([226, 130, 172])) // '€'

Python:

'€'.encode('utf-8') # b'\xe2\x82\xac'
b'\xe2\x82\xac'.decode('utf-8') # '€'

Java:

"€".getBytes(StandardCharsets.UTF_8) // [-30, -126, -84] (signed)
new String(bytes, StandardCharsets.UTF_8) // "€"

🔒 100%プライバシー保証

すべてのUTF-8エンコード/デコードは、JavaScriptを使ってブラウザ内だけで実行されます。テキストやデータは端末外へ送信されず、サーバーへのアップロード、保存、ログ記録、第三者送信は一切ありません。

UTF-8についてさらに学ぶ

UTF-8エンコードの内部動作を理解したいですか?可変長エンコード、バイトパターン、ステップごとのエンコード例、ベストプラクティスをまとめた詳しいガイドをご覧ください。

読む: UTF-8とは?