Unicode 編碼

作品

書籍

課程

程式集

小說集

論文集

散文集

影片集

編輯雜誌

程式人

電子書

JavaScript

計算語言學

微積分

Blender 動畫

C# 語言

系統程式

高等 C 語言

Java

Android

Verilog

Wikidot

R 統計軟體

機率統計

計算機數學

組合語言

人工智慧

開放原始碼

網路資源運用

計算機結構

相關訊息

常用工具

友站連結

在家教育

RSS

最新修改

網頁列表

簡體版

English

unicode 檔案中,前兩個 byte 是 Unicode Byte Order Mark, 如果是 fe ff 代表 Big Endium, ff fe 代表 Little Endium

UTF-16 (UCS2) Big Endium (High Endium)   : Hello --> 00 48 00 65 00 6C 00 6C 00 6F
UTF-16 (UCS2) Little Endium (Low Endium) : Hello --> 48 00 65 00 6C 00 6C 00 6F 00

UTF-8 :
ASCII 0-127 : Single Byte
128-65535 : 存成 2, 3, 4, 5, 6 bytes, 如下圖

0x00000000 - 0x0000007F:  0xxxxxxx 
0x00000080 - 0x000007FF:  110xxxxx 10xxxxxx 
0x00000800 - 0x0000FFFF:  1110xxxx 10xxxxxx 10xxxxxx 
0x00010000 - 0x001FFFFF:  11110xxx 10xxxxxx 10xxxxxx 10xxxxxx 
0x00200000 - 0x03FFFFFF:  111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 
0x04000000 - 0x7FFFFFFF:  1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx

UTF-8 coding examples

版權所有的符號 (CopyRight Sign) 0xA9 = 1010 1001 在 UTF-8 中編碼為:

0xA9 --> 0x00000080 - 0x000007FF:  110xxxxx 10xxxxxx 
110xxxxx 10xxxxxx 
11000010 10101001 = 0xC2 0xA9

不等於符號 (not equal symbol character) 0x2260 = 0010 0010 0110 0000 在 UTF-8 中編碼為 0xE289A0

0x2260 --> 0x00000800 - 0x0000FFFF:  1110xxxx 10xxxxxx 10xxxxxx 

1110xxxx 10xxxxxx 10xxxxxx 
11100010 10001001 10100000 = 0xE2 0x89 0xA0

         2        2        6   0
[1110]0010 [10]001001 [10]100000
0010 001001 100000 
0010 0010 0110 0000 = 0x2260

The original values can be seen by taking out the continuation byte values:

UTF-32 (UCS-4) : which stores each code point in 4 bytes

在 HTTP 的表頭中,以下行代表使用 UTF-8 編碼。

Content-Type: text/plain; charset="UTF-8"

在 HTML 的表頭當中,以下 meta 標記代表 UTF-8 編碼。

<CODE>
<html>
<head>
<meta http-equiv="Content-Type" content="text/html; charset=utf-8">
</CODE>

參考文獻

*The Absolute Minimum Every Software Developer Absolutely, Positively Must Know About Unicode and Character Sets (No Excuses!) - [[http://www.joelonsoftware.com/articles/Unicode.html]].

Facebook

Unless otherwise stated, the content of this page is licensed under Creative Commons Attribution-NonCommercial-ShareAlike 3.0 License