Giới-thiệu

Thân-thế
Thành-tích

Hữu-ích

Lập-kế-hoạch-tài-chính gia-đình

Đầu-tư-cổ-phiếu

Các loại bảo-hiểm

Câu-chuyện

Kinh-nghiệm

Máy-tính

Chữ-Việt

Linh tinh

Ý kiến

Danh mục

Download
Mục lục





Chữ Việt trong Unicode

Subject: Vietnamese character in Unicode
From: Le Hong Boi
Date: Fri, 10 Dec 1999 14:34:12 +0700

Unicode

Unicode hay ISO 10646 là bộ chữ nhiều byte. Mỗi character chiếm 2 hoặc 4 byte. Hiện nay chỉ mới dùng bộ chữ 2 byte.
Bộ chữ 2 byte có thể chứa được 65536 ký tự. Unicode hiện chứa ký tự của hầu hết các ngôn ngữ trên thế giới (Anh, Pháp, Hoa, Nhật, Hàn, Thái, Lào, Hebrew, Arab, Hy lạp…) và các ký hiệu tiền, toán học, ký tự vẽ khung… Chữ Nôm trước kia của Việt Nam cũng được đăng ký trong Unicode.
Trong bảng Unicode, mỗi vị trí mang một hình chữ (glyph) khác nhau. Mỗi hình chữ có thể dùng trong nhiều ngôn ngữ khác nhau, nhưng dù cho dùng trong một hay nhiều ngôn ngữ nó cũng chỉ được chiếm 1 vị trí trong bảng Unicode.

Chữ Việt

Chữ Việt hiện nay đã được đăng ký trong Unicode từ năm 1993. Chữ Việt trong Unicode không mang những vị trí liên tục nhau mà nằm rải ra 4 đoạn vì một số chữ cái Việt Nam giống chữ các nước khác dùng và họ đã đăng ký chỗ trong Unicode trước.
Chữ Việt đăng ký trong Unicode theo 2 cách:

Chữ tổ hợp (dạng chính tắc)

Mỗi dấu thanh là một ký tự riêng. Nguyên âm mang dấu thanh được thể hiện bằng 1 ký tự nguyên âm và 1 ký tự dấu thanh. (Nên nhớ là trong Unicode mỗi ký tự gồm 2 byte).
Các nguyên âm gồm a, ă, â, e, ê, i, o, ô, ơ, u, ư, y.
Các dấu thanh gồm huyền, hỏi, ngã, sắc, nặng (theo thứ tự từ điển).
Khi sửa dòng chữ tổ hợp kiểu này, chúng ta có thể sửa/xoá riêng nguyên âm và dấu thanh.

Chữ dựng sẵn

Những nguyên âm mang dấu thanh sẽ chiếm 1 vị trí riêng trong bảng Unicode.
Khi sửa dòng chữ dựng sẵn kiểu này, chúng ta sửa/xoá nguyên âm và dấu thanh cùng lúc.
Font chữ ABC theo TCVN kiểu dựng sẵn.

Ký hiệu tiền

Ký hiệu tiền đồng của Việt Nam được đăng ký vào vị trí U+20AB trong Unicode với hình chữ đ được gạch dưới () từ năm 1993. Tuy nhiên sau gần 30 năm, hình ký hiệu đó chưa được chính thức công nhận bởi Ngân hàng Nhà nước. Vì vậy trong tiêu chuẩn TCVN 6909:2001 - “Công nghệ thông tin - Bộ mã ký tự Tiếng Việt 16-bít” do Tổng cục Tiêu chuẩn Đo lường Chất lượng ban hành không có ký hiệu tiền đồng mà lại có ký hiệu dollar.

Font

Trong một thời gian dài kể từ khi Việt Nam đăng ký ISO 10646, không có font soạn cho chữ Việt Nam theo mã Unicode. Gần đây, hãng Monotype có soạn font true type theo Unicode và Microsoft mua font đó về đưa vào sản phẩm của họ và để trên Web site cho mọi người download.
Các font có thể download là các font thông dụng như Arial, Times New Roman, Courier New. Font Arial là font san serif, dùng cho các văn bản ngắn. Font Times New Roman là font serif, dùng cho các văn bản dài. Font Courier New là font fixed width.
Không phải file font nào theo Unicode cũng chứa hết tất cả ký tự đã đăng ký trên thế giới. Vì như vậy sẽ làm cho file font rất lớn. Các file font nói trên chỉ chứa các ký tự có gốc Latin, trong đó có Việt Nam, một vài chữ Cyrillic, Hy lạp, Hebrew, Arab, ký hiệu tiền.

Ưu điểm của Unicode

File font không theo Unicode thì chỉ chứa hình chữ cho một ngôn ngữ (script) nào đó. Ví dụ: có file font Arial chứa glyph cho chữ Latin ở Tây Âu, lại có file font Arial nhưng chứa glyph cho các chữ Hy lạp, có file font Arial chứa chữ Cyrillic cho các nước Đông Âu, có file font Arial cho chữ Nhật. Ở cùng một vị trí trong các file font Arial đó, glyph lại khác nhau.
Nếu soạn một tài liệu mà không dùng Unicode, thì ta phải cho biết tài liệu đó dùng bộ chữ nào. Nếu dùng không đúng bộ chữ sẽ thấy những hình kỳ lạ. Ví dụ chép một file Word soạn bằng font Arial Tây Âu vào máy tính cài font Arial Đông Âu, mở file lên xem thì không ai đọc nổi mặc dù mọi chữ đều hiện ra.
Từ đó dẫn đến vấn đề đặt tên font riêng cho từng bộ chữ. Ví dụ .vnarial, .vntime, VNI-Times… Và một tài liệu có nhiều thứ chữ phải dùng nhiều font.
Nếu soạn file bằng Unicode thì sao?
Mỗi hình chữ trong Unicode có một vị trí riêng nên không có tình trạng cùng một ký tự có thể hiện ra theo những hình khác nhau. Dùng Unicode ta có thể soạn 1 văn bản chứa chữ thuộc nhiều ngôn ngữ khác nhau mà chỉ dùng 1 font (miễn là trong file font có hình chữ của ngôn ngữ đó). Nếu đem tài liệu Unicode đó sang máy khác mở lên xem thì sao? Điều kiện là máy khác cũng phải có font Unicode, nếu font Unicode không có đủ tất cả những chữ dùng trong tài liệu thì những chữ không có đó sẽ hiện thành hình chữ nhật rỗng, không thể lộn sang hình khác được.
Bây giờ chúng ta download các file font mới về và có thể soạn ra các tài liệu song ngữ Việt-Anh mà không cần phải đổi font giữa các dòng chữ nữa.