Unicode

Unicode é um padrão internacional para a representação unificada de caracteres de diversas linguagens. Citando as palavras do consórcio Unicode:

The Unicode Consortium brings together leading software industry corporations and researchers at the leading edge of standardizing international character encoding. The outcome of this cooperation is The Unicode Standard, which provides the foundation for internationalization and localization of software. The Unicode Standard is a subset of and code for code identical to the International Standard ISO/IEC 10646-1:1993.

Caracteres Unicode são codificados em dois bytes, ao invés de um único byte como no padrão ASCII adotado em outras linguagens de programação. Dessa forma, é possível representar um número muito maior de caracteres, permitindo abrigar diversas linguagens.

No entanto, para os usuários que utilizam caracteres do alfabeto latino, não há diferença perceptível. Os caracteres com valores de códigos hexadecimais entre 0000 (sendo 0020, ou 32 decimal, o primeiro caráter não de controle) e 007F (127 decimal) correspondem à codificação do alfabeto Basic Latin (equivalente a ASCII), que está contida em Unicode. Da mesma forma, caracteres com valores de códigos hexadecimais entre 0080 (sendo 00A0, ou 160 decimal, o primeiro caráter não de controle) e 00FF (255 decimal) correspondem à codificação do alfabeto Latin-1 Supplement. Juntos, esses dois alfabetos constituem a codificação ISO 8859-1 (Latin-1), parte do Unicode.