UTF-32/UCS-4

Série Unicode

UTF-32 ou UCS-4 são nomes alternativos para o método de codificação de caracters, usando a quantidade fixa de exatamente 32 bits para cada caractere Unicode.

Ele pode ser considerado como a forma de codificação mais simples, como todos os outros Unicode Transformation Formats (em português: Formato de Transformação Unicode) possui codificação de comprimento variável para vários code points.

No entanto, o UTF-32 usa 4 bytes para cada caractere, que é considerado ineficiente. Especificamente, caracteres que não pertencem ao Plano Básico Multilingual (PBM) são tão raros em quase todos os textos que eles podem ser considerados como pouco importantes para discussões importantes. Isto significa que UTF-32 é geralmente pelo menos o dobro ou quatro vezes maior que o tamanho normal das outras codificações.

Também, enquanto um número fixo de bytes por ponto de código pareça ser conveniente de primeiro, não é. Torna o truncamento levemente mais fácil, mas não tão significativo de UTF-8 e UTF-16. Não faz o cálculo de largura de uma string exibida mais fácil, exceto em casos muito limitados; mesmo com uma fonte de "tamanho fixo" pode haver mais que um ponto de código por posição de caractere (marcas combinadas) (por exemplo ideógrafos CJK). Combinando marcas também quer dizer que os editores não podem tratar um ponto de código como se fosse uma unidade para edição.

Por estas razões o UTF-32 é pouco utilizado na prática, com UTF-8 e UTF-16 sendo o método comum de codificar texto Unicode.

Our website is made possible by displaying online advertisements to our visitors. Please consider supporting us by disabling your ad blocker.

UTF-32/UCS-4

Our website is made possible by displaying online advertisements to our visitors.
Please consider supporting us by disabling your ad blocker.