terça-feira, 16 de outubro de 2012

Encoding/Codificação de caracteres

O QGIS é muito bom para lidar com diversas codificações de caracteres (encoding) definidos (tais como multi-byte chinês e japonês, ou UTF-8)!

Basta quando se adiciona uma camada vector declarar a codificação de caracteres correta, e o QGIS irá lidar com o resto!

No entanto a maioria das vezes o problema é mesmo esse, saber a codificação de caracteres correta.

Em portugual os sistemas operativos podem utilizar diferentes codificações de caracteres, tais como:
  • UTF-8: No LINUX pode-se escolher a codificação desejada (na instalação ou posteriormente) mas em versões mais atuais geralmente utiliza-se esta como padrão na instalação.
  • ISO-8859-1: O WINDOWS usa um formato próprio WINDOWS-1252 mas que é quase igual ao ISO-8859-1 (também chamado de latin1).

A codificação usada em países de língua oficial portuguesa é a ISO-8859-1, também connhecida por ISO-Latin-1, e engloba as línguas europeias dos países ocidentais (Western Europe). Também é normal ser usado o ISO-8859-15 para textos em português, uma codificação melhorada do ISO-8859-1 que possui pequenas correcções para o francês, e que inclui o símbolo monetário do euro em detrimento de outros caracteres menos usados.

É importante saber qual a codificação padrão, pois:
- O ArcGIS, trabalha com a codificação padrão, ou seja, utilizando Windows em Portugal, uma shapefile criada com o ArcGIS vai ter codificação ISO-8859-1.
- O QGIS trabalha com UTF8 que é o padrão universal, isto quer dizer que uma shapefile criada com o QGIS vai ter como codificação UTF8. No entanto quando se adiciona uma camada vector no QGIS ele assume que a codificação de caracteres da camada é por defeito o sistema de codificação padrão, que poderá a ISO-8859-1.

Conclusão:
Quando se adiciona uma camada vector no QGIS deve saber-se a sua codificação (ou a sua origem) e ter-se o cuidado de definir correctamente a codificação de caracteres.
 

Sem comentários:

Enviar um comentário