Warning: Šis apraksts jau vairāk ka gadu nav mainīts. Iespējams, ka tas ir novecojis!
UTF rakstzīmju pārveidošana uz ASCII izņēmumu simbolu ķēdi
Lai arī pasaulē arvien plašāk tiek izmantota
UTF-8 rakstzīmju kopa, daudzās vietās vēl arvien tiek atbalstīti tikai
ASCII kodu tabula, kur citas rakstzīmes kodē ar
izņēmumu simbolu ķēdi.
Šeit ir aprakstīts, kā pārkonvertēt tekstu no UTF-8 uz ASCII kodu tabulu ar izņēmumu simbolu ķēdi, izmantojot
bash skriptu un
sed redaktoru.
Kodējumu paraugiem tiek izmantots sekojošs teksts:
Glāžšķūņa rūķeļi koncertflīģelī aŗ šķērēm klusi griež Baham nočiepto zivju desu.
un atkarībā no pielietojuma, šī teksta UTF-8 rakstzīmes tiek pārveidotas uz ASCII kodējumu dažādos veidos.
Java String tipa mainīgā pieraksts
Java String mainīgā pierakstā tiek izmantota forma
u0aaaa, kur
aaaa ir rakstzīmes kods
UTF-16 kodējumā, izmantojot heksadecimālo pierakstu.
- Latviešu mīksto un garo burtu pieraksts šajā kodējumā ir sekojošs:
Ā \u0100
ā \u0101
Č \u010C
č \u010D
Ē \u0112
ē \u0113
Ģ \u011E
ģ \u0123
Ī \u012A
ī \u012B
Ķ \u0136
ķ \u0137
Ļ \u013B
ļ \u013C
Ņ \u0145
ņ \u0146
Ō \u014C
ō \u014D
Ŗ \u0156
ŗ \u0157
Š \u0160
š \u0161
Ū \u016A
ū \u016B
Ž \u017D
ž \u017E
- Piemēra teksts Java String kodējumā ir sekojošs:
Gl\u0101\u017E\u0161\u0137\u016B\u0146a r\u016B\u0137e\u013Ci koncertfl\u012B\u0123el\u012B a\u0157
\u0161\u0137\u0113r\u0113m klusi grie\u017E Baham no\u010Diepto zivju desu.
HTML izņēmumu simbolu pieraksts
HTML vai XML izņēmum simbolu pieraksts ir formā
&#aaaa;, kur
aaaa ir rakstzīmes kods UTF-16 kodējumā, izmantojot decimālo pierakstu. Izmantojot izņēmumu simbolu pierakstu var ievietot simbolus, kas nav atļauti faila metaatribūtos norādītajā kodējumā.
- Latviešu mīksto un garo burtu pieraksts šajā kodējumā ir sekojošs:
Ā Ā
ā ā
Č Č
č č
Ē Ē
ē ē
Ģ Ģ
ģ ģ
Ī Ī
ī ī
Ķ Ķ
ķ ķ
Ļ Ļ
ļ ļ
Ņ Ņ
ņ ņ
Ō Ō
ō ō
Ŗ Ŗ
ŗ ŗ
Š Š
š š
Ū Ū
ū ū
Ž Ž
ž ž
- Piemēra tekstu HTML var ierakstīt CP-1252 kodējumā ar izņēmuma simboliem:
Glāžšķūņa rūķeļi koncertflīģelī aŗ
šķērēm klusi griež Baham nočiepto zivju desu.
un šos izņēmumu simbolus pārlūkprogramma parāda kā UTF rakstzīmes: Glāžšķūņa rūķeļi koncertflīģelī aŗ šķērēm klusi griež Baham nočiepto zivju desu.
Vietrāžu izņēmumu simbolu pieraksts
Tīmekļa vietrāžos (URI, jeb konkrēti URL) UTF simbolus kodē, izmantojot izņēmuma simbolu pierakstu formā
%aa%bb, kur
aa bb ir rakstzīmes kods UTF-8 kodējumā, izmantojot heksadecimālo pierakstu. Piemēram, Vikipēdijas šķirklis
Ķeipene ir ar vietrādi
http://lv.wikipedia.org/wiki/%C4%B6eipene, ko pārlūkprogramma automātiski pārvērš un parāda kā
http://lv.wikipedia.org/wiki/Ķeipene.
- Latviešu mīksto un garo burtu pieraksts šajā kodējumā ir sekojošs:
Ā %C4%80
ā %C4%81
Č %C4%8C
č %C4%8D
Ē %C4%92
ē %C4%93
Ģ %C4%A2
ģ %C4%A3
Ī %C4%AA
ī %C4%AB
Ķ %C4%B6
ķ %C4%B7
Ļ %C4%BB
ļ %C4%BC
Ņ %C5%85
ņ %C5%86
Ō %C5%8C
ō %C5%8D
Ŗ %C5%96
ŗ %C5%97
Š %C5%A0
š %C5%A1
Ū %C5%AA
ū %C5%AB
Ž %C5%BD
ž %C5%BE
- Piemēra teksts URI kodējumā ir sekojošs:
Gl%C4%81%C5%BE%C5%A1%C4%B7%C5%AB%C5%86a r%C5%AB%C4%B7e%C4%BCi koncertfl%C4%AB%C4%A3el%C4%AB a%C5%97
%C5%A1%C4%B7%C4%93r%C4%93m klusi grie%C5%BE Baham no%C4%8Diepto zivju desu.
Konvertēšanas rīki.
Šīs lapas pielikumos ir pievienotas kodu konvertēšanas tabulas un Bash skripts
utf2ascii, kas ļauj konvertēt teksta failus uz izņēmumu simbolu kopām minētajos kodējumos.
Saites