Note, that this recipe is not updated long time and could be outdated!
Got it.

UTF rakstzīmju pārveidošana uz ASCII izņēmumu simbolu virkni

Lai arī pasaulē arvien plašāk tiek izmantota UTF-8 rakstzīmju kopa, daudzās vietās vēl arvien tiek atbalstīti tikai ASCII kodu tabula, kur citas rakstzīmes kodē ar  izņēmumu simbolu virkni.

Šeit ir aprakstīts, kā pārkonvertēt tekstu no UTF-8 uz ASCII kodu tabulu ar izņēmumu simbolu virkni, izmantojot bash skriptu un sed redaktoru.

Kodējumu paraugiem tiek izmantots sekojošs teksts:

Glāžšķūņa rūķeļi koncertflīģelī aŗ šķērēm klusi griež Baham nočiepto zivju desu.

un atkarībā no pielietojuma, šī teksta UTF-8 rakstzīmes tiek pārveidotas uz ASCII kodējumu dažādos veidos.

Java String tipa mainīgā pieraksts

Java String mainīgā pierakstā tiek izmantota forma \u0aaaa, kur aaaa ir rakstzīmes kods UTF-16 kodējumā, izmantojot heksadecimālo pierakstu.

Latviešu mīksto un garo burtu pieraksts šajā kodējumā ir sekojošs:

Ā \u0100
ā \u0101
Č \u010C
č \u010D
Ē \u0112
ē \u0113
Ģ \u011E
ģ \u0123
Ī \u012A
ī \u012B
Ķ \u0136
ķ \u0137
Ļ \u013B
ļ \u013C
Ņ \u0145
ņ \u0146
Ō \u014C
ō \u014D
Ŗ \u0156
ŗ \u0157
Š \u0160
š \u0161
Ū \u016A
ū \u016B
Ž \u017D
ž \u017E

Piemēra teksts Java String kodējumā ir sekojošs:

Gl\u0101\u017E\u0161\u0137\u016B\u0146a r\u016B\u0137e\u013Ci koncertfl\u012B\u0123el\u012B a\u0157
\u0161\u0137\u0113r\u0113m klusi grie\u017E Baham no\u010Diepto zivju desu.

HTML izņēmumu simbolu pieraksts

HTML vai XML izņēmum simbolu pieraksts ir formā \&#aaaa;, kur aaaa ir rakstzīmes kods UTF-16 kodējumā, izmantojot decimālo pierakstu. Izmantojot izņēmumu simbolu pierakstu var ievietot simbolus, kas nav atļauti faila metaatribūtos norādītajā kodējumā.

Latviešu mīksto un garo burtu pieraksts šajā kodējumā ir sekojošs:

Ā Ā
ā ā
Č Č
č č
Ē   Ē
ē ē
Ģ   Ģ
ģ ģ
Ī   Ī
ī ī
Ķ   Ķ
ķ ķ
Ļ   Ļ
ļ ļ
Ņ   Ņ
ņ ņ
Ō Ō
ō ō
Ŗ Ŗ
ŗ ŗ
Š   Š
š š
Ū   Ū
ū ū
Ž   Ž
ž ž

Piemēra tekstu HTML var ierakstīt CP-1252 kodējumā ar izņēmuma simboliem:

Glāžšķūņa rūķeļi koncertflīģelī aŗ
šķērēm klusi griež Baham nočiepto zivju desu.

un šos izņēmumu simbolus pārlūkprogramma parāda kā UTF rakstzīmes:

Glāžšķūņa rūķeļi koncertflīģelī aŗ šķērēm klusi griež Baham nočiepto zivju desu.

Vietrāžu izņēmumu simbolu pieraksts

Tīmekļa vietrāžos (URI, jeb konkrēti URL) UTF simbolus kodē, izmantojot izņēmuma simbolu pierakstu formā %aa%bb, kur aa bb ir rakstzīmes kods UTF-8 kodējumā, izmantojot heksadecimālo pierakstu. Piemēram, Vikipēdijas šķirklis Ķeipene ir ar vietrādi http://lv.wikipedia.org/wiki/%C4%B6eipene, ko pārlūkprogramma automātiski pārvērš un parāda kā http://lv.wikipedia.org/wiki/Ķeipene.

Latviešu mīksto un garo burtu pieraksts šajā kodējumā ir sekojošs:

Ā %C4%80
ā %C4%81
Č %C4%8C
č %C4%8D
Ē %C4%92
ē %C4%93
Ģ %C4%A2
ģ %C4%A3
Ī %C4%AA
ī %C4%AB
Ķ %C4%B6
ķ %C4%B7
Ļ %C4%BB
ļ %C4%BC
Ņ %C5%85
ņ %C5%86
Ō %C5%8C
ō %C5%8D
Ŗ %C5%96
ŗ %C5%97
Š %C5%A0
š %C5%A1
Ū %C5%AA
ū %C5%AB
Ž %C5%BD
ž %C5%BE

Piemēra teksts URI kodējumā ir sekojošs:

Gl%C4%81%C5%BE%C5%A1%C4%B7%C5%AB%C5%86a r%C5%AB%C4%B7e%C4%BCi koncertfl%C4%AB%C4%A3el%C4%AB a%C5%97
%C5%A1%C4%B7%C4%93r%C4%93m klusi grie%C5%BE Baham no%C4%8Diepto zivju desu.

Konvertēšanas rīki.

Šīs lapas pielikumos ir pievienotas kodu konvertēšanas tabulas un Bash skripts utf2ascii, kas ļauj konvertēt teksta failus uz izņēmumu simbolu kopām minētajos kodējumos.

Saites


  
Tags Rīki Valoda
Created by Valdis Vītoliņš on 2010-02-22 08:00
Last modified by Valdis Vītoliņš on 2021-04-13 14:30
 
Xwiki Powered
Creative Commons Attribution 3.0 Unported License