Odo.lv » Recipes » UTF rakstzīmju pārveidošana uz ASCII izņēmumu simbolu ķēdi

Warning: Šis apraksts jau vairāk ka gadu nav mainīts. Iespējams, ka tas ir novecojis!

UTF rakstzīmju pārveidošana uz ASCII izņēmumu simbolu ķēdi

Lai arī pasaulē arvien plašāk tiek izmantota UTF-8 rakstzīmju kopa, daudzās vietās vēl arvien tiek atbalstīti tikai ASCII kodu tabula, kur citas rakstzīmes kodē ar izņēmumu simbolu ķēdi.

Šeit ir aprakstīts, kā pārkonvertēt tekstu no UTF-8 uz ASCII kodu tabulu ar izņēmumu simbolu ķēdi, izmantojot bash skriptu un sed redaktoru.

Kodējumu paraugiem tiek izmantots sekojošs teksts:
Glāžšķūņa rūķeļi koncertflīģelī aŗ šķērēm klusi griež Baham nočiepto zivju desu.
un atkarībā no pielietojuma, šī teksta UTF-8 rakstzīmes tiek pārveidotas uz ASCII kodējumu dažādos veidos.

Java String tipa mainīgā pieraksts

Java String mainīgā pierakstā tiek izmantota forma u0aaaa, kur aaaa ir rakstzīmes kods UTF-16 kodējumā, izmantojot heksadecimālo pierakstu.

  1. Latviešu mīksto un garo burtu pieraksts šajā kodējumā ir sekojošs:
    Ā	\u0100
    ā	\u0101
    Č	\u010C
    č	\u010D
    Ē	\u0112
    ē	\u0113
    Ģ	\u011E
    ģ	\u0123
    Ī	\u012A
    ī	\u012B
    Ķ	\u0136
    ķ	\u0137
    Ļ	\u013B
    ļ	\u013C
    Ņ	\u0145
    ņ	\u0146
    Ō	\u014C
    ō	\u014D
    Ŗ	\u0156
    ŗ	\u0157
    Š	\u0160
    š	\u0161
    Ū	\u016A
    ū	\u016B
    Ž	\u017D
    ž	\u017E
  2. Piemēra teksts Java String kodējumā ir sekojošs:
    Gl\u0101\u017E\u0161\u0137\u016B\u0146a r\u016B\u0137e\u013Ci koncertfl\u012B\u0123el\u012B a\u0157
    \u0161\u0137\u0113r\u0113m klusi grie\u017E Baham no\u010Diepto zivju desu.

HTML izņēmumu simbolu pieraksts

HTML vai XML izņēmum simbolu pieraksts ir formā &#aaaa;, kur aaaa ir rakstzīmes kods UTF-16 kodējumā, izmantojot decimālo pierakstu. Izmantojot izņēmumu simbolu pierakstu var ievietot simbolus, kas nav atļauti faila metaatribūtos norādītajā kodējumā.

  1. Latviešu mīksto un garo burtu pieraksts šajā kodējumā ir sekojošs:
    Ā	Ā
    ā	ā
    Č	Č
    č	č
    Ē  	Ē
    ē 	ē
    Ģ  	Ģ
    ģ 	ģ
    Ī  	Ī
    ī 	ī
    Ķ  	Ķ
    ķ 	ķ
    Ļ  	Ļ
    ļ 	ļ
    Ņ  	Ņ
    ņ 	ņ
    Ō	Ō
    ō	ō
    Ŗ	Ŗ
    ŗ	ŗ
    Š  	Š
    š 	š
    Ū  	Ū
    ū 	ū
    Ž  	Ž
    ž 	ž
  2. Piemēra tekstu HTML var ierakstīt CP-1252 kodējumā ar izņēmuma simboliem:
    Glāžšķūņa rūķeļi koncertflīģelī aŗ
    šķērēm klusi griež Baham nočiepto zivju desu.
    un šos izņēmumu simbolus pārlūkprogramma parāda kā UTF rakstzīmes:
    Glāžšķūņa rūķeļi koncertflīģelī aŗ šķērēm klusi griež Baham nočiepto zivju desu.

Vietrāžu izņēmumu simbolu pieraksts

Tīmekļa vietrāžos (URI, jeb konkrēti URL) UTF simbolus kodē, izmantojot izņēmuma simbolu pierakstu formā %aa%bb, kur aa bb ir rakstzīmes kods UTF-8 kodējumā, izmantojot heksadecimālo pierakstu. Piemēram, Vikipēdijas šķirklis Ķeipene ir ar vietrādi http://lv.wikipedia.org/wiki/%C4%B6eipene, ko pārlūkprogramma automātiski pārvērš un parāda kā http://lv.wikipedia.org/wiki/Ķeipene.

  1. Latviešu mīksto un garo burtu pieraksts šajā kodējumā ir sekojošs:
    Ā	%C4%80
    ā	%C4%81
    Č	%C4%8C
    č	%C4%8D
    Ē	%C4%92
    ē	%C4%93
    Ģ	%C4%A2
    ģ	%C4%A3
    Ī	%C4%AA
    ī	%C4%AB
    Ķ	%C4%B6
    ķ	%C4%B7
    Ļ	%C4%BB
    ļ	%C4%BC
    Ņ	%C5%85
    ņ	%C5%86
    Ō	%C5%8C
    ō	%C5%8D
    Ŗ	%C5%96
    ŗ	%C5%97
    Š	%C5%A0
    š	%C5%A1
    Ū	%C5%AA
    ū	%C5%AB
    Ž	%C5%BD
    ž	%C5%BE
  2. Piemēra teksts URI kodējumā ir sekojošs:
    Gl%C4%81%C5%BE%C5%A1%C4%B7%C5%AB%C5%86a r%C5%AB%C4%B7e%C4%BCi koncertfl%C4%AB%C4%A3el%C4%AB a%C5%97
    %C5%A1%C4%B7%C4%93r%C4%93m klusi grie%C5%BE Baham no%C4%8Diepto zivju desu.

Konvertēšanas rīki.

Šīs lapas pielikumos ir pievienotas kodu konvertēšanas tabulas un Bash skripts utf2ascii, kas ļauj konvertēt teksta failus uz izņēmumu simbolu kopām minētajos kodējumos.

Saites

Tags: Rīki Valoda
Created by Valdis Vītoliņš on 2010/02/22 12:00
Last modified by Valdis Vītoliņš on 2011/09/26 11:10

Xwiki Powered
Creative Commons Attribution 3.0 Unported License