ՀամակարգիչներԾրագրավորում

UTF-8 - Նիշերի կոդավորում

Unicode աջակցում գրեթե բոլոր առկա բնույթի սահմանում. Լավագույն ձեւը կոդավորում Unicode գրանշանների հավաքածու է UTF-8 կոդավորման. Այն աջակցում է համատեղելիությունը ASCII, դիմադրություն է խեղաթյուրելու տվյալների, արդյունավետության եւ հեշտ վերամշակման. Բայց առաջին բաներ առաջին.

կոդավորման ձեւը

Համակարգիչներ գործում ոչ միայն, քանի որ թվեր վերացական մաթեմատիկական օբյեկտները, ինչպես նաեւ համադրությունը միավորների պահպանման եւ մշակման ֆիքսված չափ տվյալների բայտ եւ 32-bit խոսքերը. Կոդավորում ստանդարտ պետք է դա հաշվի առնել, երբ որոշելիս, թե ինչպես պետք է ներկայացնել նիշերի քանակը:

Ի համակարգչային համակարգերի, նրանց integers պահվում են հիշողության բջիջների 8 bits (1 բայտ), 16 կամ 32 bits. Յուրաքանչյուր ձեւը սահմանում է Unicode կոդավորումը, որը հաջորդականությունը հիշողության բջիջների ամբողջ թիվ համապատասխանում է որոշակի խորհրդանիշ: Ի ստանդարտ կան երեք տարբեր ձեւեր կոդավորման Unicode նիշ 8, 16 եւ 32-bit նյութից. Ըստ այդմ, նրանք հայտնի են որպես UTF-8, UTF-16 եւ UTF-32: Անունը UTF հանդես է գալիս Unicode ձեւափոխման ֆորմատով: Յուրաքանչյուր երեք ձեւերի կոդավորում միջոցներով հավասար ներկայացվածությունն Unicode բնույթ ունի առավելություններ տարբեր ծրագրեր:

Տվյալների կոդավորումը կարող է օգտագործվել է ներկայացնել բոլոր կերպարները, որ Unicode ստանդարտին: Այսպիսով, նրանք լիովին համատեղելի են լուծումներ մի շարք պատճառներով, օգտագործելով տարբեր ձեւեր կոդավորման. Յուրաքանչյուր կոդավորում կարող է միանշանակ է փոխակերպվել որեւէ այլ երկուսի առանց կորստի տվյալների:

nenalozheniya սկզբունքը

Յուրաքանչյուր ձեւերը Unicode կոդավորմամբ մշակվել է `հաշվի ոչ մասնակի համընկնումը: Օրինակ, Windows-932 ձեւավորում նիշերը մեկ կամ երկու բայթ կոդի: Այդ հերթականությունը երկարությունը կախված է առաջին բայտ, ուստի առաջատար բայտ արժեքները շարքի երկու-բայտ եւ մեկ բայտ ջլատել: Սակայն, արժեքը մեկ բայտ եւ trailing բայտ հաջորդականությունը կարող են համընկնել: Սա նշանակում է, օրինակ, որ բնույթը որոնման D (կոդ 44) կարող եք գտնել այն սխալմամբ մեջ մտնելու երկրորդ մասի հերթականության երկու բայտ բնույթ "D" (կոդ 84 44): Պարզելու համար, թե որն հաջորդականությունը ճիշտ է, որ ծրագիրը պետք է հաշվի առնել, որ նախորդ բայթ.

Որ իրավիճակը բարդ է, եթե առաջատար եւ trailing բայթ համընկնում. Սա նշանակում է, որ որպեսզի հեռացնել անորոշություն կլինի հակառակ Փնտրել նախքան սկիզբը տեքստի կամ եզակի ծածկագիր հաջորդականությամբ. Սա ոչ միայն անարդյունավետ է, բայց ոչ թե պաշտպանված են հնարավոր սխալներով, քանի որ միայն մեկ սխալ բայթ է ամբողջական տեքստը դարձել անընթեռնելի:

Ձեւաչափը դարձի Unicode խուսափում է այս խնդիրը, քանի որ արժեքը առաջատար, trailing, եւ մեկ միավոր պահպանման նույնը չեն տեղեկատվությունը: Սա ապահովում է, որ բոլոր Unicode որոնման եւ համեմատության, երբեք տալով սխալ արդյունքներ պատճառով զուգադիպությամբ տարբեր մասերում գրանշանների օրենսգրքի: Այն փաստը, որ այդ ձեւերը կոդավորման դիտարկել սկզբունքային nenalozheniya, տարբերակում դրանք այլ Արեւելյան Ասիայի բազմաբնակարան բայտ encodings.

Մեկ այլ ասպեկտ nonintersection յունիկոդային encodings այն է, որ յուրաքանչյուր բնույթ ունի հստակ սահմանված սահմանը: Այս վերացնում անհրաժեշտությունը սկան անորոշ թվով նախորդ խորհրդանիշների. Այս հատկությունը երբեմն կոչվում է ինքնուրույն clocking կոդավորում. Խեղաթյուրումը կոդի միավորների կներկայացնի աղավաղումը միայն մեկ բնույթ, իսկ շրջակա կերպարներ են դեռեւս անձեռնմխելի. 8-bit ֆորմատով դարձի, եթե սլաքի միավոր է բայտ, սկսած 10xxxxxx (երկուական կոդը) գտնել սկիզբը խորհրդանիշ է պահանջվում է մեկից երեք հակադարձ անցման.

կայունություն

Unicode Consortium լիովին աջակցում է բոլոր 3 ձեւերը encodings: Դա կարեւոր է ոչ թե հակադրվել UTF-8 եւ Unicode, ինչպես բոլոր փոխարկման ձեւաչափերով հավասարապես վավերական ձեւերի մարմնավորման Unicode բնույթ կոդավորման ստանդարտի.

Byte-կողմնորոշումը

Է ներկայացնում UTF-32 նիշ պետք է 32-bit կոդը միավորը, որը համընկնում է Unicode կոդով: UTF-16 - մեկ երկու 16-bit միավորների. A UTF-8 օգտագործում մինչեւ 4 բայթ:

UTF-8 կոդավորման, որը նախատեսված է համատեղելի բայտ-oriented ASCII վրա հիմնված համակարգերի. Մեծ մասը գոյություն ունեցող ծրագրային ապահովման եւ պրակտիկայի տեղեկատվական տեխնոլոգիաների համար երկար ժամանակ ապավինում ներկայացուցչության կերպարների մի հաջորդականությամբ բայթ. Multiple արձանագրությունները կախված է հաստատունություն ASCII կոդավորմամբ եւ օգտագործում կամ խուսափում է հատուկ հսկողության նիշ. Մի պարզ միջոց է հարմարվել իրավիճակներին Unicode- ը կարող, օգտագործելով 8-bit կոդավորման ներկայացնող Unicode նիշ, ցանկացած համարժեք ASCII բնույթ կամ հսկողության բնույթ: Այս նպատակով, եւ դա այն է, UTF-8 կոդավորման.

փոփոխական երկարության

UTF-8 կոդավորման փոփոխական երկարության, որը բաղկացած է 8-bit պահպանման միավոր, իսկ վերին bits որը ցույց է, որի մի մասը հաջորդականությամբ յուրաքանչյուր անհատի բայտ պատկանում: Մեկը տեսականին արժեքների տրված առաջին տարրի կոդի հաջորդականությամբ, մյուսը է հաջորդ. Սա ապահովում է disjointness կոդավորում.

ASCII

UTF-8 կոդավորման ամբողջությամբ ապահովվում ASCII կոդերը (0x00-0x7F): Սա նշանակում է, որ Unicode կերպարները U + 0000-U + 007F են փոխակերպվել մեկ բայտ 0x00-0x7F UTF-8 եւ այդպիսով դառնալ անզանազանելի են ASCII. Ավելին, պետք է խուսափել անորոշություն, արժեքը 0x00-0x7F չի օգտագործվում այլեւս մեկ բայտ ներկայացուցչության Unicode կերպարներ. Ծածկագրել խորհրդանիշները neideograficheskih բացառությամբ ASCII, օգտագործելով մի հաջորդականություն երկու bytes. Նշաններ տարբերվում U + 0800-U + ffff ներկայացված է երեք բայթ, եւ լրացուցիչ ծածկագիրը ավելի քան U + ffff պահանջում չորս բայթ.

կիրառման ոլորտ

UTF-8 կոդավորման սովորաբար տրվում նախապատվությունը են HTML արձանագրության, եւ այլն.

XML դարձել է առաջին ստանդարտ հետ լիակատար զորակցությունն է UTF-8 կոդավորմամբ. Ստանդարտները կազմակերպություններ նաեւ խորհուրդ են տալիս այն. Աջակցություն խնդիր է URL հասցե, որը տարբերվում է ASCII-հերոսների էր լուծվել, երբ կոնսորցիումը W3C եւ IETF ինժեներական խումբը եկել է համաձայնության կոդավորման բոլոր URL հասցեները բացառապես UTF-8.

Համատեղելիությունը ASCII հեշտացնում անցումը դեպի նոր ծրագրային ապահովման. UTF-8 աշխատանքների մեծ մասը տեքստային խմբագիրներ, այդ թվում jEdit, Emacs, BBEdit, խավարում, եւ «Notepad» Windows օպերացիոն համակարգի. Ոչ մի այլ ձեւ կոդավորման Unicode չի կարող պարծենալ նման աջակցության գործիք.

coding առավելությունն այն է, որ այն բաղկացած է մի հաջորդականությամբ բայթ. UTF-8 պարանի շատ հեշտ է աշխատել C եւ այլ ծրագրավորման լեզուներով: Սա միակ ձեւը կոդավորման, կարգը չի պահանջում պիտակները բայթ BOM, կամ կոդավորման հայտարարագրման XML.

ինքնակառավարման համաժամացման

Են մի միջավայրում, որը օգտագործում է 8-bit խորհրդանիշները է վերամշակման համեմատ այլ բազմաբնակարան բայտ բնույթ սահմանում, UTF-8 ունի հետեւյալ առավելությունները.

  • Առաջին բայտ կոդը հաջորդականությունը պարունակում է տեղեկատվություն մասին իր երկարությամբ. Այս մեծացնում արդյունավետությունը ուղիղ որոնման.
  • Պարզեցրեց գտնելու սկիզբը խորհրդանիշ, քանի որ մեկնարկային Բայթը սահմանափակվում է ֆիքսված շարք արժեքների:
  • Ոչ խաչմերուկի բայտ արժեքները.

Համեմատել օգուտները

UTF-8 կոդավորման է կոմպակտ. Բայց երբ օգտագործվում է կոդավորում արեւելաասիական նիշ (չինարեն, ճապոներեն, կորեերեն, չինարեն գրելու օգտագործելով նշաններ), որն օգտագործվում է 3-բայտ sequences. Նաեւ UTF-8 կոդավորման զիջում է այլ ձեւերի կոդավորման մշակման արագությունը: A երկուական տեսակավորման գծերի արտադրում նույն արդյունքը երկուական տեսակավորման յունիքոդ:

Բնույթը կոդավորում սխեման

Բնույթը կոդավորում սխեման ներառում է կոդավորման խորհրդանշաններ ձեւը եւ մեթոդը միայնակ բայտ գտնվելու կոդ միավորների. Որոշելու, թե կոդավորման սխեման Unicode ստանդարտը տրամադրում է օգտագործել որպես նախնական բայտ կարգի նշանի (BOM, բայտ կարգը mark):

Երբ BOM է UTF-8 խաղարկային կտրոնը, որը սահմանափակվում է միայն հղում է օգտագործման ձեւերի կոդավորման. Խնդիրներ որոշելիս endian UTF-8 ունենալ, քանի որ դրա կոդավորում միավորը չափը մեկ բայթ: Օգտագործելով BOM այս ձեւով կոդավորմամբ է, ոչ պահանջվում, ոչ էլ խորհուրդ է տրվում. BOM կարող են տեղի ունենալ տեքստում պետք է փոխարկվում այլ codings օգտագործելով բայտ նպատակով դրոշմը կամ ստորագրությունը UTF-8 կոդավորմամբ. Մի հաջորդականությունը 3 բայթ EF BB 16 16 BF 16:

Ինչպես սահմանել UTF-8 կոդավորմամբ

The HTML կոդավորում UTF-8-ը տեղադրվել է հետեւյալ կոդով:

գլխավոր

Meta http-Միտք = "Content-Type" բովանդակության = "text / html; կոդավորում = UTF-8» ˃

PHP - UTF-8 կոդավորման սահմանված օգտագործելով header () ֆունկցիան սկզբին ֆայլի սահմանելուց հետո արտադրանքի մակարդակը արժեքը սխալ:

˂. Php

error_reporting (-1);

header ( «Բովանդակություն-Type: text / html; կոդավորում = UTF-8 ');

Միացնել դեպի MySQL տվյալների բազայի UTF-8 կոդավորման սահմանված:

˂. Php

mysql_set_charset ( 'utf8');

CSS- ը ֆայլի կոդավորումը UTF-8 նիշ է նշված է հետեւյալ կերպ.

@charset «UTF-8".

Երբ դուք փրկել ֆայլերը բոլոր տեսակների ընտրել UTF-8 կոդավորմամբ առանց bom, հակառակ դեպքում կայքը չի աշխատելու: Որպեսզի դա անել, ի DreamWeave պետք է ընտրել ընտրացանկի տարրը "փոփոխություններ - էջ Հատկություններ - Title / Կոդավորում» է փոխել կոդավորումը UTF-8. Որին հաջորդում է վերբեռնել էջը, հեռացնել չեկային նշանի ից «կոնեկտ Unicode ստորագրության (BOM)» եւ դիմել փոփոխությունները: Եթե որեւէ տեքստ էջում, կամ տվյալների բազայում ներդրվել մեկ այլ ձեւ է կոդավորում, դա անհրաժեշտ է կրկին մտնել կամ վերակազմակերպման ծածկագրել. Երբ դուք աշխատում կանոնավոր արտահայտություններ, պետք է անպայման օգտագործել կերպափոխիչ u.

Դուք կարող եք նաեւ պահպանել ֆայլը UTF-8 կոդավորմամբ է «Գրառման գրքույկ» Windows. Հետո ընտրելով ընտրացանկի տարրը "Պատկեր - Save As ...» տեղադրել անհրաժեշտ ձեւը կոդավորման եւ պահպանել ֆայլը UTF-8.

Տեքստային խմբագիր Գրառման գրքույկ + +, եթե սահմանված այլ բան, քան UTF-8, միջոցով ընտրացանկի տարրը "նորադարձ UTF-8, առանց BOM» փոխել բնավորությունը եւ պահպանել են UTF-8.

այլընտրանք չկա

Համատեքստում գլոբալացման, որտեղ քաղաքական եւ լեզվական սահմանները ջնջել, բնույթը սահմանում է, որ ունեն տեղական բնութագրեր, կան քիչ օգտագործման. Unicode- ը մի կերպար է փաթեթը, որն աջակցում է բոլոր տեղայնացված: A UTF-8 օրինակ է պատշաճ իրականացման Unicode, ինչը,

  • Այն աջակցում է մի լայն շրջանակ գործիքները, այդ թվում `համապատասխանության ASCII կոդավորման.
  • Այն դիմացկուն է խեղաթյուրում տվյալների.
  • պարզ եւ արդյունավետ բուժման.
  • է հարթակ անկախ.

Հետ գալուստը UTF-8 բանավեճի մասին, թե ինչ ձեւ կոդավորման կամ սիմվոլների կոդավորմամբ ավելի լավ, դա դառնում է անիմաստ:

Similar articles

 

 

 

 

Trending Now

 

 

 

 

Newest

Copyright © 2018 hy.birmiss.com. Theme powered by WordPress.