Cum puteți determina rapid codificarea unui șir de text

A apărut o problemă: cât de repede se poate determina codarea unui șir de text în raport cu UTF-8 În ce mai mult timp, trebuie să lucrați cu șiruri de caractere în codificarea UNICODE.

Mai jos este funcția de a verifica dacă conversia codificării UNICODE (UTF-8) într-o codare WINDOWS (win-1251)







Funcția oferă un răspuns destul de precis, deși nu se bazează pe cartografiere simbolică bazată pe cod.

Pe scurt - o descriere a funcției detect_my_utf ().
  • convertiți (șir la format special)
  • calcula lungimea liniei de intrare
  • dați toate literele șirului din capitală
  • eliminăm codurile .0 și .1 specifice
  • calculați lungimea unei linii noi
  • obținem raportul dintre șirul de șiruri de caractere și cel nou






Dacă această relație este 1 sau aproape de ea, atunci există o suspiciune că șirul de intrare nu a fost codificat în UNICODE. Dacă acest raport este în intervalul de la 1.2 la 2.2 - atunci putem re-codifica în siguranță linia din codul WINDOWS win-1251.

La ieșirea funcției, avem 0 sau 1, respectiv, nu UNICODE sau UNICODE.

Exemple de funcții:

Exemplul 4 Acest algoritm se descurcă bine cu o varietate de linii de intrare ca parte a serviciului de statistici pentru navigarea de la motoarele de căutare.

PHP este un limbaj de programare bazat pe utilizarea de scripturi. Această limbă este utilizată pe scară largă pentru a crea diverse aplicații web front-end și back-end. Este acceptat în mod implicit de majoritatea hosterilor, fiind unul dintre liderii printre limbile de programare destinate creării de site-uri interactive dinamice.







Trimiteți-le prietenilor: