Fișier text

Descrierea pictogramei unui fișier text cu date CSV

Un fișier text este un fișier de computer. conținând date de text. Fișierele text se opun fișierelor binare (binare). care conțin date care nu sunt concepute pentru a interpreta ca text (de exemplu, fișiere care conțin text într-o formă codificată sau comprimat sau stocarea nici un text, sunet, imagini sau alte date).

Spre deosebire de termenul "date text" ("format de date text") care caracterizează conținutul datelor, termenul "fișier text" se referă la fișier și îl descrie ca un container care stochează astfel de date.

Un fișier text conține o secvență de caractere (mai ales caractere tipărite care aparțin unuia sau altui set de simboluri). Aceste caractere sunt de obicei grupate în linii (linii în engleză, rânduri). În sistemele moderne, șirurile sunt separate prin delimitatori de linii. În trecut, acesta a fost folosit pentru a stoca linii sub formă de înregistrări cu lungime constantă sau variabilă (a se vedea Punch Card). Uneori, sfârșitul unui fișier text (mai ales dacă sistemul de fișiere nu stochează informații despre dimensiunea fișierului) este, de asemenea, marcat cu unul sau mai multe caractere speciale, cunoscute sub denumirea de marcatori de sfârșit de fișier.

Avantaje și dezavantaje

Pentru fișierele text necomprimate mari, entropia cu informații scăzute - aceste fișiere ocupă mai mult spațiu decât este necesar. Deși această redundanță determină creșterea rezistenței la defecțiuni în canalele de transmisie de date și atunci când datele sunt primite de la operatori de transport. de exemplu, dintr-o bandă magnetică.
Unele operații cu fișiere text sunt ineficiente. De exemplu, dacă există un număr în fișier, sistemul informatic trebuie să îl traducă în formatul său intern înainte de a începe operațiile cu acesta, folosind o procedură relativ complexă pentru conversia numărului; Pentru a merge la linia a 1000-a, este necesar să numărați 999 de linii mergând la ea; este dificil să înlocuiți o linie cu alta, etc. Prin urmare, atunci când lucrați cu volume mari de date, fișierele text sunt utilizate numai ca un format intermediar care asigură interoperabilitatea.

Formate bazate pe fișiere text

Datorită simplității sale, fișierele text sunt adesea folosite pentru informații serviciul de stocare (de exemplu, bușteni): deoarece operația plus, în finalul fișierului text, noile date nu necesită resurse de calcul semnificative, indiferent de dimensiunea fișierului existent și tastați pentru a adăuga date text, efectuarea de text Fișierele de înregistrări apar de obicei în mod eficient și neobservate pentru utilizator și pentru alte aplicații (până la epuizarea spațiului de pe disc).

Formatul de text servește ca bază pentru multe formate mai specializate (de exemplu, .ini, SGML, HTML, XML, TeX, cod sursă pentru limbile de programare). În unele dintre aceste formate, anumite combinații de caractere pot fi folosite ca instrumente de marcare. În acest caz, fișierul poate stoca text formatat, în care caracterele pot fi admise suplimentar un font, un font, o mărime etc. (de exemplu, Rich Text Format, HTML).

Extensii de nume de fișiere

În DOS și Windows pentru fișierele cu text neformatat, extensia .txt este de obicei utilizată. Cu toate acestea, fișierele text pot fi fișiere cu orice altă extensie sau fără ea. De exemplu, codurile sursă ale programelor sunt de obicei stocate în fișiere cu extensii care corespund limbajului de programare. pe care sunt scrise programele (.bas .pas .c).

Textul formatat (textul cu marcaj) este de obicei stocat în fișiere cu o extensie corespunzătoare formatului sau limbajului de marcare - .rtf. .htm. .html.

Text pe 8 biți

Din punct de vedere istoric, un set de caractere ASCII de 7 biți a fost utilizat pentru a codifica fișierele text. precum și extensii EBCDIC pe 8 biți și diverse extensii ASCII. În paginile de cod pe 8 biți, este comună utilizarea caracterelor ASCII în prima jumătate a tabelului de coduri.

Avantajul reprezentării textului pe 8 biți este simplitatea software-ului și independența față de problema ordinii de octeți sau lungimea cuvântului calculatorului pe diferite platforme. Dezavantajul este un număr mare de standarde diferite, ceea ce poate duce la incompatibilitate.

Unicode în fișierele text

Folosirea Unicode în fișiere text, deși rezolvă problema "problemă de codificare" și standardizează utilizarea caracterelor de control, dar creează propriile probleme. În cele mai moderne sisteme, o unitate indivizibilă de informații într-un flux de date este un octet (8 biți). care pentru codarea unui caracter de la Unicode necesită mai multe. Ca soluție, sunt utilizate sisteme incompatibile UTF-8 și două versiuni ale UTF-16 (UTF-16LE și UTF-16BE în ordinea inversă a octeților). Uneori, la începutul fișierului se adaugă un marker special de caractere (U + FEFF [1]), care permite recunoașterea fără echivoc a formatului. UTF-8 are avantajul unei compatibilități înapoi cu ASCII, dar prelucrarea software-ului de text în UTF-8 este complicată de mărimea caracterelor variabile. De asemenea, textele Unicode sunt chiar mai reduse. mai degrabă decât cele pe 8 biți.

Controlează caracterele

Sistemele de operare diferite se bazează pe punctul de vedere al fluxului de linii și al sfârșitului fișierului. Pe linie de alimentare UNIX constă dintr-un singur LF caracter (cod 0xA) în Mac OS (dar nu OS X) - simbolul CR (cod 0xD), și în DOS și Windows NEWLINE este codificată de secvență de două caractere: CR și LF.

O astfel de incoerență este dictată de principiile de mașini de scris: pentru a trece la o nouă linie, este necesar să se întoarcă transportul la începutul liniei (carriage return), iar apoi rotiți tamburul pe o singură linie (line feed). Când imprimați la o imprimantă care este un alt simbol ar putea sta în afară (de exemplu, pentru a evidenția rândul, acesta stins de două ori, sau parcurge tamburul pe câteva rânduri), dar în fișiere text nu este nevoie.

Articole similare

Pagina anterioară

Pagina următoare