Introducere în Deduplicarea datelor

În domeniul continuității afacerii, există multe probleme diferite legate de creșterea rapidă a datelor în infrastructurile IT moderne. În opinia mea, putem distinge două principale:

Cum de a planifica un loc pentru a stoca o cantitate mare de date

Cum se face backup pentru aceste date

deduplicare

În sens larg, există două tipuri principale de deduplicare:

Deduplicarea la nivel de fișier - unitatea de deduplicare în această metodă, așa cum este ușor de înțeles, este un fișier separat atunci când fișierele duplicate sunt excluse din sistemul de stocare a datelor. Când vorbim despre deduplicarea la nivel de fișier, se menționează adesea tehnologia SIS (Single-Instance Storage).
Deduplicarea la nivel de bloc - aici unitatea de deduplicare este un bloc de date de lungime arbitrară, care este adesea repetat în diferite obiecte logice ale sistemului de stocare a datelor.

De obicei, se utilizează o schemă de deduplicare mai granulată, cu atât mai multe economii de spațiu în depozitul de date.

Sună grozav! Dar numai până când fișierele sunt absolut identice. Dacă unul dintre fișierele identice este modificat la cel puțin un octet, va fi creată copia sa modificată separată și eficiența deduplicării va scădea.

Blocarea deduplicării funcționează la nivelul blocurilor de date scrise pe disc, pentru a evalua identitatea sau unicitatea funcțiilor hash utilizate. Sistemul de deduplicare stochează o tabelă hash pentru toate blocurile de date stocate în ea. Odată ce sistemul de deduplicare găsește hashuri potrivite pentru blocuri diferite, presupune că blocurile sunt stocate ca o singură instanță și un set de referințe la aceasta. De asemenea, puteți compara blocurile de date de la diferite computere (deduplicarea globală), ceea ce sporește și mai mult eficiența deduplicării, deoarece multe discuri pot fi stocate pe discuri de computere diferite cu același sistem de operare. Este de remarcat faptul că cea mai mare eficiență va fi obținută prin reducerea dimensiunii blocului și maximizarea repetabilității unității. În acest sens, există două metode de deduplicare a blocurilor: cu o lungime constantă (predeterminată) și variabilă (selectată dinamic pentru date specifice).

Aplicații de deduplicare

Majoritatea dezvoltatorilor de produse cu suport pentru deduplicare se concentrează pe piața de rezervă. În acest caz, în timp, copiile de rezervă pot avea de două până la trei ori mai mult spațiu decât datele originale. Prin urmare, deduplicarea fișierelor a fost folosită de mult timp în produsele de rezervă, care, cu toate acestea, pot să nu fie suficiente în anumite condiții. Adăugarea deduplicării blocurilor poate îmbunătăți în mod semnificativ eficiența sistemelor de stocare și facilitează respectarea cerințelor de eroare ale sistemului.

Reducerea interesului și speranțe mari

Procentajul spațiului de disc salvat este cea mai importantă zonă ușor de manipulat, vorbind despre "reducerea cu 95% a mărimii fișierelor de rezervă". Cu toate acestea, algoritmul utilizat pentru a calcula acest raport poate să nu fie complet relevant pentru situația dvs. particulară. Prima variabilă care trebuie luată în considerare este tipul de fișier. Formate precum ZIP, CAB, JPG, MP3, AVI sunt deja date comprimate, ceea ce oferă un factor de deduplicare mai mic decât datele necomprimate. La fel de importantă este frecvența modificărilor de date pentru deduplicare și numărul de date istorice. Dacă utilizați un produs care deduplică datele existente pe un server de fișiere, atunci nu vă faceți griji. Dar dacă utilizați deduplicarea ca parte a unui sistem de backup, trebuie să răspundeți la următoarele întrebări:

Timpul este totul

Vorbind despre deduplicarea în sistemele de rezervă, este important să știm cât de repede este efectuată. Există trei tipuri principale de deduplicare:

sursă (pe partea sursei de date);
țintă (sau "post-procesarea deduplicării");
continuă (sau "deduplicare de tranzit");

Primul tip: Deduplicare la partea sursei de date

Funcționează pe dispozitivul însuși, unde sunt localizate datele sursă. Orice date marcate pentru copiere de rezervă sunt împărțite în blocuri, pentru care este calculat un hash. Aici puteți vedea 3 probleme potențiale.

Prima problemă este că resursele mașinii sursă sunt implicate aici. Prin urmare, trebuie să vă asigurați că are suficiente resurse CPU și RAM. Nu există niciun motiv rezonabil pentru efectuarea deduplicării pe un server de e-mail deja încărcat. Desigur, unii producători vorbesc despre ușurința deciziilor lor, dar acest lucru nu contrazice faptul că performanța mediului sursă va fi afectată și acest lucru poate fi inacceptabil.

A doua problemă este în cazul în care este mai bine pentru a stoca masa de hash? Puteți avea o tabelă de tip hash pe același server sursă sau pe un server centralizat din rețea (acest lucru trebuie făcut dacă se utilizează deduplicarea globală), dar această soluție creează o încărcare suplimentară în rețea.

În ciuda dezavantajelor sale, deduplicarea sursă are dreptul să utilizeze, de exemplu, în companii cu o dimensiune mică a infrastructurii IT, unde există mai multe servere în infrastructură, este irațional să folosim deduplicarea globală.

Deduplicarea țintă (sau post-procesare)

Să presupunem că datele de pe toate computerele sunt trimise la același depozit de rezervă. Imediat ce sosesc datele, depozitarul poate crea un tabel hash cu blocuri ale acestor date. Primul avantaj al acestei metode este o cantitate mai mare de date, iar cu cât este mai mare baza de date, cu atât mai mult va fi masa de hash și, în consecință, cu atât sunt mai mari șansele de a găsi blocuri identice. Al doilea avantaj este că întregul proces are loc în afara rețelei productive.

Cu toate acestea, această opțiune nu rezolvă toate problemele. Există câteva puncte care trebuie luate în considerare.

Prima este dependența de spațiul liber. Dacă aveți o infrastructură extinsă, atunci dimensiunea locației necesare poate fi foarte mare.

De asemenea, al doilea dezavantaj al deduplicării țintă este cerința pentru subsistemul disc al depozitului. În mod obișnuit, datele trebuie să fie scrise pe discul de depozitare înainte de a fi împărțite și numai atunci procesul de hash și deduplicare începe. Acest lucru face ca subsistemul disc să devină un blocaj în arhitectură.

Al treilea dezavantaj poate fi acela că fiecare funcție hash are o probabilitate de coliziune de hash. adică atunci când se calculează același hash pentru două blocuri diferite. Acest lucru duce la deteriorarea datelor originale. Pentru prevenire, este necesar să se selecteze un algoritm de hash cu o probabilitate minimă de coliziuni, care la rândul său necesită mai multă putere de procesare. De obicei, aceasta nu este o problemă, deoarece deduplicarea țintă utilizează hardware care poate face față acestei încărcări. Trebuie să spun că probabilitatea coliziunilor de hash ale funcțiilor hash moderne este destul de mică.

Al patrulea potențial dezavantaj este că întreaga cantitate de date din "producție" trebuie să fie transmisă prin rețea fără a crea o sarcină semnificativă asupra rețelei și a sistemului productiv în sine. Acest lucru poate fi rezolvat prin utilizarea orelor de noapte sau a altor ore mai puțin ocupate pentru sistem sau prin izolarea acestui trafic într-o altă rețea (care este o practică obișnuită în companiile mijlocii și mari).

Deduplicarea tranzitului

Deduplicarea tranzitului este explicată ca un proces care apare în timpul transferului de date de la sursă la țintă. Termenul este puțin confuz. Datele nu sunt de fapt deduplicate "în fir". De fapt, aceasta înseamnă că datele colectate în memoria RAM a dispozitivului țintă sunt deduplicate acolo înainte de operația de scriere pe disc. Aceasta afișează timpul de căutare al discului din ecuație. Deduplicarea tranzitivă poate fi considerată cea mai bună formă de deduplicare țintă. Are toate avantajele reprezentării globale a datelor, împreună cu descărcarea procesului de hash, dar nu are niciunul din dezavantajele unor unități I / O lentă.

Cu toate acestea, aceasta reprezintă încă un trafic de rețea mare și coliziuni potențiale de hash. Această metodă necesită cele mai mari resurse de calcul (procesor și memorie) printre toate cele listate.

Rezumă

Tehnologiile de deduplicare pot contribui la reducerea costurilor de achiziționare a sistemelor de stocare. Este înțelept să alegeți tipul de deduplicare. În cele din urmă, deduplicarea va permite companiei să-și mărească mai încet costurile de depozitare.

Materiale utile

s3ql - sistem de fișiere bazat pe stocarea în cloud
Descriere Cu S3QL puteți crea un sistem de fișiere bazat pe stocare cloud Selectel de stocare, care poate fi montat în orice versiune modernă a sistemului de operare Linux, FreeBSD și Mac OS X. Caracteristici de transparență S3QL practic imposibil de distins de sistemul de fișiere local. Acceptă hardlink-uri, simboluri, drepturi standard de sistem

Articole similare

Metode de administrare a medicamentelor la rozătoare, cum să se administreze medicamente șoarecilor de șobolan, pudră de tabletă, marin

Pagina anterioară

Pagina următoare