Extreme "sunt cele mai mari și mai rapide

Acest conținut face parte din seria:

Aveți grijă de articole noi din această serie.

Caracteristicile „mare“ sau „rapid“, imediat ne face legitimă întrebarea: „Comparativ cu ceea ce“ De fapt, baza de date, care este o companie mică consideră un mare va părea mică în comparație cu magazia națională, în creștere în fiecare an, până la 28 petabytes. Bază de date „Fast“, care deservesc e-commerce site-ul de tranzacție este prea lent în comparație cu bazele de date, care sunt folosite pentru a automatiza schimbul de operațiuni și să ofere timpul de acces, măsurată în milisecunde.

Dar chiar dacă compania dvs. nu pretinde că deține cea mai mare sau cea mai rapidă bază de date de pe planetă, câteva lecții despre administrarea unor astfel de baze de date pot fi foarte utile pentru dvs. Evident, tendințele de dezvoltare ale bazelor de date "extreme" vor avea, mai devreme sau mai târziu, un impact asupra arhitecturii și funcționării unei baze de date de orice dimensiune.

Ce înseamnă "superlarge"?

Creșterea constantă a fluxurilor de informații necesită o creștere corespunzătoare a bazelor de date publice și comerciale. Cu doar patru ani în urmă, potrivit WinterCorp, cele mai mari din lume erau baze de date cu o capacitate de stocare de aproximativ 100 TB. Baza de date Yahoo! a devenit prima bază de date pentru un deceniu de cercetare care a rupt pragul de 100 TB.

Ce fel de baze de date într-un moment în care volumul de informații digitale stocate sunt în continuă creștere, se pot aplica pentru definirea „scară foarte mare“? Standardul total de distribuție a mărimii bazei de date nu există. În plus, este necesar să se aibă în vedere faptul că dimensiunea magazinului de date nu este acum principalele caracteristici ale bazei de date, nu factor mai puțin important este sa maniabilitate. Una dintre posibilele definiții ale bazei „ultra“ aparține Dr. Robert Hollebeku (Robert Hollebeek), profesor de fizica la Universitatea din Pennsylvania, unul dintre fondatorul National Scalable Cluster Proiect si proprietar al mai multor premii naționale pentru evoluțiile în domeniul sistemelor de cluster distribuite și date de cercetare. Hollebek spune că acum cinci ani volumul bazei de date mai multe terabytes ar putea pretinde titlul de „ultra“. Astăzi este nevoie de o capacitate de stocare de mai multe petabytes. „Poate că o altă definiție a bazelor de date la scară foarte mare - o bază de date a cărui indice nu se încadrează în memoria fizică, chiar și memoria terabyte de un supercomputer sau un cluster de calculator“ - continuă Hollebek. Indicii de baze de date un astfel de ordin este „ultra“. Utilizarea bazei de date „extra-large“ creează o serie de probleme în ceea ce privește performanța și administrație.

Hollebeck susține de asemenea că "super-mare" poate fi considerată o bază de date pentru care este dificil să se găsească cantitatea potrivită de resurse hardware. "Dacă aveți mii de discuri sau server, rack-uri complete cu mașini paralele, atunci un astfel de sistem devine dificil de gestionat".

Manuel Gomez Byurriel (Manuel Gomez Burriel), câștigător al programului IBM Information Champion și un membru al Confederației Spaniole a Băncilor de Economii Confederación Española de Cajas de ahorros (CECA), este de acord că, controlul poate fi utilizat drept criterii pentru a determina care bazele de date sunt " foarte mare“, și ceea ce - este destul de baze de date de obicei mari. „Sarcini administrative standard nu se mai potrivesc în anumite ferestre de timp sunt“ - spune Gomez. Restaurarea bazei de date în caz de eșec poate dura mai multe ore, în timp ce nevoia de a păstra în câteva minute. Performanță, de asemenea, intră în discuție, deoarece baza de date este prea mare și nu este o parte mai mult sau mai puțin semnificative nu pot fi încărcate în memoria cache. Manipularea este destul de standard de aplicații, solicitările de informații pot necesita o cantitate complet inacceptabilă din ciclurile procesorului.

Portrete de baze de date

Experiența în domeniul gestionării datelor, obținută printr-un studiu detaliat al arhitecturii și principiilor de funcționare a unei baze de date "super-mari", poate fi utilizată cu succes atunci când se lucrează cu alte baze de date, mari și nu foarte mult. Hollebeck a fost un specialist tehnic principal în Arhiva Națională de Mamografie Mamică (NDMA), un sistem creat pentru o bază de date care crește cu 28 de petabyte pe an. Datorită fondurilor furnizate de Institutul Național de Sănătate (SUA), NDMA a dezvoltat o rețea distribuită de sisteme pentru stocarea datelor medicale, a imaginilor și a rezultatelor cercetărilor. Sistemul a fost folosit ca un depozit al rezultatelor mamografiei, imaginilor obținute ca rezultat al imagisticii prin rezonanță magnetică și a altor date care corespundeau fiecărui caz al bolii și ar putea ajunge până la un gigabyte de date. Arhiva conținea datele a milioane de pacienți. Pe lângă problemele de stocare și organizare a accesului la volum mare de informații, NDMA sa confruntat cu problema datelor necorelate stocate în sistemele distribuite geografic - o sarcină care trebuie soluționată de aproape toate întreprinderile globale. Pentru a lega cele patru centre de cercetare din domeniul sănătății implicate în proiect, NDMA a creat linii sigure pentru transmiterea datelor criptate. Fiecare centru medical avea propriul punct de intrare cu hardware-ul pentru a cripta datele. Datele din rețea au fost transmise printr-un protocol special conceput pentru a lucra cu blocuri mari de informații.

"Proiectul nostru a fost foarte ambițios și nu ne-am permite să pierdem orice informație medicală. Avem nevoie de o tehnologie ultra-fiabilă care să garanteze performanțe și paralelism ridicate, deoarece structura noastră sa bazat pe folosirea unor grupuri de mașini paralele ", spune Hollebek. "Sistemul ar trebui să aibă o toleranță ridicată la erori, deoarece nu am putut permite pierderea sau eșecul tabelelor index". Pentru tabelele index, NDMA a folosit software-ul IBM DB2 Parallel Edition. Datele grafice au fost stocate în baze de date cu un singur nivel, pe rețele de discuri paralele sub controlul sistemelor de fișiere "native" ale sistemului de operare, care a fost ales ca Linux.

Lecții NDMA

Bazându-se pe experiența sa la NDMA, Hollebeck a elaborat câteva orientări generale pentru a lucra cu baze de date "extrem de mari" conectate prin intermediul rețelelor WAN:

Acordați o atenție deosebită problemei transferului unor cantități mari de informații prin rețea, fie că este vorba de Internet sau de o rețea corporativă. Găsiți cea mai eficientă metodă de transmisie, de exemplu, prin crearea de puncte de intrare în locațiile de primire și expediere sau prin utilizarea unui protocol care transferă efectiv blocuri de date mari (mai multe megabiți).
Nu modificați formatul datelor primite. Comprimarea datelor fără pierderea informațiilor este cu siguranță un lucru util, însă în cazul utilizării unor baze de date mari un câștig mic în volum nu acoperă problemele asociate cu transformarea inversă a datelor și organizarea depozitării lor la primire.
De îndată ce tabelele index nu se mai potrivesc în memorie, performanța bazei de date scade dramatic, astfel încât memoria să crească la maxim. Dacă posibilitățile de creștere a volumului de memorie sunt epuizate, utilizați structuri paralele pentru a organiza date pentru a utiliza în mod eficient sistemele de cluster. Dacă acest lucru nu este posibil, utilizați indicii pentru tabelele index.

Ce înseamnă "ultrafast"?

Această opinie este împărtășită și de Gomez, definirea bazei de date „ultra-rapid“ ca fiind „suficient de rapid pentru a furniza informațiile necesare în conformitate cu clientul a fost de acord SLA». „Cea mai rapidă bază de date se aplică direct datele în memorie, dacă este posibil. Una dintre aplicațiile noastre, care funcționează ca parte a sistemului de plăți, folosind IMS și soluție Fast Path, precum și subsistem de stocare de întreprindere și oferă un timp de răspuns mai mic de 20 de milisecunde pentru fiecare tranzacție, și se prevede că aplicația utilizează la 14 baze de date pentru informații despre clienți, „- continuă să Gomez.

A doua întârziere este prea lungă

În ciuda faptului că, mai devreme, sistemele financiare utilizate pentru servirea bancomatelor (ATM) au fost considerate foarte rapide, acum au devenit dincolo de viteză. "Dacă înainte de a aștepta o secundă pentru a obține informații despre soldul dvs. și credeți că a fost foarte rapid, acum este doar un rezultat mediu", spune Olofson. Astăzi, atunci când discutăm despre operațiuni de mare viteză cu baze de date, experții spun că complexele de telecomunicații în care, în timpul procesului de conectare, sistemul verifică toate datele din contul clientului, inclusiv tipurile posibile de servicii. Astfel, sistemul primește informații despre rutarea conexiunii și despre ce funcții trebuie luate în considerare - toate într-un mediu fără fir global în care orice cont se poate schimba în orice moment.

Un alt exemplu de aplicații care necesită prelucrarea rapidă a datelor sunt algoritmii de tranzacționare a acțiunilor, definit de portofoliul de servicii financiare. "O companie poate servi sute de conturi, fiecare fiind diferit de portofoliul său și, prin urmare, necesită reguli individuale pentru gestionarea tranzacțiilor de schimb posibile", continuă Olofson. "Aceste reguli ar trebui să fie definite și aplicate în acele milisecunde, astfel încât transferul de pachete să preia rețeaua. Abilitatea unui sistem financiar de a furniza o astfel de viteză de operare determină diferența dintre succesul și eșecul în gestionarea conturilor clienților. "

O astfel de viteză de operare determină cereri mari privind viteza bazelor de date interne, care, de regulă, formează un sistem multi-nivel de stocare și acces la date. În multe cazuri, bazele de date despre mainframe, cum ar fi IMS, un sistem ierarhic de gestionare a bazelor de date IBM pe mainframe, sunt utilizate ca bază de date internă. Ca mediu inițial de procesare a datelor de mare viteză, se utilizează cache-ul operațional, iar baza principală de stocare a datelor este o structură pe mai multe niveluri pe mainframele. Clienții care au nevoie de sisteme financiare de mare viteză sunt principalii investitori ai unor astfel de soluții pe mai multe niveluri.

Cele mai recente evoluții pentru creșterea explozivă a performanței bazei de date

Evident, procesul de apariție și dezvoltare a noilor tehnologii și sisteme pentru a accelera cerințele vor continua să crească, astfel încât producătorii să continue să caute noi modalități de a îmbunătăți performanța bazei de date. Una dintre cele mai populare domenii de cercetare de azi este axată pe rezolvarea problemei legăturii slabe în mod tradițional în lanțul de transmisii de date - hard disk-ul. Soluțiile care utilizează cache de date în memorie, cum ar fi IBM solidDB, transfera operațiunile de a lucra cu date dintr-o memorie relativ lent la un hard disk într-o memorie RAM relativ rapid, reducând astfel semnificativ timpul de răspuns. O privire mai detaliată a bazelor de date solidDB poate fi găsită în articolul "solidDB și Secretele vitezei" în aceeași ediție.

Astfel, centrul de baze de date suport hardware de greutate este în continuă schimbare din memoria RAM a discului, și a tehnologiilor de gestionare a datelor sunt din ce în ce pune în centrul utilizării eficiente a resurselor CPU. În paralel cu aceste direcții, apar noi soluții flexibile, care vizează utilizarea diferitelor niveluri de încărcare a bazei de date. În locul metodei convenționale de stocare a datelor sub formă de rânduri de tabele, baze de date arhitecți trec de baze de date bazate pe coloane sau matricile indicilor bazine de date. Structurile noi oferă un nou nivel de flexibilitate în organizarea stocării datelor. Din punctul de vedere al unei aplicații care rulează cu baze de date similare, o astfel de depozitare poate fi considerată ca o bază de date relațională normală, dar poate fi extins pentru a lucra ca baze de date orientate-obiect, baze de date XML, baze de date multi-valoare sau multidimensionale.

Este evident că atunci când se analizează „scară foarte mare“ și „ultra-rapid“ cumpărător bază de date se va concentra pe cele mai noi soluții tehnologice. Nu contează cât de mare cerințele pentru volumul de date stocate sau viteza de procesare, companii de producție sunt în mod constant îmbunătățirea tehnologiei lor și de a dezvolta noi soluții pentru a fi în măsură să vă ofere un produs care satisface pe deplin nevoile dumneavoastra. Și, la fel ca în lingvistică, modă și artă, ceea ce a fost considerat o realizare remarcabilă ieri este rutina de mâine.