Identificarea problemelor de rețea ascunse, pentru administratorul de sistem

Poate că v-ați confruntat de atâtea ori: un computer nu este cunoscut de ce nu poate comunica cu ceilalți. Sistemul de gestionare se află într-un segment al rețelei, cu rutare conectată la alte segmente de rețea utilizând un router, de exemplu un server Microsoft Internet Security and Acceleration Server (ISA) sau alt dispozitiv. Când gestionați zece, douăzeci sau chiar sute de sisteme, nu există nici o problemă. Dar când încercați să gestionați 500 de sisteme, computerul nu poate comunica prin rețea cu alte computere, cu excepția celor la care conexiunile sunt deja deschise. Este imposibil să faceți schimb de date cu alte sisteme, este imposibil să accesați Internetul, dar nimeni din întreaga rețea, inclusiv segmentul dvs., nu are astfel de probleme. În primul rând, este necesar să căutăm motivul?







Într-o astfel de situație, în primul rând, este necesar să se presupună că un eșec al programului care controlează sistemele. Multe instrumente de administrare se pot conecta și pot gestiona alte computere, dar uneori aceste instrumente pot provoca ele însele probleme pe care încercați să le remediați. Motivul este că instrumentele de gestionare pot crea mii de conexiuni la dispozitive în scopuri de management. În Windows®, aceste conexiuni în mod implicit rămân deschise timp de două minute, chiar și în cazul unei perioade de nefuncționare, cu excepția cazului în care un program, o aplicație sau un serviciu extinde durata acestor conexiuni. Aceasta înseamnă că, chiar dacă sistemul de control nu accesează alte calculatoare în decurs de două minute, este posibil să existe mai mult de 1.000 de conexiuni deschise. (Pentru a vedea conexiunile deschise, puteți rula comanda NETSTAT la un prompt de comandă, puteți vedea toate conexiunile deschise, în așteptare și închise sistemului și starea acestora.) Pentru mesaje de stare, consultați RFC 793)

Pentru a determina ce provoacă sistemul de control eșecul, puteți crea un fișier batch care stabilește o conexiune la sistemele la distanță. Dacă aceeași problemă apare atunci când este rulat fișierul lot, atunci sistemul de control nu este legat de problemă. Iată un exemplu de conținut al unui astfel de fișier batch:

Utilizare netă \\ system01 \ ipc $ Utilizare netă \\ system02 \ ipc $ Utilizare netă.

Dacă programul de gestionare folosește stivă de rețea proprie și set de autentificare, cauza problemei poate fi în acest program, dar în soluții fără agenți, cum ar fi cele mai multe sisteme de management, stive de rețea și autentificare sunt folosite pentru a efectua activități de rețea. Folosind un fișier batch care rulează cât mai multe conexiuni de rețea fără probleme, înseamnă că problema nu este cauzată de modul în care programul utilizează stivele de sistem de operare (rețea și autentificare), deoarece fișierul batch le folosește corect.

Dacă jurnalele și mesajele de eroare nu vă ajută

Este posibil să fi observat că atunci când am început problema în rețea, pe apare un mesaj de eroare de calculator: Eroare 53 - Calea de rețea nu a fost găsit, o eroare de 64 - numele rețelei este șters, eroarea 1203 - furnizor de rețea nu ia act de calea de rețea. Toate aceste mesaje pot indica în mod corect prezența erorilor respective, dar apoi pe celelalte computere au nici o problema cu rezoluția numele și conectarea la același sistem. Pentru a verifica dacă setările computerului sunt corecte și asigurați-vă că problema nu este cauzată de acestea, trebuie doar să executați comanda ipconfig.

Acum, deoarece problema există doar în sistemul dvs. de control, merită să examinați jurnalele de evenimente. Căutarea jurnalelor de aplicații este inutilă, dar în jurnalul de sistem va apărea un eveniment de avertizare cu codul 4226 din sursa TCP / IP, ceea ce înseamnă că se ajunge la limita conexiunilor (a se vedea Figura 1).


Limita de conexiune TCP a fost atinsă

În funcție de mediul înconjurător, schimbarea acestor setări de registry poate duce la unele îmbunătățiri ale performanței. Pentru a elimina restricțiile, puteți schimba și fișierul TCPIP.sys, dar acest lucru afectează numai funcționarea aplicațiilor P2P.







Înregistrarea datelor din rețea

Dacă nu ajută altceva, puteți încerca să scrieți date de rețea din calculatoare. Când a fost pornit monitorul de rețea (Netmon), datele înregistrate corespundeau exact rezultatelor care erau evidente atunci când rulați instrumentele de control și scenariile de testare: mai întâi funcționează totul și apoi se oprește funcționarea fără nici o indicație de eroare.

În Fig. 2 arată rezultatul derulării Netmon - o conexiune reușită între prima și sistemele. Rețineți că primesc confirmarea cererilor de apel de la distanță. Acesta este exact ceea ce trebuie să vedeți - un schimb de date cu succes în două direcții.


Comunicarea de succes în Netmon


Încercările de conectare la sistem prin portul 445 nu dau nici un răspuns

În această etapă, probabil că deja pierdeți speranța, dar există încă loc pentru îmbunătățire. De obicei, puțini oameni să acorde o atenție la conexiunile de infrastructură datorită modului în care apare problema: calculatorul - singurul care nu se poate conecta la restul rețelei, și chiar și jurnalele de evenimente indică faptul că computerul a atins limita de conectare, astfel încât este greu de Cauza problemei este arhitectura rețelei.

În ciuda faptului că mii de conexiuni create de sistemul de management nu sunt create în același timp, datorită timpului de așteptare pentru transferul de date și conexiuni, poate apărea un număr foarte mare de conexiuni deschise simultan. Prin urmare, trebuie să acordați atenție sistemelor prin care computerul este conectat la restul rețelei.

Și iată ce e. După cum am spus mai sus, tot traficul din rețeaua dvs. trece prin comutatoare, routere și, probabil, prin firewall-uri. În oricare dintre aceste elemente, de obicei în routere sau firewall, pot fi utilizate sisteme de detectare a intruziunilor. Comutatoarele și routerele gestionate pot de asemenea să permită filtrarea traficului. Cei care gestionează aceste dispozitive trebuie să-și verifice jurnalele - poate că vor conține erori sau avertismente. Problemele de comunicare pot fi cauzate de aceste sisteme.

Sunteți conectați la un sistem intern la alte sisteme interne, astfel încât sunt create alerte: crearea de alerte poate fi configurat pe dispozitivele sau pentru că problema nu este tratată ca o invazie sau atac, cum ar fi „negarea serviciului“. Deci, din nou, să începem cu revistele. Ca exemplu, vom folosi ISA Server. În acest caz, jurnalele vor fi localizate în ISA Server consola de Management, în secțiunea Arrays \ \ Monitorizare \ Logarea.

* 0xc0040037 FWX_E_TCP_RATE_QUOTA_EXCEEDED_DROPPED
* 0xc004000d FWX_E_POLICY_RULES_DENIED
* 0xc0040017 FWX_E_TXP_SYN_PACKET_DROPPED

Dacă le găsiți, atunci se găsesc cauzele problemelor de rețea.

Deci, acum problema este fixă, soluția poate fi simplă, dar politica departamentului poate face dificilă aplicarea acestei soluții. Înainte de a efectua modificări, asigurați-vă că aveți permisiunea de a face acest lucru, deoarece pot fi interzise excepțiile din configurația de securitate a firewall-urilor, routerelor și sistemelor de detectare a intruziunilor.

Cu exemplul serverului ISA, să vedem cum să creștem numărul maxim de conexiuni pentru acest nod sau pentru toate computerele din rețea (a se vedea Figura 4). Deschideți consola de administrare ISA Server și mergeți la preferințele Arrays \ \ Configuration \ General \ Configure Prevention Prevention.


Creșteți numărul maxim de conexiuni pentru o gazdă sau pentru toate mașinile care utilizează ISA Server

După cum am discutat mai sus, în Windows, conexiunea prestabilită rămâne activă timp de două minute, dacă nu se ia nicio măsură pentru a prelungi durata conexiunii, chiar dacă nu este utilizată. Aceasta înseamnă că conectarea la orice computer va rămâne activă chiar și după ce toate acțiunile de gestionare a acestui computer au fost deja efectuate și nu mai este nevoie să faceți schimb de date cu acesta. Această conexiune deschisă rămâne una dintre numeroasele conexiuni deschise. Dacă repetați acest proces de mai mult de 160 de ori fără a elimina conexiunea, se pare că toate încercările de conectare ulterioare vor fi respinse de router. Chiar dacă programul de gestionare întrerupe în mod activ sesiunea, sistemul de operare Windows poate părăsi conexiunea în starea time_wait, așteptând un răspuns de la cel de-al doilea computer cu consimțământul de a se deconecta.


Limita de conectare prestabilită și limita de conectare personalizată


Setări de proprietăți ale rețelelor interne

Introduceți numele computerului, adresa IP și descrierea pentru a vă asigura că sistemul dvs. nu este eliminat

Încercați să reporniți sistemul de control. Veți vedea că performanța a devenit mult mai mare, iar conexiunile funcționează fără probleme (cel puțin fără probleme cauzate de traficul în rețea). Astfel, în final sa dovedit că problema nu a fost cauzată de numărul de conexiuni cauzate de program, ci de planificarea incorectă a acestora.

Una dintre cele mai mari probleme în IT este apariția și eliminarea problemelor, cauza cărora este dificil de detectat. Aceste probleme nu sunt cauzate de acțiunile utilizatorilor sau ale grupului de servere, serviciul de asistență nu este actualizat, dar puteți fi responsabil pentru remedierea acestora. Există instrumente care pot ajuta la identificarea problemelor, le pot detecta și le pot elimina, dar uneori nu sunt suficiente. Uneori nu funcționează corect. Uneori trebuie să fii mai inteligent decât mijloacele astea.

Dacă dintr-o dată există o situație în care computerul dvs. va începe să aibă probleme cu conexiunile la rețea fără nici un motiv evident, încercați să faceți ceea ce am spus mai sus. Este posibil ca, urmând acești pași, după ce ați studiat cu atenție funcționarea sistemului de control și ați configurat corect conexiunile permise, veți rezolva cu succes problema.







Articole similare

Trimiteți-le prietenilor: