Companiile mari cumpara companii mici. Private Equity funds investesc in companii mici… De atunci business-ul se schimba si conteaza ROI-ul alora care pompeaza bani in compania mica care a putut pana nu a mai putut ca era prea scump, sau a crescut prea mult. S-a scumpit PRTG – ce alternative ai?

Paessler e una din companiile astea.

Paessler are un produs matur pentru monitorizarea infrastructurilor it. Un produs super decent. Costul se facea la senzori monitorizati (1 senzor era de exemplu 1 disk de pe 1 server, care iti arata cat spatiu mai exista, sau procesorul, cat e utilizat). Am inceput cu 1000 de senzori si am ajuns la 5000. Din punct de vedere bugetare, era simplu, costul era decent si fix, era previzibil si nu trebuia sa iei aprobari ca sa cumperi an de an. Licenta era perpetua si cumparai mentenanta si suport.

Mentenanta si suportul pentru licenta perpetua, cum era pana acum au disparut iar pretul subscriptiei creste de vreo 3 ori. Este modelul Brocade de a cerne clientii mici…

Folosesc PRTG de 7 ani si sunt foarte multumit de produs… nu prea au mai inovat ei in ultimii x ani dar produsul e stabil. Poti customiza senzori si daca “le ai” cu scripturile si poti monitoriza cam ce vrei dintr-o infrastructura on prem (sau cloud) fara agenti, prin wmi, snmp, perfmon, ssh, etc… Dupa 7 ani, la renewal-ul anual, ne loveste baiatu de la sales cu costul marit de 3 ori… cu o explicatie cam stupida, dar incluzand disocount de 40% daca comitem pentru 3 ani.

NU

Ramanem la versiunea asta pana cand expira si ne uitam la alternative, ca slava domnului, sunt destule. Nu ne uitam la solarwinds cum nu ne-am uita la Crowdstrike daca vrem antivirus. Poate peste inca 4 ani :))

Ce am incercat pana acum, din lista de FREE’n’Moka sau ShutUpAndTakeMyMoney. Prin incercat zic instalat solutia si testat use case-urile noastre. Pana acum favoritul meu e site24x7.

  1. Primul produs testat si luat cotatie – Logic Monitor. Cam de 10 ori mai scump decat noua subscriptie de la PRTG pentru fix aceleasi nevoi de monitorizare. Produsul este cam de 10 ori mai avansat decat PRTG si are integrare in toate cloudurile existente. Stie AWS, GCP si Azure. Iti arata tot intr-un singur dashboard. E customizabil cat se poate si are rapoarte cat cuprinde. Ne-a speriat pretul.
  2. CheckMK – m-a dezamagit cumva ca avea agenti si pe langa asta era cam ciudata interfata. Ciudata probabil pentru mine… ca la fel mi-a parut si PRTG prima oara cand am dat ochii cu el, problema cu CheckMK a fost ca intre discovery si adaugat la monitorizare parca trebuia sa mai faci niste pasi inutili. In fine, poate am fost biased. Nu e agentless. Nu am obtinut nici o cotatie de pret.
  3. Zabbix – Gratis. Dar munca pe care trebuia sa o depunem sa ajungem la nivelul de monitorizare pe care il avem acum in PRTG ar fi fost titanica. Daca as lua ceva de la zero as alege zabbix… dar nu o luam de la 0 si tot ce era alerta, limita de warning, limita de eroare… trebuia facut de maini dibace. Am 42 de ani si nu mai am chef. Plus ca mai avea nevoie si de agenti…
  4. Domotz – Autodiscovery foarte misto, dar nu aveai detaliile out of the box. Trebuia sa pui server cu server ca vrei cel putin disk, ram, cpu. Nu poti crea senzori custom. Pentru monitorizare windows foloseste WinRM si SSH (da, pui ssh pe windows) … si ssh pentru linux-uri
  5. WhatsUP Gold – Discovery foarte bun doar ca out of the box iar nu aveai foarte multe lucruri monitorizate. Ping. Pentru mai mult trebuia sa adaugi senzori. Nu mi-a placut pentru ca nu puteam monitoriza “chestiile custom din PRTG”.
  6. Grafana si Prometheus – iar, am 42 de ani si am devenit putoare. Arata super dashboard-urile din grafana, dar cand ai multe servere asta inseamna overhead. Instaleaza agenti, pune sursa in prometheus, vezi pe la dashboard-uri… poate pe un set restrans de servere.. acolo unde vrem grafice frumoase.
  7. Site24x7 a lu manage engine – nu e agentless dar poti si fara agenti, pui in reteaua in care vrei sa monitorizezi un “On premise poller” setezi credentiale si merge cu WMI si SSH pentru windows-uri si linux-uri. Ce e cu agent iti adauga valoare: aplication performance monitoring, logs monitoring. Rapoarte SLA foarte misto. Integrare cu AWS… si aduce din toate conturile resurse pe care le doresti monitorizate. Cred ca numarul norocos este 7. Se potriveste pe toate use case-urile doar ca inca nu avem un pret…

Mai sunt si alte solutii de monitorizare foarte bune, dar atat am testat si am decis sa ma opresc. Manage Engine mai are OpManager, mai sunt icinga, openNMS, Datadog, NewRelic, Dynatrace, Solarwinds (cred ca trebuie mentionat chiar daca au avut acel faimos data leak)… etc.

2009. Maxtorul de pe server crăpase. De atunci am început să monitorizez hard disk-urile serios — activasem S.M.A.R.T. în BIOS de mult, dar nu folosisem niciodată feature-ul cu adevărat. Lecția: nu aștepți să crape un drive ca să începi să îl monitorizezi.

În 2025 situația e mai complexă față de 2009: pe lângă HDD-urile clasice, avem SSD-uri SATA și NVMe care se monitorizează diferit și au moduri de defectare diferite. Ghidul de mai jos acoperă tot.

Ce e S.M.A.R.T. și ce atribute contează

S.M.A.R.T. (Self-Monitoring, Analysis and Reporting Technology) e un sistem de auto-diagnosticare prezent pe aproape toate drive-urile produse după 1995. Colectează zeci de parametri interni și îi pune la dispoziția software-ului de monitorizare.

Problema: nu toți parametrii S.M.A.R.T. sunt egali. Mulți sunt informativi, câțiva sunt critici. Studiile Backblaze (care operează sute de mii de drive-uri în producție) identifică câțiva parametri cu corelație puternică cu defectarea iminentă:

Atribute critice pentru HDD — valori non-zero = alarmă:

  • ID 5 — Reallocated Sectors Count: sectoare cu probleme mutate în zona de rezervă. Orice valoare non-zero înseamnă că drive-ul a avut bad sectors. Câteva sectoare realocate nu înseamnă defectare imediată, dar tendința de creștere e semnal serios.
  • ID 187 — Reported Uncorrectable Errors: erori pe care drive-ul nu a putut să le corecteze. Orice valoare non-zero e alarmant.
  • ID 188 — Command Timeout: comenzi care au depășit timeout-ul. Valori mari indică probleme hardware.
  • ID 197 — Current Pending Sectors: sectoare instabile care nu au fost încă realocate. Pot fi citite dar sunt suspecte.
  • ID 198 — Offline Uncorrectable Sectors: sectoare care nu pot fi citite deloc. Extrem de serios.

Atribute informative importante:

  • ID 9 — Power On Hours: câte ore a funcționat drive-ul total. Un HDD cu 50.000+ ore e la capătul vieții normale.
  • ID 194 — Temperature: temperatura curentă în grade Celsius.
  • ID 190 — Airflow Temperature: pe unele drive-uri, temperatura aerului din carcasă.

HDD vs SSD vs NVMe — monitorizare diferită

SSD-urile și NVMe-urile au mecanisme de defectare complet diferite față de HDD-uri — nu au suprafețe magnetice și nu fac bad sectors în același mod. Defectarea lor principală e uzura celulelor de memorie flash.

Atribute S.M.A.R.T. specifice SSD/NVMe:

  • Wear Leveling Count / Media Wearout Indicator: procent din viața de scriere rămasă. La 0% sau aproape, SSD-ul e la capătul vieții de scriere.
  • Total Bytes Written (TBW): câți terabytes au fost scriși pe SSD. Producătorii garantează de obicei 150–600 TBW pentru SSD-uri consumer.
  • Power On Hours: același ca la HDD.
  • Reallocated NAND Blocks: pe SSD, echivalentul bad sectors — blocuri NAND defecte înlocuite din rezervă.

Un SSD poate să funcționeze perfect la toți parametrii S.M.A.R.T. și să moară brusc la depășirea TBW — spre deosebire de HDD care de obicei dă semnale înainte. Backup-ul regulat e și mai important pentru SSD-uri vechi cu TBW aproape de limită.

CrystalDiskInfo — standardul în 2025

CrystalDiskInfo (crystalmark.info) a înlocuit HD Tune ca standard de facto pentru monitorizarea drive-urilor pe Windows. Gratuit, open source, actualizat regulat, suportă HDD, SSD SATA și NVMe.

Cum îl folosești:

  1. Descarci și instalezi de pe crystalmark.info — atenție la installer, bifează doar CrystalDiskInfo
  2. La prima deschidere vede automat toate drive-urile din sistem
  3. Fiecare drive primește un verdict: Good (verde), Caution (galben) sau Bad (roșu)
  4. Caution sau Bad înseamnă că unul sau mai mulți atribute critici au valori problematice

Interpretarea rezultatelor:

  • Good — toate atributele în parametri normali. Continuă monitorizarea periodică.
  • Caution — cel puțin un atribut a ieșit din normal dar nu e critic. Fă backup imediat și monitorizează frecvent.
  • Bad — drive-ul are probleme serioase. Fă backup imediat și înlocuiește drive-ul cât mai curând.

Setează CrystalDiskInfo să pornească cu Windows (Function → Startup) și să afișeze o alertă la modificarea statusului (Function → Resident). Vei fi notificat automat dacă ceva se schimbă.

HD Sentinel — mai avansat, încă relevant

HD Sentinel (hdsentinel.com) rămâne cea mai avansată soluție de monitorizare pentru utilizatorii care vor mai mult decât CrystalDiskInfo. Versiunea Pro (~30 EUR) adaugă:

  • Notificări prin email la detectarea problemelor
  • Predicție de viață rămasă bazată pe rata de degradare
  • Rapoarte detaliate exportabile
  • Monitorizare în rețea pentru mai multe sisteme
  • Teste de suprafață (surface test) cu maparea sectoarelor problematice

Pentru uz personal, CrystalDiskInfo gratuit e suficient. HD Sentinel Pro merită pentru servere sau sisteme cu date critice unde vrei alertare automată.

Temperatura — limite corecte în 2025

În 2009 scriam că temperatura nu trebuie să depășească 50°C. Limitele sunt mai nuanțate în funcție de tipul de drive:

HDD:

  • Optim: 30–45°C
  • Acceptabil: până la 50°C
  • Problematic: peste 50°C — risc crescut de defectare
  • Sub 20°C — la fel de problematic, condensul poate apărea

SSD SATA:

  • Optim: 30–50°C
  • Acceptabil: până la 60°C
  • SSD-urile tolerează mai bine temperatura decât HDD-urile

NVMe M.2:

  • Funcționare normală: 40–70°C
  • Thermal throttling (reducere viteză automată): 70–80°C
  • Limita maximă: 80–85°C pe majoritatea modelelor
  • NVMe-urile se încălzesc semnificativ mai mult decât SSD-urile SATA — heatsink-urile incluse pe plăcile de bază moderne sunt utile, nu decorative

Ce faci dacă temperatura e prea mare: verifică ventilația carcasei, adaugă un ventilator de 120mm orientat spre drive-uri, curăță praful din carcasă, pentru NVMe verifică că heatsink-ul e corect montat.

Backup — singura protecție reală

S.M.A.R.T. îți dă avertizare înainte de defectare în aproximativ 50–60% din cazuri — restul defectărilor apar brusc, fără niciun semn prealabil. Singura protecție completă e backup-ul regulat.

Regula 3-2-1:

  • 3 copii ale datelor importante
  • pe 2 suporturi diferite (ex: HDD intern + HDD extern)
  • 1 copie off-site (cloud sau la altă locație fizică)

Opțiuni concrete pentru acasă în 2025:

  • HDD extern + Macrium Reflect Free — backup local automat, gratuit, cu restore bootabil
  • Backblaze Personal Backup (~99 USD/an) — backup cloud nelimitat, restaurare prin poștă dacă pierzi totul
  • OneDrive / Google Drive / iCloud — pentru documente și fișiere importante, sync automat
  • Synology NAS — pentru cei cu volume mari de date, RAID + backup cloud

Backup-ul care nu e testat nu e backup. O dată pe an, încearcă să restaurezi un fișier din backup și confirmă că procesul funcționează.

Când schimbi un drive

Semnale clare că e momentul să înlocuiești:

  • Orice atribut critic non-zero și în creștere — mai ales Reallocated Sectors, Pending Sectors, Uncorrectable Errors
  • Status Caution sau Bad în CrystalDiskInfo
  • Zgomote neobișnuite la HDD — clicăit, scrâșnet, vibrații anormale
  • Viteză de citire/scriere dramatic scăzută față de specificații
  • Sistem de operare care îngheață la accesarea unor fișiere specifice
  • Erori frecvente la copiere — fișiere care nu se copiază sau corupte
  • HDD cu peste 50.000 ore Power On Hours — e la capătul vieții normale
  • SSD cu Wear Leveling sub 10% sau TBW aproape de limita garantată

Nu aștepți să se strice complet — când apar semnale, faci backup imediat și planifici înlocuirea. Un drive care dă semne de uzură poate funcționa luni în continuare sau se poate strica mâine.

Concluzie

În 2009 scriam că „un pic de paranoia nu strică” când ai date importante. În 2025 paranoia e și mai justificată — avem mai multe date, mai multe drive-uri și mai multe moduri în care pot da greș.

CrystalDiskInfo pornit cu Windows și setat să alerteze, un backup extern săptămânal și un backup cloud pentru documentele importante — asta e minimum rezonabil pentru oricine ține la datele sale.

Maxtorul de pe server din 2009 m-a costat timp și date. Sper că articolul acesta te scutește de aceeași experiență.