Există un moment în orice proiect de homelab când îți zici: de ce să plătesc pentru Claude sau ChatGPT când pot rula modele local, gratis, pe hardware-ul meu? Răspunsul scurt: poți. Răspunsul lung e mai nuanțat și implică sârmă si lipici de hartie, Dacii și consum de curent. Am construit stack-ul si îl folosesc (rar), are limite si parca pe termen lung mai bine cumperi ceva “pe bani”.
Arhitectura stack-ului
Setup-ul are două straturi de inference:
- LXC 117 pe Proxmox — Ollama + Open WebUI pentru chat de zi cu zi. Modele mici, răspunsuri rapide, consum neglijabil.
- Workstation Windows (.56) — Ollama cu RTX 5070 12GB VRAM pentru modele mari. Accesat din Open WebUI ca backend secundar când ai nevoie de putere de calcul serioasă, au factura de curent!
Peste inference, stack-ul mai are:
- Qdrant (.114:6333) — vector database pentru RAG, cu colecții active pentru fișiere, knowledge base și web search
- SearXNG (.149:8888) — motor de căutare privat, integrat în Open WebUI pentru web search fără Google
- nomic-embed-text via Ollama local — modelul de embeddings pentru RAG pipeline
Instalare — Proxmox Helper Scripts
LXC-ul cu Ollama se instalează în două minute cu Proxmox Helper Scripts:
bash -c "$(wget -qLO - https://github.com/community-scripts/ProxmoxVE/raw/main/ct/ollama.sh)"
Scriptul creează un LXC Debian, instalează Ollama și îl pornește ca serviciu. Open WebUI se instalează separat sau în același LXC, tot prin helper scripts.
După instalare, tragi primul model:
# Modele de coding
ollama pull deepseek-coder-v2 #sau
ollama pull qwen2.5-coder:7b
# Model de embeddings pentru RAG
ollama pull nomic-embed-text
GPU inference de pe workstation
RTX 5070 cu 12GB VRAM rulează modele de până la ~8B parametri confortabil în 4-bit quantization, și modele de 14B cu compromisuri. Workstation-ul e accesibil din Open WebUI ca Ollama endpoint adițional — adaugi URL-ul în Settings → Connections.
Diferența față de CPU inference e dramatică: un model de 7B pe CPU ia 15-30 secunde per răspuns, pe GPU ia 1-3 secunde. Pentru coding cu DeepSeek sau Qwen, latența contează.
RAG cu Qdrant și SearXNG
Open WebUI are RAG integrat nativ. Configurezi Qdrant ca vector store, nomic-embed-text ca model de embeddings și SearXNG pentru web search — totul din interfață, fără cod.
Fluxul: încarci un document sau adaugi o pagină web în knowledge base → Open WebUI îl indexează în Qdrant → la conversație, modelul primește context relevant automat. Funcționează surprinzător de bine pentru documentație tehnică și note personale.
Modelele folosite
DeepSeek Coder V2 — cel mai bun model open-source pentru coding pe care l-am testat. Înțelege context larg, generează cod funcțional, explică decent. Pe 12GB VRAM rulează versiunea de 16B în 4-bit.
Qwen2.5 Coder — alternativă solidă, ceva mai rapid la inferență. Bun pentru refactoring și explicații de cod.
Pentru chat general, Llama 3.1 8B e modelul de zi cu zi pe LXC — rapid, decent, consum minim.
Unde e sârmă și unde e șurub
Să fim sinceri. Față de un model comercial serios — Claude Sonnet, GPT, Gemini — diferența e semnificativă. Nu e o chestie de configurație sau de hardware insuficient. E o chestie de scară: modelele comerciale au miliarde de parametri antrenate pe resurse pe care un homelab nu le poate replica.
RTX 5070 cu 12GB VRAM e o placă excelentă pentru gaming și pentru modele medii. Dar adevărata valoare în AI local stă în VRAM — mult VRAM. Un Mac cu M4 Pro și 48GB RAM unificat rulează modele de 30-40B parametri complet în memorie. RTX 5070 rulează 14-16B cu compromisuri. Diferența se simte în calitatea răspunsurilor, mai ales la reasoning complex.
Consumul de curent e real. Workstation-ul cu RTX 5070 în inference trage pana in 300W. Pentru sesiuni scurte de coding e acceptabil. Ca backend permanent de AI, costul electric începe să bată abonamentul lunar la un serviciu comercial deci nu face sens… Cand te joci daca tragi totul la ultra un 500W nu e deranjant 🙂
Unde merită fără discuție: confidențialitate. Parolele, codul intern, documentele sensibile — rămân local. Nu pleacă în niciun API extern. Pentru use case-uri unde asta contează, nicio comparație de calitate nu schimbă ecuația.
Concluzie
Stack-ul funcționează și îl folosesc (aproape) zilnic. DeepSeek și Qwen pentru coding, RAG pentru documentație, SearXNG pentru web search privat. E util, e al tău, nu plătești per token.
Dar dacă vrei să înlocuiești complet un model comercial de top — ai nevoie de mai mult VRAM decât are o placă de gaming medie, sau de un Mac cu chip Apple Silicon și RAM unificat mare.
Altfel repari Dacia cu sârmă: merge, dar știi că merge cu sârmă si nu stii pana unde te duce.
Posturi din aceeași serie:




