Ollama + Open WebUI pe Proxmox: AI local fara iluzii

Exista un moment in orice proiect de homelab cand iti zici: de ce sa platesc pentru Claude sau ChatGPT cand pot rula modele local, gratis, pe hardware-ul meu? Raspunsul scurt: poti. Raspunsul lung e mai nuantat si implica sarma si lipici de hartie, Dacii si consum de curent. Am construit stack-ul si il folosesc (rar), are limite si parca pe termen lung mai bine cumperi ceva „pe bani”.

Arhitectura stack-ului

Setup-ul are doua straturi de inference:

LXC 117 pe Proxmox — Ollama + Open WebUI pentru chat de zi cu zi. Modele mici, raspunsuri rapide, consum neglijabil.
Workstation Windows (.56) — Ollama cu RTX 5070 12GB VRAM pentru modele mari. Accesat din Open WebUI ca backend secundar cand ai nevoie de putere de calcul serioasa, au factura de curent!

Peste inference, stack-ul mai are:

Qdrant (.114:6333) — vector database pentru RAG, cu colectii active pentru fisiere, knowledge base si web search
SearXNG (.149:8888) — motor de cautare privat, integrat in Open WebUI pentru web search fara Google
nomic-embed-text via Ollama local — modelul de embeddings pentru RAG pipeline

Instalare — Proxmox Helper Scripts

LXC-ul cu Ollama se instaleaza in doua minute cu Proxmox Helper Scripts:

bash -c "$(wget -qLO - https://github.com/community-scripts/ProxmoxVE/raw/main/ct/ollama.sh)"

Scriptul creeaza un LXC Debian, instaleaza Ollama si il porneste ca serviciu. Open WebUI se instaleaza separat sau in acelasi LXC, tot prin helper scripts.

Dupa instalare, tragi primul model:

# Modele de coding
ollama pull deepseek-coder-v2 #sau
ollama pull qwen2.5-coder:7b

# Model de embeddings pentru RAG
ollama pull nomic-embed-text

GPU inference de pe workstation

RTX 5070 cu 12GB VRAM ruleaza modele de pana la ~8B parametri confortabil in 4-bit quantization, si modele de 14B cu compromisuri. Workstation-ul e accesibil din Open WebUI ca Ollama endpoint aditional — adaugi URL-ul in Settings → Connections.

Diferenta fata de CPU inference e dramatica: un model de 7B pe CPU ia 15-30 secunde per raspuns, pe GPU ia 1-3 secunde. Pentru coding cu DeepSeek sau Qwen, latenta conteaza.

RAG cu Qdrant si SearXNG

Open WebUI are RAG integrat nativ. Configurezi Qdrant ca vector store, nomic-embed-text ca model de embeddings si SearXNG pentru web search — totul din interfata, fara cod.

Fluxul: incarci un document sau adaugi o pagina web in knowledge base → Open WebUI il indexeaza in Qdrant → la conversatie, modelul primeste context relevant automat. Functioneaza surprinzator de bine pentru documentatie tehnica si note personale.

Modelele folosite

DeepSeek Coder V2 — cel mai bun model open-source pentru coding pe care l-am testat. Intelege context larg, genereaza cod functional, explica decent. Pe 12GB VRAM ruleaza versiunea de 16B in 4-bit.

Qwen2.5 Coder — alternativa solida, ceva mai rapid la inferenta. Bun pentru refactoring si explicatii de cod.

Pentru chat general, Llama 3.1 8B e modelul de zi cu zi pe LXC — rapid, decent, consum minim.

Unde e sarma si unde e surub

Sa fim sinceri. Fata de un model comercial serios — Claude Sonnet, GPT, Gemini — diferenta e semnificativa. Nu e o chestie de configuratie sau de hardware insuficient. E o chestie de scara: modelele comerciale au miliarde de parametri antrenate pe resurse pe care un homelab nu le poate replica.

RTX 5070 cu 12GB VRAM e o placa excelenta pentru gaming si pentru modele medii. Dar adevarata valoare in AI local sta in VRAM — mult VRAM. Un Mac cu M4 Pro si 48GB RAM unificat ruleaza modele de 30-40B parametri complet in memorie. RTX 5070 ruleaza 14-16B cu compromisuri. Diferenta se simte in calitatea raspunsurilor, mai ales la reasoning complex.

Consumul de curent e real. Workstation-ul cu RTX 5070 in inference trage pana in 300W. Pentru sesiuni scurte de coding e acceptabil. Ca backend permanent de AI, costul electric incepe sa bata abonamentul lunar la un serviciu comercial deci nu face sens… Cand te joci daca tragi totul la ultra un 500W nu e deranjant 🙂

Unde merita fara discutie: confidentialitate. Parolele, codul intern, documentele sensibile — raman local. Nu pleaca in niciun API extern. Pentru use case-uri unde asta conteaza, nicio comparatie de calitate nu schimba ecuatia.

Concluzie

Stack-ul functioneaza si il folosesc (aproape) zilnic. DeepSeek si Qwen pentru coding, RAG pentru documentatie, SearXNG pentru web search privat. E util, e al tau, nu platesti per token.

Dar daca vrei sa inlocuiesti complet un model comercial de top — ai nevoie de mai mult VRAM decat are o placa de gaming medie, sau de un Mac cu chip Apple Silicon si RAM unificat mare.
Altfel repari Dacia cu sarma: merge, dar stii ca merge cu sarma si nu stii pana unde te duce.

Posturi din aceeasi serie: