Ollama installeren en gebruiken
// Lokale LLMs via de command-line draaien
Wat is Ollama?
Ollama is een open-source tool waarmee je grote taalmodellen (LLMs) volledig lokaal op jouw computer kunt draaien. Je hebt geen internetverbinding nodig, je data blijft privé en er zijn geen kosten verbonden aan API-gebruik. Ollama ondersteunt tientallen populaire modellen zoals Llama 3, Mistral, Gemma en Phi.
Vereisten
Controleer of jouw systeem aan de minimumvereisten voldoet:
| Component | Minimum | Aanbevolen |
|---|---|---|
| RAM | 8 GB | 16 GB of meer |
| Opslag | 10 GB vrij | 50 GB vrij |
| GPU | Niet verplicht | NVIDIA met 6 GB VRAM |
| OS | Windows 10 / macOS 12 / Linux | Meest recente versie |
Installatie
macOS
Download het installatiebestand van ollama.com/download en sleep Ollama naar je Applications-map. Of installeer via Homebrew:
brew install ollama
Linux
Voer het officiële installatiescript uit:
curl -fsSL https://ollama.com/install.sh | sh
Windows
Download OllamaSetup.exe van de website en volg de installatiewizard. Ollama draait vervolgens als Windows-service op de achtergrond.
Je eerste model draaien
Open een terminal en voer het volgende commando uit om Llama 3.2 te downloaden en direct te starten:
ollama run llama3.2
Ollama downloadt het model automatisch (ca. 2 GB) en opent daarna een interactieve chat. Typ je vraag en druk op Enter. Gebruik /bye om de chat te sluiten.
Populaire modellen
| Model | Grootte | Sterke punten |
|---|---|---|
llama3.2 | ~2 GB | Algemeen gebruik, snel |
llama3.1:8b | ~5 GB | Balans kwaliteit/snelheid |
mistral | ~4 GB | Code, instructie-volging |
gemma2:9b | ~5 GB | Google-model, goede NL-ondersteuning |
phi3.5 | ~2 GB | Efficiënt, compact model |
codellama | ~4 GB | Code genereren en uitleggen |
Modellen beheren
# Alle geïnstalleerde modellen bekijken
ollama list
# Specifiek model downloaden
ollama pull mistral
# Model verwijderen
ollama rm mistral
# Model informatie bekijken
ollama show llama3.2
REST API gebruiken
Ollama biedt een lokale REST API op poort 11434. Je kunt er direct mee communiceren via curl:
curl http://localhost:11434/api/generate \
-d '{
"model": "llama3.2",
"prompt": "Leg Python list comprehension uit",
"stream": false
}'
Ollama is ook compatibel met de OpenAI API-standaard:
curl http://localhost:11434/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "llama3.2",
"messages": [{"role": "user", "content": "Hallo!"}]
}'
Tips & tricks
- Start Ollama als achtergrondservice met
ollama serveen gebruik het via de API vanuit andere applicaties. - Combineer Ollama met Open WebUI voor een ChatGPT-achtige webinterface:
docker run -p 3000:8080 ghcr.io/open-webui/open-webui. - Kleine modellen (3B parameters) zijn sneller maar minder nauwkeurig; grotere modellen (13B+) geven betere resultaten maar vergen meer RAM.
- Gebruik de
--verbosevlag om tokens-per-seconde te zien:ollama run llama3.2 --verbose.