Tutorial / Ollama

Ollama installeren en gebruiken

// Lokale LLMs via de command-line draaien

Wat is Ollama?

Ollama is een open-source tool waarmee je grote taalmodellen (LLMs) volledig lokaal op jouw computer kunt draaien. Je hebt geen internetverbinding nodig, je data blijft privé en er zijn geen kosten verbonden aan API-gebruik. Ollama ondersteunt tientallen populaire modellen zoals Llama 3, Mistral, Gemma en Phi.

Vereisten

Controleer of jouw systeem aan de minimumvereisten voldoet:

Component	Minimum	Aanbevolen
RAM	8 GB	16 GB of meer
Opslag	10 GB vrij	50 GB vrij
GPU	Niet verplicht	NVIDIA met 6 GB VRAM
OS	Windows 10 / macOS 12 / Linux	Meest recente versie

Installatie

macOS

Download het installatiebestand van ollama.com/download en sleep Ollama naar je Applications-map. Of installeer via Homebrew:

brew install ollama

Linux

Voer het officiële installatiescript uit:

curl -fsSL https://ollama.com/install.sh | sh

Windows

Download OllamaSetup.exe van de website en volg de installatiewizard. Ollama draait vervolgens als Windows-service op de achtergrond.

Je eerste model draaien

Open een terminal en voer het volgende commando uit om Llama 3.2 te downloaden en direct te starten:

ollama run llama3.2

Ollama downloadt het model automatisch (ca. 2 GB) en opent daarna een interactieve chat. Typ je vraag en druk op Enter. Gebruik /bye om de chat te sluiten.

Populaire modellen

Model	Grootte	Sterke punten
`llama3.2`	~2 GB	Algemeen gebruik, snel
`llama3.1:8b`	~5 GB	Balans kwaliteit/snelheid
`mistral`	~4 GB	Code, instructie-volging
`gemma2:9b`	~5 GB	Google-model, goede NL-ondersteuning
`phi3.5`	~2 GB	Efficiënt, compact model
`codellama`	~4 GB	Code genereren en uitleggen

Modellen beheren

# Alle geïnstalleerde modellen bekijken
ollama list

# Specifiek model downloaden
ollama pull mistral

# Model verwijderen
ollama rm mistral

# Model informatie bekijken
ollama show llama3.2

REST API gebruiken

Ollama biedt een lokale REST API op poort 11434. Je kunt er direct mee communiceren via curl:

curl http://localhost:11434/api/generate \
  -d '{
    "model": "llama3.2",
    "prompt": "Leg Python list comprehension uit",
    "stream": false
  }'

Ollama is ook compatibel met de OpenAI API-standaard:

curl http://localhost:11434/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "llama3.2",
    "messages": [{"role": "user", "content": "Hallo!"}]
  }'

Tips & tricks

Start Ollama als achtergrondservice met ollama serve en gebruik het via de API vanuit andere applicaties.
Combineer Ollama met Open WebUI voor een ChatGPT-achtige webinterface: docker run -p 3000:8080 ghcr.io/open-webui/open-webui.
Kleine modellen (3B parameters) zijn sneller maar minder nauwkeurig; grotere modellen (13B+) geven betere resultaten maar vergen meer RAM.
Gebruik de --verbose vlag om tokens-per-seconde te zien: ollama run llama3.2 --verbose.

← Alle lokale LLM tutorials ↓ Download Ollama