Ga naar hoofdinhoud
Tutorial / Ollama

Ollama installeren en gebruiken

// Lokale LLMs via de command-line draaien

Wat is Ollama?

Ollama is een open-source tool waarmee je grote taalmodellen (LLMs) volledig lokaal op jouw computer kunt draaien. Je hebt geen internetverbinding nodig, je data blijft privé en er zijn geen kosten verbonden aan API-gebruik. Ollama ondersteunt tientallen populaire modellen zoals Llama 3, Mistral, Gemma en Phi.

Vereisten

Controleer of jouw systeem aan de minimumvereisten voldoet:

ComponentMinimumAanbevolen
RAM8 GB16 GB of meer
Opslag10 GB vrij50 GB vrij
GPUNiet verplichtNVIDIA met 6 GB VRAM
OSWindows 10 / macOS 12 / LinuxMeest recente versie

Installatie

macOS

Download het installatiebestand van ollama.com/download en sleep Ollama naar je Applications-map. Of installeer via Homebrew:

brew install ollama

Linux

Voer het officiële installatiescript uit:

curl -fsSL https://ollama.com/install.sh | sh

Windows

Download OllamaSetup.exe van de website en volg de installatiewizard. Ollama draait vervolgens als Windows-service op de achtergrond.

Je eerste model draaien

Open een terminal en voer het volgende commando uit om Llama 3.2 te downloaden en direct te starten:

ollama run llama3.2

Ollama downloadt het model automatisch (ca. 2 GB) en opent daarna een interactieve chat. Typ je vraag en druk op Enter. Gebruik /bye om de chat te sluiten.

Populaire modellen

ModelGrootteSterke punten
llama3.2~2 GBAlgemeen gebruik, snel
llama3.1:8b~5 GBBalans kwaliteit/snelheid
mistral~4 GBCode, instructie-volging
gemma2:9b~5 GBGoogle-model, goede NL-ondersteuning
phi3.5~2 GBEfficiënt, compact model
codellama~4 GBCode genereren en uitleggen

Modellen beheren

# Alle geïnstalleerde modellen bekijken
ollama list

# Specifiek model downloaden
ollama pull mistral

# Model verwijderen
ollama rm mistral

# Model informatie bekijken
ollama show llama3.2

REST API gebruiken

Ollama biedt een lokale REST API op poort 11434. Je kunt er direct mee communiceren via curl:

curl http://localhost:11434/api/generate \
  -d '{
    "model": "llama3.2",
    "prompt": "Leg Python list comprehension uit",
    "stream": false
  }'

Ollama is ook compatibel met de OpenAI API-standaard:

curl http://localhost:11434/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "llama3.2",
    "messages": [{"role": "user", "content": "Hallo!"}]
  }'

Tips & tricks

  • Start Ollama als achtergrondservice met ollama serve en gebruik het via de API vanuit andere applicaties.
  • Combineer Ollama met Open WebUI voor een ChatGPT-achtige webinterface: docker run -p 3000:8080 ghcr.io/open-webui/open-webui.
  • Kleine modellen (3B parameters) zijn sneller maar minder nauwkeurig; grotere modellen (13B+) geven betere resultaten maar vergen meer RAM.
  • Gebruik de --verbose vlag om tokens-per-seconde te zien: ollama run llama3.2 --verbose.