local llm visual wat waarom hoe van local llms

Large language models zijn, zoals de naam zegt, groot en vereisen dus veel rekenkracht die normale computers niet hebben. LLM's zijn daarom vaak in de cloud beschikbaar via websites en API's. Deze cloud is van grote partijen als Microsoft, Google of OpenAI.

In de meeste gevallen is dit een erg goede oplossing, maar wanneer je met gevoelige data werkt is het vaak niet wenselijk om deze naar derde partijen te sturen. Tevens vereisen cloudoplossingen een permanente internetverbinding. In dat soort gevallen kunnen local LLM's een oplossing bieden, je kunt dan op je eigen computer een LLM installeren en hiervan gebruik maken met een interface vergelijkbaar met ChatGPT.com, maar dan volledig lokaal op je eigen computer.

In dit blog lees je meer over

Waarom gebruik je local LLMs? Voor- en nadelen

De belangrijkste voordelen zijn:

  1. Privacy: je hoeft geen gevoelige data naar servers van derde partijen te sturen
  2. Offline beschibkaarheid: er is geen internetverbinding benodigd
  3. Lagere kosten: je betaalt geen abonnementkosten

De belangrijkste nadelen zijn:

  1. Prestaties vergelijkbaar met cloudmodellen vereisen investeringen in hardware
  2. Beschikbaarheid van modellen: de modellen van Google, OpenAI en Antrophic zijn niet open-source en dus niet beschikbaar voor lokaal gebruik.

Wil je allround AI expert worden? Bekijk dan onze AI opleidingen



Hoe installeer ik lokaal een LLM?

De twee meest gebruikte tools om lokaal LLM's te installeren zijn Ollama en LM Studio. Deze applicaties kan je installeren op zowel Windows, Mac als Linux. Hiermee krijg je een chatinterface vergelijkbaar met ChatGPT. Ook kan je de modellen middels een API benaderen. Deze API werkt op dezelfde manier als de API van ChatGPT.

Met deze tool kan je modellen installeren die open source zijn. Bekende modellen van OpenAI of Antrophic, bijvoorbeeld ChatGPT 4o of Claude 3.5, kan je hiermee niet installeren aangezien deze niet publiekelijk zijn vrijgegeven.

Er zijn gelukkig ook veel open-source modellen beschikbaar die iedereen vrij kan downloaden. Enkele voorbeelden zijn:

  • LLama, ontwikkeld door Meta (van Facebook en Instagram)
  • DeepSeek, ontwikkeld door het Chinese bedrijf DeepSeekAI
  • Mistral, ontwikkeld door het Franse Mistral AI

Er zijn echter nog veel meer modellen beschikbaar. Sommige modellen zijn geoptimaliseerd voor specifieke use-cases, zo zijn er modellen die vooral geschikt zijn bij het programmeren. Ook zijn er modellen die heel klein, maar wel heel snel zijn, waardoor ze ook op langzamere computers bruikbaar zijn.

Voor een volledige lijst van modellen die door Ollama ondersteund worden kan je kijken op de website van Ollama.

LLM's gebruiken met beperkte rekenkracht

Als je lokaal een LLM gebruikt is de computer beperkt qua rekenkracht waardoor een LLM erg langzaam kan zijn. Daarom is het verstandig om relatief kleine modellen te gebruiken. Kleine modellen zijn gebaseerd op grotere modellen waarop quantitization is toegepast. Hierbij wordt de nauwkeurigheid van een LLM verlaagd, waardoor ze minder RAM gebruiken en rekenkracht vereisen en dus sneller zijn.

Zo zijn er van Llama3 varianten met 1B, 3B, 8B, 70B en 405B tokens, waarbij de B staat voor billion (miljard). Tokens geven aan hoe groot het model is. Ter referentie: een 8B-model kan vaak bruikbaar draaien op een snelle computer (zoals een MacBook Pro), op langzamere computers zal je een 3B of 1B modelen moeten gebruiken. Voor modellen met meer tokens is vaak specifieke hardware zoals een GPU van Nvidia benodigd.

Als je meer wilt weten over wat de betekenis van tokens, lees dan onze blogs over Large Language Models en ChatGPT.

Voor lokaal gebruik zijn de meest populaire modellen daarom vooral kleine modellen die toch goede resultaten geven. Naast Llama 3 (met 1B of 3B tokens) zijn er ook nog kleinere modellen, zoals 'smollm2' (135 miljoen, 360 miljoen tokens en 1,7 miljard tokens).

local llm visual wat waarom hoe van local llms

Hardware vereisten voor een local LLM: wat heb je nodig?

Wil je lokaal een LLM draaien met goede kwaliteit én goede performance, dan moet je investeren in goede hardware. Je hebt hierbij dan een goede GPU, CPU en veel geheugen nodig. Hoe meer gebruikers, hoe sneller de hardware zal moeten zijn.

GPU (Graphics Processing Unit)

De GPU is het belangrijkste onderdeel voor het draaien van LLM's, omdat deze gespecialiseerd is in parallelle berekeningen.

  • Voor kleine modellen (1-3B parameters): een recente laptop met geïntegreerde GPU kan volstaan, maar een dedicated GPU van Nvidia is aan te raden.
  • Voor middelgrote modellen (7-13B parameters): NVIDIA RTX 3060 of hoger met minimaal 8GB VRAM.
  • Voor grote modellen (30B+ parameters): professionele GPU's. Deze kunnen duizenden tot tienduizenden euro's kosten. Voorbeelden zijn de Nvidia RTX 4090 (24GB) (+/- €2000), Nvidia A100 (+/- €10.000) of Nvidia H100 (€25.000 of meer).

Geheugen

Naast een sterke GPU is voldoende geheugen (RAM) cruciaal voor het soepel draaien van een LLM. Tijdens het laden en uitvoeren van een model moet niet alleen het model zelf in het geheugen passen, maar ook alle tussenresultaten, inputs en outputs.

  • Voor kleinere modellen (tot 3B parameters): 16 GB RAM is vaak voldoende.
  • Voor middelgrote modellen (7–13B): 32 GB RAM is aan te raden, vooral bij multitasking of grotere contexten.
  • Voor grotere modellen (30B+): minimaal 64 GB RAM, en bij voorkeur 128 GB of meer voor zware taken zoals fine-tuning of het draaien van meerdere modellen tegelijk.

RAM is extra belangrijk als je werkt met veel gelijktijdige gebruikers of toepassingen (bijvoorbeeld via een API of webinterface).

Conclusie

Door lokaal LLM's te draaien worden er meer toepassingen mogelijk, bijvoorbeeld wanneer je onafhankelijk wilt zijn van een interverbinding of met gevoelige data werkt. Hiervoor kan je gebruik maken van tools als Ollama en LM Studio. Hardware-eisen, met name GPU en RAM, zijn significant. Kleinere modellen gebruiken (middels quantization) kan helpen de hardware-eisen te verlagen, maar dit gaat ten koste van de kwaliteit en nauwkeurigheid van het model. De keuze voor lokaal draaien hangt af van de prioriteit die je geeft aan privacy versus de investering in hardware en de acceptatie van een mogelijke trade-off tussen snelheid en kwaliteit.

Wil je AI expert worden?

Tijdens onze AI Opleiding leer je het hele AI spectrum kennen; van klassieke machine learning modellen tot generative AI met o.a. ChatGPT. Je leert programmeren in Python zodat je op uiteenlopende vlakken aan de slag kunt met AI. Of ben je op zoek naar een globale niet-technische introductie in AI? Bekijk dan onze AI cursus voor niet-techneuten eens. We bieden ook AI consultancy aan op uiteenlopende AI thema’s.

by: