In dit blog gaan we in op de vraag "wat is een data scientist?". Voor veel mensen is het beroep 'data scientist' ongrijpbaar. Het blog is als volgt opgebouwd:
- Wat is data science?
- Wat doet een data scientist?
- Welke skills zijn onmisbaar als data scientist?
- Hoe word je een data scientist?
Wat is data science?
Data science is een relatief nieuw vakgebied waarin bestaande vakgebieden gecombineerd worden: (1) wiskunde & statistiek, (2) computer science, en (3) business kennis. Deze vakgebieden lichten we kort toe.
Wiskunde en statistiek
Als je het hebt over data wetenschappen en data-producten dan ontkom je niet aan een kwantitatieve kijk op de wereld. En wie het heeft over een kwantitatieve kijk heeft het al snel over wiskunde en statistiek. Het is dan ook niet gek dat je als data scientist goed onderlegd moet zijn op dit vlak.
Een data scientist zoekt verbanden in de data die beschikbaar is. Deze verbanden worden aangetoond met statistische vaardigheden. Daarnaast ontwikkelt een data scientist vaak modellen die data verwerken. Voor de ontwikkeling van modellen is kennis van wiskunde (bijv. lineaire algebra, logistieke modellen, of wachtrijtheorie) en statistiek een must.
Computer science
Een data scientist heeft een sterke achtergrond in computer science. Een data scientist onderscheidt zich van een 'gewone' onderzoeker door vergaande kennis van technologie (en hoe dit ingezet kan worden voor waardevolle inzichten).
We hebben het hier niet over Excel (lees ook: Excel vs Python), maar over écht programmeren (Python, R, SQL) en kennis van benodigde infrastructuur om gewenste analyses mogelijk te maken.
Business kennis
Een data scientist wil in de kern waarde toevoegen door inzichten te creëren en taken te automatiseren. Voordat je waarde kan toevoegen is het belangrijk om te begrijpen wat waarde is en hoe deze waarde geleverd wordt. Hierom is het belangrijk dat een data scientist benodigde kennis zelf gaat halen in de business en leert over de organisatie en sector waarin hij of zij werkzaam is.
Bovendien kun je alleen impact maken als je jouw vervaardigde inzichten effectief weet in te zetten binnen de organisatie. Daarvoor moet je je inzichten over kunnen brengen aan anderen. Deze softe kant van wat een data scientist doet is minsten zo belangrijk als de technische kant.
Ook interessant:
Wat is een data scientist? Dit zijn 11 veelgevraagde skills
Binnen de wiskunde en statistiek is belangrijk:
1. Goede basisvaardigheden in wiskunde: als data scientist is een goede basis in wiskunde onmisbaar. Een zeer groot percentage van de data scientist is hoogopgeleid. Als jouw basisvaardigheden in wiskunde minder ontwikkeld zijn dan kan het lastiger zijn om data scientist te worden.
2. Kennis van statistiek: veel inzichten die je als data scientist vindt onderbouw je met statistiek. Zo wil je dat jouw inzichten met aan zekerheid grenzende waarschijnlijkheid correct zijn. Daarom wil je dat inzichten significant en gevalideerd zijn en dat toets je met statistiek.
3. Machine learning: als je als data scientist jezelf wilt onderscheiden van anderen dan kun je je toeleggen op machine learning. Met machine learning modellen kun je op basis van historische data de toekomst voorspellen (en vaak beter dan mensen dit kunnen). Dit kan zeer waardevol zijn voor organisaties.
Zie ook deze tutorial: je eigen machine learning model maken met classificatie
Van computer science zijn de volgende waardigheden waardevol:
4. Python: Python is de meestgebruikte programmeertaal voor data analyse. Hier lees je wat Python is en hier lees je waarom Python leren een goed idee is. Dit blog gaat in op hoe lang het duurt om Python te leren. Een alternatief voor Python is R. Lees ook: R vs Python.
5. SQL: met SQL (structured query language) kun je data benaderen, toevoegen in, of verwijderen uit databases. Voordat je je data kunt analyseren moet je je data eerst vergaren en dat doe je vaak met SQL queries. Je kunt bovendien je analyse-werk beperken door een specifieke SQL query te schrijven.
6. Apache spark of Hadoop: dit zijn frameworks die helpen in het verwerken van grote hoeveelheden data, ook wel big data genoemd. Als data scientist bevind je je vaak op plekken in de organisatie waar je met Excel niet meer uit de voeten kunt, puur omdat de hoeveelheid data te groot is. Apache is sneller dan Hadoop omdat berekeningen in het werkgeheugen uitgevoerd worden.
7. Ongestructureerde data: we kunnen ons allemaal wat voorstellen bij een netjes gestructureerde database met kolommen waar bijvoorbeeld cijfers of woorden in staan. Maar hoe analyseer je bijvoorbeeld jouw facebook nieuwsfeed waar tekst, cijfers, afbeeldingen, video, en audio door elkaar weergegeven worden? Een goede data scientist kan hiermee omgaan en bovendien inzichten destilleren uit afbeeldingen of videos.
De volgende business vaardigheden zijn goed om te hebben:
8. Visualiseren van inzichten: geniale inzichten of modellen zijn alleen geniaal als ze gebruikt worden binnen jouw organisatie. En om abstracte werkzaamheden over te brengen helpt het enorm om simpele visualisaties maken om mensen te overtuigen. Niet iedereen verwerkt cijfers even makkelijk als een data scientist.
9. Nieuwsgierigheid: je zult als data scientist problemen en uitdagingen op je bord krijgen waarvoor niemand een oplossing heeft. Je kunt alleen komen met oplossingen en inzichten als je nieuwsgierig, creatief, en leergierig bent. Je pioniert naar nieuwe waarde.
10. Communicatie: zoals eerder aangegeven is communicatie in het ophalen van data en business inzichten cruciaal. Ook voor het overbrengen van jouw inzichten zijn communicatieve vaardigheden geen overbodige luxe.
11. Werken in teamverband: data science is puzzelen, en soms loop je vast in een puzzel. Dan kan het helpen als je kunt overleggen met teamleden. Wellicht levert dat een doorbraak in je project op. Daarnaast is het onmogelijk om alles te weten. Zo kun je kennis combineren en zo tot betere modellen komen. Werken in teamverband is daarom een belangrijke skill.
Ook interessant: hoe word je data scientist?
Wat doet een data scientist en welke fases kent een data science project?
Bovenstaand proces geeft globaal de fases aan waar je als data scientist doorheen gaat als je een project doet. Twee zaken zijn belangrijk om te vermelden:
- Soms begin je met een concrete doelstelling, maar het proces kan ook beginnen met grote hoeveelheden data (zonder duidelijk doel op dat moment)
- Het uitvoeren van data science projecten is een iteratief proces. Het kan dus zijn dat je teruggeworpen wordt naar eerdere fases
Conclusie
Heb je antwoord op de vragen "wat is een data scientist?" en "wat doet een data scientist?". Wij hopen dat dit blog een volledig overzicht geeft, maar staan altijd open om resterende vragen te beantwoorden. Laat het ons weten als je die hebt.
Data scientist worden?
Wil je nog veel meer leren over Python en Data Science? Schrijf je dan in voor onze Python cursus voor data science, onze machine learning training, of voor onze data science opleiding en leer met vertrouwen te programmeren en analyseren in Python. Nadat je een van onze trainingen hebt gevolgd kun je zelfstandig verder aan de slag. Je kunt ook altijd even contact opnemen als je een vraag hebt.
Download één van onze opleidingsbrochures voor meer informatie
Rik is data scientist en marketeer bij Data Science Partners. Vanuit zijn achtergrond op de Technische Universiteit Eindhoven heeft hij veel affiniteit met data. Na zijn studie heeft hij als consultant altijd met data gewerkt en tevens ervaring opgedaan in het geven van trainingen.