Dé kennispartner van de digitale transformatie

Masterclass Data Science

Tijdens deze 3 daagse Masterclass Data Science leer je  de meeste belangrijke en effectieve Data Science technieken. Zo ga je onder andere aan de slag met de fundamenten van Machine Learning en het toepassen van regressie, clustering en classificatie.

Leerdoelen

  • data analyseren met de pandas library
  • data visualiseren met behulp van matplotlib en seaborn
  • het verschil begrijpen tussen supervised, unsupervised en reinforcement learning
  • begrijpen hoe machine learning modellen leren op basis van gradient descent
  • data clusteren met optimale parameters
  • regressie toepassen op datasets om zo voorspellingen te doen
  • classificatie toepassen op datasets om data te classificeren
  • een decision tree toepassen op datasets en deze optimaliseren
Eerstvolgende datum:
Prijs:
Locatie:
Tijd:
13 december 2021 tot 15 december 2021
€1.595,- excl. BTW
Den Haag
3 dagen van 10:00 tot 16:00

Omschrijving van deze training

Tijdens deze driedaagse masterclass leer je hands-on de meest belangrijke en effectieve data science tools. De Masterclass Data Science is een brede, uitgebreide cursus. Zo wordt er op het gebied van data-analyse en verwerking veel gedaan met Panda’s, machine learning in de vorm van clustering, regressie en classificatie met scikit-learn en data visualisatie met matplotlib en seaborn. Deze Masterclass is geschikt voor iedereen die al ervaring heeft met programmeren en die hun vaardigheden willen aanvullen met data science vaardigheden. De Masterclass Data Science sluit perfect aan op de training Data Analysis with Python. Deze cursus kan gevolgd worden als opstap naar een meer gespecialiseerde cursus, zoals bijvoorbeeld Masterclass Machine Learning of Masterclass Deep Learning.

Programma van deze training

Dag 1: Intro to Data Science
Tijdens de eerste dag leer je alle basisbeginselen van de data science libraries in Python: Matplotlib, NumPy, Pandas en Seaborn. Je leert tijdens deze dag data analyseren, transformeren en visualiseren.

Numpy

  • NumPy arrays; Het werken met Big Data vergt dat je op een efficiënte manier kan omgaan met data. NumPy is dé library in Python die berekeningen met veel data gemakkelijk maakt. Je leert werken met de Numpy Array en leert de meest gebruikte NumPy methods.
  • Statistiek in NumPy; Tijdens dit onderdeel leer je hoe je NumPy gebruikt om statistische berekeningen te doen. Hierdoor is het mogelijk om simulaties te maken waarbij je gebruikt maakt van de random methods in NumPy.
  • Wiskundige functies; De NumPy library zit boordevol handige wiskundige functies. Het creëren van functies om als data scientist je data te analyseren wordt hierdoor ontzettend gemakkelijk.

Pandas

  • Introductie DataFrames; Pandas is de ideale tool voor het analyseren van data. Pandas biedt alle functionaliteiten die je hebt in Excel en daarnaast nog véél meer! Dat maakt pandas uiterst geschikt voor degene die willen overstappen van Excel naar Pandas. Je leert in deze module alles over het gebruiken van de Pandas DataFrame. We creëren zelf DataFrames en zullen daarna data importeren vanuit CSV files naar een DataFrame.
  • Samenvattende en beschrijvende methods van Pandas; Pandas biedt ideale functionaliteiten om data in één oogopslag te beschrijven. Op deze manier kun je in een handomdraai je data analyseren, missende waarden bekijken en de verdeling van je data achterhalen.
  • Slicing en filtering van data in Pandas; Je leert in deze module de pandas methods te gebruiken voor het selecteren van data binnen een pandas dataframe. Daarnaast leer je ook data filteren op basis van condities. Je leert hoe je condities combineert door efficiënt gebruik te maken van pandas methods. We sluiten deze module af door te leren hoe je for loops gebruikt in pandas DataFrames met de apply method.
  • Groeperen van data; Je kunt heel handig gebruik maken van pandas om data te groeperen. De pandas methods die hiervoor gemaakt zijn tonen veel gelijkenissen met de programmeertaal SQL. Deze gegroepeerde data visualiseren gaat heel handig middels de ingebouwde visualisatie methoden in pandas. Pandas en Matplotlib werken hand in hand samen, waardoor jij op een simpele manier je data kunt visualiseren!
  • Omgaan met missende data; Missende data kunnen je dataset flink overhoopgooien! Je leert in deze module welke pandas methods je kan gebruiken om om te kunnen gaan met missende data.
  • Visualiseren van data in pandas; De pandas library biedt ontzettend veel mogelijkheden om data direct vanuit de DataFrame te visualiseren. Zo maak je heel eenvoudig staafdiagrammen (bar charts), tijdsreeksgrafieken of scatterplots!

Visualisatie

  • Matplotlib; Matplotlib is een van de meest gebruikte datavisualisatie tools binnen het Python data science ecosysteem. Matplotlib stelt je in staat gemakkelijk allerlei grafieken te maken en te combineren. Tijdens deze module leer je grafieken te maken vanuit de Python list, NumPy en pandas. Je leert onder andere hoe je scatterplots maakt, histogrammen en subplots.
  • Seaborn; Seaborn is een datavisualisatie library die gebaseerd is op Matplotlib. Seaborn stelt je in staat complexe grafieken te maken, die vooral bedoeld zijn voor het visualiseren van statistische verdelingen. Je leert in deze module onder andere hoe je een boxplot, een heatmap en een violin plot maakt met seaborn.

Dag 2: Intro to Machine Learning
Tijdens dag 2 leer je de fundamenten van machine learning en ga je aan de slag met het bouwen van regressie en clustering modellen.

Fundamenten van machine learning

  • Supervised learning; Supervised Learning is een van de meest gebruikte learning technieken van hedendaagse machine learning modellen. Bij Supervised Learning leren modellen van gelabelde data. Dit kunnen gelabelde afbeeldingen zijn van katten en honden of een dataset met informatie over huizenprijzen. We leren hier hoe je een Supervised Learning algoritme kan herkennen. Ook leer je welke data je moet verzamelen om zelf Supervised Learning te kunnen toepassen.
  • Unsupervised learning; Unsupervised Learning is een algoritme dat leert door patronen te herkennen. We leren hier welke soort Unsupervised Learning algoritmen er zijn. Ook leren we welke toepassingen Unsupervised Learning algoritmen hebben. We zullen hierbij enkele voorbeeld cases bespreken.
  • Reinforcement learning; Reinforcement Learning is een algoritme dat leert door Agents een beloning of een straf te geven voor bepaalde handelingen. We zullen enkele eerder ontwikkelde algoritmes bespreken en erachter komen hoe dit algoritme het best ingezet kan worden.
  • Test set/train set; Voor het goed opzetten van een machine learning model is het heel belangrijk een scheiding te maken in je test en train set. Op deze manier kun je op een unbiased manier je hyperparameters optimaliseren. In deze module leer je waarom je dat doet en op welke manier je dat het beste kan doen.
  • Bias en variance (overfitting); Het creëren van een optimaal machine learning model, betekent een goede balans vinden in de complexiteit van het model. Je leert in deze module alles over het optimaliseren van het model en wat de gevolgen zijn van overfitting en underfitting.

Regressie

  • Cost function en gradient descent; Hier leer je alles over hoe machine learning modellen leren middels. Je leert het concept van de cost function, leer verschillende soorten cost functions en leert wat Gradient Descent is. Ook leer je hoe je optimaal parameters kiest voor Gradient Descent.
  • Regressie in sci-kit learn; In deze module pas je de geleerde concepten toe voor het voorspellen van huizenprijzen. Je leert de resultaten analyseren en bekijkt hoe goed jouw model het doet.
  • Residu analyse; Middels een residu analyse bekijken we hoe we parameters het beste kunnen kiezen in het voorspelmodel.

Clustering

  • K-means; Leer hier alles over het K-means clustering algoritme. Je leert hoe je data clustert op basis van een K aantal centrumpunten en hoe je een optimaal aantal centrumpunten kiest. Ook leer je het nut van data normaliseren of standaardiseren.
  • Clustering toepassen op de Iris dataset; Je past de theorie van K-means clustering toe op de Iris dataset. Hier cluster je de data van de Iris flower data set en leer je clusters herkennen.

Dag 3: Classificatiemodellen
Tijdens de derde dag leer je drie verschillende algoritmes voor het classificeren van data.

Classificatie

  • KNN. In deze module leer je data classificeren op basis van het KNN (k-nearest neighbors) algoritme. Een algoritme dat leert door te kijken naar dichtbijgelegen datapunten. Je leert hier voor welk soort data en vraagstukken dit algoritme geschikt is. Ook leer je hoe je op een zorgvuldige manier de juiste parameters kiest. Daarnaast leer je alle voor en nadelen van dit algoritme. We sluiten het theorie gedeelte af met uitbreidingen op het algoritme die het algoritme nauwkeuriger maken.
  • Classificatie met diabetes dataset. We passen dit algoritme toe op een dataset met mensen die wel of niet diabetes hebben. De uitdaging is hier om diabetes te kunnen voorspellen aan de hand van verschillende factoren.
  • Precision, recall en F1-score. Wanneer we classificatie algoritmen gebruiken, hebben we goede graadmeters nodig om het algoritme te kunnen beoordelen op kwaliteit. In deze module leer je hoe je dit systematisch kan doen.
  • SVM. In deze module leer je over het SVM (Support Vector Machine) algoritme. We behandelen de verschillen tussen KNN vs. SVM. Je leert de voordelen van dit algoritme en hoe je systematisch parameters kiest.

Decision Trees, Regression Trees en Random Forest

  • Information Gain/Gini Coëfficiënt. We ontrafelen de mysteries achter machine learning met decision trees! Leer met de hand decision trees maken door de information gain per splitsing te berekenen. Je leert hiermee de theorie achter information gain en decision trees. Je begrijpt hierdoor op een fundamentele manier hoe dit soort algoritmes werken.
  • Overfitting. Ook decision trees hebben last van overfitting. We leren waarom decision trees overfitten en welke handvatten er zijn op dit in de hand te houden. We leren hier systematisch belangrijke parameters aan te passen.
  • Decision Trees toepassen op regressie probleem. We zullen de theorie toepassen op een dataset en bekijken hoe goed decision trees waarden kunnen voorspellen. Je zult hier parameters aanpassen om de decision tree te optimaliseren.

Doelgroep

Deze training is voor iedereen die;

  • Data Science en machine learning concepten wil begrijpen
  • Data Science en machine learning concepten wil kunnen toepassen
  • Al de basis van Python kent en dit verder wil uitbouwen
  • Wil leren libraries pandas, numpy en scikit-learn in te zetten
  • Wil leren werken in Jupyter Notebooks

Interesse in deze training?

Laat je gegevens achter en wij nemen zo spoedig mogelijk contact op.

Data & tijd Prijs Locatie
13 december 2021Prijs: €1.595,- excl. BTW Locatie: Den HaagInschrijven

Meer informatie over deze of een andere training?

Laat je gegevens achter en wij nemen zo spoedig mogelijk contact met je op.