BIG DATA SPARK
​
Nel mondo Big Data sta assumendo sempre più rilevanza Spark, un motore di calcolo distribuito che ha la capacità di elaborare grandi moli di dati in modo efficiente e quindi in tempi molto contenuti.
Il corso è rivolto a chi vuol imparare le basi di Spark e delle sue componenti. Il corso affronta i vari argomenti sia dal punto di vista teorico e architetturale, sia attraverso esercizi pratici.
Gli studenti dovrebbero avere familiarità con i principi della programmazione e avere esperienza di sviluppo software con l’utilizzo di Python o Scala. La conoscenza dei principi del data streaming e di SQL sono requisiti consigliati ma non necessari.
​
​
Durata
40 ore
​
​
Programma
MODULO 1: Introduzione a Spark
-
Introduzione a Spark
-
Architettura
-
Le API disponibili
-
Le strutture dati
-
Muovere i primi passi con Spark in Scala
-
Piccola introduzione al linguaggio Scala
-
Trasformare i dati con Spark
-
Esercitazioni
MODULO 2: Spark e Machine Learning
-
Effettuare trasformazioni e calcoli avanzati
-
SparkSQL
-
Spark Machine Learning
-
Performance Tuning
-
Build and Submit Applications to YARN
-
Machine Learning Walkthrough
-
MODULO 3: Spark Streaming
-
Basic Spark Streaming
-
Basic Spark Streaming Transformations
-
Spark Streaming Windows Transformations
-
Create and Save DataFrames
-
Working with Tables and DataFrames
MODULO 4: Hand-on labs pt.1
-
Utilizzare i più comuni comandi HDFS
-
Utilizzare un REPL per programmare in Spark
-
Utilizzare Zeppelin per programmare in Spark
-
Eseguire trasformazioni ed azioni RDD
-
Eseguire Pair RDD per trasformazioni ed azioni
-
Utilizzare Spark SQL
-
Eseguire trasformazioni stateless utilizzando Spark Streaming
-
​
MODULO 5 : Hand-on labs pt.2
-
Eseguire trasformazioni window-based
-
Utilizzare Zeppelin per visualizzare dati ed effettuare il reporting
-
Monitorare applicazioni utilizzando Spark History Server
-
Cachare e persistere i dati
-
Configurare checkpointing, broadcast variables ed executors
-
Effettuare build and submit di applicazioni a Spark in YARN
-
Eseguire applicazioni Spark MLlib
​
Obiettivi
-
Illustrare Hadoop, HDFS, YARN, e l’ecosistema HDP
-
Illustrare alcuni Spark use cases
-
Analizzare e manipolare dati utilizzando Zeppelin
-
Analizzare e manipolare dati utilizzando Spark REPL
-
Illustrare lo scopo e la funzione di RDDs
-
Utilizzare le pratiche di programmazione funzionale
-
Eseguire le trasformazioni ed azioni con Spark
-
Lavorare con Pair RDDs
-
Eseguire Spark queries utilizzando Spark SQL e DataFrames
-
Utilizzare Spark Streaming stateless e window transformation
-
Visualizzare dati, generare reports e collaborare utilizzando Zeppelin
-
Monitorare applicazioni Spark utilizzando Spark History Server
-
Apprendere le linee guida generali per l’ottimizzazione delle applicazioni
-
Utilizzare il data caching per migliorare le performance delle applicazioni
-
Effettuare build e package di applicazioni Spark
-
Effettuare il deploy delle applicazioni nel cluster utilizzando YARN
-
Comprendere gli scopi di Spark MLib
​
Attestati di frequenza
Al termine del corso a ciascun partecipante verrà rilasciato un attestato di frequenza.
TORNA ALLA LISTA DEI CORSI DI "INFORMATICA"