FirstConsulting: Corso Big Data Spark - Milano

top of page

BIG DATA SPARK

Nel mondo Big Data sta assumendo sempre più rilevanza Spark, un motore di calcolo distribuito che ha la capacità di elaborare grandi moli di dati in modo efficiente e quindi in tempi molto contenuti.

Il corso è rivolto a chi vuol imparare le basi di Spark e delle sue componenti. Il corso affronta i vari argomenti sia dal punto di vista teorico e architetturale, sia attraverso esercizi pratici.

Gli studenti dovrebbero avere familiarità con i principi della programmazione e avere esperienza di sviluppo software con l’utilizzo di Python o Scala. La conoscenza dei principi del data streaming e di SQL sono requisiti consigliati ma non necessari.

Durata

40 ore

Programma

MODULO 1: Introduzione a Spark

Introduzione a Spark
Architettura
Le API disponibili
Le strutture dati
Muovere i primi passi con Spark in Scala
Piccola introduzione al linguaggio Scala
Trasformare i dati con Spark
Esercitazioni

MODULO 2: Spark e Machine Learning

Effettuare trasformazioni e calcoli avanzati
SparkSQL
Spark Machine Learning
- Performance Tuning
- Build and Submit Applications to YARN
- Machine Learning Walkthrough

MODULO 3: Spark Streaming

Basic Spark Streaming
Basic Spark Streaming Transformations
Spark Streaming Windows Transformations
Create and Save DataFrames
Working with Tables and DataFrames

MODULO 4: Hand-on labs pt.1

Utilizzare i più comuni comandi HDFS
Utilizzare un REPL per programmare in Spark
Utilizzare Zeppelin per programmare in Spark
Eseguire trasformazioni ed azioni RDD
Eseguire Pair RDD per trasformazioni ed azioni
Utilizzare Spark SQL
Eseguire trasformazioni stateless utilizzando Spark Streaming

MODULO 5 : Hand-on labs pt.2

Eseguire trasformazioni window-based
Utilizzare Zeppelin per visualizzare dati ed effettuare il reporting
Monitorare applicazioni utilizzando Spark History Server
Cachare e persistere i dati
Configurare checkpointing, broadcast variables ed executors
Effettuare build and submit di applicazioni a Spark in YARN
Eseguire applicazioni Spark MLlib

Obiettivi

Illustrare Hadoop, HDFS, YARN, e l’ecosistema HDP
Illustrare alcuni Spark use cases
Analizzare e manipolare dati utilizzando Zeppelin
Analizzare e manipolare dati utilizzando Spark REPL
Illustrare lo scopo e la funzione di RDDs
Utilizzare le pratiche di programmazione funzionale
Eseguire le trasformazioni ed azioni con Spark
Lavorare con Pair RDDs
Eseguire Spark queries utilizzando Spark SQL e DataFrames
Utilizzare Spark Streaming stateless e window transformation
Visualizzare dati, generare reports e collaborare utilizzando Zeppelin
Monitorare applicazioni Spark utilizzando Spark History Server
Apprendere le linee guida generali per l’ottimizzazione delle applicazioni
Utilizzare il data caching per migliorare le performance delle applicazioni
Effettuare build e package di applicazioni Spark
Effettuare il deploy delle applicazioni nel cluster utilizzando YARN
Comprendere gli scopi di Spark MLib

Attestati di frequenza

Al termine del corso a ciascun partecipante verrà rilasciato un attestato di frequenza.

TORNA ALLA LISTA DEI CORSI DI "INFORMATICA"

Vuoi maggiori informazioni? Contattaci!

Saremo lieti di assisterti.

bottom of page