top of page

BIG DATA SPARK                

​

Nel mondo Big Data sta assumendo sempre più rilevanza Spark, un motore di calcolo distribuito che ha la capacità di elaborare grandi moli di dati in modo efficiente e quindi in tempi molto contenuti.

Il corso è rivolto a chi vuol imparare le basi di Spark e delle sue componenti. Il corso affronta i vari argomenti sia dal punto di vista teorico e architetturale, sia attraverso esercizi pratici.

Gli studenti dovrebbero avere familiarità con  i principi della programmazione e avere esperienza di sviluppo software con l’utilizzo di Python o Scala. La conoscenza dei principi del data streaming e di SQL sono requisiti consigliati ma non necessari.

​

​

Durata

40 ore

​

​

Programma

MODULO 1: Introduzione a Spark

  • Introduzione a Spark

  • Architettura

  • Le API disponibili

  • Le strutture dati

  • Muovere i primi passi con Spark in Scala

  • Piccola introduzione al linguaggio Scala

  • Trasformare i dati con Spark

  • Esercitazioni

 

MODULO 2: Spark e Machine Learning

  • Effettuare trasformazioni e calcoli avanzati

  • SparkSQL

  • Spark Machine Learning

    • Performance Tuning

    • Build and Submit Applications to YARN

    • Machine Learning Walkthrough

 

MODULO 3: Spark Streaming

  • Basic Spark Streaming

  • Basic Spark Streaming Transformations

  • Spark Streaming Windows Transformations

  • Create and Save DataFrames

  • Working with Tables and DataFrames

 

MODULO 4: Hand-on labs pt.1

  • Utilizzare i più comuni comandi HDFS

  • Utilizzare un REPL per programmare in Spark

  • Utilizzare Zeppelin per programmare in Spark

  • Eseguire trasformazioni ed azioni RDD

  • Eseguire Pair RDD per trasformazioni ed azioni

  • Utilizzare Spark SQL

  • Eseguire trasformazioni stateless utilizzando Spark Streaming

  • ​

MODULO 5 : Hand-on labs pt.2

  • Eseguire trasformazioni window-based

  • Utilizzare Zeppelin per visualizzare dati ed effettuare il reporting

  • Monitorare applicazioni utilizzando Spark History Server

  • Cachare e persistere i dati

  • Configurare checkpointing, broadcast variables ed executors

  • Effettuare build and submit di applicazioni a Spark in YARN

  • Eseguire applicazioni Spark MLlib

 

​

Obiettivi

  • Illustrare Hadoop, HDFS, YARN, e l’ecosistema HDP

  • Illustrare alcuni Spark use cases

  • Analizzare e manipolare dati utilizzando Zeppelin

  • Analizzare e manipolare dati utilizzando Spark REPL

  • Illustrare lo scopo e la funzione di RDDs

  • Utilizzare le pratiche di programmazione funzionale

  • Eseguire le trasformazioni ed azioni con Spark

  • Lavorare con Pair RDDs

  • Eseguire Spark queries utilizzando Spark SQL e DataFrames

  • Utilizzare Spark Streaming stateless e window transformation

  • Visualizzare dati, generare reports e collaborare utilizzando Zeppelin

  • Monitorare applicazioni Spark utilizzando Spark History Server

  • Apprendere le linee guida generali per l’ottimizzazione delle applicazioni

  • Utilizzare il data caching per migliorare le performance delle applicazioni

  • Effettuare build e package di applicazioni Spark

  • Effettuare il deploy delle applicazioni nel cluster utilizzando YARN

  • Comprendere gli scopi di Spark MLib

​

Attestati di frequenza

Al termine del corso a ciascun partecipante verrà rilasciato un attestato di frequenza.

TORNA ALLA LISTA DEI CORSI DI "INFORMATICA"

Vuoi maggiori informazioni? Contattaci!

Saremo lieti di assisterti. 

bottom of page