BIG DATA SPARK                

Nel mondo Big Data sta assumendo sempre più rilevanza Spark, un motore di calcolo distribuito che ha la capacità di elaborare grandi moli di dati in modo efficiente e quindi in tempi molto contenuti.

Il corso è rivolto a chi vuol imparare le basi di Spark e delle sue componenti. Il corso affronta i vari argomenti sia dal punto di vista teorico e architetturale, sia attraverso esercizi pratici.

Gli studenti dovrebbero avere familiarità con  i principi della programmazione e avere esperienza di sviluppo software con l’utilizzo di Python o Scala. La conoscenza dei principi del data streaming e di SQL sono requisiti consigliati ma non necessari.

Durata

40 ore

Programma

MODULO 1: Introduzione a Spark

  • Introduzione a Spark

  • Architettura

  • Le API disponibili

  • Le strutture dati

  • Muovere i primi passi con Spark in Scala

  • Piccola introduzione al linguaggio Scala

  • Trasformare i dati con Spark

  • Esercitazioni

 

MODULO 2: Spark e Machine Learning

  • Effettuare trasformazioni e calcoli avanzati

  • SparkSQL

  • Spark Machine Learning

    • Performance Tuning

    • Build and Submit Applications to YARN

    • Machine Learning Walkthrough

 

MODULO 3: Spark Streaming

  • Basic Spark Streaming

  • Basic Spark Streaming Transformations

  • Spark Streaming Windows Transformations

  • Create and Save DataFrames

  • Working with Tables and DataFrames

 

MODULO 4: Hand-on labs pt.1

  • Utilizzare i più comuni comandi HDFS

  • Utilizzare un REPL per programmare in Spark

  • Utilizzare Zeppelin per programmare in Spark

  • Eseguire trasformazioni ed azioni RDD

  • Eseguire Pair RDD per trasformazioni ed azioni

  • Utilizzare Spark SQL

  • Eseguire trasformazioni stateless utilizzando Spark Streaming

MODULO 5 : Hand-on labs pt.2

  • Eseguire trasformazioni window-based

  • Utilizzare Zeppelin per visualizzare dati ed effettuare il reporting

  • Monitorare applicazioni utilizzando Spark History Server

  • Cachare e persistere i dati

  • Configurare checkpointing, broadcast variables ed executors

  • Effettuare build and submit di applicazioni a Spark in YARN

  • Eseguire applicazioni Spark MLlib

 

Obiettivi

  • Illustrare Hadoop, HDFS, YARN, e l’ecosistema HDP

  • Illustrare alcuni Spark use cases

  • Analizzare e manipolare dati utilizzando Zeppelin

  • Analizzare e manipolare dati utilizzando Spark REPL

  • Illustrare lo scopo e la funzione di RDDs

  • Utilizzare le pratiche di programmazione funzionale

  • Eseguire le trasformazioni ed azioni con Spark

  • Lavorare con Pair RDDs

  • Eseguire Spark queries utilizzando Spark SQL e DataFrames

  • Utilizzare Spark Streaming stateless e window transformation

  • Visualizzare dati, generare reports e collaborare utilizzando Zeppelin

  • Monitorare applicazioni Spark utilizzando Spark History Server

  • Apprendere le linee guida generali per l’ottimizzazione delle applicazioni

  • Utilizzare il data caching per migliorare le performance delle applicazioni

  • Effettuare build e package di applicazioni Spark

  • Effettuare il deploy delle applicazioni nel cluster utilizzando YARN

  • Comprendere gli scopi di Spark MLib

Attestati di frequenza

Al termine del corso a ciascun partecipante verrà rilasciato un attestato di frequenza.

Vuoi maggiori informazioni? Contattaci!

Saremo lieti di assisterti. 

TORNA ALLA LISTA DEI CORSI DI "INFORMATICA"

FIRSTCONSULTING 

Via dei Valtorta, 48 – 20127 Milano (MI)

Tel: 0245390100 Fax: 0245390103

P.Iva 08050610966 e-mail: segreteria.milano@1consulting.it

  • Black Facebook Icon
  • Black Twitter Icon
  • Black LinkedIn Icon
FOLLOW US