BIG DATA HADOOP
​
Apache Hadoop è un framework che supporta applicazioni distribuite con elevato accesso ai dati sotto una licenza libera; permette alle applicazioni di lavorare con migliaia di nodi e petabyte di dati. Hadoop è stato ispirato dalla MapReduce di Google e dal Google File System. Hadoop è un progetto Apache di alto livello costruito e usato da una comunità globale di contributori, che usano il linguaggio di programmazione Java.
Requisiti per i discenti: programmatori, laureati o diplomati in informatica con nozioni base di programmazione in Java. Consigliabile ma non indispensabile avere basi di Python e Scala.
​
Durata
40 ore
Programma
MODULO 1: Introduzione ed Ecosistema
-
Introduzione ad Apache Hadoop
-
Panoramica Ecosistema Hadoop
-
Problematiche nei sistemi di grandi dati
-
Perchè Hadoop e i suoi vantaggi
MODULO 2: Hadoop Administration pt.1
-
Installazione Cluster 4 nodi
-
HDFS: basi e teoria
-
HDFS: hands on
-
HBase: basi e teoria
-
HBase: hands on
MODULO 3: Hadoop Administration pt.2
-
Flume e Sqoop2: basi e teoria
-
Flume e Sqoop2: hands on (esercitazioni pratiche)
-
Yarn: teoria
-
Yarn: Scheduling e Resource Pool hands on
MODULO 4: Developer
-
Kafka: hands on
-
Hive & Impala: basi e teoria
-
Pig: basi e teoria
-
Hive, Pig, Impala: deploy e hands on
-
Kafka: basi e teoria
MODULO 5 : Data Format
-
Selezione File Format
-
Hadoop Tool Support File Format
-
Avro Schemas
-
Utilizzo Avro con Hive e Sqoop
-
Avro Schema Evoluzione e Compressione
​
Obiettivi
Obiettivo del corso è quello di formare lo studente con conoscenze basi e tecniche per lo sviluppo di progetti di importazione dati (Big Data) nel cluster Apache Hadoop e come processarli nell’ecosistema con gli appositi strumenti (Spark, Impala, Hive, Flume e Sqoop)
​
Attestati di frequenza
Al termine del corso ad ogni partecipante verrà rilasciato un attestato di frequenza.
​
​
TORNA ALLA LISTA DEI CORSI DI "INFORMATICA"