top of page

BIG DATA CLOUDERA                

​

Cloudera è leader nel software e nei servizi basati su Apache Hadoop e offre una potente nuova piattaforma di dati che consente alle aziende e alle organizzazioni di esaminare tutti i loro dati, strutturati e non strutturati, e porre domande più grandi per una visione senza precedenti alla velocità del pensiero. Questo corso è adatto agli amministratori di sistemi e ai responsabili IT che hanno esperienza di base su Linux. La conoscenza pregressa di Apache Hadoop non è richiesta.

 

​

Durata

40 ore

 

Programma

Hadoop Fundamentals

  • The Motivation for Hadoop

  • Hadoop Overview

  • Data Storage: HDFS

  • Distributed Data Processing: YARN, MapReduce, and Spark

  • Data Processing and Analysis: Pig, Hive, and Impala

  • Database Integration: Sqoop

  • Other Hadoop Data Tools

  • Exercise Scenarios

Introduction to Pig

  • What is Pig?

  • Pig’s Features

  • Pig Use Cases

  • Interacting with Pig

Basic Data Analysis with Pig

  • Pig Latin Syntax

  • Loading Data

  • Simple Data Types

  • Field Definitions

  • Data Output

  • Viewing the Schema

  • Filtering and Sorting Data

  • Commonly Used Functions

Processing Complex Data with Pig

  • Storage Formats

  • Complex/Nested Data Types

  • Grouping

  • Built-In Functions for Complex Data

  • Iterating Grouped Data

Multi-Dataset Operations with Pig

  • Techniques for Combining Datasets

  • Joining Datasets in Pig

  • Set Operations

  • Splitting Datasets

Pig Troubleshooting and Optimization

  • Troubleshooting Pig

  • Logging

  • Using Hadoop’s Web UI

  • Data Sampling and Debugging

  • Performance Overview

  • Understanding the Execution Plan

  • Tips for Improving the Performance of Pig Jobs

Introduction to Hive and Impala

  •  What is Hive?

  • What is Impala?

  • Why Use Hive and Impala?

  • Schema and Data Storage

  • Comparing Hive and Impala to Traditional Databases

  • Use Cases

Querying with Hive and Impala

  • Databases and Tables

  • Basic Hive and Impala Query Language Syntax

  • Data Types

  • Using Hue to Execute Queries

  • Using Beeline (Hive’s Shell)

  • Using the Impala Shell

Hive and Impala Data Management

  • Data Storage

  • Creating Databases and Tables

  • Loading Data

  • Altering Databases and Tables

  • Simplifying Queries with Views

  • Storing Query Results

  • Data Storage and Performance

Relational Data Analysis with Hive and Impala

  • Joining Datasets

  • Common Built-In Functions • Aggregation and Windowing

Complex Data with Hive and Impala

  • Complex Data with Hive

  • Complex Data with Impala

  • Analyzing Text with Hive and Impala

  • Using Regular Expressions with Hive and Impala

  • Processing Text Data with SerDes in Hive

  • Sentiment Analysis and n-grams

Hive Optimization

  • Understanding Query Performance • Bucketing

  • Indexing Data

  • Hive on Spark

Impala Optimization

  • How Impala Executes Queries

  • Improving Impala Performance

Extending Hive and Impala

  • Custom SerDes and File Formats in Hive

  • Data Transformation with Custom Scripts in Hive

  • User-Defined Functions

  • Parameterized Queries

Choosing the Best Tool for the Job

  • Comparing Pig, Hive, Impala, and Relational Databases

Which to Choose?

​

​

Obiettivi

I partecipanti al termine del corso avranno appreso:

  • Funzionalità di Cloudera Manager che semplificano la gestione dei cluster, ad esempio registrazione aggregata, gestione della configurazione, gestione delle risorse, rapporti, avvisi e gestione dei servizi.

  • I componenti interni di YARN, MapReduce, Spark e HDFS

  • Determinazione dell'hardware e dell'infrastruttura corretti per il cluster

  • Configurazione e implementazione appropriate del cluster da integrare con il data center

  • Come caricare i dati nel cluster da file generati dinamicamente usando Flume e da RDBMS usando Sqoop

  • Configurazione di FairScheduler per fornire contratti a livello di servizio per più utenti di un cluster

  • Best practice per preparare e mantenere Apache Hadoop in produzione

  • Risoluzione dei problemi, diagnosi, messa a punto e risoluzione dei problemi di Hadoop.

​

Attestati di frequenza

Al termine del corso ad ogni partecipante verrà rilasciato un attestato di frequenza.

​

​

TORNA ALLA LISTA DEI CORSI DI "INFORMATICA"

Vuoi maggiori informazioni? Contattaci!

Saremo lieti di assisterti. 

bottom of page