Apache Hadoop e dei suoi componenti

A+ A-

Apache Hadoop è un framework software open-source scritto in Java. E 'utilizzato principalmente per la memorizzazione e l'elaborazione di grandi insiemi di dati, meglio conosciuto come Big Data. Si compone di diversi componenti che consentono la memorizzazione e l'elaborazione di grandi volumi di dati in un ambiente cluster. Tuttavia, i due componenti principali sono Hadoop Distributed File System e la programmazione MapReduce.

In questo articolo, ci sarà prima dare un'occhiata ai componenti che costituiscono Apache Hadoop e poi alcuni dei sistemi integrati e database.

1. Componenti di Apache Hadoop

Hadoop, nel suo complesso, costituito dalle seguenti parti:

Hadoop Distributed File System - abbreviato come HDFS, è soprattutto un file system simile a molti di quelli già esistenti. Tuttavia, è anche un file system virtuale.

C'è una notevole differenza con gli altri sistemi di file popolare, che è, quando si sposta un file in HDFS, è diviso automaticamente in file più piccoli. Questi file più piccoli vengono poi replicati su almeno tre diversi server, in modo che possano essere utilizzati come alternativa a circostanze impreviste. Questo conteggio replica non è necessariamente hard-impostato, e può essere deciso secondo i requisiti.

Hadoop MapReduce - MapReduce è soprattutto l'aspetto di programmazione di Hadoop che consente l'elaborazione di grandi volumi di dati.

Vi è anche una disposizione che rompe le richieste in richieste più piccoli, che vengono poi inviati a più server. Questo permette l'utilizzazione della potenza scalabile della CPU.

HBase - HBase sembra essere uno strato che si trova in cima alla HDFS ed è stato sviluppato per mezzo del linguaggio di programmazione Java. HBase ha principalmente i seguenti aspetti -

  • non relazionale
  • altamente scalabile
  • La tolleranza ai guasti

Ogni singola riga che esiste in HBase viene identificato mediante una chiave. Il numero di colonne non viene anche definito, ma piuttosto raggruppati in famiglie di colonna.

Zookeeper - Questo è fondamentalmente un sistema centralizzato che mantiene -

  • Le informazioni di configurazione
  • le informazioni di denominazione
  • informazioni di sincronizzazione

Oltre a questi, Zookeeper è anche responsabile dei servizi di gruppo e viene utilizzato da HBase. Si tratta anche di utilizzare per i programmi MapReduce.

Solr / Lucene - Questo non è altro che un motore di ricerca. Le sue librerie sono stati sviluppati da Apache e tenuti più di 10 anni per essere sviluppato nella sua forma solida attuale.

Linguaggi di programmazione - Ci sono fondamentalmente due linguaggi di programmazione che vengono identificati come i linguaggi di programmazione originali Hadoop,

  • Alveare
  • MAIALE

Oltre a questi, ci sono un paio di altri linguaggi di programmazione che possono essere utilizzati per i programmi di scrittura, cioè C, JAQL e Java. Possiamo anche fare uso diretto di SQL per l'interazione con il database, anche se questo richiede l'uso di driver JDBC o ODBC standard.

2. sistemi di operazioni integrate Hadoop

La maggior parte dei fornitori aziendali hanno i loro propri prodotti molto Hadoop che compongono della base di dati, nonché le offerte di analisi. Queste offerte, inoltre, non richiedono di fonte Hadoop da altrove, ma piuttosto fornire come un aspetto centrale delle loro soluzioni.

Alcuni di questi sono -

EMC Greenplum

Greenplum sembra essere una bella nuovo operatore nel settore enterprise e ha una reputazione per essere un forte fornitore di analisi. Essa si presenta come una piattaforma di analisi unificata, che consiste -

  • Greenplum Database - destinato per l'uso su dati strutturati
  • Greenplum HD - La sua distribuzione Hadoop
  • Chorus - Uno strato di produttività per le squadre Science Data.

IBM

distribuzione aziendale di IBM per Hadoop è conosciuto come InfoSphere BigInsights. Esso implementa una serie di funzioni per Hadoop, come ad esempio -

  • Strumenti per la gestione
  • Strumenti per l'amministrazione
  • Si compone anche di strumenti di analisi di dati testuali che aiutano nella risoluzione di entità, come le persone che identificano, numeri di telefono, indirizzi e molto altro ancora.

Facendo uso del linguaggio di interrogazione JAQL, si può integrare Hadoop con i vari prodotti IBM come DB2, o anche Netezza. BigSheets, è offerto anche un foglio di calcolo come applicazione a lavorare su Big Data. Allo stato attuale, BigInsights possono essere utilizzati solo su nuvola tramite Amazon, Rackspace, RightScale, etc.

Microsoft

Hadoop costituisce la parte centrale della grande offerta di dati di Microsoft. Perseguire un approccio integrato, che prevede di rendere i dati disponibili grandi sulla sua suite di strumenti per l'analisi.

Soluzioni Microsoft Big Data sono stati portati nella piattaforma Windows Server e anche per la piattaforma Windows Azure, che è basata su cloud. Integrato con Windows Systems Center e Active Directory, l'azienda ha un proprio formato di distribuzione di Hadoop. Inoltre, si integra Hadoop con il suo SQL Server, Visual Studio e .NET.

Oracolo

Oracle è entrato nel mondo dei grandi di dati con un approccio basato apparecchio in forma di Big Data Appliance. Ciò garantisce una facile integrazione Hadoop, e arriva con il nuovo database NoSQL, che consente per l'analisi e ha anche le connessioni a database Oracle e lo stoccaggio scaletta Exadata. NoSQL è noto anche come una soluzione scalabile basato sul valore chiave offerta di database.

Oracle avviene anche per avere la piattaforma analitica R integrata con Hadoop, e che lo rende facile da spedire. prodotto di R Enterprise di Oracle è anche quella che permette una facile integrazione di database, e anche con Hadoop.

3. Banche dati per l'analisi con connettività Hadoop

I database che supportano Massively Parallel Processing (MPP) sono in gran parte destinate al trattamento dei dati strutturati grandi, a differenza di quella di specializzazione di Hadoop su dati non strutturati. Greenplum, e il molto più vecchio Aster dati e Vertica, sono migliori esempi di primi pionieri in questo senso.

Questi database MPP sono noti per gestire i carichi di lavoro specializzati in termini di analisi, e anche l'integrazione dei dati. Questi forniscono connettori per Hadoop e altre piattaforme di data warehousing.

Negli ultimi tempi queste soluzioni di database sono state acquisite da alcuni altri operatori del settore, -

  • Aster dati è stata acquisita da Teradata
  • HP ha acquisito Vertica
  • Greenplum è ora sotto EMC

4. Le società di Hadoop centrato

Al fine di soddisfare lo sviluppatore guidato ideale del grande mondo dei dati, le distribuzioni di Hadoop sono molto spesso offerti in forma di edizioni della comunità. Tali tipi di edizioni non hanno un approccio di gestione aziendale, ma piuttosto tutte le funzionalità che possono essere richiesti per lo sviluppo e la valutazione.

Cloudera

Cloudera sembra essere l'istituzione più antica che fornisce distribuzioni Hadoop. E 'noto per offrire soluzioni aziendali, insieme alla formazione, servizi e opzioni di supporto. Inoltre, Cloudera ha fatto numerosi contributi al Hadoop per mezzo di contributi open source.

Hortonworks

Hortonworks ha una lunga storia associata con Hadoop. E 'principalmente un prodotto di Yahoo, e in qualità di cedente di Hadoop, esso mira a promuovere la tecnologia di base Hadoop. Ha anche collaborato con Microsoft per migliorare la loro integrazione Hadoop.

5. conclusione

Il suddetto articolo spiega chiaramente i vari moduli che compongono Hadoop, insieme con le numerose edizioni di impresa e di comunità basate che sono disponibili per l'uso al momento. Con Hadoop guadagnando più importanza, è solo una questione di tempo prima che altri operatori sono aggiunti a questo elenco.