Apache Flume - Introduction

Qu'est-ce que Flume?

Apache Flume est un outil / service / mécanisme d'ingestion de données pour collecter l'agrégation et le transport de grandes quantités de données en continu telles que des fichiers journaux, des événements (etc ...) de diverses sources vers un magasin de données centralisé.

Flume est un outil hautement fiable, distribué et configurable. Il est principalement conçu pour copier des données en continu (données de journal) de divers serveurs Web vers HDFS.

Applications de Flume

Supposons qu'une application Web de commerce électronique souhaite analyser le comportement des clients d'une région particulière. Pour ce faire, ils doivent déplacer les données de journal disponibles dans Hadoop pour analyse. Ici, Apache Flume vient à notre secours.

Flume est utilisé pour déplacer les données de journal générées par les serveurs d'applications vers HDFS à une vitesse plus élevée.

Avantages de Flume

Voici les avantages de l'utilisation de Flume -

  • En utilisant Apache Flume, nous pouvons stocker les données dans n'importe lequel des magasins centralisés (HBase, HDFS).

  • Lorsque le taux de données entrantes dépasse le taux auquel les données peuvent être écrites vers la destination, Flume agit comme un médiateur entre les producteurs de données et les magasins centralisés et fournit un flux constant de données entre eux.

  • Flume offre la fonction de contextual routing.

  • Les transactions dans Flume sont basées sur des canaux où deux transactions (un expéditeur et un destinataire) sont gérées pour chaque message. Il garantit une livraison fiable des messages.

  • Flume est fiable, tolérant aux pannes, évolutif, gérable et personnalisable.

Caractéristiques de Flume

Certaines des caractéristiques notables de Flume sont les suivantes -

  • Flume ingère efficacement les données de journal de plusieurs serveurs Web dans un magasin centralisé (HDFS, HBase).

  • En utilisant Flume, nous pouvons obtenir les données de plusieurs serveurs immédiatement dans Hadoop.

  • En plus des fichiers journaux, Flume est également utilisé pour importer d'énormes volumes de données d'événements produits par des sites de réseaux sociaux comme Facebook et Twitter, et des sites de commerce électronique comme Amazon et Flipkart.

  • Flume prend en charge un large éventail de types de sources et de destinations.

  • Flume prend en charge les flux multi-hop, les flux de fan-in fan-out, le routage contextuel, etc.

  • Flume peut être mis à l'échelle horizontalement.