Apache Presto - Présentation

L'analyse de données est le processus d'analyse des données brutes pour recueillir des informations pertinentes pour une meilleure prise de décision. Il est principalement utilisé dans de nombreuses organisations pour prendre des décisions commerciales. Eh bien, l'analyse des mégadonnées implique une grande quantité de données et ce processus est assez complexe, les entreprises utilisent donc différentes stratégies.

Par exemple, Facebook est l'une des plus grandes sociétés d'entrepôt de données au monde et basée sur les données. Les données de l'entrepôt Facebook sont stockées dans Hadoop pour des calculs à grande échelle. Plus tard, lorsque les données de l'entrepôt sont devenues des pétaoctets, ils ont décidé de développer un nouveau système à faible latence. En 2012, les membres de l'équipe Facebook ont ​​conçu“Presto” pour des analyses de requêtes interactives qui fonctionneraient rapidement même avec des pétaoctets de données.

Qu'est-ce qu'Apache Presto?

Apache Presto est un moteur d'exécution de requêtes parallèle distribué, optimisé pour une faible latence et une analyse interactive des requêtes. Presto exécute les requêtes facilement et évolue sans temps d'arrêt, même de gigaoctets à pétaoctets.

Une seule requête Presto peut traiter les données de plusieurs sources telles que HDFS, MySQL, Cassandra, Hive et bien d'autres sources de données. Presto est construit en Java et facile à intégrer avec d'autres composants d'infrastructure de données. Presto est puissant et des entreprises de premier plan comme Airbnb, DropBox, Groupon, Netflix l'adoptent.

Presto - Caractéristiques

Presto contient les fonctionnalités suivantes -

  • Architecture simple et extensible.
  • Connecteurs enfichables - Presto prend en charge les connecteurs enfichables pour fournir des métadonnées et des données pour les requêtes.
  • Exécutions en pipeline: évite la surcharge de latence d'E / S inutile
  • Fonctions définies par l'utilisateur - Les analystes peuvent créer des fonctions personnalisées définies par l'utilisateur pour migrer facilement.
  • Traitement colonnaire vectorisé.

Presto - Avantages

Voici une liste des avantages qu'offre Apache Presto -

  • Opérations SQL spécialisées
  • Facile à installer et à déboguer
  • Abstraction de stockage simple
  • Met rapidement à l'échelle les données de pétaoctets avec une faible latence

Presto - Applications

Presto prend en charge la plupart des meilleures applications industrielles d'aujourd'hui. Jetons un coup d'œil à certaines des applications notables.

  • Facebook- Facebook a construit Presto pour les besoins d'analyse de données. Presto met facilement à l'échelle une grande vitesse de données.

  • Teradata- Teradata fournit des solutions de bout en bout dans l'analyse Big Data et l'entreposage de données. La contribution de Teradata à Presto permet à davantage d'entreprises de répondre à tous les besoins analytiques.

  • Airbnb- Presto fait partie intégrante de l'infrastructure de données Airbnb. Eh bien, des centaines d'employés exécutent des requêtes chaque jour avec la technologie.

Pourquoi Presto?

Presto prend en charge la norme ANSI SQL, ce qui a rendu la tâche très facile pour les analystes de données et les développeurs. Bien qu'il soit construit en Java, il évite les problèmes typiques de code Java liés à l'allocation de mémoire et au garbage collection. Presto a une architecture de connecteur compatible avec Hadoop. Il permet de brancher facilement des systèmes de fichiers.

Presto fonctionne sur plusieurs distributions Hadoop. De plus, Presto peut accéder à partir d'une plate-forme Hadoop pour interroger Cassandra, des bases de données relationnelles ou d'autres magasins de données. Cette capacité d'analyse multiplateforme permet aux utilisateurs de Presto d'extraire une valeur commerciale maximale de gigaoctets à pétaoctets de données.