Découverte d’Exasol, une plate-forme optimale pour l’analyse de données

De manière générale, lorsqu’on parle de système de gestion de bases de données, on fait référence aux logiciels permettant de stocker, de manipuler, et de gérer ou de partager les données de l’entreprise. Bien entendu, tout en cachant la complexité des opérations, le système de gestion de base de données permet de garantir la pérennité, la qualité et la confidentialité des informations.

Par ailleurs, au nombre des multiples systèmes de gestion de bases de données qu’on pourrait côtoyer dans notre milieu, on compte le logiciel Exasol.

Il y a une multitude de systèmes de bases de données, pour différents besoins. Exasol est l’un de ces systèmes, particulièrement intéressant pour des applications de Big Data. Découvrons ce puissant outil !

Architecture et principales fonctionnalités

La première utilisation d’Exasol peut surprendre. Ce système de gestion de base de données fonctionne avec une architecture de traitement parallèle, sur un cluster de serveurs. Au niveau de chaque nœud du cluster, le code identique est exécuté simultanément. Pour des besoins de test, on peut commencer avec une installation d’un seul nœud, dite « standalone ».

Exasol utilise le stockage (des données) en colonne, ce qui apporte des gains de performance en lecture, combiné à des méthodes de compression en mémoire. Le système est conçu pour fonctionner en mémoire quand bien même les données sont stockées de façon persistante sur le disque.

Pour les requêtes à la base de données, le système supporte le standard SQL. Si vous faites déjà du SQL, vous ne serez pas perdu pour mettre en place vos applications de données ou des traitements de type « ETL » (Extract, Transform, Load). De plus, vous avez pouvez exploiter, pour ces scripts, la puissance de langages de programmation tels que Lua, Java, Python ou R. Dans le jargon de cette technologie, vous écrivez (puis vous déployez sur le système) des fonctions définies par l’utilisateur (User Defined Functions ou UDFs).

Enfin, vous pouvez intégrer Exasol avec d’autres briques applicatives via des interfaces standards comme JDBC ou ODBC.

Le système d’exploitation d’Exasol, nommé « EXAcluster OS », fournit l’environnement d’exécution nécessaire et une couche de stockage pour le système de gestion des bases de données.

Comment installer Exasol ?

Vous pouvez mettre en place une installation standalone d’Exasol pour commencer à expérimenter avec ses possibilités, sur une machine Windows avec suffisamment de capacité disque et mémoire.

Vous devez télécharger l’édition communautaire en version 6.2.x fournie par l’éditeur d’Exasol. Il est possible de faire une installation basée sur une machine virtuelle contenant déjà tout ce dont le système a besoin pour tourner ou de faire une installation basée sur Docker. Nous allons vous présenter la première méthode, celle que nous avons le plus testé.

Ce processus d’installation comprend 2 principales étapes :

(1) Installer un outil de virtualisation. Nous utiliserons VirtualBox.

(2) Sur le site officiel, téléchargez la version .ova de l’image d’installation « EXASOL VM », et l’ajouter à votre installation VirtualBox sur la machine Windows.

Vous pouvez ensuite démarrer cette nouvelle VM, puis vérifier et ajuster les éléments de paramétrage requis.

Un point important à noter concerne la mise en place du réseau pour que la VM puisse également accéder à Internet. Pour ça, mettre en place le 1er  réseau pour utiliser l’option « NAT » et régler le 2ème pour utiliser l’option « Bridged Adapter ».

Exasol

Vous trouverez les détails complémentaires pour le démarrage initial sur cette page de support de la communauté Exasol (https://community.exasol.com/t5/database-features/enable-internet-access-for-exasol-community-edition/ta-p/1439).

Pour terminer, vous avez besoin du client qui vous permet d’interagir avec la base de données Exasol, notamment pour exécuter des commandes SQL et pour mettre en place des scripts « UDF ». Il s’agit du logiciel EXAplus. Téléchargez l’archive d’installation de l’outil EXAplus depuis la page https://www.exasol.com/portal/display/DOWNLOAD/Version+6.2.0 et procédez à l’installation sur votre machine.

Voici donc résumé en quelques points les différentes étapes de l’installation et de la mise en place d’Exasol dans votre environnement de travail.

Conclusion

Exasol est un système de gestion de bases de données d’un nouveau genre, que nous utilisons chez Content Gardening Studio dans le cadre d’un certain nombre de projets de nos clients.

Avec ses avantages en termes de performance et son fonctionnement en mémoire, il nous permet de mettre en oeuvre des traitements très précis, impliquant des sources de données externes, telles que d’autres bases de données, des fichiers auxquels on accède, et les sources de données web (avec du « web scraping »). Nous combinons le duo gagnant « Exasol » et « Python » pour la réussite de ces projets.

Scroll to top