Il y a quelques semaines, OVHcloud dévoilait la béta sa Data Platform. Aujourd’hui accessible à tous, celle-ci se caractérise par le choix des meilleures solutions de Data Lake et de requêtage du moment. Un Meet-up consacré au Modern Data Stack le 3 avril dernier est revenu sur ce lancement et analyse les composants clés de l’offre OVHcloud.
Organisé par Stéphane Heckel, Expert Data dans les locaux parisiens d’OVHcloud, le Meet-up consacré au Modern Data Stack a été l’occasion de revenir sur la disponibilité générale de la Data Platform d’OVHcloud. Celle-ci avait été présentée par Octave Klaba lors de l’OVH Summit 2024. Alors en mode beta, celle-ci est désormais accessible à tous les clients OVHcloud.
La Data Platform OVHcloud met en œuvre les briques Open Source les plus performantes du moment, notamment la solution de Data Lakehouse Apache Iceberg et le moteur SQL hautes performances Trino.
La réunion a été lancée par Stéphane Ligneul, Solution Architect chez OVHCloud, qui a expliqué les 3 points clés dont il faut tenir compte dans le choix d’une Data Platform : « D’une part, celle-ci doit être composable : l’entreprise construit sa plateforme avec des composants. Il doit disposer d’un large choix pour constituer la plateforme la plus adaptée à ses besoins. L’autre aspect important, c’est la portabilité. Les données doivent pouvoir être déplacées, pouvoir être réparties selon divers modèles de déploiement, dont du on-premise pour les données sensibles et des workflows très spécifiques, être déployées auprès de différents Cloud providers. Enfin, la plateforme doit être programmable afin de s’interfacer, de déployer des services le plus possible dans une approche Infra as code. »
Iceberg, la brique base de l’offre Data Platform
Parmi les grandes briques fonctionnelles de la plateforme OVHcloud, on retrouve Apache, Spark, la solution de Data Lakehouse qui fait l’unanimité des experts, la solution de REST Catalog assure le référentiel des données de la plateforme et des fichiers Iceberg. Trino assure le volet requêtage des données sur Iceberg et sur toutes les sources connectées à la Data Platform. Enfin, l’observabilité de la plateforme est assurée par Prometheus. Toutes ces briques font de la proposition OVHcloud une plateforme end-to-end apte à répondre à tous les besoins des entreprises pour leur stratégie Data et IA.
Olivier Hubert, Senior Partner Solution Architect chez Aiven a souligné l’importance de ce découpage fonctionnel : « Nous observons de plus en plus une demande de séparation entre la data et le Compute, avec la tendance de privilégier des solutions de stockage à faible coût pour la partie Data. En outre, il y a une très forte demande de nos clients pour disposer de connecteurs vers Iceberg. » Stéphane Ligneul complète cette analyse : « D'un point de vue opérationnel et d'efficacité, notre idée était de séparer la partie stockage de la donnée, pour adresser des volumes d'utilisateurs pétaoctets, si c'est nécessaire, indépendamment de la partie Compute. » L’expert souligne que les deux n'évoluent plus forcément de façon linéaire, comme c’était le cas sur les plateformes avant Hadoop. Les Data Warehouse devaient grossir en fonction à la fois du volume et des transactions qu'on avait supportées.
Un moteur SQL hautes performances pour booster les requêtes
L’autre pépite de la plateforme OVHcloud, c’est cette brique Compute. Si Apache Spark fait partie de la plateforme, le moteur Trino va jouer un rôle clé dans sa performance. Victor Coustenoble, Architecte Solutions chez Starburst, l’éditeur qui assure le développement de ce moteur SQL rappelle l’origine de cette solution initialement connue sous le nom de Presto : « Presto a été créé chez Facebook, en fait, pour remplacer le moteur Hive et délivrer une expérience très rapide sur HDFS. Hive a ses avantages, mais vous ne pouvez faire des recherches sur de gros volumes de données en deux secondes. Ils ont donc créé Presto pour exécuter de belles requêtes sur des téraoctets de données, puis publié ce moteur en Open Source. » Ce projet a été l’objet d’un fork en deux branches : Presto DB d’un côté et Presto SQL de l’autre. Ce dernier a été renommé Trino pour des raisons de droit des marques, Presto restant propriété de Facebook.
Les fondateurs de Presto ont créé Starburst. L’architecte résume les atouts de ce moteur : « C'est un moteur SQL Open Source, très performant et distribué. C'est du calcul distribué MTP, massivement Parallel Processing. Il a été conçu pour travailler sur de grands volumes de données, mais pas seulement. Le moteur peut se connecter à de multiples sources de données pour faire ce qu'on appelle de la fédération de données. Avec Trino, on peut librement écrire une requête SQL standard qui fait une jointure entre des sources Kafka, MongoDB, Oracle et Hadoop. » En outre, la popularité de Trino a poussé de nombreux développeurs de l’écosystème Open Source, mais aussi d’éditeurs commerciaux, à développer des interfaces avec Trino.
En misant sur l’Open Source, OVHcloud propose une Data Platform s’appuyant sur des solutions Best-of-Breed chacune dans le domaine, mais dans un modèle managé et avec une solution réellement end-to-end. OVHcloud a réalisé tout le volet paramétrage des interfaces et le développement d’une IHM pour piloter la plateforme et accéder à tous les rapports d’observabilité qui en facilitent le pilotage.
Stéphane Ligneul ajoute : « Si on regarde le portfolio d’OVHcloud, il y a beaucoup d’Open Source, mais il ne s’agit pas de versions forkées qui nous seraient spécifiques. Nous nous obligeons à rester sur les versions « vanilla » communautaires. Nous avons une réelle volonté d’être non seulement contributeurs dans certains projets, comme sur OpenStack par exemple, mais nous faisons aussi évoluer nos offres en fonction des retours de la communauté OVHcloud. Ce sera le cas de la Data Platform. Octave l’a évoqué lors de l’OVH Summit 2024, l’idée est de construire ensemble cette plateforme, aller chercher les composants et développer de nouvelles features en fonction des remontées de la communauté. »
Une migration sur OVHCloud gagnante
Enfin, le Meet-up s’est achevé avec le témoignage de Lex Avstreikh, Head of Strategy d’Hopsworks. Cet éditeur basé à Stockholm propose d’une plateforme de Lakehouse AI, une solution capable d’assurer la gestion du cycle de vie de milliers de modèles d’IA en production. « Nous faisons de l’IA depuis plus de 7 ans maintenant, mais en 2019, un nouveau paradigme s’est imposé. Uber se retrouvait à devoir gérer 10 000 modèles d’IA en production et leur plateforme Data n’était pas adaptée à cela. De notre côté, nous faisions de l’entraînement d’IA sur GPU et nous avions tous les outils pour créer ce que l’on appelle un Feature Store et le premier à être proposé en Open Source et déployé en entreprise. »
La solution est déployable sur une infrastructure Kubernetes standard, notamment chez OVHcloud. Le suédois a récemment fait le choix de ce dernier pour déployer son propre service SaaS. Initiée pour des raisons de souveraineté, la migration de la plateforme et de ses 8 000 utilisateurs a eu un impact particulièrement significatif pour l’éditeur. Celui-ci a réduit ses coûts de plateforme de 62% par rapport à ceux pratiqués par l’hyperscaler qui hébergeait sa solution jusque-là.
La Data Platform OVHcloud met en œuvre les briques Open Source les plus performantes du moment, notamment la solution de Data Lakehouse Apache Iceberg et le moteur SQL hautes performances Trino.
La réunion a été lancée par Stéphane Ligneul, Solution Architect chez OVHCloud, qui a expliqué les 3 points clés dont il faut tenir compte dans le choix d’une Data Platform : « D’une part, celle-ci doit être composable : l’entreprise construit sa plateforme avec des composants. Il doit disposer d’un large choix pour constituer la plateforme la plus adaptée à ses besoins. L’autre aspect important, c’est la portabilité. Les données doivent pouvoir être déplacées, pouvoir être réparties selon divers modèles de déploiement, dont du on-premise pour les données sensibles et des workflows très spécifiques, être déployées auprès de différents Cloud providers. Enfin, la plateforme doit être programmable afin de s’interfacer, de déployer des services le plus possible dans une approche Infra as code. »
Iceberg, la brique base de l’offre Data Platform
Parmi les grandes briques fonctionnelles de la plateforme OVHcloud, on retrouve Apache, Spark, la solution de Data Lakehouse qui fait l’unanimité des experts, la solution de REST Catalog assure le référentiel des données de la plateforme et des fichiers Iceberg. Trino assure le volet requêtage des données sur Iceberg et sur toutes les sources connectées à la Data Platform. Enfin, l’observabilité de la plateforme est assurée par Prometheus. Toutes ces briques font de la proposition OVHcloud une plateforme end-to-end apte à répondre à tous les besoins des entreprises pour leur stratégie Data et IA.
Olivier Hubert, Senior Partner Solution Architect chez Aiven a souligné l’importance de ce découpage fonctionnel : « Nous observons de plus en plus une demande de séparation entre la data et le Compute, avec la tendance de privilégier des solutions de stockage à faible coût pour la partie Data. En outre, il y a une très forte demande de nos clients pour disposer de connecteurs vers Iceberg. » Stéphane Ligneul complète cette analyse : « D'un point de vue opérationnel et d'efficacité, notre idée était de séparer la partie stockage de la donnée, pour adresser des volumes d'utilisateurs pétaoctets, si c'est nécessaire, indépendamment de la partie Compute. » L’expert souligne que les deux n'évoluent plus forcément de façon linéaire, comme c’était le cas sur les plateformes avant Hadoop. Les Data Warehouse devaient grossir en fonction à la fois du volume et des transactions qu'on avait supportées.
Un moteur SQL hautes performances pour booster les requêtes
L’autre pépite de la plateforme OVHcloud, c’est cette brique Compute. Si Apache Spark fait partie de la plateforme, le moteur Trino va jouer un rôle clé dans sa performance. Victor Coustenoble, Architecte Solutions chez Starburst, l’éditeur qui assure le développement de ce moteur SQL rappelle l’origine de cette solution initialement connue sous le nom de Presto : « Presto a été créé chez Facebook, en fait, pour remplacer le moteur Hive et délivrer une expérience très rapide sur HDFS. Hive a ses avantages, mais vous ne pouvez faire des recherches sur de gros volumes de données en deux secondes. Ils ont donc créé Presto pour exécuter de belles requêtes sur des téraoctets de données, puis publié ce moteur en Open Source. » Ce projet a été l’objet d’un fork en deux branches : Presto DB d’un côté et Presto SQL de l’autre. Ce dernier a été renommé Trino pour des raisons de droit des marques, Presto restant propriété de Facebook.
Les fondateurs de Presto ont créé Starburst. L’architecte résume les atouts de ce moteur : « C'est un moteur SQL Open Source, très performant et distribué. C'est du calcul distribué MTP, massivement Parallel Processing. Il a été conçu pour travailler sur de grands volumes de données, mais pas seulement. Le moteur peut se connecter à de multiples sources de données pour faire ce qu'on appelle de la fédération de données. Avec Trino, on peut librement écrire une requête SQL standard qui fait une jointure entre des sources Kafka, MongoDB, Oracle et Hadoop. » En outre, la popularité de Trino a poussé de nombreux développeurs de l’écosystème Open Source, mais aussi d’éditeurs commerciaux, à développer des interfaces avec Trino.
En misant sur l’Open Source, OVHcloud propose une Data Platform s’appuyant sur des solutions Best-of-Breed chacune dans le domaine, mais dans un modèle managé et avec une solution réellement end-to-end. OVHcloud a réalisé tout le volet paramétrage des interfaces et le développement d’une IHM pour piloter la plateforme et accéder à tous les rapports d’observabilité qui en facilitent le pilotage.
Stéphane Ligneul ajoute : « Si on regarde le portfolio d’OVHcloud, il y a beaucoup d’Open Source, mais il ne s’agit pas de versions forkées qui nous seraient spécifiques. Nous nous obligeons à rester sur les versions « vanilla » communautaires. Nous avons une réelle volonté d’être non seulement contributeurs dans certains projets, comme sur OpenStack par exemple, mais nous faisons aussi évoluer nos offres en fonction des retours de la communauté OVHcloud. Ce sera le cas de la Data Platform. Octave l’a évoqué lors de l’OVH Summit 2024, l’idée est de construire ensemble cette plateforme, aller chercher les composants et développer de nouvelles features en fonction des remontées de la communauté. »
Une migration sur OVHCloud gagnante
Enfin, le Meet-up s’est achevé avec le témoignage de Lex Avstreikh, Head of Strategy d’Hopsworks. Cet éditeur basé à Stockholm propose d’une plateforme de Lakehouse AI, une solution capable d’assurer la gestion du cycle de vie de milliers de modèles d’IA en production. « Nous faisons de l’IA depuis plus de 7 ans maintenant, mais en 2019, un nouveau paradigme s’est imposé. Uber se retrouvait à devoir gérer 10 000 modèles d’IA en production et leur plateforme Data n’était pas adaptée à cela. De notre côté, nous faisions de l’entraînement d’IA sur GPU et nous avions tous les outils pour créer ce que l’on appelle un Feature Store et le premier à être proposé en Open Source et déployé en entreprise. »
La solution est déployable sur une infrastructure Kubernetes standard, notamment chez OVHcloud. Le suédois a récemment fait le choix de ce dernier pour déployer son propre service SaaS. Initiée pour des raisons de souveraineté, la migration de la plateforme et de ses 8 000 utilisateurs a eu un impact particulièrement significatif pour l’éditeur. Celui-ci a réduit ses coûts de plateforme de 62% par rapport à ceux pratiqués par l’hyperscaler qui hébergeait sa solution jusque-là.