SAP a annoncé le 14 avril la mise à disposition d’un nouveau jeu de données destiné à la recherche en intelligence artificielle appliquée aux systèmes ERP (Enterprise Resource Planning). Baptisé SALT (Sales Autocompletion Linked Business Tables), ce jeu de données se composerait d’informations anonymisées, issues d’un véritable système ERP en activité, centrées principalement sur les commandes clients.
Selon SAP, l’un des obstacles majeurs dans l’application de modèles d’IA générative au secteur professionnel résiderait dans la rareté des jeux de données réalistes et structurés. Contrairement aux données textuelles abondamment disponibles sur Internet, les données structurées utilisées par les entreprises seraient nettement plus difficiles à obtenir, notamment en raison des enjeux liés à la confidentialité et aux intérêts commerciaux.
Le jeu de données SALT, désormais accessible sur les plateformes Hugging Face et GitHub, comprendrait des tables relationnelles interconnectées, représentant fidèlement la complexité des informations traitées par les systèmes ERP. Ces tables contiendraient divers types de données : numériques, catégoriques ou textuelles. De plus, SAP souligne que ces tables présenteraient des déséquilibres notables, certaines catégories étant fortement majoritaires par rapport à d’autres, ce qui correspondrait aux situations réelles rencontrées dans les entreprises.
Tassilo Klein, chercheur chez SAP ayant participé à la création du jeu de données, indique qu’il existerait actuellement un écart significatif entre les données utilisées par le monde académique et celles du secteur industriel, principalement à cause des contraintes de confidentialité. SALT viserait donc à combler partiellement cet écart.
Pour Johannes Hoffart, CTO Business AI chez SAP, la publication de SALT ne serait qu’une première étape. L’entreprise envisagerait de publier à terme d’autres jeux de données représentant une plus grande variété de clients et d’applications professionnelles, afin d’élargir les possibilités de préentraînement, d’adaptation et de benchmarking des modèles d’IA.
En parallèle à la diffusion de SALT, SAP développerait son propre modèle d’IA nommé SAP Foundation Model. Celui-ci aurait pour objectif de simplifier l’utilisation directe de données tabulaires d’entreprise, en s’appuyant notamment sur les graphes de connaissances pour mieux représenter les relations entre les données.
Cette initiative, associée à une volonté affichée de collaborer avec des institutions académiques, pourrait encourager la recherche et le développement de nouvelles approches permettant aux modèles d’IA d’exploiter efficacement les données structurées typiques des environnements professionnels.
Le jeu de données SALT, désormais accessible sur les plateformes Hugging Face et GitHub, comprendrait des tables relationnelles interconnectées, représentant fidèlement la complexité des informations traitées par les systèmes ERP. Ces tables contiendraient divers types de données : numériques, catégoriques ou textuelles. De plus, SAP souligne que ces tables présenteraient des déséquilibres notables, certaines catégories étant fortement majoritaires par rapport à d’autres, ce qui correspondrait aux situations réelles rencontrées dans les entreprises.
Tassilo Klein, chercheur chez SAP ayant participé à la création du jeu de données, indique qu’il existerait actuellement un écart significatif entre les données utilisées par le monde académique et celles du secteur industriel, principalement à cause des contraintes de confidentialité. SALT viserait donc à combler partiellement cet écart.
Pour Johannes Hoffart, CTO Business AI chez SAP, la publication de SALT ne serait qu’une première étape. L’entreprise envisagerait de publier à terme d’autres jeux de données représentant une plus grande variété de clients et d’applications professionnelles, afin d’élargir les possibilités de préentraînement, d’adaptation et de benchmarking des modèles d’IA.
En parallèle à la diffusion de SALT, SAP développerait son propre modèle d’IA nommé SAP Foundation Model. Celui-ci aurait pour objectif de simplifier l’utilisation directe de données tabulaires d’entreprise, en s’appuyant notamment sur les graphes de connaissances pour mieux représenter les relations entre les données.
Cette initiative, associée à une volonté affichée de collaborer avec des institutions académiques, pourrait encourager la recherche et le développement de nouvelles approches permettant aux modèles d’IA d’exploiter efficacement les données structurées typiques des environnements professionnels.