Rapport sur les tendances en matière d'intelligence artificielle, d'apprentissage automatique et d'ingénierie des données
#Actualités ·2023-09-06 15:40:24
Points clés
L'IA générative, portée par de grands modèles de langage (LLM) tels que GPT-3 et GPT-4, a gagné en importance dans le secteur de l'IA et du machine learning et est largement adoptée par des technologies telles que ChatGPT.
De grandes entreprises technologiques comme Google et Meta ont annoncé leurs propres modèles d'IA générative, démontrant ainsi l'engagement du secteur à faire progresser ces technologies.
Les bases de données vectorielles et le stockage embarqué ont retenu l'attention pour leur rôle dans l'amélioration de l'observabilité des applications d'IA générative.
L'IA responsable et éthique suscite une inquiétude croissante, avec des appels à des mesures de sécurité plus strictes pour les grands modèles de langage et une priorité accordée à l'amélioration de la vie de tous grâce à l'IA.
L'ingénierie moderne des données évolue vers des approches décentralisées et flexibles, avec des concepts tels que les grilles de données qui prônent des plateformes de données fédérées et partitionnées entre domaines.
Les rapports de tendances offrent aux lecteurs un aperçu général des sujets qui, selon nous, devraient intéresser les architectes et les leaders technologiques. De plus, ils aident l'équipe éditoriale à se concentrer sur la rédaction d'articles et à recruter des rédacteurs pour couvrir les technologies innovantes.
Dans ce rapport annuel, les rédacteurs explorent l'état actuel de l'IA, du ML et de l'ingénierie des données, ainsi que les tendances émergentes auxquelles vous devriez prêter attention en tant qu'ingénieur logiciel, architecte ou data scientist. Nous organisons la discussion selon une courbe d'adoption technologique et fournissons des commentaires pour vous aider à comprendre l'évolution actuelle.
Pour le podcast de cette année, l'équipe éditoriale a invité Sherin Thomas, ingénieure logiciel chez Chime, à participer à la discussion. La section suivante de l'article résume certaines de ces tendances et la position des différentes technologies sur la courbe d'adoption.
IA générative
L'IA générative, notamment les grands modèles de langage (LLM) tels que GPT-3, GPT-4 et ChatGPT, est devenue un acteur majeur du secteur de l'IA et du machine learning. Ces technologies ont suscité beaucoup d'intérêt, notamment au vu des progrès réalisés l'année dernière. Nous avons constaté une adoption généralisée de ces technologies par les utilisateurs, notamment grâce à ChatGPT. Plusieurs entreprises, telles que Google et Meta, ont annoncé leurs propres modèles d'IA générative.
Nous pensons que la prochaine étape consistera à mettre davantage l'accent sur les LLMOps pour exploiter ces grands modèles de langage en entreprise. Nous sommes actuellement divisés sur la question de savoir si l'ingénierie des indices deviendra un sujet d'actualité à l'avenir, ou si ses applications seront si répandues que chacun pourra contribuer aux indices utilisés.
Bases de données vectorielles et magasins d'intégration
Avec l'essor de la technologie LLM, les bases de données vectorielles et les magasins d'intégration suscitent un intérêt croissant. Une application intéressante, qui suscite de plus en plus d'intérêt, est l'utilisation des intégrations de phrases pour améliorer l'observabilité des applications d'IA générative.
Le besoin de bases de données de recherche vectorielle découle des limites des grands modèles de langage, dont l'historique lexical est limité. Les bases de données vectorielles peuvent stocker des résumés de documents sous forme de vecteurs de caractéristiques générés par ces modèles de langage, ce qui peut produire des millions, voire plus, de vecteurs de caractéristiques. Avec les bases de données traditionnelles, plus l'ensemble de données s'agrandit, plus il devient difficile de trouver des documents pertinents. Les bases de données vectorielles permettent des recherches de similarité efficaces, permettant aux utilisateurs de trouver les voisins les plus proches d'un vecteur de requête, améliorant ainsi le processus de recherche.
L'augmentation du financement de ces technologies est une tendance notable, témoignant de la reconnaissance de leur importance par les investisseurs. Cependant, leur adoption par les développeurs est lente, mais devrait s'accélérer dans les années à venir. Les bases de données vectorielles telles que Pinecone et Milvus, ainsi que les solutions open source comme Chroma, gagnent en popularité. Le choix de la base de données dépend du scénario d'application spécifique et de la nature des données recherchées.
Les bases de données vectorielles ont démontré leur potentiel dans divers domaines, notamment l'observation de la Terre. Par exemple, la NASA utilise des techniques d'apprentissage auto-supervisé et de recherche vectorielle pour analyser des images satellites de la Terre afin d'aider les scientifiques à suivre l'évolution à long terme des phénomènes météorologiques tels que les ouragans.
Robotique et drones
Le coût des robots est en baisse. Les robots d'équilibrage à pattes étaient autrefois difficiles à acheter, mais certains modèles coûtent désormais environ 1 500 dollars. Cela permet à davantage d'utilisateurs d'intégrer la robotique à leurs applications. Le système d'exploitation robotique (ROS) reste le framework logiciel leader dans ce domaine, mais des entreprises comme VIAM développent également des solutions intergicielles pour faciliter l'intégration et la configuration de plugins pour le développement de robots.
Nous pensons que les progrès de l'apprentissage non supervisé et des modèles fondamentaux se traduiront par des capacités plus puissantes. Par exemple, l'intégration de grands modèles de langage dans la planification de trajectoire d'un robot permettra une planification en langage naturel.
IA responsable et éthique
Alors que l'IA commence à toucher toute l'humanité, l'intérêt pour une IA responsable et éthique se fait de plus en plus sentir. Des appels à des mesures de sécurité plus strictes pour les grands modèles de langage ont été lancés, tandis que la frustration suscitée par les résultats de ces modèles a rappelé aux utilisateurs les mesures de sécurité existantes.
Les ingénieurs doivent toujours garder à l'esprit la nécessité d'améliorer la vie de tous, et pas seulement de quelques-uns. Nous prévoyons que la réglementation sur l'IA aura un impact similaire à celui du Règlement général sur la protection des données (RGPD) il y a quelques années.
Nous avons déjà constaté des défaillances de l'IA dues à des données erronées. La découverte, la manipulation, la traçabilité, l'étiquetage et les bonnes pratiques de développement de modèles de données deviendront des priorités. Les données sont essentielles à l'interprétabilité.
Ingénierie des données
L'ingénierie des données moderne évolue vers une approche plus décentralisée et flexible pour gérer le volume croissant de données. Un nouveau concept, le maillage de données, a émergé pour répondre aux défis posés par les équipes de gestion centralisée des données, qui deviennent des goulots d'étranglement pour les opérations de données. Ce concept préconise une plateforme de données fédérée sur plusieurs domaines, traitant les données comme un produit. Cela permet aux propriétaires de domaines de maîtriser et de contrôler leurs produits de données, réduisant ainsi la dépendance aux équipes centrales. Bien que prometteuse, l'adoption du maillage de données peut se heurter à des obstacles liés à l'expertise et nécessite des outils et une infrastructure avancés pour permettre des fonctionnalités en libre-service.
L'observabilité des données est devenue essentielle en ingénierie des données, tout comme l'observabilité des systèmes dans l'architecture applicative. L'observabilité est essentielle à tous les niveaux, y compris l'observabilité des données, en particulier dans le domaine du machine learning. La confiance dans les données est essentielle au succès de l'IA, et les solutions d'observabilité des données sont essentielles pour surveiller la qualité des données, la dérive des modèles et l'analyse exploratoire des données afin de garantir des résultats de machine learning fiables. Ce changement de paradigme dans la gestion des données et l'intégration de l'observabilité dans les pipelines de données et de machine learning reflètent l'évolution du paysage moderne de l'ingénierie des données.
Mises à jour de la courbe explicative
Ce rapport de tendances comprend également un graphique actualisé présentant nos prévisions concernant l'état actuel de certaines technologies. Les catégories sont basées sur l'ouvrage « Crossing the Chasm » de Geoffrey Moore. Nous nous concentrons sur les catégories qui n'ont pas encore franchi le pas.
Des innovateurs aux premiers utilisateurs, l'« Assistant de codage IA » constitue une amélioration notable. Bien que lancé l'année dernière et quasiment inutilisé, de plus en plus d'entreprises le proposent à leurs employés pour les rendre plus efficaces. Ce service n'est pas intégré par défaut à toutes les technologies et nous explorons encore les meilleures façons de l'utiliser, mais nous pensons que son taux d'adoption continuera de croître.
Nous pensons que le domaine qui franchit actuellement le pas est le traitement du langage naturel. Ce n'est pas surprenant, car suite au succès retentissant de ChatGPT, de nombreuses entreprises cherchent à intégrer des fonctionnalités d'IA générative à leurs produits. C'est pourquoi nous avons décidé de le laisser franchir le pas et d'intégrer la catégorie « Majorité précoce ». Le potentiel de croissance dans ce domaine est encore important, et le temps nous dira quelles sont les meilleures pratiques et les capacités de cette technologie.
Il existe quelques catégories à surveiller qui n'ont connu aucune évolution. Parmi ces technologies, on trouve la génération de données synthétiques, les interfaces cerveau-ordinateur et la robotique. Toutes semblent être restées dans la catégorie des innovateurs. La plus prometteuse à cet égard est la génération de données synthétiques, qui a récemment bénéficié d'une attention accrue avec l'engouement pour la GenAI. De plus en plus d'entreprises parlent de générer davantage de données d'entraînement, mais elles n'ont pas encore vu suffisamment d'applications les utiliser dans leur pile pour les intégrer à la catégorie des premiers utilisateurs. La robotique est sous le feu des projecteurs depuis de nombreuses années, mais son taux d'adoption est encore trop faible pour garantir son évolution.
Nous avons également introduit quelques nouvelles catégories dans le tableau. L'une d'entre elles est celle des bases de données de recherche vectorielle, fruit de l'engouement pour la GenAI. À mesure que notre compréhension de la représentation des concepts sous forme de vecteurs s'améliore, le besoin d'un stockage et d'une récupération efficaces des vecteurs s'accroît. Nous avons également ajouté l'IA explicable à la catégorie Innovateurs. Nous pensons que la capacité des ordinateurs à expliquer les raisons de leurs décisions est essentielle à une application généralisée pour lutter contre les hallucinations et autres dangers. Cependant, les résultats de recherche dans le secteur sont actuellement insuffisants pour la promouvoir dans une catégorie supérieure.
Conclusion
Les domaines de l'intelligence artificielle, de l'apprentissage automatique et de l'ingénierie des données connaissent un essor constant. Leurs capacités techniques et leurs applications potentielles sont toujours en plein essor. Pour les rédacteurs, il est passionnant d'être si proche de ces avancées et nous avons hâte de continuer à les couvrir l'année prochaine. Dans le podcast, nous avons formulé quelques prédictions pour l'année à venir, allant de « L'intelligence artificielle générale n'existera plus » à « Les agents autonomes deviendront une réalité ».