Actualités sur l'IA en avril 2024
#Actualités ·2024-04-30 09:49:29
Dans le résumé de ce mois-ci, nous mettons en lumière les principales actualités IA d'avril :
Adobe achète des vidéos pour son IA
Adobe achète activement des séquences vidéo pour développer son générateur de texte en vidéo IA. L'entreprise encourage son réseau de photographes et d'artistes à soumettre des vidéos illustrant des actions et des émotions du quotidien, avec un revenu moyen de 2,62 $ par minute de vidéo. De plus, Adobe explore des partenariats avec des fournisseurs d'IA tiers tels que Runway, Pika Labs et le modèle Sora d'OpenAI.
Contexte : L'intérêt croissant de l'entreprise pour l'achat de vidéos auprès de photographes et d'artistes reflète une tendance récente des entreprises à s'appuyer sur des contenus sous licence pour entraîner leurs modèles d'IA. En obtenant les licences appropriées, les entreprises peuvent réduire les risques juridiques tout en obtenant des ensembles de données de haute qualité pour l'entraînement des modèles.
Par ailleurs, Adobe introduira également des outils vidéo IA dans sa plateforme de montage Premiere Pro et prévoit d'intégrer ses propres modèles vidéo IA génératifs à la série Firefly. Ces outils permettent de générer et de traiter du contenu vidéo à l'aide d'invites textuelles, afin d'améliorer l'expérience de montage de l'utilisateur.
Les données d'entraînement d'Adobe Firefly suscitent des inquiétudes éthiques
Le logiciel de génération d'images Firefly d'Adobe, salué pour ses pratiques éthiques en matière de données d'entraînement, a suscité la controverse après la révélation de son entraînement à l'aide d'images provenant de sources telles que Midjourney.
Bien qu'Adobe ait initialement affirmé que Firefly s'appuyait principalement sur des images sous licence d'Adobe Stock, il semble que du contenu généré par l'IA (y compris celui de ses concurrents) ait également contribué à l'entraînement de Firefly. Adobe Stock est l'une des rares plateformes de photos d'archives à accepter le contenu généré par des services tiers. Par conséquent, puisqu'Adobe utilise son contenu pour entraîner ses algorithmes, l'inclusion de contenu généré par des tiers dans Adobe Stock a involontairement contribué aux données d'entraînement d'outils tels que Firefly. Malgré ces révélations, Adobe affirme toujours contrôler la qualité de ses jeux de données :
« Chaque image soumise à Adobe Stock, y compris un petit sous-ensemble d’images générées par l’IA, est soumise à un processus de vérification rigoureux afin de garantir qu’elle ne contient aucun élément de propriété intellectuelle, marque déposée, caractère ou logo reconnaissable, ni référence à des artistes. »
Porte-parole d’Adobe
Entre les lignes : Cette découverte remet en question les affirmations de Firefly selon lesquelles elle serait une alternative « sûre pour les entreprises » et soulève des questions sur la transparence et les normes éthiques dans le développement de modèles d’IA.
Déploiement mondial de Meta AI
Grâce à Meta Llama 3, Meta AI étend sa portée mondiale avec de nouvelles fonctionnalités conçues pour simplifier et optimiser les tâches quotidiennes.
Meta AI est désormais disponible sur Facebook, Instagram, WhatsApp et Messenger, et dans plus d’une douzaine de pays, dont l’Australie, le Canada et le Nigéria. Les utilisateurs peuvent désormais compter sur Meta AI pour effectuer diverses tâches, de la recommandation de restaurants en fonction de préférences spécifiques à l’explication de concepts complexes comme les traits génétiques.
De plus, Meta AI a été intégré à l'écosystème Meta, incluant des fonctionnalités de recherche et de génération d'images, améliorant ainsi l'expérience utilisateur sur toutes les plateformes. Grâce à la fonctionnalité Imagine, les utilisateurs peuvent générer des images à partir de texte en temps réel, avec une qualité d'image plus nette et la possibilité d'ajouter du texte aux images.
Contexte : Alors que la course à l'IA se poursuit, Meta intensifie clairement ses efforts pour réduire l'écart avec ses concurrents et s'imposer comme leader dans le domaine de l'intelligence artificielle.
Snap filigrane les images générées par l'IA
Snap a annoncé son intention d'apposer un filigrane sur les images générées par l'IA sur sa plateforme, avec un logo Snap semi-transparent et un emoji brillant en guise de filigranes. Cette initiative vise à mettre en valeur les images créées à l'aide des outils Snap AI, améliorant ainsi la transparence et la sécurité des utilisateurs.
L'entreprise a précisé que la suppression de ces filigranes enfreindrait ses conditions d'utilisation, mais la méthode de détection de ces suppressions n'a pas encore été rendue publique. De plus, Snap a introduit des indicateurs de fonctionnalités d'IA et des cartes contextuelles pour les images générées par l'IA afin de fournir davantage d'informations aux utilisateurs. Entre les lignes : La décision de Snap s’inscrit dans la lignée des initiatives similaires de géants technologiques tels qu’OpenAI et Meta visant à identifier les contenus générés par l’IA, et s’inscrit également dans la tendance croissante à la transparence et à la provenance des contenus.
Coca-Cola x Microsoft
The Coca-Cola Company et Microsoft ont conclu un partenariat stratégique de cinq ans pour accélérer leurs initiatives cloud et GenAI. Coca-Cola a investi 1,1 milliard de dollars dans les capacités cloud et GenAI de Microsoft, marquant une étape majeure dans sa transformation technologique en cours. Avec Microsoft Azure et l’IA, Coca-Cola vise à révolutionner toutes les fonctions de l’entreprise, du marketing à la production en passant par la gestion de la chaîne d’approvisionnement. En migrant toutes ses applications vers Microsoft Azure et en explorant les assistants numériques pilotés par l’IA, Coca-Cola s’engage à améliorer l’expérience client, à rationaliser ses opérations, à promouvoir l’innovation et à découvrir de nouvelles opportunités de croissance.
Contexte : Coca-Cola illustre comment les marques non technologiques peuvent utiliser l’intelligence artificielle pour acquérir un avantage concurrentiel. Grâce à l’IA, Coca-Cola a optimisé la gestion de sa chaîne d’approvisionnement, rationalisé ses processus de distribution et enrichi l’expérience client. Coca-Cola s'est récemment associé à OpenAI pour lancer la campagne « Masterpiece », qui met en avant l'approche marketing innovante de la marque.
L'IA dans les opérations de santé
Profluent Bio a exploité la puissance de GenAI pour développer un éditeur de gènes révolutionnaire appelé OpenCRISPR-1. L'entreprise a utilisé son modèle de langage propriétaire à grande échelle pour la conception de protéines, ProGen2, pour s'entraîner sur une base de données massive de protéines d'édition de gènes Cas9. Cette approche innovante a permis de créer de nouvelles protéines d'édition de gènes capables de modifier les cellules humaines. L'équipe a également utilisé un autre système d'IA pour générer l'ARN guide nécessaire à un ciblage précis. Bien que le logiciel de conception reste propriétaire, Profluent a décidé d'ouvrir OpenCRISPR-1 aux chercheurs, marquant ainsi une avancée majeure dans le domaine de l'édition de gènes.
Moderna, société pharmaceutique et biotechnologique basée à Cambridge, s'est associée à OpenAI pour intégrer ChatGPT Enterprise à l'ensemble de ses opérations. Soucieuse d'une adoption à grande échelle, Moderna a lancé un programme ambitieux visant à garantir la maîtrise de la technologie GenAI par tous ses employés. En favorisant une culture d'intelligence collective et en investissant dans un programme complet de gestion du changement, Moderna a obtenu des résultats impressionnants, avec notamment l'adoption réussie par plus de 80 % de ses employés d'un outil de chatbot IA basé sur l'API OpenAI mChat. De plus, Moderna a été pionnière dans l'utilisation de l'IA dans le développement d'essais cliniques et a lancé des solutions innovantes telles que Dose ID, qui simplifie l'analyse des données et améliore les processus décisionnels.
Pourquoi est-ce important ? Ces exemples illustrent comment l'IA contribue à améliorer le monde, notamment la santé.
Conférence sur le cinéma IA
AI on the Lot organise une conférence sur le cinéma IA le 16 mai 2024 aux LA Center Studios, qui attirera plus de 500 amateurs, cinéastes et professionnels de l'IA. L'événement proposera des projections de films, des tables rondes approfondies avec des leaders du secteur, des ateliers pratiques et des démonstrations en direct explorant les liens entre l'IA et la réalisation cinématographique.
La conférence AI on the Lot 2024 accueillera plusieurs intervenants de renom, dont Katja Reitemeyer, directrice de la science des données et de l'IA chez NVIDIA ; Kathryn Brillhart, superviseure de la production virtuelle pour des films comme Fallout et Rebel Moon ; et Chad Nelson, expert créatif chez OpenAI. La conférence se concentrera sur la manière dont la convergence de la technologie et de la créativité façonnera l'avenir du divertissement.
Alexander Shironosov, responsable de l'équipe R&D chez Everypixel, se penche sur les dernières versions des modèles d'IA :
LLM :
Mistral – Mixture of Experts Mixtral-8x22B : Un nouveau modèle de grande taille qui exploite une architecture mixte d'experts pour améliorer les performances et l'efficacité.
Lancement de Llama3 par Meta : Meta a lancé deux versions du modèle Llama3, avec des paramètres 8B et 70B. La version 8B offre des performances comparables à celles du modèle Llama2 70B, plus grand.
Phi 3 de Microsoft : Suite au déploiement réussi de phi1 et phi2 dans de petits VLM, Microsoft a lancé phi3. Les premières mesures basées sur l'entraînement de phi3 présentées par ShareGPT4v indiquent que phi3 surpasse les modèles plus lourds, suggérant un large potentiel d'adoption dans des applications similaires.
Initiative OpenELM d'Apple : Apple a lancé une série de petits modèles d'IA open source, appelés OpenELM, conçus pour les applications embarquées. La taille des modèles varie : 270 millions, 450 millions, 1,1 milliard et 3 milliards de paramètres.
Publication de Fineweb : Ensemble de données FineWeb, une collection de données textuelles du Web (CommonCrawl), publiée sous licence (ODC-By).
Mise à jour de Dolma : Dolma, un ensemble de données étiquetées de 3 000 milliards de contenus Web, de publications universitaires, de codes, de livres et de documents encyclopédiques, a publié une version mise à jour.
Modèle de base Arctic de Snowflake : Snowflake a lancé Snowflake Arctic et publié une analyse détaillée de son modèle, qui utilise une architecture experte mixte améliorant sa capacité à gérer diverses tâches d’IA.
Innovation de la startup Answer.AI : Answer.AI a publié un article et le code de son approche FSD/DORA, qui permet d’entraîner llama3 à grande échelle sur seulement deux cartes vidéo de 24 Go de mémoire vidéo chacune, démontrant ainsi une méthode efficace pour gérer l’entraînement de l’IA gourmande en ressources.
Débitmètre volumétrique (VLM) :
InternVL 1.5 : Ce modèle open source dispose d’un puissant encodeur visuel et est entraîné sur des jeux de données de haute qualité pour des images de différentes tailles, de 448 × 448 à 4 kx4 k. À certains égards, InternVL 1.5 surpasse les meilleurs modèles commerciaux tels que GPT-4v, Claude Opus et Gemini 1.5 Pro.
Nouveau benchmark pour tester les modèles de langage visuel (MLV) : Une nouvelle version du benchmark, conçue pour tester les modèles de langage visuel sur des images contenant beaucoup de texte, a été publiée. Ce benchmark vise à fournir une évaluation plus rigoureuse des performances des MLV dans la gestion des interactions visuelles-textuelles complexes, un élément essentiel à l'amélioration de ses applications concrètes.
Génération vidéo :
Modèle « tête parlante » de Microsoft : Microsoft a introduit un nouveau modèle qui génère des vidéos de « visages parlants » à partir d'entrées audio et de photos. Ce modèle utilise un modèle de diffusion et surpasse largement les méthodes précédentes sur tous les principaux indicateurs de performance. Cette version a le potentiel de révolutionner la création de contenu vidéo dynamique à partir d'images et de sons statiques.
Génération d'images :
Modèle texte-image Imgsys : Une nouvelle plateforme, Imgsys, a été lancée pour faciliter les comparaisons par paires et établir des notes Elo pour différents modèles texte-image. Cela inclut des points de contrôle pour des modèles tels que SDXL, ainsi que des modèles autonomes comparables à Pixart-Sigma.
Améliorations du modèle de diffusion de NVIDIA : NVIDIA a publié deux articles détaillant des méthodes permettant d'améliorer la qualité de la génération d'images à l'aide de modèles de diffusion sans réentraînement direct. La première méthode exploite la planification sans classificateur pour améliorer la netteté de l'image, tandis que la seconde optimise l'étape de débruitage pour optimiser encore davantage le rendu.
Adaptateur IP amélioré pour la génération de portraits : Nous avons développé un adaptateur IP amélioré pour générer des portraits précis et détaillés à partir de photographies. Cet outil utilise des techniques avancées de traitement d'image pour améliorer le réalisme et la qualité des portraits générés.
Accélération du modèle de diffusion de Meta : Meta a publié un article détaillant sa nouvelle méthode, « Imagine Flash », pour accélérer les modèles de diffusion grâce à une technique appelée « distillation inverse ». Cette méthode accélère considérablement le temps de traitement des modèles de diffusion tout en maintenant, voire en améliorant, la qualité des images générées.
Adobe Firefly v3 pour Photoshop : Adobe a présenté Firefly v3, une nouvelle version de son intégration à Photoshop. Cet outil permet aux utilisateurs de dégrader des objets spécifiques, de modifier les arrière-plans et de générer de nouvelles images de A à Z.