Le principali notizie sull'intelligenza artificiale di aprile 2024
#Notizie ·2024-04-30 09:49:29
Nella rassegna di questo mese, evidenziamo le principali notizie di aprile sull'IA:
Adobe acquista video per la sua IA
Adobe sta attivamente acquistando filmati per sviluppare il suo generatore di testo-video basato sull'IA. L'azienda sta incoraggiando la sua rete di fotografi e artisti a inviare video che ritraggono azioni ed emozioni quotidiane, con un compenso medio di 2,62 dollari al minuto. Inoltre, Adobe sta valutando partnership con fornitori di IA terzi come Runway, Pika Labs e il modello Sora di OpenAI.
Il contesto: il crescente interesse dell'azienda nell'acquistare video da fotografi e artisti riflette una recente tendenza delle aziende ad affidarsi a contenuti con licenza per addestrare modelli di IA. Ottenendo le licenze appropriate, le aziende possono ridurre i rischi legali e ottenere al contempo set di dati di alta qualità per l'addestramento dei modelli.
Inoltre, Adobe introdurrà anche strumenti video basati sull'IA nella sua piattaforma di editing Premiere Pro e prevede di integrare i propri modelli video generativi basati sull'IA nella serie Firefly. Questi strumenti includono la possibilità di generare ed elaborare contenuti video utilizzando prompt di testo, con l'obiettivo di migliorare l'esperienza di editing dell'utente.
I dati di addestramento di Adobe Firefly sollevano preoccupazioni etiche
Il software di generazione di immagini Firefly di Adobe, elogiato per le sue pratiche etiche relative ai dati di addestramento, ha suscitato polemiche dopo che è stato rivelato che era stato addestrato utilizzando immagini provenienti da fonti come Midjourney.
Sebbene Adobe abbia inizialmente affermato che Firefly si basasse principalmente su immagini concesse in licenza da Adobe Stock, sembra che anche i contenuti generati dall'IA (anche da quelli dei suoi concorrenti) abbiano contribuito all'addestramento di Firefly. Adobe Stock è una delle poche piattaforme di foto stock che accetta contenuti generati da servizi di terze parti. Pertanto, poiché Adobe utilizza i propri contenuti per addestrare i propri algoritmi, l'inclusione di contenuti generati da terze parti in Adobe Stock ha inavvertitamente contribuito ai dati di addestramento di strumenti come Firefly. Eppure, nonostante le rivelazioni, Adobe continua ad affermare di controllare la qualità dei suoi set di dati:
"Ogni immagine inviata ad Adobe Stock, incluso un piccolo sottoinsieme di immagini generate con l'intelligenza artificiale, viene sottoposta a un rigoroso processo di revisione per garantire che non contenga proprietà intellettuale, marchi registrati, personaggi o loghi riconoscibili, né riferimenti ad artisti".
Portavoce di Adobe
Tra le righe: questa scoperta mette in discussione le affermazioni di Firefly di essere un'alternativa "sicura per le aziende" e solleva interrogativi sulla trasparenza e sugli standard etici nello sviluppo di modelli di intelligenza artificiale.
Lancio globale di Meta AI
Basata su Meta Llama 3, Meta AI sta espandendo la sua portata globale con nuove funzionalità progettate per rendere le attività quotidiane più semplici e piacevoli.
Meta AI è ora disponibile su Facebook, Instagram, WhatsApp e Messenger, ed è disponibile in più di una dozzina di paesi, tra cui Australia, Canada e Nigeria. Gli utenti possono ora affidarsi a Meta AI per completare una varietà di attività, dal consigliare ristoranti in base a preferenze specifiche alla spiegazione di concetti complessi come i tratti genetici.
Inoltre, Meta AI è stata integrata nell'ecosistema Meta, includendo funzionalità di ricerca e capacità di generazione di immagini, migliorando l'esperienza utente su tutte le piattaforme. Con la funzione Imagine, gli utenti possono generare immagini a partire da testo in tempo reale, con una qualità dell'immagine più nitida e il supporto per l'aggiunta di testo alle immagini.
Contesto: Mentre la corsa all'IA continua, Meta sta chiaramente intensificando i suoi sforzi per ridurre il divario con i suoi concorrenti e cercare di diventare leader nel campo dell'intelligenza artificiale.
Snap applica filigrane alle immagini generate dall'IA
Snap ha annunciato l'intenzione di applicare filigrane alle immagini generate dall'IA sulla sua piattaforma con un logo Snap semitrasparente e un'emoji brillante come filigrane. L'iniziativa mira a evidenziare le immagini create utilizzando gli strumenti di Snap AI, aumentando così la trasparenza e la sicurezza degli utenti.
L'azienda ha chiarito che la rimozione di queste filigrane violerebbe i suoi termini d'uso, ma il metodo per rilevare tali rimozioni non è ancora stato reso pubblico. Inoltre, Snap ha introdotto indicatori di funzionalità IA e schede di contesto per le immagini generate dall'IA per fornire agli utenti maggiori informazioni. Tra le righe: la decisione di Snap è in linea con iniziative simili di colossi tecnologici come OpenAI e Meta per contrassegnare i contenuti generati dall'intelligenza artificiale, ed è anche in linea con la crescente tendenza alla trasparenza e alla provenienza dei contenuti.
Coca-Cola x Microsoft
The Coca-Cola Company e Microsoft hanno avviato una partnership strategica quinquennale per accelerare le iniziative cloud e GenAI. Coca-Cola ha investito 1,1 miliardi di dollari nelle capacità cloud e GenAI di Microsoft, segnando un passo importante nella sua continua trasformazione tecnologica. Con Microsoft Azure e l'intelligenza artificiale, Coca-Cola mira a rivoluzionare ogni funzione aziendale, dal marketing alla produzione e alla gestione della supply chain. Spostando tutte le applicazioni su Microsoft Azure ed esplorando assistenti digitali basati sull'intelligenza artificiale, Coca-Cola si impegna a migliorare l'esperienza del cliente, semplificare le operazioni, promuovere l'innovazione e scoprire nuove opportunità di crescita.
Premessa: Coca-Cola è un esempio di come i marchi non tecnologici possano utilizzare l'intelligenza artificiale per ottenere un vantaggio competitivo. Utilizzando l'intelligenza artificiale, Coca-Cola ha migliorato la gestione della supply chain, semplificato i processi di distribuzione e migliorato l'esperienza del cliente. Inoltre, Coca-Cola ha recentemente collaborato con OpenAI per lanciare la campagna "Masterpiece", che mette in mostra l'approccio di marketing innovativo del marchio.
Intelligenza Artificiale nelle operazioni sanitarie
Profluent Bio ha sfruttato la potenza di GenAI per sviluppare un editor genetico rivoluzionario chiamato OpenCRISPR-1. L'azienda ha utilizzato il suo modello linguistico proprietario su larga scala per la progettazione di proteine, ProGen2, per addestrarsi su un enorme database di proteine Cas9 per l'editing genetico. Questo approccio innovativo ha infine creato nuove proteine per l'editing genetico in grado di modificare le cellule umane. Il team ha anche utilizzato un altro sistema di intelligenza artificiale per generare l'RNA guida necessario per un targeting preciso. Sebbene il software di progettazione rimanga proprietario, Profluent ha deciso di rendere disponibile OpenCRISPR-1 ai ricercatori, segnando un importante progresso nel campo dell'editing genetico.
Moderna, un'azienda farmaceutica e biotecnologica con sede a Cambridge, ha collaborato con OpenAI per integrare ChatGPT Enterprise in tutte le sue operazioni. Impegnata in un'ampia adozione, Moderna ha lanciato un ambizioso programma per garantire che tutti i dipendenti siano competenti nella tecnologia GenAI. Promuovendo una cultura di intelligenza collettiva e investendo in un programma completo di gestione del cambiamento, Moderna ha ottenuto risultati straordinari, tra cui oltre l'80% dei dipendenti che ha adottato con successo uno strumento di chatbot basato sull'API OpenAI mChat. Inoltre, Moderna è stata pioniera nell'uso della tecnologia di intelligenza artificiale nello sviluppo di studi clinici e ha lanciato soluzioni innovative come Dose ID, che semplifica l'analisi dei dati e migliora i processi decisionali.
Perché è importante: questi esempi illustrano come l'intelligenza artificiale stia contribuendo a cambiare il mondo, in particolare il settore sanitario, in meglio.
Conferenza cinematografica sull'intelligenza artificiale
AI on the Lot si sta preparando per una conferenza cinematografica sull'intelligenza artificiale il 16 maggio 2024 presso gli LA Center Studios, che attirerà oltre 500 appassionati di intelligenza artificiale, registi e professionisti. L'evento prevede proiezioni di film, tavole rotonde approfondite con leader del settore, workshop pratici e dimostrazioni dal vivo che esploreranno l'intersezione tra intelligenza artificiale e produzione cinematografica.
La conferenza AI on the Lot del 2024 vedrà la partecipazione di numerosi relatori di alto profilo, tra cui Katja Reitemeyer, direttrice di data science e IA presso NVIDIA; Kathryn Brillhart, supervisore della produzione virtuale per film come Fallout e Rebel Moon; e Chad Nelson, esperto creativo presso OpenAI. La conferenza si concentrerà su come la convergenza tra tecnologia e creatività plasmerà il futuro dell'intrattenimento.
Alexander Shironosov, responsabile del team di ricerca e sviluppo di Everypixel, approfondisce le ultime versioni dei modelli di IA:
LLM:
Mistral – Mixture of Experts Mixtral-8x22B: un nuovo modello di grandi dimensioni che sfrutta un'architettura basata su un mix di esperti per migliorare prestazioni ed efficienza.
Lancio di Llama3 da parte di Meta: Meta ha lanciato due versioni del modello Llama3, con parametri 8B e 70B. La versione 8B offre prestazioni pari a quelle del modello Llama2 da 70B, più grande. Phi 3 di Microsoft: dopo il successo dell'implementazione di phi1 e phi2 in piccoli VLM, Microsoft ha lanciato phi3. Le prime metriche basate sull'addestramento di phi3, presentate da ShareGPT4v, indicano che phi3 supera modelli più complessi, suggerendo un ampio potenziale di adozione in applicazioni simili.
Iniziativa OpenELM di Apple: Apple ha lanciato una serie di piccoli modelli di intelligenza artificiale open source, chiamati OpenELM, progettati per applicazioni su dispositivo. Le dimensioni dei modelli variano: 270 milioni, 450 milioni, 1,1 miliardi e 3 miliardi di parametri.
Rilascio di Fineweb: il dataset FineWeb, una raccolta di dataset testuali dal web (CommonCrawl), rilasciato su licenza (ODC-By).
Aggiornamento di Dolma: Dolma, un dataset con 3 trilioni di etichette contenente contenuti web, pubblicazioni accademiche, codice, libri e materiale enciclopedico, ha rilasciato una versione aggiornata. Modello base artico di Snowflake: Snowflake ha rilasciato Snowflake Arctic e un'analisi dettagliata del suo modello, che utilizza un'architettura mixed-expert che ne migliora la capacità di gestire una varietà di attività di intelligenza artificiale.
Innovazione dalla startup Answer.AI: Answer.AI ha pubblicato un articolo e il codice per il suo approccio FSD/DORA, che consente di addestrare lama3 su larga scala su sole due schede video con 24 GB di memoria video ciascuna, dimostrando un modo efficiente per gestire l'addestramento di intelligenza artificiale ad alta intensità di risorse.
Misuratore di portata volumetrica (VLM):
InternVL 1.5: questo modello open source è dotato di un potente encoder visivo ed è addestrato su set di dati di alta qualità per immagini di varie dimensioni, da 448×448 a 4kx4k. Per certi versi, InternVL 1.5 supera i migliori modelli commerciali come GPT-4v, Claude Opus e Gemini 1.5 Pro. Nuovo benchmark per il test dei modelli di linguaggio visivo (VLM): è stata rilasciata una nuova versione del benchmark progettato per testare i modelli di linguaggio visivo su immagini contenenti molto testo. Questo benchmark mira a fornire una valutazione più rigorosa delle prestazioni di VLM nella gestione di interazioni visive-testuali complesse, fondamentale per il miglioramento delle sue applicazioni reali.
Generazione video:
Modello Talking Head di Microsoft: Microsoft ha introdotto un nuovo modello che genera video di "volti parlanti" da input audio e foto. Il modello utilizza un modello di diffusione e supera significativamente i metodi precedenti su tutti i principali parametri prestazionali. Questa versione ha il potenziale per rivoluzionare il modo in cui i contenuti video dinamici vengono creati da immagini e suoni statici.
Generazione immagini:
Modello Text-to-Image Imgsys: è stata lanciata una nuova piattaforma chiamata Imgsys per facilitare i confronti a coppie e costruire valutazioni Elo per vari modelli Text-to-Image. Questo include checkpoint per modelli come SDXL e modelli standalone paragonabili a Pixart-Sigma. Miglioramenti del modello di diffusione di NVIDIA: NVIDIA ha pubblicato due documenti che descrivono dettagliatamente i metodi per migliorare la qualità della generazione delle immagini utilizzando modelli di diffusione senza riaddestramento diretto del modello. Il primo metodo sfrutta la schedulazione senza classificatore per migliorare la nitidezza delle immagini, mentre il secondo ottimizza la fase di denoising per ottimizzare ulteriormente l'output.
Adattatore IP migliorato per la generazione di ritratti: abbiamo sviluppato un adattatore IP migliorato per generare ritratti accurati e dettagliati da fotografie. Lo strumento utilizza tecniche avanzate di elaborazione delle immagini per migliorare il realismo e la qualità dei ritratti generati.
Accelerazione del modello di diffusione di Meta: Meta ha pubblicato un documento che descrive dettagliatamente il suo nuovo metodo, "Imagine Flash", per accelerare i modelli di diffusione attraverso una tecnica chiamata "distillazione inversa". Questo metodo accelera significativamente i tempi di elaborazione dei modelli di diffusione, mantenendo o addirittura migliorando la qualità delle immagini generate.
Adobe Firefly v3 per Photoshop: Adobe ha introdotto Firefly v3, una nuova versione della sua integrazione in Photoshop. Lo strumento consente agli utenti di degradare oggetti specifici, modificare gli sfondi e generare nuove immagini da zero.