Notizie

Rapporto sulle tendenze nell'intelligenza artificiale, nell'apprendimento automatico e nell'ingegneria dei dati

#Notizie ·2023-09-06 15:40:24

Punti chiave

L'IA generativa, guidata da modelli linguistici di grandi dimensioni (LLM) come GPT-3 e GPT-4, ha acquisito importanza nel settore dell'IA e del machine learning ed è ampiamente adottata da tecnologie come ChatGPT.

Importanti aziende tecnologiche come Google e Meta hanno annunciato i propri modelli di IA generativa, dimostrando l'impegno del settore nel promuovere queste tecnologie.

I database vettoriali e l'archiviazione integrata hanno ricevuto attenzione per il loro ruolo nel migliorare l'osservabilità nelle applicazioni di IA generativa.

Vi è una crescente preoccupazione per un'IA responsabile ed etica, con richieste di misure di sicurezza più rigorose per i modelli linguistici di grandi dimensioni e un'enfasi sul miglioramento della vita di tutti attraverso l'IA.

L'ingegneria dei dati moderna si sta muovendo verso approcci decentralizzati e flessibili, con concetti come le griglie di dati che promuovono piattaforme di dati federate e suddivise tra domini.

I report sulle tendenze offrono ai lettori una panoramica di alto livello sugli argomenti a cui riteniamo che architetti e leader tecnologici dovrebbero prestare attenzione. Inoltre, aiutano il team editoriale a concentrarsi sulla scrittura di notizie e sul reclutamento di autori di articoli per occuparsi di tecnologie innovative.


In questo report annuale, i redattori analizzano lo stato attuale dell'intelligenza artificiale (IA), del machine learning (ML) e dell'ingegneria dei dati, nonché le tendenze emergenti a cui dovresti prestare attenzione come ingegnere del software, architetto o data scientist. Organizziamo la discussione in una curva di adozione tecnologica e forniamo commenti di supporto per aiutarti a capire la direzione che sta prendendo il mondo.


Per il podcast di quest'anno, il team editoriale ha invitato l'ospite esterna Sherin Thomas, ingegnere del software presso Chime, a partecipare alla discussione. La sezione seguente dell'articolo riassume alcune di queste tendenze e la posizione delle diverse tecnologie sulla curva di adozione.


IA generativa

L'IA generativa, inclusi i modelli linguistici di grandi dimensioni (LLM) come GPT-3, GPT-4 e ChatGPT, è diventata una forza trainante nel settore dell'IA e del machine learning. Queste tecnologie hanno ricevuto molta attenzione, soprattutto considerando i progressi compiuti nell'ultimo anno. Abbiamo assistito a un'ampia adozione di queste tecnologie da parte degli utenti, trainata soprattutto da ChatGPT. Diverse aziende come Google e Meta hanno annunciato i propri modelli di IA generativa.


Prevediamo che il prossimo passo sarà una maggiore attenzione ai LLMOps per utilizzare questi modelli linguistici di grandi dimensioni in ambienti aziendali. Al momento siamo divisi sul fatto che l'ingegneria degli hint sarà un argomento di grande attualità in futuro o se le sue applicazioni saranno così diffuse che chiunque potrà contribuire agli hint utilizzati.


Database vettoriali e archivi di incorporamento

Con l'avvento della tecnologia LLM, i database vettoriali e gli archivi di incorporamento stanno guadagnando sempre più attenzione. Un'applicazione interessante che sta riscuotendo sempre più interesse è l'utilizzo di incorporamenti di frasi per migliorare l'osservabilità delle applicazioni di IA generativa.


La necessità di database di ricerca vettoriale deriva dai limiti dei modelli linguistici di grandi dimensioni, che hanno una cronologia lessicale limitata. I database vettoriali possono memorizzare riassunti di documenti come vettori di caratteristiche generati da questi modelli linguistici, che possono produrre milioni o persino più vettori di caratteristiche. Utilizzando i database tradizionali, con la crescita del set di dati, diventa sempre più difficile trovare documenti pertinenti. I database di ricerca vettoriale consentono ricerche di similarità efficienti, consentendo agli utenti di trovare i vicini più prossimi di un vettore di query, migliorando così il processo di ricerca.


Una tendenza degna di nota è l'aumento dei finanziamenti per queste tecnologie, a dimostrazione del riconoscimento della loro importanza da parte degli investitori. Tuttavia, l'adozione di queste tecnologie da parte degli sviluppatori è stata lenta, ma si prevede un'accelerazione nei prossimi anni. Database di ricerca vettoriale come Pinecone, Milvus e soluzioni open source come Chroma stanno guadagnando terreno. La scelta del database dipende dallo specifico scenario applicativo e dalla natura dei dati ricercati.


I database vettoriali hanno dimostrato il loro potenziale in vari campi, tra cui l'osservazione della Terra. Ad esempio, la NASA utilizza tecniche di apprendimento autosupervisionato e di ricerca vettoriale per analizzare le immagini satellitari terrestri e aiutare gli scienziati a monitorare i cambiamenti a lungo termine nei fenomeni meteorologici come gli uragani.


Robotica e tecnologia dei droni

Il costo dei robot sta diminuendo. Un tempo i robot bilanciatori con zampe erano difficili da acquistare, ma ora esistono modelli che costano circa 1.500 dollari. Questo consente a un maggior numero di utenti di utilizzare la robotica nelle proprie applicazioni. Il Robot Operating System (ROS) rimane il framework software leader in questo campo, ma aziende come VIAM stanno anche sviluppando soluzioni middleware per semplificare l'integrazione e la configurazione di plugin per lo sviluppo di robot.


Prevediamo che i progressi nell'apprendimento non supervisionato e nei modelli fondamentali si tradurranno in funzionalità più potenti. Ad esempio, l'integrazione di modelli linguistici di grandi dimensioni nella parte di pianificazione del percorso di un robot consentirà la pianificazione tramite linguaggio naturale.


IA responsabile ed etica

Con l'IA che inizia a interessare tutta l'umanità, le persone sono sempre più interessate a un'IA responsabile ed etica. Sono state avanzate richieste di misure di sicurezza più severe per i modelli linguistici di grandi dimensioni e si è manifestata frustrazione per l'output di tali modelli, ricordando agli utenti le misure di sicurezza esistenti.


Gli ingegneri devono comunque tenere presente la necessità di migliorare la vita di tutti, non solo di pochi. Prevediamo che la regolamentazione dell'IA avrà un impatto simile a quello del Regolamento generale sulla protezione dei dati (GDPR) di qualche anno fa.


Abbiamo già assistito ad alcuni fallimenti nell'IA dovuti a dati errati. La scoperta, la manipolazione, la discendenza dei dati, l'etichettatura e le buone pratiche di sviluppo dei modelli diventeranno un punto focale. I dati sono fondamentali per l'interpretabilità.


Ingegneria dei dati

Lo stato attuale dell'ingegneria dei dati moderna è che si sta spostando verso un approccio più decentralizzato e flessibile per gestire il crescente volume di dati. Un nuovo concetto, il data mesh, è emerso per affrontare le sfide dei team di gestione dei dati centralizzati che stanno diventando colli di bottiglia per le operazioni sui dati. Esso promuove una piattaforma dati federata tra le partizioni di dominio che tratta i dati come un prodotto. Ciò consente ai proprietari di dominio di avere la proprietà e il controllo sui propri prodotti dati, riducendo la dipendenza dai team centrali. Sebbene promettente, l'adozione del data mesh può incontrare barriere legate alle competenze e richiede strumenti e infrastrutture avanzati per abilitare funzionalità self-service.


L'osservabilità dei dati è diventata fondamentale nell'ingegneria dei dati, simile all'osservabilità dei sistemi nell'architettura applicativa. L'osservabilità è fondamentale a tutti i livelli, inclusa l'osservabilità dei dati, soprattutto nel campo del machine learning. L'affidabilità nei dati è fondamentale per il successo dell'intelligenza artificiale e le soluzioni di osservabilità dei dati sono essenziali per monitorare la qualità dei dati, la deriva dei modelli e l'analisi esplorativa dei dati per garantire risultati di machine learning affidabili. Questo cambio di paradigma nella gestione dei dati e nell'integrazione dell'osservabilità tra pipeline di dati e apprendimento automatico riflette l'evoluzione del panorama moderno dell'ingegneria dei dati.


Aggiornamenti alla curva esplicativa

Questo report sulle tendenze include anche un grafico aggiornato che mostra le nostre previsioni sullo stato attuale di alcune tecnologie. Le categorie si basano sul libro "Crossing the Chasm" di Geoffrey Moore. Ci concentriamo sulle categorie che non hanno ancora superato il baratro.


Dagli innovatori ai primi utilizzatori, un aggiornamento degno di nota è "AI Coding Assistant". Sebbene sia stato lanciato solo l'anno scorso e quasi nessuno lo utilizzi, stiamo vedendo sempre più aziende offrirlo come servizio ai propri dipendenti per renderli più efficienti. Non è una componente predefinita di ogni stack tecnologico e stiamo ancora esplorando come utilizzarlo nel modo più efficace, ma crediamo che il suo tasso di adozione continuerà a crescere.


Riteniamo che l'area che attualmente sta superando il baratro sia l'elaborazione del linguaggio naturale. Ciò non sorprende, poiché dopo l'enorme successo di ChatGPT, molte aziende stanno cercando di integrare funzionalità di intelligenza artificiale generativa nei loro prodotti. Pertanto, abbiamo deciso di lasciarla attraversare il baratro ed entrare nella categoria Early Majority. C'è ancora molto potenziale di crescita in questo settore e il tempo ci dirà di più sulle migliori pratiche e sulle potenzialità di questa tecnologia.


Ci sono alcune categorie da tenere d'occhio che non hanno visto alcun movimento. Queste tecnologie includono la generazione di dati sintetici, le interfacce cervello-computer e la robotica. Tutte queste tecnologie sembrano essere rimaste bloccate nella categoria Innovators. La più promettente in questo senso è il tema della generazione di dati sintetici, che ha ricevuto maggiore attenzione di recente con l'entusiasmo per la GenAI. Vediamo sempre più aziende che parlano di generare più dati di training, ma non abbiamo visto abbastanza applicazioni che effettivamente utilizzano questi dati nel loro stack per spostarli nella categoria Early Adopter. La robotica è sotto i riflettori da molti anni, ma il suo tasso di adozione è ancora troppo basso perché possiamo garantire che cambierà.


Abbiamo anche introdotto alcune nuove categorie nel grafico. Una degna di nota è quella dei database di ricerca vettoriale, che è un sottoprodotto della mania per la GenAI. Con il continuo miglioramento della nostra comprensione di come rappresentare i concetti come vettori, è aumentata la necessità di un'archiviazione e di un recupero efficienti dei vettori. Abbiamo anche aggiunto l'IA spiegabile alla categoria Innovatori. Riteniamo che la capacità dei computer di spiegare perché hanno preso una determinata decisione sia essenziale per un'applicazione diffusa nella lotta alle allucinazioni e ad altri pericoli. Tuttavia, attualmente non vediamo sufficienti risultati di ricerca nel settore per promuoverla a una categoria superiore.


Conclusione

I campi dell'intelligenza artificiale, dell'apprendimento automatico e dell'ingegneria dei dati sono in forte espansione anno dopo anno. Sia le capacità tecniche che le potenziali applicazioni sono ancora in forte espansione. Per i redattori, è entusiasmante essere così vicini a questo progresso e non vediamo l'ora di continuare a parlarne il prossimo anno. Nel podcast, abbiamo formulato alcune previsioni per l'anno a venire, che vanno da "L'intelligenza artificiale generale non esisterà più" a "Gli agenti autonomi diventeranno realtà".


相关标签:

Copyright © 2019-2025 Ai Master