Nieuws

Rapport over trends in kunstmatige intelligentie, machine learning en data engineering

#Nieuws ·2023-09-06 15:40:24

Belangrijkste leerpunten

Generatieve AI, aangestuurd door grote taalmodellen (LLM's) zoals GPT-3 en GPT-4, heeft aan populariteit gewonnen in de AI- en machine learning-industrie en wordt breed toegepast in technologieën zoals ChatGPT.

Grote technologiebedrijven zoals Google en Meta hebben hun eigen generatieve AI-modellen aangekondigd, wat de toewijding van de industrie aan de ontwikkeling van deze technologieën aantoont.

Vectordatabases en embedded storage hebben aandacht gekregen vanwege hun rol in het verbeteren van de waarneembaarheid in generatieve AI-toepassingen.

Er is een groeiende bezorgdheid over verantwoorde en ethische AI, met oproepen voor strengere beveiligingsmaatregelen voor grote taalmodellen en een nadruk op het verbeteren van het leven van iedereen door middel van AI.

Moderne data engineering beweegt zich richting gedecentraliseerde en flexibele benaderingen, met concepten zoals datagrids die pleiten voor gefedereerde dataplatformen die over domeinen zijn verdeeld.

Trendrapporten bieden lezers een globaal overzicht van onderwerpen waar architecten en technologieleiders volgens ons aandacht aan zouden moeten besteden. Daarnaast helpen ze de redactie zich te concentreren op het schrijven van nieuws en het werven van auteurs voor innovatieve technologieën.


In dit jaarverslag onderzoeken de redacteuren de huidige stand van zaken op het gebied van AI, ML en data engineering, evenals opkomende trends waar je als software engineer, architect of data scientist op moet letten. We structureren de discussie in een technologie-adoptiecurve en geven ondersteunend commentaar om je te helpen begrijpen waar de zaken naartoe gaan.


Voor de podcast van dit jaar nodigde de redactie externe gast Sherin Thomas, software engineer bij Chime, uit om deel te nemen aan de discussie. Het volgende deel van het artikel vat enkele van deze trends samen en waar verschillende technologieën zich op de technologie-adoptiecurve bevinden.


Generatieve AI

Generatieve AI, waaronder grote taalmodellen (LLM's) zoals GPT-3, GPT-4 en ChatGPT, is een belangrijke speler geworden in de AI- en machine learning-industrie. Deze technologieën hebben veel aandacht gekregen, vooral gezien de vooruitgang die ze het afgelopen jaar hebben geboekt. We hebben een brede acceptatie van deze technologieën door gebruikers gezien, met name dankzij ChatGPT. Verschillende bedrijven zoals Google en Meta hebben hun eigen generatieve AI-modellen aangekondigd.


We verwachten dat de volgende stap een grotere focus zal zijn op LLMOps om deze grote taalmodellen in bedrijfsomgevingen te gebruiken. We zijn momenteel verdeeld over de vraag of hint engineering in de toekomst een hot topic zal worden, of dat de toepassingen ervan zo wijdverspreid zullen zijn dat iedereen kan bijdragen aan de gebruikte hints.


Vectordatabases en embedding stores

Met de opkomst van LLM-technologie krijgen vectordatabases en embedding stores steeds meer aandacht. Een interessante toepassing die steeds meer aandacht krijgt, is het gebruik van zin-embeddings om de waarneembaarheid van generatieve AI-toepassingen te verbeteren.


De behoefte aan vectorzoekdatabases komt voort uit de beperkingen van grote taalmodellen, die een beperkte lexicale geschiedenis hebben. Vectordatabases kunnen documentsamenvattingen opslaan als kenmerkvectoren die door deze taalmodellen worden gegenereerd, wat miljoenen of zelfs meer kenmerkvectoren kan opleveren. Met behulp van traditionele databases wordt het, naarmate de dataset groeit, steeds moeilijker om relevante documenten te vinden. Vectorzoekdatabases maken efficiënte overeenkomstenzoekopdrachten mogelijk, waardoor gebruikers de dichtstbijzijnde buren van een queryvector kunnen vinden en zo het zoekproces kunnen verbeteren.


Een opvallende trend is de toename van de financiering voor deze technologieën, wat aangeeft dat investeerders het belang ervan erkennen. De adoptie van deze technologieën door ontwikkelaars verloopt echter traag, maar zal naar verwachting de komende jaren versnellen. Vectorzoekdatabases zoals Pinecone, Milvus en open-sourceoplossingen zoals Chroma winnen aan populariteit. De keuze van de database hangt af van het specifieke toepassingsscenario en de aard van de te doorzoeken data.


Vectordatabases hebben hun potentieel bewezen in verschillende vakgebieden, waaronder aardobservatie. NASA gebruikt bijvoorbeeld zelflerende leer- en vectorzoektechnieken om satellietbeelden van de aarde te analyseren, zodat wetenschappers langetermijnveranderingen in weersverschijnselen zoals orkanen kunnen volgen.


Robotica en dronetechnologie

De kosten van robots dalen. Robots met een gebalanceerde poot waren vroeger moeilijk te verkrijgen, maar er zijn nu modellen die ongeveer $ 1.500 kosten. Dit stelt meer gebruikers in staat robotica in hun toepassingen te gebruiken. Het Robot Operating System (ROS) blijft het toonaangevende softwareframework op dit gebied, maar bedrijven zoals VIAM ontwikkelen ook middleware-oplossingen om de integratie en configuratie van plug-ins voor robotontwikkeling te vereenvoudigen.


We verwachten dat ontwikkelingen in ongeleid leren en fundamentele modellen zich zullen vertalen in krachtigere mogelijkheden. Zo zal de integratie van grote taalmodellen in het padplanningsgedeelte van een robot planning met natuurlijke taal mogelijk maken.


Verantwoorde en ethische AI

Naarmate AI de hele mensheid begint te beïnvloeden, raken mensen steeds meer geïnteresseerd in verantwoorde en ethische AI. Er zijn oproepen geweest voor strengere beveiligingsmaatregelen voor grote taalmodellen en frustratie over de output van dergelijke modellen, waardoor gebruikers worden herinnerd aan bestaande beveiligingsmaatregelen.


Ingenieurs moeten zich nog steeds realiseren dat het belangrijk is om het leven van iedereen te verbeteren, niet slechts dat van enkelen. We verwachten dat AI-regelgeving een vergelijkbare impact zal hebben als de Algemene Verordening Gegevensbescherming (AVG) van een paar jaar geleden.


We hebben al enkele AI-falen gezien als gevolg van onjuiste data. Data discovery, -manipulatie, -afstamming, -labeling en goede modelontwikkelingspraktijken zullen een focus worden. Data is cruciaal voor interpreteerbaarheid.


Data Engineering

De huidige stand van zaken in moderne data engineering is dat deze verschuift naar een meer gedecentraliseerde en flexibele aanpak om de groeiende hoeveelheid data te beheren. Er is een nieuw concept ontstaan, data mesh, om de uitdagingen aan te pakken die gecentraliseerde datamanagementteams vormen als knelpunten voor databewerkingen. Het bepleit een gefedereerd dataplatform over domeinpartities heen dat data als een product behandelt. Dit stelt domeineigenaren in staat eigenaarschap en controle te hebben over hun dataproducten, waardoor de afhankelijkheid van centrale teams afneemt. Hoewel veelbelovend, kan de implementatie van data mesh belemmeringen ondervinden met betrekking tot expertise en zijn geavanceerde tools en infrastructuur nodig om selfservicemogelijkheden mogelijk te maken.


Data-observatie is cruciaal geworden in data engineering, vergelijkbaar met systeemobservatie in applicatiearchitectuur. Observatie is cruciaal op alle niveaus, inclusief data-observatie, met name op het gebied van machine learning. Vertrouwen in data is cruciaal voor het succes van AI, en oplossingen voor data-observatie zijn essentieel voor het monitoren van datakwaliteit, modeldrift en exploratieve data-analyse om betrouwbare machine learning-resultaten te garanderen. Deze paradigmaverschuiving in databeheer en de integratie van observatiemogelijkheden in data- en machine learning-pipelines weerspiegelt de evolutie van het moderne data-engineeringlandschap.


Updates van de verklarende curve

Dit trendrapport bevat ook een bijgewerkte grafiek met onze voorspellingen voor de huidige stand van zaken van een aantal technologieën. De categorieën zijn gebaseerd op het boek Crossing the Chasm van Geoffrey Moore. We richten ons op de categorieën die de kloof nog niet hebben overbrugd.


Van innovators tot early adopters, een opvallende upgrade is "AI Coding Assistant". Hoewel het pas vorig jaar werd gelanceerd en bijna niemand het gebruikt, zien we steeds meer bedrijven het als service aanbieden aan hun medewerkers om hen efficiënter te maken. Het is geen standaardonderdeel van elke technologiestack en we onderzoeken nog steeds hoe we deze het meest effectief kunnen gebruiken, maar we denken dat de acceptatiegraad ervan zal blijven toenemen.


Wij zijn van mening dat Natural Language Processing (NLP) momenteel de kloof overbrugt. Dit is niet verwonderlijk, aangezien veel bedrijven na het enorme succes van ChatGPT proberen Generative AI-functies in hun producten te integreren. Daarom hebben we besloten de kloof te overbruggen en de Early Majority-categorie te betreden. Er is nog veel groeipotentieel op dit gebied en de tijd zal ons meer leren over de best practices en mogelijkheden van deze technologie.


Er zijn een paar categorieën om in de gaten te houden die nog helemaal geen beweging hebben gezien. Deze technologieën omvatten synthetische datageneratie, brein-computerinterfaces en robotica. Al deze technologieën lijken te zijn blijven steken in de categorie Innovators. De meest veelbelovende in dit opzicht is synthetische datageneratie, dat de laatste tijd meer aandacht heeft gekregen door de GenAI-hype. We zien steeds meer bedrijven praten over het genereren van meer trainingsdata, maar hebben nog niet genoeg applicaties gezien die deze data daadwerkelijk in hun stack gebruiken om het naar de Early Adopters-categorie te verplaatsen. Robotica staat al jaren in de schijnwerpers, maar de adoptiegraad is nog te laag om te garanderen dat er verandering in komt.


We hebben ook een paar nieuwe categorieën aan de grafiek toegevoegd. Een opvallende is Vector Search Databases, een bijproduct van de GenAI-hype. Naarmate ons begrip van hoe we concepten als vectoren kunnen weergeven blijft verbeteren, neemt de behoefte aan efficiënte opslag en terugwinning van vectoren toe. We hebben ook Explainable AI toegevoegd aan de categorie Innovators. Wij zijn van mening dat het vermogen van computers om uit te leggen waarom ze een bepaalde beslissing hebben genomen essentieel is voor brede toepassing in de strijd tegen hallucinaties en andere gevaren. We zien momenteel echter onvoldoende onderzoeksresultaten in de industrie om het naar een hogere categorie te promoveren.


Conclusie

De vakgebieden kunstmatige intelligentie, machine learning en data engineering zijn jaar na jaar booming. Zowel de technische mogelijkheden als de potentiële toepassingen zijn nog steeds booming. Voor de redactie is het spannend om deze vooruitgang zo dicht bij te staan en we kijken ernaar uit om er volgend jaar verslag van te blijven doen. In de podcast deden we een aantal voorspellingen voor het komende jaar, variërend van "Algemene kunstmatige intelligentie zal niet meer bestaan" tot "Autonome agenten zullen werkelijkheid worden."


相关标签:

Copyright © 2019-2025 Ai Master