Nieuws

De stand van zaken op het gebied van AI in 2019: doorbraken in machine learning, natuurlijke taalverwerking, gaming en kennisgrafieken

#Nieuws ·2019-07-08 06:41:37

Kunstmatige intelligentie (AI) is een van de snelst groeiende vakgebieden van vandaag. Het volgen en evalueren van de ontwikkeling van AI vereist niet alleen constante aandacht, maar ook het vermogen om vanuit meerdere dimensies te analyseren en te evalueren. Dit is precies wat Nathan Benaich, oprichter van Air Street Capital en RAAIS, en Ian Hogarth, AI-investeerder en gasthoogleraar aan het IIPP van University College London, doen.


Ook: Kunstmatige intelligentie via neurowetenschappen ZDNet YouTube


In een presentatie van 136 dia's getiteld "2019 State of Artificial Intelligence Report", die op 28 juni werd gepubliceerd, introduceerden Benaich en Hogarth uitgebreid verschillende aspecten van AI: technologische doorbraken en hun mogelijkheden, het aanbod, de vraag en de concentratie van talent in het vakgebied, huidige en toekomstige grote platforms voor AI-gedreven innovatie, financiering en toepassingsgebieden, AI-politieke onderwerpen en AI in China.


Benaich en Hogarth zijn meer dan alleen durfkapitalisten: beiden hebben een uitgebreide AI-achtergrond en hebben deelgenomen aan talloze AI-projecten, van onderzoek tot startups. Daarnaast maakten ze gebruik van de expertise van vooraanstaande figuren zoals François Chollet, AI-onderzoeker bij Google en hoofd van het Keras deep learning-framework, Kai-Fu Lee, thought leader op het gebied van durfkapitaal en AI, en Sebastian Riedel, AI-onderzoeker bij Facebook.


Dit gezamenlijke werk brengt een schat aan expertise, ervaring en kennis samen. Nadat we het rapport hadden ontdekt en gelezen, namen we contact op met Benaich voor een uitgebreid interview. We hebben het rapport en Benaichs inzichten samengevat in een tweedelige serie, waarin we eerst technologische doorbraken en mogelijkheden onderzoeken en vervolgens de impact ervan en de politieke implicaties van AI.


AI decoderen

Als je geïnteresseerd bent in AI, is dit waarschijnlijk niet het eerste AI-rapport dat je bent tegengekomen. Velen zijn bekend met FirstMark's The Data and AI Landscape (geschreven door Matt Turck en Lisa Xu) en MMC Ventures' The State of AI: The Divergence. Updates van deze drie rapporten werden ongeveer tegelijkertijd uitgebracht. Hoewel dit tot verwarring kan leiden, omdat er uiteraard sprake is van overlap, zijn er ook verschillen in inhoud, methodologie en format.


Het rapport van FirstMark is grondiger en behandelt spelers in alles van data-infrastructuur tot AI. Het rapport behandelt ook de evolutie van het big data-landschap naar het data- en AI-landschap. Zoals we eerder al aangaven, is de evolutie van big data naar AI een natuurlijk proces. De visie van MMC Ventures verschilt, omdat deze abstracter is en wellicht geschikter voor het managementniveau. De twee rapporten hebben verschillende perspectieven en gaan niet over partij kiezen - elk rapport heeft zijn eigen unieke kenmerken.


Eerst vroegen we Benaich waarom ze dit deden: waarom zouden ze ongetwijfeld waardevolle kennis delen, er extra moeite voor doen, en dat schijnbaar gratis?


Benaich gaf aan dat ze geloven dat AI de technologische vooruitgang zal vermenigvuldigen in onze steeds digitalere, datagedreven wereld. Dit komt omdat alles om ons heen, van cultuur tot consumentenproducten, een product is van intelligentie:


Wij geloven dat er een groeiende behoefte is aan inzicht in de huidige status van AI in meerdere vakgebieden (onderzoek, industrie, talent, politiek en China), dat zowel toegankelijk als gedetailleerd en nauwkeurig is. Ons doel met de publicatie van het rapport is om een diepgaandere discussie te stimuleren over de ontwikkeling van AI en de impact ervan op de toekomst.


Het rapport bereikt de doelen die Benaich in zijn reactie stelde. De eerste 40 pagina's van het rapport worden gepresenteerd in de vorm van slides, met de nadruk op de voortgang van AI-onderzoek - technologische doorbraken en de mogelijkheden ervan. Onderwerpen die aan bod komen zijn onder andere reinforcement learning, gamingtoepassingen en toekomstige richtingen, doorbraken in natuurlijke taalverwerking, deep learning in de geneeskunde en AutoML.


Ook: Komt buitenaardse AI ons bezoeken? ZDNet YouTube


Reinforcement learning, games en leren in de echte wereld

Reinforcement learning is een gebied binnen machine learning dat de afgelopen tien jaar veel aandacht heeft gekregen van onderzoekers. Benaich en Hogarth definiëren het als "een softwareagent die doelgericht gedrag leert door vallen en opstaan in een omgeving die beloningen of straffen biedt op basis van de acties (een zogenaamd "beleid") die de agent onderneemt om zijn doelen te bereiken."


Een groot deel van de vooruitgang op het gebied van reinforcement learning is gerelateerd aan het trainen van AI om games te spelen die menselijke prestaties evenaren of overtreffen. StarCraft II, Quake III: Arena en Montezuma's Revenge zijn er maar een paar.


Belangrijker dan de sensatiezucht van "AI verslaat mensen" is echter de manier waarop reinforcement learning deze resultaten kan bereiken: game-gedreven leren, de combinatie van simulatie en de echte wereld, en nieuwsgierigheidgedreven exploratie. Kunnen we AI trainen door games te spelen?


Als kinderen leren we complexe vaardigheden en gedragingen door verschillende strategieën en gedragingen te leren en te oefenen op manieren met een laag risico (zoals spelen). Met behulp van het concept van gesuperviseerde games hebben onderzoekers robots besturingsvaardigheden gegeven waarmee ze beter met interferentie kunnen omgaan dan wanneer ze getraind worden met behulp van gesuperviseerde demonstraties van vaardigheden van experts.


Bij reinforcement learning leren agenten taken door middel van trial-and-error. Ze moeten een balans vinden tussen exploratie (het uitproberen van nieuw gedrag) en exploitatie (het herhalen van effectief gedrag). In de echte wereld zijn beloningen moeilijk expliciet te coderen. Een mogelijke oplossing is om de observaties van de reinforcement learning agent in zijn omgeving in het geheugen op te slaan en hem te belonen wanneer hij een observatie bereikt die "niet in het geheugen bestaat".


De ideeën die in bovenstaand rapport worden aangehaald, lijken even goed en natuurlijk. Kan het exploiteren van deze ideeën de toekomstige richting van kunstmatige intelligentie zijn? Benaich wees erop dat games een vruchtbare bodem vormen voor het trainen, evalueren en verbeteren van verschillende leeralgoritmen, maar hij stelde ook enkele vragen:


Data die in virtuele omgevingen worden gegenereerd, zijn meestal goedkoper en breder beschikbaar, wat zeer nuttig is voor experimenten. Bovendien kan tijdens de modelontwikkeling de complexiteit van de spelomgeving worden aangepast aan de experimentele doelen.


De meeste games simuleren de echte wereld en de rijke nuances ervan echter niet accuraat. Dit betekent dat ze een goed startpunt vormen, maar geen doel op zich.


Ook: AI in de toeleveringsketen begrijpen ZDNet YouTube


Natuurlijke taalverwerking en gezond verstand redeneren

Zoals Benaich en Hogarth opmerken, was dit een belangrijk jaar voor natuurlijke taalverwerking (NLP): BERT en Transformer van Google AI, ELMo van het Allen Institute, Transformer van OpenAI, ULMFiT van Ruder en Howard en MT-DNN van Microsoft hebben aangetoond dat vooraf getrainde taalmodellen de prestaties bij diverse NLP-taken aanzienlijk kunnen verbeteren.


Het leren van zowel hoogwaardige als laagwaardige kenmerken door middel van vooraf getrainde modellen heeft een revolutie teweeggebracht in computer vision, grotendeels dankzij ImageNet, een dataset met meer dan 20.000 categorieën. Een typische categorie, zoals 'ballon' of 'aardbei', bestaat uit honderden geannoteerde afbeeldingen.


Sinds 2010 organiseert het ImageNet-project een jaarlijkse softwarewedstrijd, de ImageNet Large Scale Visual Recognition Challenge (ILSVRC), waarin softwareprogramma's strijden om objecten en scènes correct te classificeren en detecteren. De uitdaging maakt gebruik van een "dunne" lijst van duizend niet-overlappende categorieën en is een drijvende kracht geworden in de geleidelijke verbetering van computer vision-technologie.


ImageNet.jpg

ImageNet is een set zorgvuldig geselecteerde datasets voor computer vision-training die de huidige stand van zaken heeft bepaald. Bron afbeelding: Nvidia


Vorig jaar werden vergelijkbare empirische doorbraken bereikt in het voortrainen van taalmodellen op grote tekstcorpora om taalkenmerken op hoog en laag niveau te leren. In tegenstelling tot ImageNet worden deze taalmodellen meestal getraind op grote hoeveelheden openbaar beschikbare, d.w.z. niet-gelabelde tekst van het web.


Deze aanpak kan verder worden uitgebreid om voordelen te genereren in NLP-taken en veel nieuwe commerciële toepassingen te ontsluiten, net zoals transfer learning van ImageNet heeft geleid tot meer industriële toepassingen van computer vision.


Benaich en Hogarth benadrukken de GLUE-competitie, die een enkele benchmark biedt voor het evalueren van de prestaties van NLP-systemen voor een reeks taken zoals logica, gezond verstand en lexicale semantiek.


Om de snelheid van de vooruitgang in natuurlijke taalverwerking (NLP) aan te tonen, voegen ze eraan toe dat de state-of-the-art GLUE-score in 13 maanden is verbeterd van 69 naar 88. De menselijke basislijn is 87. De vooruitgang is veel sneller dan verwacht en er is een nieuwe benchmark, SuperGLUE, gelanceerd.


Taal is echter een bijzonder aspect van de menselijke cognitie. Het is nauw verwant aan redeneren op basis van gezond verstand. Ook redeneren op basis van gezond verstand heeft vooruitgang geboekt. We hebben een recente studie van Salesforce gezien die de state-of-the-art met 10% heeft verbeterd.


Onderzoekers van New York University hebben aangetoond dat neurale modellen, door generatief te trainen op redeneerkennis uit een dataset, eenvoudige vaardigheden op basis van gezond verstand kunnen verwerven en kunnen redeneren over voorheen ongeziene gebeurtenissen. Deze aanpak bouwt voort op werk zoals het Cyc-kennisbankproject, dat in de jaren 80 van start ging en bekendstaat als 's werelds langstlopende AI-project.


Ook: Trends in Machine Learning en AI ZDNet YouTube


De weg vooruit: deep learning en domeinkennis combineren?


We vroegen Benaich naar zijn mening over het combineren van deep learning met domeinkennis voor NLP, aangezien experts zoals David Talbot van Yandex dit als een veelbelovende richting beschouwen. Benaich is het ermee eens dat het combineren van deep learning met domeinkennis een vruchtbaar pad is om te verkennen:


"Vooral wanneer het doel van een AI-project is om echte problemen op te lossen, in plaats van een algemene intelligente agent te bouwen die moet leren om tabula rasa-problemen op te lossen. Domeinkennis kan een deep learning-systeem effectief helpen bij het begrijpen van problemen door primitieven te coderen, in plaats van het model te dwingen deze problemen vanaf nul te leren met behulp van (potentieel dure en schaarse) data."


Benaich wijst ook op het belang van kennisgrafieken voor gezond verstand redeneren in natuurlijke taalverwerking (NLP). Cyc is een bekende kennisgrafiek, of kennisbank (de oorspronkelijke term). Hij voegt er echter aan toe dat gezond verstand redeneren waarschijnlijk niet kan worden opgelost met tekst als enige modaliteit.


Andere hoogtepunten in het rapport zijn de vooruitgang in dataprivacy met federated learning, TensorFlow Privacy van Google en TF-Encrypted van Dropout Labs, en de vele toepassingen van deep learning in de medische sector. Deze toepassingen omvatten enkele sciencefictionprestaties, zoals het decoderen van hersengolven en het herstellen van controle over ledematen bij mensen met een beperking.


Om alles in het rapport te ontcijferen, zoals AutoML, GAN en de voortgang van deepfakes en spraaksynthese (die we enkele jaren geleden al voorspelden), is een zeer grondige studie vereist. Het doornemen van dit rapport zou even duren, maar er valt inderdaad veel te leren.


相关标签:

Copyright © 2019-2025 Ai Master