Bericht über Trends in den Bereichen künstliche Intelligenz, maschinelles Lernen und Datentechnik
#News ·2023-09-06 15:40:24
Kernaussagen
Generative KI, basierend auf großen Sprachmodellen (LLMs) wie GPT-3 und GPT-4, hat in der KI- und Machine-Learning-Branche an Bedeutung gewonnen und wird von Technologien wie ChatGPT umfassend übernommen.
Große Technologieunternehmen wie Google und Meta haben ihre eigenen generativen KI-Modelle angekündigt und damit das Engagement der Branche für die Weiterentwicklung dieser Technologien unter Beweis gestellt.
Vektordatenbanken und eingebettete Speichersysteme (Embedded Storage) haben aufgrund ihrer Rolle bei der Verbesserung der Observability in generativen KI-Anwendungen große Aufmerksamkeit erhalten.
Es gibt wachsende Bedenken hinsichtlich verantwortungsvoller und ethischer KI. Forderungen nach strengeren Sicherheitsmaßnahmen für große Sprachmodelle und der Fokus auf die Verbesserung des Lebens aller Menschen durch KI sind laut geworden.
Modernes Data Engineering entwickelt sich hin zu dezentralen und flexiblen Ansätzen mit Konzepten wie Data Grids, die für föderierte, domänenübergreifende Datenplattformen plädieren.
Trendberichte bieten Lesern einen umfassenden Überblick über Themen, die unserer Meinung nach für Architekten und Technologieführer relevant sind. Darüber hinaus unterstützen sie die Redaktion dabei, sich auf das Verfassen von Nachrichten und die Rekrutierung von Autoren für innovative Technologien zu konzentrieren.
In diesem Jahresbericht untersuchen die Herausgeber den aktuellen Stand von KI, ML und Data Engineering sowie neue Trends, die Sie als Softwareentwickler, -architekt oder -wissenschaftler im Auge behalten sollten. Wir gliedern die Diskussion in eine Technologieakzeptanzkurve und liefern unterstützende Kommentare, die Ihnen helfen, die zukünftige Entwicklung zu verstehen.
Für den diesjährigen Podcast lud das Redaktionsteam Sherin Thomas, Softwareentwicklerin bei Chime, als externen Gast zur Diskussion ein. Der folgende Abschnitt des Artikels fasst einige dieser Trends und die Position verschiedener Technologien auf der Technologieakzeptanzkurve zusammen.
Generative KI
Generative KI, einschließlich großer Sprachmodelle (LLMs) wie GPT-3, GPT-4 und ChatGPT, hat sich zu einer wichtigen Kraft in der KI- und Machine-Learning-Branche entwickelt. Diese Technologien haben große Aufmerksamkeit erhalten, insbesondere angesichts der Fortschritte, die sie im vergangenen Jahr erzielt haben. Wir beobachten eine breite Nutzerakzeptanz dieser Technologien, insbesondere durch ChatGPT. Mehrere Unternehmen wie Google und Meta haben eigene generative KI-Modelle angekündigt.
Wir erwarten, dass der nächste Schritt eine stärkere Fokussierung auf LLMOps sein wird, um diese großen Sprachmodelle in Unternehmensumgebungen zu betreiben. Wir sind uns derzeit uneinig, ob Hinweis-Engineering in Zukunft ein wichtiges Thema sein wird oder ob seine Anwendungen so weit verbreitet sein werden, dass jeder zu den verwendeten Hinweisen beitragen kann.
Vektordatenbanken und Embedding Stores
Mit dem Aufkommen der LLM-Technologie gewinnen Vektordatenbanken und Embedding Stores zunehmend an Bedeutung. Eine interessante Anwendung, die zunehmend an Bedeutung gewinnt, ist die Verwendung von Satzeinbettungen zur Verbesserung der Beobachtbarkeit generativer KI-Anwendungen.
Der Bedarf an Vektorsuchdatenbanken ergibt sich aus den Einschränkungen großer Sprachmodelle, die über eine begrenzte lexikalische Historie verfügen. Vektordatenbanken können Dokumentzusammenfassungen als von diesen Sprachmodellen generierte Merkmalsvektoren speichern, wodurch Millionen oder sogar mehr Merkmalsvektoren entstehen können. Mit herkömmlichen Datenbanken wird es mit wachsendem Datensatz zunehmend schwieriger, relevante Dokumente zu finden. Vektorsuchdatenbanken ermöglichen effiziente Ähnlichkeitssuchen, die es Nutzern ermöglichen, die nächsten Nachbarn eines Abfragevektors zu finden und so den Suchprozess zu verbessern.
Ein bemerkenswerter Trend ist der Anstieg der Finanzierung dieser Technologien, was darauf hindeutet, dass Investoren ihre Bedeutung anerkennen. Die Akzeptanz dieser Technologien durch Entwickler verlief bisher jedoch langsam, dürfte sich aber in den kommenden Jahren beschleunigen. Vektorsuchdatenbanken wie Pinecone, Milvus und Open-Source-Lösungen wie Chroma gewinnen an Bedeutung. Die Wahl der Datenbank hängt vom jeweiligen Anwendungsszenario und der Art der zu durchsuchenden Daten ab.
Vektordatenbanken haben ihr Potenzial in verschiedenen Bereichen, einschließlich der Erdbeobachtung, unter Beweis gestellt. Beispielsweise nutzt die NASA selbstüberwachtes Lernen und Vektorsuchtechniken zur Analyse von Satellitenbildern der Erde, um Wissenschaftlern zu helfen, langfristige Veränderungen von Wetterphänomenen wie Hurrikanen zu verfolgen.
Robotik und Drohnentechnologie
Die Kosten für Roboter sinken. Früher waren balancierende Roboter mit Beinen schwer zu bekommen, heute gibt es Modelle für etwa 1.500 US-Dollar. Dies ermöglicht es mehr Anwendern, Robotik in ihren Anwendungen einzusetzen. Das Robot Operating System (ROS) ist nach wie vor das führende Software-Framework in diesem Bereich, aber Unternehmen wie VIAM entwickeln auch Middleware-Lösungen, um die Integration und Konfiguration von Plugins für die Roboterentwicklung zu vereinfachen. Wir erwarten, dass Fortschritte im unüberwachten Lernen und bei grundlegenden Modellen zu leistungsfähigeren Funktionen führen werden. Beispielsweise ermöglicht die Integration umfangreicher Sprachmodelle in die Pfadplanung eines Roboters die Planung mithilfe natürlicher Sprache.
Verantwortungsvolle und ethische KI
Da KI die gesamte Menschheit betrifft, steigt das Interesse an verantwortungsvoller und ethischer KI. Es gab Forderungen nach strengeren Sicherheitsmaßnahmen für umfangreiche Sprachmodelle und Frustration über die Ergebnisse solcher Modelle, was Nutzer an bestehende Sicherheitsmaßnahmen erinnert.
Ingenieure müssen weiterhin die Notwendigkeit im Auge behalten, das Leben aller zu verbessern, nicht nur einiger weniger. Wir erwarten, dass die KI-Regulierung ähnliche Auswirkungen haben wird wie die Datenschutz-Grundverordnung (DSGVO) vor einigen Jahren.
Wir haben bereits einige KI-Fehler aufgrund fehlerhafter Daten erlebt. Datenermittlung, -manipulation, -herkunft, -kennzeichnung und gute Modellentwicklungspraktiken werden in den Fokus rücken. Daten sind entscheidend für die Interpretierbarkeit.
Data Engineering
Modernes Data Engineering entwickelt sich hin zu einem dezentraleren und flexibleren Ansatz zur Bewältigung des wachsenden Datenvolumens. Ein neues Konzept, Data Mesh, wurde entwickelt, um die Herausforderungen zentralisierter Datenmanagementteams zu bewältigen, die zu Engpässen im Datenbetrieb werden. Es setzt auf eine föderierte Datenplattform über Domänenpartitionen hinweg, die Daten als Produkt behandelt. Dadurch behalten Domäneninhaber die Kontrolle über ihre Datenprodukte und reduzieren die Abhängigkeit von zentralen Teams. Obwohl vielversprechend, kann die Einführung von Data Mesh mit Hürden in Bezug auf Fachwissen verbunden sein und erfordert fortschrittliche Tools und Infrastruktur, um Self-Service-Funktionen zu ermöglichen.
Datenbeobachtung ist im Data Engineering unverzichtbar geworden, ähnlich wie die Systembeobachtung in der Anwendungsarchitektur. Beobachtung ist auf allen Ebenen entscheidend, insbesondere im Bereich des maschinellen Lernens. Vertrauen in Daten ist entscheidend für den Erfolg von KI, und Lösungen zur Datenbeobachtung sind unerlässlich für die Überwachung von Datenqualität, Modelldrift und explorativer Datenanalyse, um zuverlässige Ergebnisse im maschinellen Lernen zu gewährleisten. Dieser Paradigmenwechsel im Datenmanagement und die Integration der Beobachtung in Daten- und Machine-Learning-Pipelines spiegeln die Entwicklung der modernen Data-Engineering-Landschaft wider.
Aktualisierungen der Erklärungskurve
Dieser Trendbericht enthält außerdem ein aktualisiertes Diagramm mit unseren Prognosen zum aktuellen Stand einiger Technologien. Die Kategorien basieren auf dem Buch „Crossing the Chasm“ von Geoffrey Moore. Wir konzentrieren uns auf diejenigen Kategorien, die diese Kluft noch nicht überwunden haben.
Von Innovatoren bis hin zu Early Adopters: Ein bemerkenswertes Upgrade ist der „KI-Codierungsassistent“. Obwohl er erst letztes Jahr eingeführt wurde und kaum jemand nutzt, bieten ihn immer mehr Unternehmen ihren Mitarbeitern als Service an, um deren Effizienz zu steigern. Er ist nicht standardmäßig in jedem Technologie-Stack integriert, und wir erforschen noch, wie er am effektivsten eingesetzt werden kann. Wir sind jedoch überzeugt, dass die Akzeptanz weiter steigen wird.
Wir glauben, dass die Verarbeitung natürlicher Sprache derzeit die Kluft überwindet. Das ist nicht überraschend, denn nach dem großen Erfolg von ChatGPT versuchen viele Unternehmen, Funktionen der generativen KI in ihre Produkte zu integrieren. Daher haben wir uns entschieden, ihn die Kluft überwinden zu lassen und ihn in die Kategorie „Early Majority“ aufzunehmen. In diesem Bereich besteht noch großes Wachstumspotenzial, und die Zeit wird uns mehr über die Best Practices und Möglichkeiten dieser Technologie zeigen.
Es gibt einige Kategorien, die man im Auge behalten sollte, in denen sich bisher kaum etwas getan hat. Dazu gehören die Generierung synthetischer Daten, Brain-Computer-Interfaces und Robotik. All diese Technologien scheinen in der Kategorie „Innovatoren“ festzustecken. Am vielversprechendsten ist in dieser Hinsicht die Generierung synthetischer Daten, die in letzter Zeit durch den GenAI-Hype an Aufmerksamkeit gewonnen hat. Zwar sprechen immer mehr Unternehmen über die Generierung weiterer Trainingsdaten, aber es gibt noch nicht genügend Anwendungen, die diese Daten tatsächlich nutzen, um sie in die Kategorie „Early Adopters“ zu verschieben. Die Robotik steht seit vielen Jahren im Rampenlicht, doch ihre Akzeptanz ist noch zu gering, als dass wir eine Veränderung garantieren könnten.
Wir haben außerdem einige neue Kategorien in die Grafik aufgenommen. Eine davon ist die Vektorsuchdatenbank, ein Nebenprodukt des GenAI-Hypes. Da unser Verständnis der Darstellung von Konzepten als Vektoren immer besser wird, steigt der Bedarf an effizienter Speicherung und Abruf von Vektoren. Wir haben „Erklärbare KI“ in die Kategorie „Innovatoren“ aufgenommen. Wir sind überzeugt, dass die Fähigkeit von Computern, zu erklären, warum sie eine bestimmte Entscheidung getroffen haben, für eine breite Anwendung zur Bekämpfung von Halluzinationen und anderen Gefahren unerlässlich ist. Derzeit liegen jedoch nicht genügend Forschungsergebnisse in der Branche vor, um diese Kategorie zu erhöhen.
Fazit
Die Bereiche Künstliche Intelligenz, Maschinelles Lernen und Data Engineering boomen Jahr für Jahr. Sowohl die technischen Möglichkeiten als auch die potenziellen Anwendungen sind weiterhin vielversprechend. Für die Redakteure ist es spannend, diesen Fortschritt so hautnah mitzuerleben, und wir freuen uns darauf, auch im nächsten Jahr weiter darüber zu berichten. Im Podcast haben wir einige Vorhersagen für das kommende Jahr getroffen, von „Allgemeine Künstliche Intelligenz wird es nicht mehr geben“ bis hin zu „Autonome Agenten werden Realität“.