TFYno6TBUmSx1hmowjkNZWLxEXMw6WhnLa
#News ·2024-04-30 09:49:29
In diesem Monatsrückblick präsentieren wir die wichtigsten KI-News vom April:
Adobe kauft Videomaterial für seine KI
Adobe kauft aktiv Videomaterial für die Entwicklung seines KI-Text-zu-Video-Generators. Das Unternehmen ermutigt sein Netzwerk aus Fotografen und Künstlern, Videos mit alltäglichen Handlungen und Emotionen einzureichen. Die durchschnittliche Vergütung beträgt 2,62 US-Dollar pro Videominute. Darüber hinaus prüft Adobe Partnerschaften mit externen KI-Anbietern wie Runway, Pika Labs und dem Sora-Modell von OpenAI.
Hintergrund: Das wachsende Interesse des Unternehmens am Kauf von Videos von Fotografen und Künstlern spiegelt den aktuellen Trend wider, dass Unternehmen lizenzierte Inhalte für das Training von KI-Modellen nutzen. Durch den Erwerb der entsprechenden Lizenzen können Unternehmen rechtliche Risiken reduzieren und gleichzeitig hochwertige Datensätze für das Training ihrer Modelle erhalten.
Darüber hinaus wird Adobe KI-Videotools in seine Premiere Pro-Bearbeitungsplattform integrieren und plant, eigene generative KI-Videomodelle in die Firefly-Reihe zu integrieren. Diese Tools ermöglichen die Generierung und Verarbeitung von Videoinhalten mithilfe von Textansagen, um das Bearbeitungserlebnis der Nutzer zu verbessern.
Trainingsdaten von Adobe Firefly werfen ethische Fragen auf
Die Bildgenerierungssoftware Firefly von Adobe, die für ihre ethischen Trainingsdatenpraktiken gelobt wurde, hat Kontroversen ausgelöst, nachdem bekannt wurde, dass sie mit Bildern aus Quellen wie Midjourney trainiert wurde.
Obwohl Adobe zunächst behauptete, Firefly nutze hauptsächlich lizenzierte Bilder von Adobe Stock, scheint es, dass auch KI-generierte Inhalte (auch von Wettbewerbern) zum Training von Firefly beigetragen haben. Adobe Stock ist eine der wenigen Stockfoto-Plattformen, die Inhalte von Drittanbietern akzeptiert. Da Adobe seine Inhalte zum Trainieren seiner Algorithmen nutzt, hat die Einbindung von Inhalten von Drittanbietern in Adobe Stock unbeabsichtigt zu den Trainingsdaten von Tools wie Firefly beigetragen.
Trotz der Enthüllungen behauptet Adobe weiterhin, die Qualität seiner Datensätze zu kontrollieren:
„Jedes bei Adobe Stock eingereichte Bild, einschließlich einer kleinen Auswahl KI-generierter Bilder, durchläuft einen strengen Prüfprozess, um sicherzustellen, dass es kein geistiges Eigentum, keine Marken, erkennbare Charaktere oder Logos oder Hinweise auf Künstler enthält.“
Adobe-Sprecher
Zwischen den Zeilen: Diese Entdeckung stellt Fireflys Behauptungen in Frage, eine „geschäftssichere“ Alternative zu sein, und wirft Fragen zu Transparenz und ethischen Standards bei der Entwicklung von KI-Modellen auf.
Weltweite Einführung von Meta AI
Angetrieben von Meta Llama 3 erweitert Meta AI seine globale Reichweite mit neuen Funktionen, die alltägliche Aufgaben einfacher und angenehmer machen.
Meta AI ist jetzt auf Facebook, Instagram, WhatsApp und Messenger verfügbar und in über einem Dutzend Ländern, darunter Australien, Kanada und Nigeria, verfügbar. Nutzer können sich nun auf Meta AI verlassen, um eine Vielzahl von Aufgaben zu erledigen – von Restaurantempfehlungen basierend auf spezifischen Vorlieben bis hin zur Erklärung komplexer Konzepte wie genetischer Merkmale.
Darüber hinaus wurde Meta AI in das Meta-Ökosystem integriert und bietet Suchfunktionen und Bildgenerierungsfunktionen, was das Benutzererlebnis plattformübergreifend verbessert. Mit der Imagine-Funktion können Nutzer in Echtzeit Bilder aus Text generieren – mit klarerer Bildqualität und Unterstützung für das Hinzufügen von Text zu Bildern.
Hintergrund: Im anhaltenden KI-Wettlauf verstärkt Meta seine Bemühungen, den Abstand zur Konkurrenz zu verringern und eine führende Rolle im Bereich der künstlichen Intelligenz zu übernehmen.
Snap versieht KI-generierte Bilder mit Wasserzeichen
Snap kündigte Pläne an, KI-generierte Bilder auf seiner Plattform mit einem halbtransparenten Snap-Logo und einem leuchtenden Emoji als Wasserzeichen zu versehen. Diese Maßnahme soll Bilder, die mit Snap-KI-Tools erstellt wurden, hervorheben und so Transparenz und Sicherheit für Nutzer erhöhen.
Das Unternehmen stellte klar, dass das Entfernen dieser Wasserzeichen gegen seine Nutzungsbedingungen verstoßen würde. Die Methode zur Erkennung solcher Entfernungen wurde jedoch noch nicht veröffentlicht. Darüber hinaus hat Snap KI-Merkmalindikatoren und Kontextkarten für KI-generierte Bilder eingeführt, um Nutzern mehr Informationen zu bieten.
Zwischen den Zeilen: Snaps Entscheidung steht im Einklang mit ähnlichen Initiativen von Technologiegiganten wie OpenAI und Meta zur Kennzeichnung KI-generierter Inhalte und entspricht dem wachsenden Trend zu Transparenz und Inhaltsherkunft.
Coca-Cola x Microsoft
Die Coca-Cola Company und Microsoft haben eine fünfjährige strategische Partnerschaft geschlossen, um Cloud- und GenAI-Initiativen voranzutreiben. Coca-Cola hat 1,1 Milliarden US-Dollar in die Cloud- und GenAI-Funktionen von Microsoft investiert und damit einen wichtigen Schritt in der laufenden Technologietransformation gemacht. Mit Microsoft Azure und KI will Coca-Cola alle Geschäftsfunktionen revolutionieren – vom Marketing über die Fertigung bis hin zum Supply-Chain-Management. Durch die Migration aller Anwendungen zu Microsoft Azure und die Nutzung KI-gestützter digitaler Assistenten will Coca-Cola das Kundenerlebnis verbessern, Abläufe optimieren, Innovationen fördern und neue Wachstumsmöglichkeiten erschließen.
Hintergrund: Coca-Cola ist ein Beispiel dafür, wie auch nicht-technische Marken künstliche Intelligenz nutzen können, um sich einen Wettbewerbsvorteil zu verschaffen. Mithilfe von KI konnte Coca-Cola das Supply-Chain-Management verbessern, Vertriebsprozesse optimieren und das Kundenerlebnis verbessern. Darüber hinaus startete Coca-Cola kürzlich gemeinsam mit OpenAI die Kampagne „Masterpiece“, die den innovativen Marketingansatz der Marke präsentiert.
KI im Gesundheitswesen
Profluent Bio nutzte die Leistungsfähigkeit von GenAI, um einen bahnbrechenden Genom-Editor namens OpenCRISPR-1 zu entwickeln. Das Unternehmen nutzte sein proprietäres, groß angelegtes Sprachmodell für Proteindesign, ProGen2, um es anhand einer riesigen Datenbank von Cas9-Geneditierungsproteinen zu trainieren. Dieser innovative Ansatz führte schließlich zu neuartigen Genom-Editierungsproteinen, die menschliche Zellen modifizieren können. Das Team nutzte außerdem ein weiteres KI-System, um die für ein präzises Targeting erforderliche Leit-RNA zu generieren. Während die Designsoftware weiterhin proprietär ist, hat Profluent beschlossen, OpenCRISPR-1 für Forscher zugänglich zu machen – ein bedeutender Fortschritt im Bereich der Genom-Editierung.
Moderna, ein Pharma- und Biotechunternehmen mit Sitz in Cambridge, hat sich mit OpenAI zusammengeschlossen, um ChatGPT Enterprise in alle seine Betriebsabläufe zu integrieren. Moderna setzt auf eine breite Akzeptanz und hat ein ehrgeiziges Programm gestartet, um sicherzustellen, dass alle Mitarbeiter die GenAI-Technologie beherrschen. Durch die Förderung einer Kultur der kollektiven Intelligenz und Investitionen in ein umfassendes Change-Management-Programm hat Moderna beeindruckende Ergebnisse erzielt. So haben über 80 % der Mitarbeiter erfolgreich ein KI-Chatbot-Tool auf Basis der OpenAI-API mChat eingeführt. Darüber hinaus hat Moderna Pionierarbeit bei der Nutzung von KI-Technologie in der Entwicklung klinischer Studien geleistet und innovative Lösungen wie Dose ID auf den Markt gebracht, das die Datenanalyse vereinfacht und Entscheidungsprozesse verbessert.
Warum es wichtig ist: Diese Beispiele veranschaulichen, wie KI dazu beiträgt, die Welt, insbesondere das Gesundheitswesen, zum Besseren zu verändern.
KI-Filmkonferenz
AI on the Lot bereitet eine KI-Filmkonferenz am 16. Mai 2024 in den LA Center Studios vor, die mehr als 500 KI-Enthusiasten, Filmemacher und Fachleute anziehen wird. Die Veranstaltung umfasst Filmvorführungen, ausführliche Podiumsdiskussionen mit Branchenführern, praxisorientierte Workshops und Live-Demonstrationen, die die Schnittstelle zwischen KI und Filmproduktion erforschen.
Die AI on the Lot-Konferenz 2024 wird eine Reihe hochkarätiger Redner präsentieren, darunter Katja Reitemeyer, Direktorin für Datenwissenschaft und KI bei NVIDIA; Kathryn Brillhart, Leiterin der virtuellen Produktion für Filme wie Fallout und Rebel Moon; und Chad Nelson, Kreativexperte bei OpenAI. Die Konferenz konzentriert sich darauf, wie die Konvergenz von Technologie und Kreativität die Zukunft der Unterhaltung prägen wird.
Alexander Shironosov, Leiter des Forschungs- und Entwicklungsteams bei Everypixel, befasst sich eingehend mit den neuesten Versionen der KI-Modelle:
LLM:
Mistral – Expertenmischung Mixtral-8x22B: Ein neues großes Modell, das eine Expertenmischung nutzt, um Leistung und Effizienz zu verbessern.
Metas llama3-Start: Meta hat zwei Versionen des llama3-Modells mit 8B- und 70B-Parametern veröffentlicht. Die 8B-Version ist leistungsmäßig mit dem größeren llama2-70B-Modell vergleichbar.
Microsofts Phi 3: Nach der erfolgreichen Einführung von phi1 und phi2 in kleinen VLMs hat Microsoft phi3 eingeführt. Erste Messdaten basierend auf dem von ShareGPT4v präsentierten phi3-Training deuten darauf hin, dass phi3 schwerere Modelle übertrifft, was auf ein breites Potenzial für die Einführung in ähnlichen Anwendungen hindeutet.
Apples OpenELM-Initiative: Apple hat eine Reihe kleiner Open-Source-KI-Modelle namens OpenELM für On-Device-Anwendungen eingeführt. Die Modelle variieren in ihrer Größe – 270 Millionen, 450 Millionen, 1,1 Milliarden und 3 Milliarden Parameter.
Fineweb-Release: Der FineWeb-Datensatz, eine Sammlung von Textdatensätzen aus dem Web (CommonCrawl), wird unter einer ODC-By-Lizenz veröffentlicht.
Dolma-Update: Dolma, ein 3 Billionen Datensätze umfassender, gekennzeichneter Datensatz mit Webinhalten, wissenschaftlichen Publikationen, Code, Büchern und enzyklopädischem Material, wurde aktualisiert.
Snowflakes Arctic-Basismodell: Snowflake hat Snowflake Arctic veröffentlicht und eine detaillierte Untersuchung seines Modells veröffentlicht. Das Modell nutzt eine Architektur mit gemischten Experten, die seine Fähigkeit zur Bewältigung einer Vielzahl von KI-Aufgaben verbessert.
Innovation des Startups Answer.AI: Answer.AI veröffentlichte einen Artikel und Code für seinen FSD/DORA-Ansatz. Dieser ermöglicht das Training von llama3 in großem Maßstab auf nur zwei Grafikkarten mit jeweils 24 GB Videospeicher und demonstriert damit eine effiziente Methode für ressourcenintensives KI-Training.
Volumenstrommesser (VLM):
InternVL 1.5: Dieses Open-Source-Modell verfügt über einen leistungsstarken visuellen Encoder und wird mit hochwertigen Datensätzen für Bilder unterschiedlicher Größe – von 448 × 448 bis 4k × 4k – trainiert. InternVL 1.5 übertrifft in mancher Hinsicht kommerzielle Topmodelle wie GPT-4v, Claude Opus und Gemini 1.5 Pro.
Neuer Benchmark zum Testen visueller Sprachmodelle (VLM): Eine neue Version des Benchmarks zum Testen visueller Sprachmodelle an Bildern mit viel Text wurde veröffentlicht. Dieser Benchmark soll die Leistung von VLM bei der Verarbeitung komplexer visuell-textueller Interaktionen genauer bewerten, was für die Verbesserung seiner praktischen Anwendungen entscheidend ist.
Videogenerierung:
Microsofts Talking-Head-Modell: Microsoft hat ein neues Modell vorgestellt, das aus Audiodaten und Fotos Videos mit sprechenden Gesichtern generiert. Das Modell verwendet ein Diffusionsmodell und übertrifft bisherige Methoden in allen wichtigen Leistungskennzahlen deutlich. Diese Version hat das Potenzial, die Erstellung dynamischer Videoinhalte aus statischen Bildern und Tönen zu revolutionieren.
Bildgenerierung:
Imgsys Text-zu-Bild-Modell: Die neue Plattform Imgsys wurde eingeführt, um paarweise Vergleiche zu ermöglichen und Elo-Bewertungen für verschiedene Text-zu-Bild-Modelle zu erstellen. Dies umfasst Checkpoints für Modelle wie SDXL sowie eigenständige Modelle vergleichbar mit Pixart-Sigma.
NVIDIAs Diffusionsmodell-Verbesserungen: NVIDIA hat zwei Artikel veröffentlicht, die Methoden zur Verbesserung der Bildqualität mithilfe von Diffusionsmodellen ohne direktes Neutraining des Modells beschreiben. Die erste Methode nutzt klassifikatorfreies Scheduling zur Verbesserung der Bildschärfe, während die zweite Methode den Entrauschungsschritt optimiert, um die Ausgabe weiter zu optimieren.
Verbesserter IP-Adapter zur Porträtgenerierung: Wir haben einen verbesserten IP-Adapter zur Generierung präziser und detaillierter Porträts aus Fotos entwickelt. Das Tool nutzt fortschrittliche Bildverarbeitungstechniken, um den Realismus und die Qualität der generierten Porträts zu verbessern.
Metas Beschleunigung von Diffusionsmodellen: Meta veröffentlichte ein Paper, das die neue Methode „Imagine Flash“ zur Beschleunigung von Diffusionsmodellen durch die sogenannte „Reverse Distillation“ beschreibt. Diese Methode verkürzt die Verarbeitungszeit von Diffusionsmodellen deutlich und gleicht gleichzeitig die Qualität der generierten Bilder aus oder verbessert sie sogar.
Adobe Firefly v3 für Photoshop: Adobe hat Firefly v3 vorgestellt, eine neue Version der Photoshop-Integration. Das Tool ermöglicht es Nutzern, bestimmte Objekte zu reduzieren, Hintergründe zu ändern und Bilder von Grund auf neu zu erstellen.