Principales noticias sobre IA en abril de 2024
#Noticias ·2024-04-30 09:49:29
En el resumen de este mes, destacamos las principales noticias sobre IA de abril:
Adobe compra vídeos para su IA
Adobe está comprando activamente material de vídeo para desarrollar su generador de texto a vídeo con IA. La compañía anima a su red de fotógrafos y artistas a enviar vídeos que muestren acciones y emociones cotidianas, con un pago medio de 2,62 dólares por minuto de vídeo. Además, Adobe está explorando colaboraciones con proveedores externos de IA como Runway, Pika Labs y el modelo Sora de OpenAI.
El contexto: El creciente interés de la compañía en comprar vídeos de fotógrafos y artistas refleja una tendencia reciente entre las empresas que utilizan contenido con licencia para entrenar modelos de IA. Al obtener las licencias adecuadas, las empresas pueden reducir los riesgos legales y, al mismo tiempo, obtener conjuntos de datos de alta calidad para entrenar los modelos.
Asimismo, Adobe incorporará herramientas de vídeo con IA a su plataforma de edición Premiere Pro y planea integrar sus propios modelos generativos de vídeo con IA en la serie Firefly. Estas herramientas incluyen la capacidad de generar y procesar contenido de video mediante indicaciones de texto, con el objetivo de mejorar la experiencia de edición del usuario.
Los datos de entrenamiento de Adobe Firefly plantean inquietudes éticas.
El software de generación de imágenes Firefly de Adobe, elogiado por sus prácticas éticas en el manejo de datos de entrenamiento, ha generado controversia tras revelarse que se entrenó utilizando imágenes de fuentes como Midjourney.
Aunque Adobe afirmó inicialmente que Firefly se basaba principalmente en imágenes con licencia de Adobe Stock, parece que el contenido generado por IA (incluso de la competencia) también ha contribuido al entrenamiento de Firefly. Adobe Stock es una de las pocas plataformas de fotos de stock que acepta contenido generado por servicios de terceros. Por lo tanto, dado que Adobe utiliza su contenido para entrenar sus algoritmos, la inclusión de contenido generado por terceros en Adobe Stock ha contribuido inadvertidamente a los datos de entrenamiento de herramientas como Firefly. Sin embargo, a pesar de las revelaciones, Adobe sigue afirmando que controla la calidad de sus conjuntos de datos:
“Todas las imágenes enviadas a Adobe Stock, incluyendo un pequeño subconjunto de imágenes generadas con IA, se someten a un riguroso proceso de revisión para garantizar que no contengan propiedad intelectual, marcas registradas, personajes o logotipos reconocibles, ni referencias a artistas”.
Portavoz de Adobe
Entre líneas: Este descubrimiento desafía las afirmaciones de Firefly de ser una alternativa "segura para las empresas" y plantea interrogantes sobre la transparencia y los estándares éticos en el desarrollo de modelos de IA.
Lanzamiento global de Meta AI
Con la tecnología de Meta Llama 3, Meta AI está expandiendo su alcance global con nuevas funciones diseñadas para simplificar y hacer más agradables las tareas cotidianas.
Meta AI ya está disponible en Facebook, Instagram, WhatsApp y Messenger, y en más de una docena de países, incluyendo Australia, Canadá y Nigeria. Los usuarios ahora pueden confiar en Meta AI para realizar diversas tareas, desde recomendar restaurantes según preferencias específicas hasta explicar conceptos complejos como rasgos genéticos.
Además, Meta AI se ha integrado en el ecosistema Meta, incluyendo funciones de búsqueda y generación de imágenes, lo que mejora la experiencia del usuario en todas las plataformas. Con la función Imagine, los usuarios pueden generar imágenes a partir de texto en tiempo real, con una calidad de imagen más nítida y compatibilidad con la adición de texto.
Antecedentes: A medida que la carrera de la IA continúa, Meta intensifica sus esfuerzos para reducir la brecha con sus competidores y convertirse en un líder en el campo de la inteligencia artificial.
Snap añade marcas de agua a las imágenes generadas por IA
Snap anunció sus planes de añadir marcas de agua a las imágenes generadas por IA en su plataforma, con un logotipo semitransparente de Snap y un emoji brillante. Esta medida busca destacar las imágenes creadas con las herramientas de Snap AI, aumentando así la transparencia y la seguridad para los usuarios.
La compañía aclaró que eliminar estas marcas de agua infringiría sus términos de uso, pero el método para detectar dichas eliminaciones aún no se ha publicado. Además, Snap ha introducido indicadores de funciones de IA y tarjetas de contexto para las imágenes generadas por IA con el fin de proporcionar más información a los usuarios. Entre líneas: La decisión de Snap es coherente con iniciativas similares de gigantes tecnológicos como OpenAI y Meta para marcar el contenido generado por IA, y también se alinea con la creciente tendencia de transparencia y procedencia del contenido.
Coca-Cola x Microsoft
The Coca-Cola Company y Microsoft han firmado una alianza estratégica de cinco años para acelerar las iniciativas de nube y GenAI. Coca-Cola ha comprometido 1.100 millones de dólares a las capacidades de nube y GenAI de Microsoft, lo que marca un paso importante en su continua transformación tecnológica. Con Microsoft Azure y la IA, Coca-Cola aspira a revolucionar todas las funciones empresariales, desde el marketing hasta la fabricación y la gestión de la cadena de suministro. Al migrar todas sus aplicaciones a Microsoft Azure y explorar asistentes digitales basados en IA, Coca-Cola se compromete a mejorar la experiencia del cliente, optimizar las operaciones, promover la innovación y descubrir nuevas oportunidades de crecimiento.
Antecedentes: Coca-Cola es un ejemplo de cómo las marcas no tecnológicas pueden utilizar la inteligencia artificial para obtener una ventaja competitiva. Mediante la IA, Coca-Cola ha mejorado la gestión de la cadena de suministro, optimizado los procesos de distribución y optimizado la experiencia del cliente. Además, Coca-Cola se asoció recientemente con OpenAI para lanzar la campaña "Obra Maestra", que muestra el innovador enfoque de marketing de la marca.
IA en Operaciones Sanitarias
Profluent Bio ha aprovechado el potencial de GenAI para desarrollar un editor genético revolucionario llamado OpenCRISPR-1. La compañía empleó su modelo de lenguaje patentado a gran escala para el diseño de proteínas, ProGen2, para entrenarse en una enorme base de datos de proteínas de edición genética Cas9. Este innovador enfoque creó nuevas proteínas de edición genética capaces de modificar células humanas. El equipo también empleó otro sistema de IA para generar el ARN guía necesario para una focalización precisa. Si bien el software de diseño sigue siendo propietario, Profluent ha decidido abrir OpenCRISPR-1 a los investigadores, lo que supone un gran avance en el campo de la edición genética.
Moderna, empresa farmacéutica y biotecnológica con sede en Cambridge, se ha asociado con OpenAI para integrar ChatGPT Enterprise en todas sus operaciones. Comprometida con una amplia adopción, Moderna ha lanzado un ambicioso programa para garantizar que todos sus empleados dominen la tecnología GenAI. Al fomentar una cultura de inteligencia colectiva e invertir en un programa integral de gestión del cambio, Moderna ha logrado resultados impresionantes, incluyendo la adopción exitosa de un chatbot de IA basado en la API mChat de OpenAI por parte de más del 80 % de sus empleados. Además, Moderna ha sido pionera en el uso de la tecnología de IA en el desarrollo de ensayos clínicos y ha lanzado soluciones innovadoras como Dose ID, que simplifica el análisis de datos y optimiza los procesos de toma de decisiones.
Por qué es importante: Estos ejemplos ejemplifican cómo la IA está ayudando a mejorar el mundo, especialmente la atención médica.
Conferencia de Cine con IA
AI on the Lot se prepara para una Conferencia de Cine con IA el 16 de mayo de 2024 en LA Center Studios, que atraerá a más de 500 entusiastas, cineastas y profesionales de la IA. El evento incluirá proyecciones de películas, mesas redondas exhaustivas con líderes de la industria, talleres prácticos y demostraciones en vivo que explorarán la intersección de la IA y la cinematografía.
La conferencia AI on the Lot 2024 contará con la participación de ponentes de alto perfil, como Katja Reitemeyer, directora de ciencia de datos e IA de NVIDIA; Kathryn Brillhart, supervisora de producción virtual de películas como Fallout y Rebel Moon; y Chad Nelson, experto creativo de OpenAI. La conferencia se centrará en cómo la convergencia de la tecnología y la creatividad moldeará el futuro del entretenimiento.
Alexander Shironosov, jefe del equipo de I+D de Everypixel, analiza en profundidad las últimas versiones de los modelos de IA:
LLM:
Mistral – Mixture of Experts Mixtral-8x22B: Un nuevo modelo de gran tamaño que aprovecha una arquitectura de mezcla de expertos para mejorar el rendimiento y la eficiencia.
Lanzamiento de llama3 de Meta: Meta lanzó dos versiones del modelo llama3, con parámetros 8B y 70B. La versión 8B ofrece un rendimiento similar al del modelo llama2 70B, de mayor tamaño. Phi 3 de Microsoft: Tras la exitosa implementación de phi1 y phi2 en VLM pequeños, Microsoft lanzó phi3. Las primeras métricas basadas en el entrenamiento de phi3, presentadas por ShareGPT4v, indican que phi3 supera a los modelos más pesados, lo que sugiere un amplio potencial de adopción en aplicaciones similares.
Iniciativa OpenELM de Apple: Apple ha lanzado una serie de pequeños modelos de IA de código abierto, llamados OpenELM, diseñados para aplicaciones en dispositivos. Los modelos varían en tamaño: 270 millones, 450 millones, 1100 millones y 3000 millones de parámetros.
Lanzamiento de Fineweb: Conjunto de datos FineWeb, una colección de conjuntos de datos de texto de la web (CommonCrawl), publicado bajo una licencia (ODC-By).
Actualización de Dolma: Dolma, un conjunto de datos etiquetados de 3 billones de contenido web, publicaciones académicas, código, libros y material enciclopédico, ha publicado una versión actualizada. Modelo base Arctic de Snowflake: Snowflake lanzó Snowflake Arctic y publicó una exploración detallada de su modelo, que utiliza una arquitectura de expertos mixtos que mejora su capacidad para gestionar diversas tareas de IA.
Innovación de la startup Answer.AI: Answer.AI publicó un artículo y el código para su enfoque FSD/DORA, que permite entrenar llama3 a gran escala con solo dos tarjetas de video con 24 GB de memoria de video cada una, lo que demuestra una forma eficiente de gestionar el entrenamiento de IA que consume muchos recursos.
Medidor de flujo volumétrico (VLM):
InternVL 1.5: Este modelo de código abierto cuenta con un potente codificador visual y se entrena con conjuntos de datos de alta calidad para imágenes de varios tamaños, desde 448×448 hasta 4kx4k. En ciertos aspectos, InternVL 1.5 supera a los principales modelos comerciales como GPT-4v, Claude Opus y Gemini 1.5 Pro. Nuevo punto de referencia para probar modelos de lenguaje visual (VLM): Se ha publicado una nueva versión del punto de referencia diseñado para probar modelos de lenguaje visual en imágenes con mucho texto. Este punto de referencia busca proporcionar una evaluación más rigurosa del rendimiento de VLM en la gestión de interacciones visuales-textuales complejas, lo cual es crucial para mejorar sus aplicaciones en el mundo real.
Generación de vídeo:
Modelo de caras parlantes de Microsoft: Microsoft ha presentado un nuevo modelo que genera vídeos de caras parlantes a partir de entradas de audio y fotos. El modelo utiliza un modelo de difusión y supera significativamente a los métodos anteriores en las principales métricas de rendimiento. Esta versión tiene el potencial de revolucionar la forma en que se crea contenido de vídeo dinámico a partir de imágenes y sonidos estáticos.
Generación de imágenes:
Modelo de texto a imagen Imgsys: Se ha lanzado una nueva plataforma llamada Imgsys para facilitar las comparaciones por pares y generar clasificaciones Elo para diversos modelos de texto a imagen. Esto incluye puntos de control para modelos como SDXL, así como modelos independientes comparables a Pixart-Sigma. Mejoras del modelo de difusión de NVIDIA: NVIDIA publicó dos artículos que detallan métodos para mejorar la calidad de la generación de imágenes utilizando modelos de difusión sin reentrenamiento directo del modelo. El primer método aprovecha la programación sin clasificador para mejorar la nitidez de la imagen, mientras que el segundo optimiza el paso de eliminación de ruido para optimizar aún más el resultado.
Adaptador IP mejorado para la generación de retratos: Desarrollamos un adaptador IP mejorado para generar retratos precisos y detallados a partir de fotografías. La herramienta utiliza técnicas avanzadas de procesamiento de imágenes para mejorar el realismo y la calidad de los retratos generados.
Aceleración del modelo de difusión de Meta: Meta publicó un artículo que detalla su nuevo método, "Imagine Flash", para acelerar los modelos de difusión mediante una técnica llamada "destilación inversa". Este método acelera significativamente el tiempo de procesamiento de los modelos de difusión, manteniendo o incluso mejorando la calidad de las imágenes generadas.
Adobe Firefly v3 para Photoshop: Adobe ha presentado Firefly v3, una nueva versión de su integración en Photoshop. La herramienta permite a los usuarios degradar objetos específicos, cambiar fondos y generar nuevas imágenes desde cero.