Noticias

Informe sobre tendencias en inteligencia artificial, aprendizaje automático e ingeniería de datos

#Noticias ·2023-09-06 15:40:24

Conclusiones clave

La IA generativa, impulsada por grandes modelos de lenguaje (LLM) como GPT-3 y GPT-4, ha cobrado relevancia en la industria de la IA y el aprendizaje automático, y está siendo ampliamente adoptada por tecnologías como ChatGPT.

Grandes empresas tecnológicas como Google y Meta han anunciado sus propios modelos de IA generativa, lo que demuestra el compromiso de la industria con el avance de estas tecnologías.

Las bases de datos vectoriales y el almacenamiento integrado han recibido atención por su papel en la mejora de la observabilidad en aplicaciones de IA generativa.

Existe una creciente preocupación por una IA responsable y ética, con demandas de medidas de seguridad más estrictas para los grandes modelos de lenguaje y un énfasis en mejorar la vida de todos a través de la IA.

La ingeniería de datos moderna está evolucionando hacia enfoques descentralizados y flexibles, con conceptos como las cuadrículas de datos que abogan por plataformas de datos federadas y divididas en varios dominios.

Los informes de tendencias ofrecen a los lectores una visión general de los temas que creemos que los arquitectos y líderes tecnológicos deberían considerar. Además, ayudan al equipo editorial a centrarse en la redacción de noticias y la contratación de redactores de artículos para cubrir tecnologías innovadoras.


En este informe anual, los editores exploran el estado actual de la IA, el aprendizaje automático y la ingeniería de datos, así como las tendencias emergentes a las que debería prestar atención como ingeniero de software, arquitecto o científico de datos. Organizamos el debate en una curva de adopción de tecnología y ofrecemos comentarios de apoyo para ayudarle a comprender la situación actual.


Para el podcast de este año, el equipo editorial invitó a la invitada externa Sherin Thomas, ingeniera de software de Chime, a unirse al debate. La siguiente sección del artículo resume algunas de estas tendencias y la posición de las diferentes tecnologías en la curva de adopción.


IA generativa

La IA generativa, que incluye modelos de lenguaje extenso (LLM) como GPT-3, GPT-4 y ChatGPT, se ha convertido en una fuerza clave en la industria de la IA y el aprendizaje automático. Estas tecnologías han recibido mucha atención, especialmente considerando su progreso durante el último año. Hemos observado una amplia adopción de estas tecnologías por parte de los usuarios, especialmente impulsada por ChatGPT. Varias empresas, como Google y Meta, han anunciado sus propios modelos de IA generativa.


Esperamos que el siguiente paso sea un mayor enfoque en LLMOps para operar estos grandes modelos lingüísticos en entornos empresariales. Actualmente, no estamos de acuerdo sobre si la ingeniería de pistas será un tema de gran interés en el futuro o si sus aplicaciones estarán tan extendidas que todos puedan contribuir a las pistas utilizadas.


Bases de datos vectoriales y almacenes de incrustaciones

Con el auge de la tecnología LLM, las bases de datos vectoriales y los almacenes de incrustaciones están ganando cada vez más atención. Una aplicación interesante que está ganando cada vez más atención es el uso de incrustaciones de oraciones para mejorar la observabilidad de las aplicaciones de IA generativa.


La necesidad de bases de datos de búsqueda vectorial surge de las limitaciones de los grandes modelos lingüísticos, que tienen un historial léxico limitado. Las bases de datos vectoriales pueden almacenar resúmenes de documentos como vectores de características generados por estos modelos lingüísticos, lo que puede producir millones o incluso más vectores de características. Con las bases de datos tradicionales, a medida que el conjunto de datos crece, se vuelve cada vez más difícil encontrar documentos relevantes. Las bases de datos de búsqueda vectorial permiten búsquedas de similitud eficientes, permitiendo a los usuarios encontrar los vecinos más cercanos de un vector de consulta, optimizando así el proceso de búsqueda.


Una tendencia notable es el aumento de la financiación de estas tecnologías, lo que indica que los inversores reconocen su importancia. Sin embargo, la adopción de estas tecnologías por parte de los desarrolladores ha sido lenta, pero se espera que se acelere en los próximos años. Bases de datos de búsqueda vectorial como Pinecone, Milvus y soluciones de código abierto como Chroma están ganando terreno. La elección de la base de datos depende del escenario de aplicación específico y de la naturaleza de los datos que se buscan.


Las bases de datos vectoriales han demostrado su potencial en diversos campos, incluida la observación de la Tierra. Por ejemplo, la NASA utiliza técnicas de aprendizaje autosupervisado y búsqueda vectorial para analizar imágenes satelitales de la Tierra y ayudar a los científicos a rastrear cambios a largo plazo en fenómenos meteorológicos como huracanes.


Robótica y tecnología de drones

El coste de los robots está disminuyendo. Los robots de equilibrio con patas solían ser difíciles de comprar, pero ahora existen algunos modelos que cuestan alrededor de 1500 dólares. Esto permite que más usuarios utilicen la robótica en sus aplicaciones. El Sistema Operativo de Robots (ROS) sigue siendo el marco de software líder en este campo, pero empresas como VIAM también están desarrollando soluciones de middleware para facilitar la integración y configuración de complementos para el desarrollo de robots.


Esperamos que los avances en el aprendizaje no supervisado y los modelos fundamentales se traduzcan en capacidades más potentes. Por ejemplo, la integración de grandes modelos de lenguaje en la planificación de rutas de un robot permitirá la planificación mediante lenguaje natural.


IA responsable y ética

A medida que la IA comienza a afectar a toda la humanidad, las personas se interesan cada vez más por una IA responsable y ética. Se han solicitado medidas de seguridad más estrictas para los grandes modelos de lenguaje y se ha generado frustración con el resultado de dichos modelos, lo que ha recordado a los usuarios las medidas de seguridad existentes.


Los ingenieros deben tener presente la necesidad de mejorar la vida de todos, no solo de unos pocos. Prevemos que la regulación de la IA tendrá un impacto similar al del Reglamento General de Protección de Datos (RGPD) de hace unos años.


Ya hemos observado algunos fallos de la IA debido a datos erróneos. El descubrimiento, la manipulación, el linaje, el etiquetado y las buenas prácticas de desarrollo de modelos de datos se convertirán en un objetivo prioritario. Los datos son fundamentales para la interpretabilidad.


Ingeniería de Datos

La ingeniería de datos moderna está evolucionando hacia un enfoque más descentralizado y flexible para gestionar el creciente volumen de datos. Un nuevo concepto, la malla de datos, ha surgido para abordar los desafíos que presentan los equipos de gestión de datos centralizados, que se convierten en cuellos de botella para las operaciones de datos. Esta plataforma aboga por una plataforma de datos federada en particiones de dominio que trata los datos como un producto. Esto permite a los propietarios de dominios tener la propiedad y el control sobre sus productos de datos, reduciendo la dependencia de equipos centrales. Si bien es prometedora, la adopción de la malla de datos puede enfrentar barreras relacionadas con la experiencia y requiere herramientas e infraestructura avanzadas para habilitar capacidades de autoservicio.


La observabilidad de datos se ha vuelto crucial en la ingeniería de datos, similar a la observabilidad de sistemas en la arquitectura de aplicaciones. La observabilidad es crucial en todos los niveles, incluida la observabilidad de datos, especialmente en el campo del aprendizaje automático. La confianza en los datos es crucial para el éxito de la IA, y las soluciones de observabilidad de datos son esenciales para monitorear la calidad de los datos, la deriva de los modelos y el análisis exploratorio de datos para garantizar resultados confiables de aprendizaje automático. Este cambio de paradigma en la gestión de datos y la integración de la observabilidad en los flujos de trabajo de datos y aprendizaje automático refleja la evolución del panorama moderno de la ingeniería de datos.


Actualizaciones de la Curva Explicativa

Este informe de tendencias también incluye un gráfico actualizado que muestra nuestras predicciones sobre el estado actual de algunas tecnologías. Las categorías se basan en el libro "Cruzando el Abismo" de Geoffrey Moore. Nos centramos en aquellas categorías que aún no han alcanzado el éxito.


Desde innovadores hasta pioneros, una mejora notable es el "Asistente de Programación con IA". Aunque se lanzó el año pasado y casi nadie lo usa, vemos que cada vez más empresas lo ofrecen como servicio a sus empleados para aumentar su eficiencia. No es un componente estándar de todas las tecnologías, y aún estamos explorando cómo utilizarlo de la forma más eficaz, pero creemos que su tasa de adopción seguirá creciendo.


Creemos que el área que actualmente está alcanzando el éxito es el Procesamiento del Lenguaje Natural. Esto no es sorprendente, ya que tras el enorme éxito de ChatGPT, muchas empresas están intentando incorporar funciones de IA Generativa en sus productos. Por lo tanto, decidimos permitirle alcanzar el éxito y entrar en la categoría de Mayoría Temprana. Todavía hay mucho potencial de crecimiento en esta área, y el tiempo nos dirá más sobre las mejores prácticas y las capacidades de esta tecnología.


Hay algunas categorías a tener en cuenta que no han experimentado ningún movimiento. Estas tecnologías incluyen la generación de datos sintéticos, las interfaces cerebro-computadora y la robótica. Todas estas tecnologías parecen haberse estancado en la categoría de Innovadores. La más prometedora en este sentido es la generación de datos sintéticos, que ha recibido más atención recientemente con el auge de la GenAI. Vemos que cada vez más empresas hablan de generar más datos de entrenamiento, pero no hemos visto suficientes aplicaciones que los utilicen en su pila como para pasarla a la categoría de Adoptadores Pioneros. La robótica ha estado en el punto de mira durante muchos años, pero su tasa de adopción aún es demasiado baja como para garantizar que cambie.


También introdujimos algunas categorías nuevas en el gráfico. Una de ellas es la de las Bases de Datos de Búsqueda Vectorial, un subproducto del auge de la GenAI. A medida que nuestra comprensión de cómo representar conceptos como vectores continúa mejorando, la necesidad de un almacenamiento y recuperación eficiente de vectores ha aumentado. También hemos añadido la IA Explicable a la categoría de Innovadores. Creemos que la capacidad de las computadoras para explicar por qué tomaron una decisión determinada es esencial para su aplicación generalizada en la lucha contra las alucinaciones y otros peligros. Sin embargo, actualmente no vemos suficientes resultados de investigación en la industria como para ascenderla a una categoría superior.


Conclusión

Los campos de la inteligencia artificial, el aprendizaje automático y la ingeniería de datos experimentan un auge año tras año. Tanto las capacidades técnicas como las aplicaciones potenciales siguen en auge. Para los editores, es emocionante estar tan cerca de este progreso y esperamos seguir cubriendo este tema el próximo año. En el podcast, hicimos algunas predicciones para el próximo año, desde "La inteligencia artificial general dejará de existir" hasta "Los agentes autónomos se convertirán en una realidad".


相关标签:

Copyright © 2019-2025 Ai Master