Ir al contenido principal
BlogComputeInferencia distribuida de IA: Estrategias para el éxito

Inferencia distribuida de IA: Estrategias para el éxito

Estrategias_de_inferencia_de_la_I_distribuida_para_el_éxito

A medida que los modelos de IA siguen evolucionando para convertirse en pilares operativos de las empresas, la inferencia en tiempo real se ha convertido en un motor esencial de esta transformación. La demanda de conocimientos de IA instantáneos y listos para la toma de decisiones es cada vez mayor, y los agentes de IA, que se están convirtiendo rápidamente en la vanguardia de la inferencia, están listos para una adopción explosiva. Las previsiones del sector apuntan a un punto de inflexión: más de la mitad de las empresas que utilizan IA generativa desplegarán agentes autónomos en 2027, según Deloitte. En respuesta a esta tendencia, las empresas están buscando formas escalables y eficientes de desplegar modelos de IA en múltiples servidores, centros de datos o geografías, y están dirigiendo su mirada a los despliegues distribuidos de IA en la nube. 

En un blog anterior, Distributed AI Inference - The Next Generation of Computing, cubrí los conceptos básicos de la inferencia de IA distribuida y cómo aprovechar la plataforma de alto rendimiento única de Akamai Cloud puede ayudar a las empresas a escalar a un coste impresionantemente bajo. En este blog, continuaremos explorando conceptos sobre la inferencia de IA distribuida, en particular, cómo implementar, orquestar y escalar la IA utilizando una arquitectura de nube distribuida. Además, analizaremos los retos asociados a este modelo. 

Despliegue

Tendría razón si pensara que desplegar modelos de IA a escala global parece un asunto complicado. Afortunadamente, existen multitud de herramientas y tecnologías para apoyar el ciclo de vida completo de la IA, desde su creación y formación hasta su despliegue, perfeccionamiento y gestión. Elegir la combinación adecuada de soluciones requiere una cuidadosa consideración. Akamai Cloud se asocia con muchos proveedores de tecnología líderes para proporcionar los componentes fundamentales de la inferencia de IA y un ecosistema vibrante. Estamos construyendo la nube de inferencia de IA para hoy, al tiempo que la preparamos para el futuro mediante la entrega de una gama de potencia informática, almacenamiento de datos y soluciones de gestión cerca de sus usuarios, junto con el software necesario para conectar sus modelos a través de sitios distribuidos.

AI Inference en Akamai Cloud integra potentes tecnologías y aprovecha las asociaciones con proveedores líderes para crear un ecosistema de alto rendimiento para entregar AI a gran velocidad. Esto incluye lo siguiente:

  • Servicio de modelos mediante motores de inferencia como Nvidia Dynamo (antes Triton) y Kserve, lo que permite un acceso fluido a los modelos de IA para sus aplicaciones.
  • MLOps y orquestación con herramientas como KubeFlow, Nvidia Rapids y KubeSlice para dar soporte a canalizaciones de datos, gestión del ciclo de vida del modelo y supervisión del rendimiento.
  • Optimización de modelos con tecnologías como el conjunto de herramientas TAONvidia y KubeFlow, que permiten el ajuste fino, la poda, la cuantificación y otras técnicas de optimización de modelos.
  • Gestión de datos a través de integraciones clave con plataformas de tejido de datos, bases de datos y bibliotecas, como VAST Data, Nvidia Rapids y Milvus, para almacenar, procesar y transferir datos vinculados a cargas de trabajo de IA, así como proporcionar capacidades de gobernanza para el linaje de modelos, versionado y explicabilidad.
  • Edge computing en la red Edge global de Akamai, con socios como Fermyon y Avesha que proporcionan computación ligera para reducir drásticamente la latencia y mejorar el rendimiento.
  • AI Gateway proporciona un punto final unificado para enrutar las solicitudes de las aplicaciones/usuarios en el borde hacia el modelo o modelos de IA, con capacidades para optimizar la seguridad, el rendimiento, la resiliencia y la accesibilidad para desarrolladores y agentes de IA.  

La base de todo lo anterior es Akamai Cloud, que proporciona la infraestructura central de computación, almacenamiento, redes, contenedorización y seguridad y fiabilidad de nivel empresarial para impulsar sus modelos de IA a través de la infraestructura distribuida en la nube. 

Quiero dedicar un momento a destacar la optimización de modelos, un proceso crucial a la hora de distribuir la IA. Técnicas como la poda de modelos (para eliminar parámetros redundantes) y la cuantización (para reducir la precisión con un impacto mínimo en la exactitud general de la inferencia) desempeñan un papel importante a la hora de preparar un modelo para que funcione más cerca de los bordes, donde los recursos informáticos pueden ser limitados. Esto ayuda a garantizar que los sistemas autónomos, como los agentes de IA, puedan tomar decisiones rápidas y obtener resultados con capacidad de respuesta, a pesar de la limitación de los recursos informáticos. Para las cargas de trabajo basadas en agentes que requieren un análisis rápido del entorno y una planificación iterativa, sus ingenieros de IA también pueden estar estudiando técnicas avanzadas como la fragmentación de modelos, la correspondencia dinámica de solicitudes y la división de modelos para ejecutar la inferencia de varios pasos en paralelo con el fin de optimizar aún más la latencia y el rendimiento del precio en despliegues distribuidos. 

Aprovechar estas técnicas de optimización puede: 

  • reducen drásticamente el tamaño de los modelos, a veces hasta en un 80%, lo que los hace mucho más ligeros de implantar,
  • reducir el coste computacional y el consumo de energía, haciendo más eficiente el funcionamiento del modelo,
  • mejoran notablemente la velocidad de inferencia, lo que resulta especialmente útil en aplicaciones sensibles a la latencia.

Mejorar la eficiencia y el rendimiento de los modelos con estos métodos y desplegarlos en una arquitectura distribuida con proximidad a los usuarios y los datos, reduce las barreras de coste y latencia para desplegar aplicaciones empresariales de IA. 

Escala

El escalado es crucial para el éxito de la inferencia de IA, especialmente si has construido un modelo de éxito que realmente despierte el interés de las masas. Esto significa prepararse para los picos de demanda y, al mismo tiempo, mantener el rendimiento para satisfacer las expectativas de los usuarios. Tanto la ampliación como la reducción son importantes. Es cierto que puede añadir más capacidad de procesamiento en un centro de datos centralizado, pero llega un momento en que resulta más rentable y eficiente escalar horizontalmente con un modelo de inferencia distribuido, sobre todo cuando la latencia es importante para determinadas aplicaciones, como por ejemplo: 

  • asistentes de voz que requieren tiempos de respuesta inferiores al segundo para permitir flujos de conversación naturales,
  • drones/vehículos autónomos que responden a datos de sensores IoT, o 
  • aplicaciones de IA agéntica que pueden necesitar aprovechar recursos geográficamente dispersos para la toma de decisiones en tiempo real, la coordinación autónoma y la distribución dinámica de la carga de trabajo a través de redes periféricas. 

Esto requiere una modularización y portabilidad bien pensadas de su aplicación de IA, logradas en Akamai Cloud con nuestro motor de orquestación y ecosistema Kubernetes y una plataforma para simplificar y acelerar el despliegue de aplicaciones escalables. La modularización y la portabilidad le permiten escalar su aplicación de IA y las operaciones que la soportan. Kubernetes se ha convertido en el estándar de facto para la computación nativa en la nube, haciendo que la portabilidad sea mucho más manejable. 

Las posibilidades de tener acceso a la combinación adecuada de recursos informáticos dondequiera que se encuentre la instancia del modelo mejoran drásticamente al adoptar paradigmas abiertos y sin bloqueo que promueven la portabilidad en entornos híbridos y de nubes múltiples. La AI en contenedores con Kubernetes es el enfoque que hemos elegido como base para nuestras soluciones de escalado.

Mantener la pertinencia

Al igual que los seres humanos que se suscriben al aprendizaje permanente, los modelos de IA también necesitan afinar las ponderaciones de sus modelos con conjuntos de datos actualizados, aprendiendo de la retroalimentación y refinando su contexto a medida que cambian las cosas. El entrenamiento continuo con nuevos datos se vuelve cada vez más complejo en un modelo distribuido, sobre todo porque la coordinación y sincronización de las actualizaciones en varios nodos o ubicaciones puede dificultar el mantenimiento de la coherencia.  

Esto requiere recopilar datos de la ubicación en la que se despliega una instancia distribuida de su aplicación/modelo de IA, habilitada con soluciones de almacenamiento de objetos y bases de datos vectoriales para permitir la generación aumentada de recuperación (RAG), y un mecanismo para enviar esos datos de vuelta al modelo central para su reentrenamiento o ajuste. La inferencia de IA en Akamai Cloud se basa en una sólida gestión de datos fundamentales respaldada por asociaciones clave con proveedores líderes de plataformas de tejido de datos. Estas capacidades básicas de gestión de datos garantizan que los modelos puedan recopilar datos de rendimiento, dominio y actualizados basados en eventos actuales para proporcionar un contexto rico, relevante y en tiempo real al modelo para obtener resultados más precisos. Esto también reduce el riesgo de alucinaciones. Además, estos datos pueden informar al modelo centralizado para ayudar con el reentrenamiento a ajustar las ponderaciones del modelo para una inferencia relevante mejorada a escala de modelo global. 

Akamai Cloud le permite hacer frente a varios retos inherentes a la entrega de IA empresarial:

  • Eficiencia de costes: aunque el coste suele ser un factor determinante a la hora de seleccionar un modelo de despliegue de inferencia de IA distribuida mediante la ejecución de la inferencia más cerca de los usuarios (véase el ebook), se puede conseguir una mayor optimización de costes seleccionando opciones de computación que ofrezcan un rendimiento aceptable a precios asequibles. En Akamai, estamos ayudando a resolver este enigma de costes proporcionando GPUs con ratios de rendimiento y coste bien equilibrados, así como habilitando técnicas de optimización de modelos para la inferencia de CPU de productos básicos. 
  • Consumo de energía y sostenibilidad - Las cargas de trabajo de inferencia de IA pueden consumir cantidades masivas de energía, con centros de datos y aceleradores de IA que consumen una potencia inmensa para ejecutar modelos. Esto contribuye a las emisiones globales de carbono y a la huella de carbono de las organizaciones. A medida que aumente la adopción de la IA, la demanda de energía para la inferencia de la IA superará a la formación, lo que creará más problemas de sostenibilidad. La distribución de la inferencia de IA apoya las estrategias para reducir las emisiones de carbono mediante la reducción de la transmisión de datos con la inferencia localizada, la optimización de los modelos para el procesamiento de menor potencia con el uso selectivo de aceleradores de IA, el escalado dinámico de las aplicaciones de IA y el aprovechamiento de los centros de datos de energía verde. 
  • Aprendizaje federado: se refiere al reto mencionado anteriormente: gestionar los ritmos de aprendizaje y la evolución de las distintas instancias de sus modelos de IA dispersas en un entorno distribuido en la nube. Es importante adoptar un medio para mantener sincronizadas las versiones de sus modelos con una forma de supervisión centralizada del aprendizaje. Esto puede implicar realinear los pesos del modelo localmente y luego sincronizarlos en todas las instancias del modelo con un mecanismo de aprendizaje federado.
  • Proteger sus modelos: proteger sus modelos de IA de ciberataques, incluidas nuevas amenazas, fugas de datos, riesgos de cumplimiento y ataques de adversarios, es esencial para que las aplicaciones de IA de nivel empresarial no pongan en peligro la fidelidad o la seguridad de los modelos de IA, o interrumpan su accesibilidad por completo. Es importante proteger tanto las consultas de IA entrantes como las respuestas de IA salientes con detección de amenazas nativa de IA en tiempo real, aplicación de políticas y medidas de seguridad adaptables para defenderse de inyecciones puntuales, fugas de datos confidenciales, exploits de adversarios y ataques DoS específicos de IA. Proteger los modelos es de vital importancia para las empresas y, aunque no entra dentro del ámbito de este blog, puede obtener más información sobre el Firewall de Akamai para IA aquí

El futuro de la inteligencia artificial 

En Akamai, creemos que la inferencia de IA distribuida es la columna vertebral de las aplicaciones de IA escalables y de alto rendimiento. Akamai Cloud se ha diseñado con una infraestructura que simplifica el despliegue de aplicaciones empresariales de IA, a la vez que proporciona información lista para la toma de decisiones a la velocidad y con la fiabilidad que su empresa necesita para servir a los usuarios allí donde se encuentren. Al asociarse con proveedores líderes para integrar software de primera clase en nuestra pila de inferencia de IA, Akamai Cloud está diseñada para resolver los retos de escalar la IA y proporciona el entorno de ejecución en tiempo real necesario para capacitar a los agentes de IA para orquestar tareas, optimizar flujos de trabajo e impulsar la toma de decisiones autónoma a escala. 

Aprovechar las estrategias adecuadas para optimizar sus aplicaciones de IA es clave para lograr un rendimiento, un coste y una sostenibilidad equilibrados, al tiempo que se garantiza que ofrecen una inferencia de alta fidelidad. Los bucles de retroalimentación que evalúan y mejoran constantemente sus modelos necesitan una estrategia de datos bien planificada que sirva como base del aprendizaje continuo que mantiene su aplicación de IA relevante y precisa.  

Estamos entusiasmados con las aplicaciones de IA que nuestros clientes están construyendo hoy en Akamai Cloud y no podemos esperar a ver lo que construirán mañana. 

¿Le interesa saber más sobre las referencias de rendimiento de la inferencia de IA? Lea nuestro libro blanco.

También te puede gustar...

Comentarios

Dejar una respuesta

Su dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *.

OSZAR »