Cómo desplegar AI de borde en FPGA utilizando herramientas familiares

June 1, 2026
últimas noticias de la compañía sobre Cómo desplegar AI de borde en FPGA utilizando herramientas familiares

La IA en el borde de la red rara vez significa solo inferencia. La implementación en el mundo real normalmente implica entrada/salida (E/S) de alta velocidad, acondicionamiento de señales y bucles de control en tiempo real, todos los cuales se ejecutan simultáneamente. Estas cargas de trabajo multifuncionales requieren una estrecha coordinación y una alta certeza, y a los diseñadores les ha resultado difícil cumplir estos requisitos utilizando hardware de IA convencional.

Dos factores hacen que este problema sea aún más complejo. En primer lugar, los modelos de IA se están desarrollando a un ritmo sorprendente, lo que lleva a los diseñadores a adoptar plataformas que admitan actualizaciones rápidas de algoritmos. Mientras tanto, muchos sistemas de borde se han utilizado en el sitio durante hasta diez años o más, lo que dificulta garantizar la adaptabilidad a largo plazo. En segundo lugar, el camino desde modelos bien entrenados hasta el despliegue e implementación del sistema aún está fragmentado. Los científicos de datos utilizan PyTorch y TensorFlow, mientras que los equipos integrados utilizan cadenas de herramientas completamente diferentes, lo que crea fricción durante el proceso de entrega y ralentiza la velocidad de producción.

Para abordar estos desafíos, las plataformas deben poder combinar procesamiento de IA de alto rendimiento con comportamiento determinista, E/S flexible y adaptabilidad a largo plazo, todo lo cual debe lograrse dentro del rango típico de consumo de energía de una implementación de borde limitada.

Este artículo se centra en los escenarios de aplicaciones y los requisitos relacionados que desafían a los diseñadores a explorar nuevas arquitecturas de IA de vanguardia. Luego, presentó los dispositivos de matriz de puertas programables en campo (FPGA) y las herramientas de software de Altera que admiten la IA de vanguardia, y demostró cómo utilizarlos para cumplir con los diversos requisitos de rendimiento y energía de estas aplicaciones.

La evolución de la IA de vanguardia requiere innovación arquitectónica
Los sistemas de borde están adoptando cada vez más diversas tecnologías de inteligencia artificial, incluido el aprendizaje automático (ML) clásico para la detección de anomalías, las redes neuronales convolucionales (CNN) para la percepción y los convertidores para modelos de lenguaje grandes (LLM). Estos algoritmos computacionalmente intensivos a menudo coexisten con funciones exigentes que no son de IA, como el procesamiento de señales, la comunicación de red y el control en tiempo real.

Los sistemas autónomos son un buen ejemplo. Por lo general, necesitan capturar datos de múltiples modalidades de sensores, como video, audio, radar, LiDAR y retroalimentación de movimiento/posición, preprocesar estos flujos de datos con alto rendimiento, analizar los resultados utilizando IA compleja y luego administrar bucles de control de alta precisión, todo lo cual requiere una determinación confiable.

Hay muchos ejemplos similares en aplicaciones de automatización industrial, imágenes médicas, defensa y telecomunicaciones. Un desafío común al que se enfrentan es que las arquitecturas tradicionales son difíciles de adaptar a cargas de trabajo en constante convergencia.

Por qué FPGA es particularmente adecuado para la IA de vanguardia
Por el contrario, estos requisitos son totalmente compatibles con la funcionalidad de FPGA. El núcleo de FPGA es proporcionar lógica configurable para realizar operaciones de una manera verdaderamente paralela, con su comportamiento de sincronización integrado en el tiempo de diseño en lugar de fluctuar en el tiempo de ejecución. Esta arquitectura puede lograr un determinismo de baja latencia, lo cual es crucial para la IA de vanguardia. La lógica flexible también puede utilizar E/S potentes: los FPGA generalmente proporcionan abundantes E/S de alta velocidad, que se pueden conectar a varios sensores y actuadores para lograr un acoplamiento estrecho con el procesamiento de IA.

FPGA también incluye memoria interna distribuida, que permite acceder a los datos mediante la lógica que opera en ella. Esto reduce el cuello de botella que surge cuando múltiples etapas de procesamiento deben competir para acceder al bus de memoria compartida, lo cual es una limitación común en las arquitecturas basadas en procesadores.

Muchos FPGA también integran hardware especializado de procesamiento de señales digitales (DSP). En comparación con las estructuras convencionales, estos circuitos mejorados brindan mayor rendimiento y mejor eficiencia energética para cargas de trabajo de procesamiento de señales. Algunos FPGA también integran sistemas de procesador cableados que pueden ejecutar pilas de software estándar (incluido Linux), lo que permite el desarrollo de software tradicional para tareas como redes, administración de dispositivos e interfaz de usuario.

En resumen, una única FPGA puede integrar funciones que de otro modo requerirían chips de E/S, aceleradores de IA, DSP y procesadores de plano de control separados. Esto puede reducir la lista de materiales (BOM), reducir el área de la placa de circuito, reducir el consumo de energía y, al mismo tiempo, mantener la baja latencia y la certeza necesarias para las aplicaciones de IA de vanguardia.

Cómo abrir nuevas posibilidades con la adición de bloques tensoriales de IA
El hardware FPGA DSP tradicional ya es muy adecuado para muchas cargas de trabajo perimetrales, pero la inferencia de IA a menudo se basa en operaciones de multiplicación densas pero de baja precisión. Para solucionar este problema, los dispositivos Agilex 3 y Agilex 5 de Altera utilizan DSP mejorados con bloques tensoriales de IA. Este es un hardware especializado para la multiplicación de matrices y matrices vectoriales, que aparece repetidamente en los gráficos de cálculo de IA.

El núcleo de este método es el producto escalar y el motor sumador/acumulador (Figura 1). En modo tensor, el motor de puntos cableado utiliza una entrada de 8 bits y pesos de 8 bits precargados para realizar un producto escalar de 10 elementos. Para expandir el rango dinámico, la ruta de datos también puede usar un "índice común" compartido para el escalado de punto flotante en bloque para hacer frente a escenarios típicos donde la inferencia de IA generalmente requiere un alto rango dinámico pero baja precisión.