Meta apuesta por la IA con chips personalizados y una supercomputadora

19 may. 2023 16:10h.

Meta ha desvelado sus esfuerzos para desarrollar una infraestructura interna para cargas de trabajo de IA.
Para ser exactos, la compañía planea empezar a desarrollar un chip interno más ambicioso, previsto para 2025, capaz tanto de entrenar modelos de IA como de ejecutarlos.

En un evento digital reciente, Meta ha vuelto a hacer mucho énfasis en la importancia que le está dando a la inteligencia artificial en los próximos años.

Para ser claros, la compañía americana ha desvelado sus esfuerzos para desarrollar una infraestructura interna para cargas de trabajo de IA, incluida la IA generativa, como la que sustenta sus herramientas de diseño y creación de anuncios lanzadas hace bien poco.

"Construir nuestras propias capacidades [de hardware] nos da el control en cada capa de la pila, desde el diseño del centro de datos a los marcos de formación", apunta Alexis Bjorlin, vicepresidente de Infraestructura de Meta, a TechCrunch. "Este nivel de integración vertical es necesario para ampliar los límites de la investigación de IA a escala".

En los últimos 10 años, Meta ha invertido miles de millones de dólares en contratar a los mejores científicos de datos y crear nuevos tipos de IA, incluida la que ahora impulsa los motores de descubrimiento, los filtros de moderación y los recomendadores de anuncios que se encuentran en todas sus aplicaciones y servicios.

Pero la empresa ha tenido problemas para convertir muchas de sus innovaciones más ambiciosas de investigación de IA en productos, especialmente en el frente de la IA generativa.

Hasta 2022, Meta usaba para sus cargas de trabajo de inteligencia una combinación de CPU y un chip personalizado diseñado para acelerar sus algoritmos de IA. Esto se quedó en el aire y en su lugar realizó pedidos de GPU de Nvidia por valor de miles de millones de dólares, lo que exigió importantes rediseños de varios de sus centros de datos.

En un esfuerzo por dar la vuelta a la situación, Meta planea empezar a desarrollar un chip interno más ambicioso, previsto para 2025, capaz tanto de entrenar modelos de IA como de ejecutarlos.

La compañía americana ha denominado a este chip Meta Training and Inference Accelerator (MTIA) y lo describe como parte de una "familia" de chips para acelerar las cargas de trabajo de entrenamiento e inferencia de inteligencia artificial.

"Para obtener mejores niveles de eficiencia y rendimiento en todas nuestras cargas de trabajo importantes, necesitábamos una solución a medida codiseñada con el modelo, la pila de software y el hardware del sistema", continúa Bjorlin. "Esto proporciona una mejor experiencia para nuestros usuarios a través de una variedad de servicios".

Este tipo de chips es cada vez más común en las tecnológicas. Google ha creado un procesador para entrenar grandes sistemas de IA generativa como PaLM-2 e Imagen. Amazon ofrece chips propios a sus clientes de AWS. Microsoft está trabajando con AMD para desarrollar un chip de IA propio llamado Athena.

A día de hoy al proyecto de Meta le queda mucho trabajo, pero aseguran que MTIA, que sigue perfeccionando, aumenta "enormemente" la eficiencia de la empresa en términos de rendimiento por vatio al ejecutar cargas de trabajo de recomendación, lo que a su vez permite a Meta ejecutar cargas de trabajo de IA "más mejoradas" y "vanguardistas".

Por otro lado, la red social está ahora confiando en las GPU de su superordenador de investigación, el Research SuperCluster (RSC) que presentaron en enero de 2022 en colaboración con Penguin Computing, Nvidia y Pure Storage.

Ahora, tras terminar su segunda fase de desarrollo, Meta afirma que cuenta con un total de 2.000 sistemas Nvidia DGX A100 y 16.000 GPU Nvidia A100.

¿El objetivo de todo esto? Meta afirma que el RSC confiere la ventaja de permitir a sus investigadores entrenar modelos utilizando ejemplos reales de los sistemas de producción de Meta. A diferencia de la anterior infraestructura de IA de la empresa, que sólo utilizaba código abierto y conjuntos de datos públicos.

"El superordenador RSC AI se utiliza para ampliar los límites de la investigación en IA en varios ámbitos, incluida la IA generativa", afirma un portavoz de Meta. "Se trata de la productividad de la investigación en IA. Queríamos proporcionar a los investigadores de IA una infraestructura de vanguardia para que pudieran desarrollar modelos y dotarles de una plataforma de entrenamiento para avanzar en la IA".

Meta afirma que utilizó el RSC para entrenar LLaMA, acrónimo de "Large Language Model Meta AI", un modelo de lenguaje de gran tamaño que la compañía compartió como "versión cerrada" con investigadores a principios de año. Según Meta, el modelo LLaMA más grande se entrenó en 2.048 GPU A100, lo que llevó 21 días.

"Construir nuestras propias capacidades de supercomputación nos da el control en cada capa de la pila, desde el diseño del centro de datos hasta los marcos de entrenamiento", añade el portavoz.

"RSC ayudará a los investigadores de IA de Meta a crear nuevos y mejores modelos de IA capaces de aprender a partir de billones de ejemplos; trabajar en cientos de idiomas diferentes; analizar a la perfección texto, imágenes y vídeo de forma conjunta; desarrollar nuevas herramientas de realidad aumentada; y mucho más", culmina.

Otros artículos interesantes:

Descubre más sobre Carlos Ferrer-Bonsoms Cruz, autor/a de este artículo.

Conoce cómo trabajamos en Business Insider.

Etiquetas:

Meta