Precipitado y defectuoso: el lanzamiento del mayor producto de IA generativa de Amazon, desde dentro

Ilustración Andy Jassy

Mike Blake/Reuters; iStock; Emojipedia; Rebecca Zisser/Business Insider

  • Algunos empleados de Amazon afirman que el lanzamiento de Q, el chatbot de IA de la empresa, fue demasiado precipitado.
  • Algunos culpan a una versión inferior de Claude de Anthropic, uno de los modelos en los que se basa Q.
  • Amazon está aumentando significativamente su equipo de revisión humana para tratar de limitar las alucinaciones.

Poco después de lanzar su chatbot de inteligencia artificial Q a finales de noviembre, Amazon se enfrentó a un aluvión de críticas negativas porque daba respuestas falsas, o alucinaciones en la jerga del sector.

Esto ha provocado que los expertos de Amazon anden buscando respuestas, y algunos culpan en parte a una versión menos capaz de Claude de Anthropic, uno de los modelos en los que se basa el servicio de chatbot Q. Según ha podido saber Business Insider, el gigante de la nube está reforzando significativamente un equipo de empleados humanos que revisan y corrigen manualmente las respuestas del chatbot.

Los primeros tropiezos de Q son el resultado de un lanzamiento "apresurado" que dio poco tiempo para probar el chatbot adecuadamente, según 6 empleados actuales y antiguos de Amazon que han participado directamente en el proyecto. Estos empleados han pedido no ser identificados porque no están autorizados a hablar con la prensa. Dicen que los empleados han planteado repetidamente estas preocupaciones, y el equipo está ahora bajo presión para mejorar la calidad de las respuestas de Q, incluso cuando el proyecto se enfrenta a limitaciones sobre los recursos informáticos de Amazon.

Q de Amazon es un servicio similar a ChatGPT que ofrece a los clientes de empresas respuestas rápidas a preguntas relacionadas con el trabajo o con proyectos específicos. Podría decirse que es el producto de IA generativa de mayor perfil de la empresa hasta la fecha, y una respuesta a los populares chatbots de rivales como Microsoft, Google y OpenAI.

A pesar de su precipitado lanzamiento, Q salió al mercado más de un año después de ChatGPT y muchos meses después de Bard de Google, lo que pone de manifiesto lo retrasada que está Amazon en la carrera de la IA generativa. Los problemas iniciales de Q podrían suponer un revés para sus esfuerzos por ponerse al día.

"Q debería estar más pulido, dado lo retrasados que estamos", explica a BI uno de los empleados de Amazon. "Tuvimos muy poco tiempo para probarlo".

Un portavoz de Amazon señala que Q no se basa en un único modelo de IA, y que su lanzamiento siguió el procedimiento operativo estándar.

"Amazon Q está impulsado por Amazon Bedrock y aprovecha muchos de los últimos modelos de alto rendimiento de base, utilizando la lógica para enrutar las tareas al modelo que es el más adecuado para el trabajo", añade el portavoz en un comunicado. "Durante el período de vista previa hemos recibido una cantidad significativa de comentarios positivos de los clientes, y seguimos perfeccionando con rapidez Amazon Q para que sea aún más útil para nuestros clientes".

Andy Jassy, CEO de Amazon.

Claude Instant 1.2 frente a Claude 2.1

Andy Jassy

Reuters / Richard Brian

Bedrock, el proveedor de servicios en la nube de AWS que impulsa Q, proporciona acceso a una serie de modelos de IA, como Claude 2.1 de Anthropic, Llama 2 de Meta y la propia oferta Titan de Amazon. Q puede utilizar el modelo que mejor se adapte a cada caso. El argumento de venta de Q, según explica un empleado a BI, es que cualquier empresa puede utilizar un modelo base, aplicarle sus propios ajustes con datos propios y lanzar un chatbot a medida para su propio uso.

Aunque Q funciona con Bedrock, Claude de Anthropic es uno de los principales modelos de base, según fuentes conocedoras del proyecto. Según estas personas, Q utiliza principalmente Claude Instant 1.2, una versión más barata, ligera y rápida del modelo de IA que se lanzó en agosto. Internamente, algunos empleados creen que actualizar a Claude 2.1, una versión más avanzada que salió una semana antes del lanzamiento de Q en noviembre, mejoraría el rendimiento de Q. Al día siguiente de presentar Q, Amazon anunció que Claude 2.1 estaba disponible en Bedrock.

No es de extrañar que Amazon confíe principalmente en Anthropic para algunos de los modelos base que utiliza. En septiembre, Amazon acordó invertir hasta 4.000 millones de dólares en esta empresa de IA. El CEO de Anthropic, Dario Amodei, pronunció un discurso en la conferencia anual re:Invent de AWS en noviembre. Anthropic no ha respondido a la solicitud de comentarios.

Más accesible, pero demasiado simple

Actualmente, Amazon Q sólo se ofrece en modo de vista previa a clientes selectos.

Randall Hunt, vicepresidente de estrategia en la nube de Caylent, un socio de AWS, ha explicado a BI que, según sus pruebas, Q parece utilizar ahora el último modelo de Claude en muchos casos. Aún así, asegura que muchas de las respuestas de Q son demasiado simples y a menudo carecen de un contexto general, lo que puede resultar poco atractivo para los clientes de la nube más avanzados.

"Por ahora, Q hace sin duda que AWS sea más accesible para los nuevos usuarios. Pero creo que a los usuarios avanzados les resultará más difícil sacarle partido", sostiene Hunt.

Amazon Nilo

"Un humano en el bucle"

Lo que más preocupa de Q es su propensión a alucinar, según personas familiarizadas con el proyecto.

Por ejemplo, durante el periodo de pruebas previo al lanzamiento, los empleados de Amazon descubrieron que Q proporcionaba datos inexactos sobre precios e información inventada sobre productos, según una de las personas. En un momento dado, si la respuesta contenía el nombre de un competidor, como Oracle, se bloqueaba por razones desconocidas, según esta persona. Platformer ya había publicado un artículo sobre problemas similares.

Como respuesta, Amazon está reforzando la evaluación humana de Q, una práctica común de la IA conocida como "humano en el bucle", según han explicado a BI varias personas involucradas en el proyecto. La compañía ya contaba con este proceso antes de su lanzamiento, en el que se comprobaba manualmente la precisión y calidad de las respuestas de Q, al tiempo que se controlaba la parcialidad. Sin embargo, ahora hay un grupo de trabajo para intensificar estos esfuerzos. La alucinación es una de las áreas clave que este equipo se propone abordar, según uno de los responsables.

"Cuando salió Q, la gente se dio cuenta de lo malo que era", afirma una de las personas. "El grupo de trabajo está para mejorarlo".

"Falta de liderazgo"

Las alucinaciones son un problema común entre los chatbots de IA. Otras empresas, como Microsoft y Google, también han visto cómo sus chatbots compartían información inexacta durante demostraciones públicas.

Aun así, Corey Quinn, de Duckbill Group, una empresa que ayuda a los clientes a administrar cuentas de AWS, explica a BI que las deficiencias de Q reflejan la "falta de liderazgo" de Amazon en el ámbito de la IA. AWS puede ser el líder del mercado en computación en nube, pero eso ha creado una "ilusión" y un "sentido de derecho" sobre su posición en el mercado de la IA, afirma.

Quinn tuiteó en su día una serie de respuestas inexactas que encontró en Q. También publicó sus hallazgos en un artículo de su blog, titulado "AWS's (de) Generative AI Blunder". No está claro cuántos de estos problemas se han solucionado.

"¿Ayudan o perjudican a los clientes tener un bot que da información plausible pero errónea?", reflexiona Quinn en un correo electrónico enviado a Business Insider.

Pugna por los recursos

Otro reto para el equipo de Q es la competencia interna por la capacidad informática de AWS.

La aparición de la IA generativa ha aumentado drásticamente la demanda de GPU de Nvidia y otros proveedores. Eso significa que AWS a menudo tiene que dar prioridad a los clientes externos sobre las pruebas internas, lo que ralentiza aún más el desarrollo de Q, según una de las fuentes.

Q es sólo una parte de la estrategia de tres niveles de Amazon para la IA. La primera parte son las aplicaciones de usuario, como Q, construidas sobre modelos lingüísticos de IA. La segunda capa incluye los grandes modelos lingüísticos propiamente dichos, como Claude, Llama 2 y la propia oferta Titan de Amazon. El ingrediente final es la potencia de cálculo y los chips, incluidos los chips en la nube de IA Trainium e Inferentia de Amazon junto con las GPU de Nvidia.

 

Algo "bueno", no "algo cuanto antes"

Adam Selipsky, CEO de AWS.
Adam Selipsky, CEO de AWS.

Tableau.

La carrera de Amazon por ponerse al día en IA y la intensa competencia han creado lo que algunos empleados denominan "fatiga de IA", como ya ha informado BI. Los ejecutivos de AWS dicen que es muy pronto, y es poco probable que un modelo o aplicación "gobierne" el ámbito de la IA, como el CEO de AWS, Adam Selipsky, comentó recientemente a los empleados en una reunión interna.

"Todavía es pronto", dijo Selipsky. "Ni siquiera sé si es el día uno. No sé si es el día 0,1 o algo por el estilo".

Algunos empleados de AWS, sin embargo, dicen que parece que la compañía está en una carrera de locos para lanzar nuevos productos, aunque sean mediocres. Q de Amazon, por ejemplo, aceleró su lanzamiento en parte para poder cumplir con el plazo de finales de noviembre de anunciarlo en re:Invent, la gran conferencia anual de AWS, afirman.

"Q surgió de forma muy repentina", señala una de las personas. "Necesitamos construir algo bueno en IA generativa y no algo tan pronto como sea posible".

Conoce cómo trabajamos en Business Insider.