Así entrenan los empleados de Google al chatbot Bard para que ofrezca respuestas de calidad en su guerra contra ChatGPT y Microsoft

Thomas Maxwell,
Sundar Pichai, CEO de Google.
Sundar Pichai, CEO de Google.

Reuters/Yves Herman

  • La semana pasada, Google pidió a sus empleados que pasaran entre 2 y 3 horas ayudando a entrenar a su chatbot Bard.
  • Los chatbots como Bard y ChatGPT aprenden a imitar a los humanos mediante la absorción de textos escritos.
  • Google quiere evitar que Bard actúe de forma emocional o proporcione respuestas confusas.

La semana pasada, Google puso en marcha internamente un " enfrentamiento de perros", en el que se pedía a todos los empleados de la organización que pasaran entre 2 y 4 horas ayudando a probar Bard, su nuevo chatbot de inteligencia artificial para búsquedas. 

La presentación de Bard se produjo poco después de que Microsoft anunciara una versión renovada de su motor de búsqueda Bing que incorpora el bot ChatGPT. Permite a los usuarios mantener un intercambio de mensajes sobre casi cualquier tema. Google sufrió un pequeño revés en su reputación cuando se descubrió que Bard respondía incorrectamente a una pregunta. Del mismo modo, a medida que más gente ha ido probando el nuevo Bing, se han encontrado con problemas con el bot de ese motor, como su propensión a comportarse de forma beligerante

Los bots como Bard y ChatGPT funcionan mediante el entrenamiento con textos escritos por humanos para poder imitarlos. Eso explica por qué Bing puede sonar algo emocional e impredecible: un bot entrenado para actuar como humano lo hará, fallos incluidos.

Al principio, estos robots aprenden en gran medida asimilando grandes conjuntos de datos de entrenamiento. Además, el jefe de producto de Bard, Jack Krawczyk, informó al personal en una circular de que el propio trabajo de la empresa había descubierto que añadir respuestas de alta calidad a las consultas de los usuarios mejoraba "drásticamente" la calidad del modelo de IA.

Expertos en IA han explicado a Business Insider cómo los empleados de Google pueden escribir respuestas de alta calidad para que Bard mejore su modelo. Estos expertos han realizado estudios exhaustivos en materia de IA y grandes modelos lingüísticos.

Los nuevos chatbots de Google y Microsoft se equivocan y mienten. ¿Por qué nos dejamos engañar?

Los bots pueden aprender de diferentes maneras

Krawczyk explicó a los empleados que hicieran preguntas a Bard sobre áreas en las que tuvieran experiencia, como su pasatiempo favorito. Luego les pidió que evaluaran las respuestas de Bard para asegurarse de que eran lo que uno esperaría y de una longitud y estructura razonables. Si una respuesta era demasiado humana, incorrecta o no tenía sentido, los empleados podían reescribirla y enviarla para ayudar a entrenar el modelo de Bard.

Para perfeccionar Bard, Google puede combinar el aprendizaje supervisado y el aprendizaje por refuerzo, explica Vered Shwartz, profesor adjunto de Informática de la Universidad de Columbia Británica.

El aprendizaje supervisado es el primer paso, consistente en alimentar al chatbot con consultas y respuestas escritas por humanos hasta que aprenda a escribir como ellos. La empresa puede optar por superponer un modelo de aprendizaje reforzado que se entrenaría con respuestas escritas por empleados de Google para ayudarle a entender qué valores quiere que muestren las respuestas de Bard, ya sea en términos de estructura, tono u otras cualidades.

Ese modelo examinaría las respuestas de Bard, rechazando las malas y validando las buenas hasta que el chatbot comprendiera cómo debía comportarse. Esencialmente, las "buenas" respuestas de los Googlers afinarían el modelo.

El modelo de refuerzo enseñaría a Bard a ser informativo sin hablar de emociones ni fingir ser humano. El primer modelo aprende habilidades fundamentales de escritura, mientras que el segundo dirigiría las respuestas en la dirección deseada.

Con un número suficiente de buenas respuestas que analizar, el modelo de refuerzo sería capaz de aprender qué es apropiado y qué no lo es, explica Zhou Yu, profesor de informática de la Universidad de Columbia.

 

Precisión factual 

Google se ha mostrado prudente en cuanto al despliegue de chatbots, probablemente debido a la influencia a corto plazo que podría tener en los márgenes de las búsquedas y a la preocupación por la exactitud de los datos. Ha pedido a sus empleados que rechacen las respuestas a preguntas en las que Bard intente aconsejar a un usuario sobre temas delicados como las finanzas o la salud, ya que el riesgo de respuestas incorrectas es alto.

OpenAI publicó en enero una actualización para mejorar la exactitud de sus respuestas en una serie de temas. En una conferencia sobre chatbots e IA celebrada este mes en San Francisco, Dario Amodei, CEO de Anthropic, afirmó que creía que los chatbots dejarían de inventar datos a medida que los modelos mejoren. 

Aunque el entrenamiento mejorará la calidad de las respuestas generadas, Shwartz no cree que resuelva por completo el problema de la veracidad de los hechos. Bard y ChatGPT tienen tendencia a "alucinar", un término que el sector ha adoptado para decir que los robots se inventan cosas. A veces extraen contenidos de páginas web y los resumen incorrectamente.

"Los robots están entrenados para producir textos similares a los humanos, no para ser veraces", sentencia Shwartz.

Conoce cómo trabajamos en Business Insider.