Los empleados subcontratados de Google aseguran que no tienen tiempo para verificar las respuestas de Bard y acaban haciendo conjeturas

Thomas Maxwell
| Traducido por: 
Una ilustración del logo de Google junto a la página web de Bard.

Jakub Porzycki/NurPhoto vía Getty

  • Bard, el generador de texto por IA de Google, se lanzó en formato beta en algunos mercados el pasado mes de marzo.
  • La respuesta Google a ChatGPT habría sido probada internamente por algunos trabajadores de la compañía, pero los empleados subcontratados declaran ahora que no disponen de tiempo suficiente como para valorar correctamente la herramienta. 

Google ha encargado a algunos de sus trabajadores subcontratados que ayuden a evaluar la calidad de las respuestas ofrecidas por su generador de texto por inteligencia artificial, Bard. Estos trabajadores afirman que, a menudo, no disponen del tiempo necesario para evaluar la precisión de las respuestas.

El gigante de las búsquedas online lanzó una versión limitada de Bard en marzo, semanas después del lanzamiento del chatbot que ha sido desarrollado por OpenAI e impulsado por Microsft, ChatGPT. El bot de Google funciona de forma similar: se le hace una pregunta o una petición y el generador de texto responde de forma similar a conforme lo haría un ser humano

La empresa Appen está ayudando ahora a Google a mejorar su chatbot. A los trabajadores de esta compañía no se les dice explícitamente que las tareas que se les asignan están relacionadas con Bard, pero las discusiones internas sobre el nuevo proyecto se remontan al 7 de febrero, más o menos cuando Google anunció su generador de texto por primera vez

Los documentos internos revisados por Business Insider incluyen instrucciones para que los evaluadores revisen la calidad de las respuestas producidas por un supuesto "chatbot de IA".

Debate ético sobre ChatGPT

Como "calificadores", estos trabajadores subcontratados suelen evaluar los algoritmos de búsqueda de Google y la relevancia de los anuncios que aparecen en los resultados del buscador, así como marcar sitios web dañinos para que no aparezcan entre los resultados.

Desde enero, gran parte del trabajo de los evaluadores ha derivado hacia la revisión de las indicaciones de la IA, según 4 empleados que hablaron con Business Insider bajo condición de anonimato al no estar autorizados para hablar con medios de comunicación. 

Estos evaluadores expresaron su frustración durante el proceso de calificación de las peticiones del chatbot, alegando que no se les da tiempo suficiente para calificar con precisión sus respuestas y señalando que a veces se ven obligados a hacer conjeturas para que se les pague como es debido.

Bard recibió numerosas críticas después de que se descubriese que había ofrecido una respuesta incorrecta durante su anuncio de presentación. Google ha afirmado en reiteradas ocasiones que su generador de texto mejorará con el tiempo y que no debe considerarse un sustituto de su motor de búsqueda.

En el periodo previo al lanzamiento, la empresa pidió a sus trabajadores que dedicasen entre 2 y 4 horas al día a probar el chatbot, haciéndole preguntas y marcando las respuestas que no cumplían las normas de precisión y otras medidas de Google. Los empleados podían reescribir las respuestas a las preguntas sobre cualquier tema y Bard aprendía de esos errores.

Falta de tiempo

Un documento de instrucciones para los evaluadores al que ha tenido acceso Business Insider indica que se les proporcionará una "petición de un usuario (por ejemplo, una pregunta, instrucción, declaración) a un chatbot de inteligencia artificial junto a 2 posibles respuestas generadas por el bot". A continuación, el evaluador debe valorar qué respuesta es mejor.

También puede explicar en un cuadro de texto por qué eligió una respuesta en lugar de la otra, lo que puede ayudar al bot a aprender qué atributos debe buscar en las respuestas correctas. Entre otras cosas, las respuestas deben ser coherentes y precisas, y basarse en información actualizada. 

Los subcontratados aseguran que disponen de un tiempo determinado para realizar cada tarea, como revisar una pregunta, y que el tiempo que se les asigna puede variar mucho: desde 60 segundos hasta varios minutos. Los evaluadores sostienen que es muy difícil puntuar una respuesta cuando no se conoce bien el tema del que habla el generador de texto (por ejemplo, temas técnicos como los NFT).

Dado que cada tarea asignada representa un tiempo determinado de facturación, algunos trabajadores apuntan que realizan las tareas que se les asignan incluso siendo conscientes de que no pueden evaluar correctamente las respuestas del chatbot de IA.

 

"Algunos dirán que siguen siendo 60 segundos de trabajo y no puedo recuperar ese tiempo si me he sentado aquí y me he dado cuenta de que no sé lo suficiente sobre este tema, así que simplemente voy a hacerlo lo mejor posible para poder mantener ese sueldo y seguir trabajando", explicó uno de los evaluadores.

Otro evaluador expresó un sentimiento similar, argumentando que quieren verificar las respuestas y proporcionar la mejor experiencia de chatbot que puedan, pero sencillamente no se les da el tiempo suficiente como para investigar un tema antes de proporcionar una evaluación. "Honestamente, la mayoría de nosotros estamos al límite". 

"3 horas de investigación para completar una tarea que debería realizarse en 60 segundos, esa es una buena forma de entender el problema al que nos enfrentamos en este momento", comentó uno de estos calificadores.

Los trabajadores subcontratados exigen mejores condiciones laborales

Los empleados que trabajan para compañías subcontratadas por Google cada vez exigen mejores condiciones laborales.

El pasado mes de febrero, los evaluadores de Appen le entregaron una carta a Prabhakar Raghavan, director de búsqueda de Google, en la que reclamaban mejores salarios. Los trabajadores de Appen que trabajan para Google, a pesar de apoyar a una empresa que genera la mayor parte de sus ingresos a partir de las búsquedas y la publicidad, ganan algo más de 14 dólares la hora (unos 13 euros). 

El Sindicato de Trabajadores de Alphabet —matriz de Google— representa en la actualidad a estos evaluadores como "sindicato de solidaridad". Esto quiere decir que el colectivo laboral les apoya y ayuda a hacer activismo, pero no representa formalmente a estos empleados ni negocia un convenio colectivo para ellos.

En Austin (Texas, Estados Unidos), los trabajadores subcontratados por YouTube anunciaron a finales del año pasado su intención de afiliarse al AWU (siglas en inglés del Sindicato de Trabajadores de Alphabet). Este movimiento calcula que Google cuenta con más de 200.000 personas subcontratadas que no figuran en el recuento oficial de la plantilla de la compañía.

Conoce cómo trabajamos en Business Insider.