Pasar al contenido principal

La comunidad científica advierte que las investigaciones basadas en machine learning podrían ser erróneas

Machine Learning ayuda al desarrollo de la Inteligencia Artificial
Getty Images
  • Los descubrimientos que se están realizando actualmente utilizando técnicas de aprendizaje automático para el análisis de grandes conjuntos de datos podrían no ser fiables.
  • De acuerdo a la investigadora Genevera Allen, de la Universidad Rice, las técnicas basadas en aprendizaje automática ofrecen resultados engañosos e incluso completamente erróneos debido a que se basan en la comprensión únicamente de datos relativos a un conjunto concreto y no al mundo real.
  • Allen que ha presentado su investigación en la reunión anual de la Asociación Americana para el Avance de la Ciencia, afirma que la solución a esto pasa por generar sistemas de machine learning capaces de "ponerse en duda a sí mismos".

¿Podemos realmente confiar en los descubrimientos que se están realizando actualmente utilizando técnicas de aprendizaje automático para el análisis de grandes conjuntos de datos? Según la opinión de la investigadora Genevera Allen, de la Universidad Rice, en Houston, la respuesta es claramente no.

Allen, profesora asociada de estadística, ciencias de la informática e ingeniería eléctrica en Rice y de pediatría-neurología en la Escuela de Medicina de Baylor (Texas, Estados Unidos), asegura que actualmente las técnicas basadas en aprendizaje automática utilizadas para el análisis de datos por los investigadores podría estar produciendo resultados engañosos e incluso completamente erróneos.

La advertencia se realizaba durante la presentación de su investigación con motivo de la reunión anual de la Asociación Americana para el Avance de la Ciencia celebrada el pasado viernes, 15 de febrero, en Washington. "No confiaría en una gran parte de los descubrimientos que se están realizando actualmente utilizando técnicas de aprendizaje automático aplicadas a grandes conjuntos de datos", advertía Genevera Allen durante su ponencia, según recoge el Financial Times.

Conocido como machine learning o aprendizaje automático, esta rama de la estadística se relacionada con la creación de sistemas informáticos capaces de aprender de los datos. El uso del aprendizaje automático permite encontrar con mayor velocidad patrones y asociaciones dentro de un gran volumen de datos científicos y médicos analizados.

Pero en opinión de Allen, los actuales sistemas de aprendizaje automático podrían estar generando resultados poco exactos o erróneos. Esto se debe a que este tipo de software se ha centrado hasta ahora en generar predicciones basándose únicamente en la comprensión de los datos estudiados en ese conjunto y no en el mundo real.

Leer más: Así puedes utilizar la IA de Google Cloud en tu propia empresa

"Muchas de estas técnicas están diseñadas para hacer siempre una predicción", ha asegurado Allen, "Nunca devuelven un 'No lo sé' o 'No he descubierto nada' porque no están hechos para hacerlo". Lo que podría estar generando, en su opinión, caminos de investigación equivocados, con el correspondiente desperdicio de tiempo y recursos que esto conllevaría.

Según alerta Allen, en la actualidad se da un creciente número de investigaciones cuyos resultados no coinciden cuando otros grupos de investigadores llevan a cabo experimentos similares.

"Hay casos en que los descubrimientos no son reproducibles", ha declarado Allen. “Los grupos descubiertos en un estudio son completamente diferentes de los grupos encontrados en otro estudio. ¿Por qué? Porque la mayoría de las técnicas de aprendizaje automático de hoy siempre dicen: "He encontrado un grupo". A veces, sería mucho más útil si dijeran: "Creo que algunos de estos datos están realmente agrupados, pero no estoy seguro de estos otros".

Para evitar esto, el camino a seguir propuesto por Allen pasa generar sistemas de inteligencia artificial capaces de criticarse y ponerse en duda a sí mismos.

Hasta entonces, el consejo de Allen es el de "alterar deliberadamente los datos, para descubrir si los resultados sobreviven a esta perturbación". En definitiva, cuestionar la precisión y la capacidad de reproducción de los descubrimientos científicos llevados a cabo por aprendizaje automático.

Te puede interesar