De los orígenes españoles de Hatsune Miku a los dilemas que abre esta tecnología: las voces sintéticas cada vez te ponen más difícil saber qué es humano y qué no

El holograma de Hatsune Miku, en un concierto en Tokio de 2014.
El holograma de Hatsune Miku, en un concierto en Tokio de 2014.

REUTERS/Yuya Shino

Uno de los ejemplos más recurrentes para explicar cómo serán los metaversos es el de los conciertos virtuales, como los que han dado artistas de carne y hueso a través de sus avatares. Es el caso de Marshmello o el de Ariana Grande en Fortnite, o el de U2 en Second Life

Pero hay una contraparte. El de los virtuales que han dado sus conciertos en entornos reales. Hatsune Miku es un fenómeno en Japón. Lo lleva siendo lustros, después de que sus primeras canciones se publicaran allá por 2007. En sus conciertos, también fuera del país nipón, ha llegado a llenar estadios con aforo de 40.000 personas.

Incluso el popular creador de contenidos especializado en música, José Altozano, le dedicó un vídeo al fenómeno Hatsune Miku. "No solo voy a hablar de ella, sino que vamos a componer una canción y vamos a hacérsela cantar. Luego la vamos a animar en 3D para que la baile. (...). Vamos a controlarla. Es una estrella del pop que podemos hacer nuestra. Es muy chungo, en realidad".

Los vinilos han vuelto: las ventas alcanzan el nivel más alto de los últimos 30 años

¿Por qué? Porque Hatsune Miku no es una cantante al uso. Ni siquiera está viva. Es un programa informático: es un equipo de diseñadores, músicos y técnicos de software, es un avatar, es un holograma y es un fenómeno cultural. Es, en resumen, una voz sintética disponible para un programa  llamado Vocaloid cuyo desarrollo, además, arrancó en España hace ya dos décadas.

Hoy, 20 años después de que los primeros prototipos de Vocaloid viesen la luz gracias a una joint venture entre una universidad española y una multinacional japonesa, Business Insider España radiografía un fenómeno cultural que se resiste a morir. Hatsune Miku pasó por Barcelona en la gira que dio inmediatamente antes de que estallase la pandemia. Asistieron más de 3.000 personas.

También hoy, cientos de productores musicales de todo el mundo, tanto profesionales como aficionados, siguen componiendo canciones para que estas voces sintéticas las canten. Siguen compartiendo sus versiones o sus temas inéditos. Siguen contribuyendo a un fenómeno que, para los más legos, suena a distopía y ciencia ficción.

Un fenómeno que tal vez se adelantó a su tiempo y que ante el auge de los metaversos podría disfrutar de una segunda juventud.

Los orígenes españoles de Hatsune Miku y Vocaloid

La historia de Vocaloid, el programa informático en el que nació Hatsune Miku (la máxima exponente de estas voces y cantantes sintéticas) se remonta a principios de los 2000, cuando un equipo de Yamaha inicia una joint venture con un grupo de investigación de la Universidad Pompeu Fabra de Barcelona. 

Hideki Kenmochi es considerado el padre de este motor tecnológico que permite a Hatsune Miku existir.

Kenmochi es japonés, nacido en la prefectura de Shizuoka. Comenzó a trabajar en Yamaha en 1993, en equipos dedicados al desarrollo de tecnologías para cancelar ruidos (hoy ampliamente extendida en auriculares, cascos y otros equipos de sonido). En marzo del año 2000 comenzó a trabajar mano a mano con un equipo de investigación de la Pompeu Fabra.

25 páginas web que te permiten descargar todo tipo de música de forma gratuita y legal

"La mayor parte de la investigación se hizo en Barcelona", explicaba hace unos años Jordi Bonada, uno de los integrantes del equipo de investigación de la Ciudad Condal. "Del diseño y desarrollo de producto se hizo cargo Yamaha". Entonces, que una IA fuese capaz de sintetizar sonido y hacerlo de una manera tan natural como para emular el canto de una voz humana era algo desafiante.

En marzo de 2002 nació el primer prototipo de Vocaloid. Entonces el proyecto era conocido como proyecto Daisy.

20 años después, este programa informático, que todo el mundo puede descargarse y usarlo, sigue triunfando. El usuario que lo utilice puede descargar librerías con voces con las que componer (siendo la de Hatsune Miku una de las más populares). Hasta la fecha, Vocaloid ha recibido cinco versiones. La última, Vocaloid5, data del año 2018.

El resto es historia. Vocaloid ya no está solo. En este nicho, en este sector de cantantes sintéticos, han aparecido otros programas que procuran hacerle la competencia. Pero Vocaloid, una creación de Yamaha que se desarrolló también en Barcelona, sigue siendo la puerta de entrada para que muchos aficionados creen piezas musicales para hacer cantar a estas voces sintéticas.

Hatsune Miku no está 'sola': tiene 'primos' en todo el mundo

Hatsune Miku es una de las voces sintéticas más conocidas del globo, una de las más usadas en Vocaloid. Pero un rápido vistazo a YouTube sirve para comprobar cómo creadores de Europa y Latinoamérica siguen componiendo para otras librerías (voces) que se han popularizado. Hay cantantes sintéticas como Bruno & Clara o Maika que fueron desarrollados por Voctrolabs.

Voctrolabs es una startup barcelonesa que conoce bien esta tecnología. Es la spinoff que nació en la Pompeu Fabra del equipo de investigación que contribuyó al desarrollo de Vocaloid. Jordi Janer, uno de sus cofundadores, confirma que a día de hoy la firma se dedica a otras cosas. Lanzaron hace 10 años las voces de Bruno & Clara o Maika tratando de emular el éxito que Hatsune Miku logró en Japón.

"El boom de Japón no se ha replicado fuera", reconoce entre risas Janer en declaraciones a Business Insider España. "Era la intención que teníamos cuando lanzamos las librerías de Bruno y Clara o Maika. Llegar a Latinoamérica y a mercados hispanohablantes. Supongo que el boom no trascendió Japón por cuestiones culturales. Sí se ha movido dentro del mundo de aficionados al manga y al anime".

Así sonaban Bruno y Clara hace casi diez años, cuando fueron alumbrados en Barcelona.

Pero el dúo de voces sintéticas de Bruno y Clara o Maika no son las únicas tecnologías que creó Voctrolabs tras erigirse como spinoff. En 2013 desarrollaron Ona, otra voz sintética que cantaría las letras que los ciudadanos de Barcelona le enviasen por redes sociales en las fiestas de la Mercé de aquel año. 

Fue "la primera cantante virtual catalana".

Artistas reales ya exploran 'colaboraciones' con voces sintéticas

No solo expertos en voces sintéticas son capaces de componer canciones para sus librerías. delphic es un joven italiano que sube versiones de canciones a su canal de YouTube. Escogió la librería Maika, de VoctroLabs, para que esta voz sintética de la startup catalana cantase una versión de Focus, de Ariana Grande, hace años.

El propio compositor corrobora que Yamaha ya no está solo en el mercado. Otras firmas japonesas han diseñado sintetizadores de voz como Utau, y hay comunidades detrás de cada una de estas aplicaciones, gracias en parte al catálogo de librerías (voces) compatibles. Pero a juicio de delphic, parte del triunfo de Vocaloid se debe a que ha atraído a este mundo a mucha gente "del mainstream".

Epic Games compra Bandcamp para expandirse en el mercado de la música y "construir un ecosistema de mercado para creadores de contenido"

"Se ha convertido de facto en el primer sintetizador de voces que muchos aficionados han aprendido a usar, y el fenómeno Hatsune Miku es hoy más reconocido como una herramienta de producción musical. Muchos de sus seguidores descubren a día de hoy qué hay detrás de todas las composiciones de Hatsune Miku". Y se animan a probar ellos mismos.

El propio delphic quiere empezar a estudiar en el conservatorio después de terminar el instituto para poder aplicar lo aprendido con programas del estilo Vocaloid a sus futuras composiciones musicales.

Pero este tipo de software no se utiliza solo para dar vida a cantantes ficticias como Bruno y Clara o Maika. El DJ Porter Robinson introdujo frases cantadas por una voz sintética llamada Avanna (compatible con Vocaloid3) en su temaSad Machine.

El año pasado, sin ir más lejos, la artista Holly Herndon cedió su voz para que Voctrolabs desarrollase una librería nueva, Holly+. ¿El resultado? Cualquiera en la edición del año pasado del festival Sónar de Barcelona podía cantar con la voz de la artista.

Un investigador cultural, José Luis de Vicente, avanzó entonces algunos de los dilemas que abría una iniciativa tecnocultural como aquella. "¿Qué significa no ser el dueño de tu propia voz, o poder prestarla o alquilarla? ¿O archivar la forma de tu voz a una edad concreta?", expuso entonces en Twitter.

Jordi Janer, cofundador de VoctroLabs, confirma que más que crear librerías para programas como Vocaloid, hoy comercializan dos tecnologías: "Una que cambia la voz de entrada de una persona, lo que permite aplicarse al mundo de videojuegos, a aplicaciones de realidad virtual. La otra es una síntesis de voz cantada, que la empleamos en una aplicación que lanzamos este año".

Se trata de Cantamus, una aplicación con la que cantantes de un coro (este sí, de humanos) pueden ensayar y afinar desde casa sin necesidad de reunir a todos los integrantes del mismo.

¿Son este tipo de tecnología parte inevitable del futuro de la industria musical? Janer entiende que sí. "Tenemos a artistas y productores que nos lo están pidiendo. La tecnología de voz ha avanzado mucho en los últimos tres años y ahora se tiene una calidad que ahora permite a artistas generar modelos de su propia voz y que empiecen a sonar realistas".

"Lo ven como una herramienta creativa muy interesante", destaca el cofundador de Voctrolabs y antiguo integrante del equipo de la Pompeu Fabra que participó en el nacimiento de este fenómeno. "Con la voz de un cantante, otro creador, otro productor, puede crear nuevo contenidos. Lo que se tendrá que vigilar es si se cuenta con la autorización del cantante".

"Entran aquí cuestiones éticas", advierte. "Cómo se protege una voz para un uso legítimo".

El nuevo auge de las voces sintéticas en el futuro de la industria musical

El escenario es este: cada vez más artistas de carne y hueso se animan a experimentar con voces sintéticas en sus producciones. Al mismo tiempo, la comunidad de usuarios que siguen produciendo piezas con voces sintéticas exclusivamente sigue profesionalizándose. Algunos de los artistas más reconocidos del género atesoran cientos de miles de suscriptores en YouTube.

Es el caso de artistas como VocaCircus (255.000 seguidores), PinocchioP (676.000), Giga (320.000) o Maretu (425.000). Algunos de ellos comienzan a experimentar con plataformas de moda como Twitch. Y el potencial que tiene en este mejunje un concepto todavía tan difuso como el del metaverso puede convertir el cóctel en una mezcla explosiva.

El joven italiano que ha producido versiones con sistemas Vocaloid, delphic, lo tiene claro. "Estoy muy seguro de que mucha gente todavía desconoce todo esto, aunque a día de hoy es más fácil de comprender aunque al principio todo suene a peli de ciencia ficción". En términos similares se expresa Barnaby Harrod, director de la promotora Mercury Wheels @ Live Nation.

Influencers virtuales, la próxima gran revolución publicitaria

Harrod y Mercury Wheels son los responsables de que en febrero del año 2020 Hatsune Miko 'diese' un concierto en Barcelona (puedes ver un vídeo aquí). "Funcionó bien. No se llenó del todo, pero estuvo bien de gente", explica Harrod a Business Insider España.

¿Cómo apuesta una promotora española por un concierto de una idol japonesa que no es real? "Conocíamos el fenómeno y tuvimos la posibilidad de hacerlo a través de una agencia con la que solemos trabajar en Reino Unido. De hecho, cuando surgió la posibilidad Hatsune Miku ya no estaba tan de moda, pero sí lo estaba la idea de jugar con hologramas".

Tanto, que incluso el padre de la fallecida Amy Winehouse anunció en 2018 que se celebraría una gira de tres años por todo el mundo con canciones de su hija, que saltaría a los escenarios en forma de uno de esos hologramas. "Aquí era algo diferente. No era un holograma de una persona. No era una persona. Investigamos y pensamos que sería algo muy interesante de celebrar".

Peluche de Hatsune Miku.
Peluche de Hatsune Miku.

REUTERS/Kwiyeon Ha

"Decidimos hacer el concierto de Hatsune Miku en Barcelona porque parte de la tecnología de Vocaloid se diseñó en la Pompeu Fabra", reconoce Harrod. La mayor parte del público llegó desde España. Que una voz sintética dé un concierto abre muchas posibilidades. Tanto es así, que incluso el grupo tocó (y la voz sintética cantó) una canción en español que compuso un aficionado venezolano.

El promotor reconoce que algunas dificultades hubo en el aspecto logístico. La tecnología la trajo la propia 'artista', pero a la hora de vender entradas Mercury Wheels se vio obligada a no vender sitios en todos los lados del escenario. "Normalmente se vende espacio 180º sobre el escenario, pero tuvimos que reducirlo un poco para que el holograma se viese perfecto".

Pero la experiencia fue buena. Tanto, que se iba a trabajar en una fecha de la gira de Hatsune Miku para Madrid en 2021, aunque la pandemia lo paralizó todo. Sin embargo, Harrod no descarta que la oportunidad de traer este fenómeno a la capital de España vuelva a surgir.

5 claves que explican cómo afectará el metaverso a la economía de creadores

Sobre el potencial que la tecnología de las voces sintéticas tiene para la industria de la música en vivo y ante el auge de los metaversos, Barnaby recuerda que ya en el confinamiento de 2020 se produjo un auge de conciertos en plataformas de streaming y retransmisiones en redes sociales.

"Lo que pasa es que sí que detectamos que esos momentos en los que se te pone la piel de gallina, cuando estás en un espectaculo cantando y saltando con gente alrededor a la que abrazar y besar, no se produce en esas retransmisiones". "Hatsune Miku sí lleva el mundo digital al mundo real. Es más posible que te ponga la piel de gallina que en un concierto en Fortnite".

Hay sensaciones que no se pueden reemplazar, defiende el promotor.

Si no, serán algunas canciones cantadas por Hatsune Miku las que te pongan la piel de gallina, como una que compuso la banda estadounidense Anamanaguchi (conocida por hacer música electrónica con videoconsolas clásicas hackeadas, un género conocido como chiptune). En su tema, la popular idol del pelo azul empieza cantando:

"Me puedes llamar Miku. Pelo azul, corbata azul. Ocultándome en tu wifi, abriendo secretos. Nadie me puede encontrar. Escucha mi música corriendo por tu mente. (...) Estoy en la cima del mundo gracias a ti, todo lo que quería hacer era seguiros. Seguiré cantando para todos vosotros".

Descubre más sobre , autor/a de este artículo.

Conoce cómo trabajamos en Business Insider.