Cómo engañar a una IA que escucha... con otra IA

·4 min de lectura
Photo credit: PM Images - Getty Images
Photo credit: PM Images - Getty Images

¿Puede una herramienta de inteligencia artificial superar a otra?

Científicos de la Universidad de Columbia, en Nueva York, creen haber ideado una inteligencia artificial capaz de engañar a un sistema de reconocimiento automático de voz para que no transcriba tus conversaciones privadas. Así que en el futuro, puede que no tengas que preocuparte de que alguien esté usando un software espía para grabar tus llamadas telefónicas, o que tu Alexa esté escuchando cuando no debería.

Su sistema de camuflaje de voz neural impide que los fisgones transcriban en secreto tu conversación de audio, ya que añade un ruido personalizado de tipo estático a tu discurso. El ruido se ajusta al mismo volumen que el ruido de fondo normal -no más alto que el de un aparato de aire acondicionado de fondo-, de modo que las personas con las que hablas pueden distinguir fácilmente lo que dices. Sin embargo, el sistema de reconocimiento automático de voz (ASR) que intente escuchar se confundirá y producirá una transcripción en galimatías, como puedes ver en la siguiente demostración:

Este proceso de producir un ruido de fondo personalizado es más complicado de lo que parece. No es como abrir un grifo para producir ruido blanco, como podría hacer un personaje de una serie de televisión para evitar que los micrófonos ocultos colocados por los malos capten lo que dicen.

En su lugar, los investigadores recurrieron al aprendizaje automático para entrenar su sistema a fin de encontrar patrones en los datos de audio del habla de las personas, y luego hacer predicciones sobre lo que dirían a continuación. Basándose en las palabras predichas, el sistema generó los ruidos más eficaces para bloquear la comprensión por parte de una IA enemiga, afirma la directora del proyecto, Mia Chiquier, en un artículo de Science. Los investigadores entrenaron el Camuflaje de Voz Neural con horas y horas de discurso que grabaron durante el proyecto, que el sistema procesó continuamente, de dos en dos milisegundos. El equipo presentó su investigación en un documento para su revisión por pares en la Conferencia Internacional sobre Representaciones de Aprendizaje a finales de abril de 2022.

La transmisión de audio supone un reto especial porque el software tiene que ser más inteligente que una IA que espíe en tiempo real. Según la página del proyecto de Chiquier, las frecuencias de muestreo de audio -el número de muestras de audio que se graban por segundo- son de al menos 16 kilohercios, lo que significa que cualquier interrupción del flujo de audio debe producirse "en milisegundos, lo que actualmente es inviable". Los investigadores también tuvieron que asegurarse de que el ruido de fondo perturbador fuera lo suficientemente alto como para llegar a los micrófonos de escucha, para que se transmitiera a la misma distancia que la voz que se intentaba camuflar.

El arma de defensa del sistema es el uso de "ataques predictivos" para garantizar que las palabras pronunciadas en tiempo real estén lo suficientemente camufladas como para impedir que los sistemas ASR funcionen correctamente. El sistema tiene en cuenta lo que dice una persona para generar un ruido confuso. Aunque no puede saber con seguridad lo que el hablante dirá a continuación, el sistema predice algunas frases posibles.

Por ejemplo, en una prueba, el orador dice: "No lo dice, pero está en la frontera y en el mapa", mientras que la IA espía transcribe que el orador dice: "O no lo dice, pero está en la frontera y en el mapa".

El ruido blanco, que quizá conozcas como la lluvia constante o el zumbido de un ventilador, es un sonido que contiene todas las frecuencias audibles. Tiende a enmascarar otros sonidos, pero no se puede comparar con la alta tasa de errores de palabras que el Camuflaje Neural de Voz puede generar en una IA de transcripción a escondidas. La misma frase es más comprensible cuando se utiliza el ruido blanco: "No lo dice, pero está en el frente y en el mapa".

La tasa de errores de palabras con el software del equipo de investigación fue del 80,2 por ciento, frente al 11,3 por ciento utilizando ruido blanco. Ni siquiera un sistema de IA de escucha que los investigadores entrenaron para transcribir el discurso de audio del Camuflaje Neural de Voz obtuvo buenos resultados, con una tasa de error del 52,5 por ciento.

Chiquier espera ampliar su investigación para proteger todas las formas de privacidad que puedan ser desafiadas por la tecnología de IA, como el uso no autorizado de software de reconocimiento facial, dice a Science. Y el componente de IA predictiva de la investigación del equipo podría utilizarse para los coches autodirigidos, añade, ya que requieren un procesamiento en tiempo real, como anticiparse a los peatones y evitarlos.

Nuestro objetivo es crear un lugar seguro y atractivo para que los usuarios puedan establecer conexiones en función de sus intereses y pasiones. A fin de mejorar la experiencia de nuestra comunidad, hemos suspendido los comentarios en artículos temporalmente