Noticia Desarrollaron un método para determinar por sonido las pulsaciones de teclado

Detección de pulsaciones de teclado por sonido

La detección de pulsaciones de teclado por sonido se logra al colocar un dispositivo de escucha cercano al objetivo



Cada vez me impresiona bastante los métodos que son descubiertos y/o desarrollados tanto para obtener información como para acceder a X apartado, hackear X dispositivo y es que hasta el momento de los que aún me fascinan bastante son los que se basan en los sonidos generados por el fan del CPU para obtener información, asi como tambien el uso del para ver a través de las paredes, entre otros tantos.

Es por ello, que de manera personal me gusta mucho compartir este tipo de noticias aquí en el blog y en el caso del día de hoy les compartiré la noticia sobre el desarrollo de un método que creo un equipo de investigadores el cual se basa en detectar la información ingresada en el teclado con un 95 % de precisión al analizar el sonido de las pulsaciones de teclas registradas con un teléfono inteligente cercano o captadas por un micrófono cercano.



La precisión de detección de entrada demostrada supera todos los métodos de análisis acústico de carácter por símbolo conocidos anteriormente que no utilizan un modelo de lenguaje. El método propuesto se puede utilizar, por ejemplo, para determinar contraseñas ingresadas o mensajes escritos, en una situación en la que el atacante colocó su teléfono inteligente al lado de la víctima o recibió una grabación de sonido mientras ingresaba información confidencial (por ejemplo, cuando durante la comunicación la víctima inicia sesión con una contraseña para algunos sistemas de información).

Con los desarrollos recientes en el aprendizaje profundo, la ubicuidad de los micrófonos y el aumento de los servicios en línea a través de dispositivos personales, el lado acústico los ataques de canal presentan una mayor amenaza para los teclados que nunca.

La entrada se recrea utilizando un clasificador basado en un modelo de aprendizaje automático que tiene en cuenta las características del sonido y el nivel de volumen cuando se presionan diferentes teclas.

Se menciona que para llevar a cabo un ataque se requiere un entrenamiento preliminar del modelo, para lo cual es necesario hacer coincidir el sonido de entrada con información sobre las teclas que se presionan. En condiciones ideales, el modelo se puede entrenar usando malware instalado en la computadora atacada, lo que permite grabar simultáneamente el sonido de un micrófono e interceptar las pulsaciones de teclas.


En un escenario más realista, los datos necesarios para entrenar el modelo podrían recopilarse haciendo coincidir los mensajes de texto ingresados con el audio de un conjunto grabado como resultado de una videoconferencia. La precisión de la detección de entrada cuando se entrena un modelo basado en el análisis de entrada en videoconferencias de Zoom y Skype disminuye ligeramente y es del 93 % y el 91,7 %, respectivamente.

En un experimento para entrenar un modelo de aprendizaje automático usando audio de una conferencia de Zoom, cada una de las 36 teclas (0-9, az) del teclado se presionó 25 veces seguidas con diferentes dedos y con diferente fuerza.

Los datos sobre el sonido de cada pulsación se transformaron en una imagen con un espectrograma que reflejaba el cambio en la frecuencia y la amplitud del sonido a lo largo del tiempo

Los espectrogramas se transfirieron para entrenamiento a un clasificador basado en el modelo CoAtNet, utilizado para la clasificación de imágenes en sistemas de visión artificial. Es decir, durante el entrenamiento se compara la imagen con el espectrograma de cada pulsación con el nombre de la tecla. Para determinar las teclas presionadas por el sonido, el modelo CoAtNet devuelve la tecla más probable en función del espectrograma transmitido, similar a devolver la etiqueta más probable al reconocer objetos por su imagen.


En el futuro, los investigadores tienen la intención de explorar la posibilidad de recrear la entrada del teclado mediante la grabación del sonido de los altavoces inteligentes y, para mejorar la precisión de determinar el texto de entrada, utilizar un modelo de lenguaje que clasifique la entrada en el contexto de palabras completas.

Finalmente si estás interesado en poder conocer más al respecto, puedes consultar los detalles en el siguiente enlace.

Continúar leyendo...