martes, 25 de noviembre de 2008

Las interfaces de usuario basadas en VOZ

¿Alguna vez han marcado al conmutador principal de la UDLA?, los que han tenido la oportunidad de hacerlo habrán notado que existe un conmutador "automático" que permite contactar a un departamento de la universidad con tan sólo decir su nombre; por ejemplo, "Segruidad", "Sorteo", "CEUDLA", etc.

Una interfaz de usuario basada en voz es aquella donde el usuario interactua con las computadoras o dispositivos electrónicos utilizando comandos de voz para iniciar procesos o servicios automatizados. Algunos de estos pueden responder de la misma forma (con voz), mientras que otros sólo se enfocan en realizar una tarea. [Nielsen 2003]. El software con interfaces basadas en voz utiliza dispositivos como micrófonos y bocinas para procesar/transmitir mensajes de voz.

En ocasiones para algunos, resulta difícil darse a entender con este tipo de sistemas por las siguientes razones:

1. El usuario adopta una posición astuta y trata de corromper el software. Prueba a la máquina con palabras apenas entendibles.

2. El que habla se siente inseguro porque identifica que su interlocutor es una máquina.

3. El usuario se desespera cuando el sistema no reconoce lo que dijo.

4. La persona al saber que habla con una computadora, utiliza palabras monosilábicas o frases cortadas creyendo que de esta manera será más facil darse a entender.

5. El interlocutor no consigue su objetivo debido a que el software no interpreta adecuadamente las palabras.

Aunque suene a tecnología sacada de star trek, las interfaces de voz tienen su fundamento en el reconocimiento del habla la cual es transformada en caracteres legibles por la computadora.


El proceso anterior transforma los patrones de ondas sonoros en fonemas (pe: "bla", "ble", "bli", "blo", "blu"). Así mismo, tiene distintas clasificaciones, las cuales dependen de cómo el software identifica el inicio y fin de una instrucción de voz. Algunas de estas son [Stephen 2002]:

1. Palabras aisladas: El software necesita un silencio considerable antes y después del sonido muestra. A estos sistemas se les conoce como "escucho/no-escucho".

2. Palabras conectadas: El software puede interpretar palabras de corrido con una ligera pausa antes y después de cada palabra.

3. Habla contínua: Son de los sistemas más complejos porque deben determinar las fronteras de cada palabra por sí solos. Son ideales para dictado y generalmente requieren entrenamiento por redes neuronales para adaptarse a la forma de hablar de una persona.

4. Habla espontánea: Similar al anterior, son programas con la capacidad de reconocer palabras o fonemas que no tienen significado sintáctico pero sí semántico, como expresiones o interjecciones.

5. Verificación de voz: Verifican si un comando de voz fue emitido por una persona determinada. Algunos ejemplos son los sistemas de seguridad o grupal donde se realiza una tarea dependiendo el usuario que la pide.

Suena descabellado el que una computadora entienda lo que decimos al hablar naturalmente. Si bien ha sido un gran reto transformar el habla en comandos legibles por una computadora, los avances en hardware y software nos impresionan al observar los resultados como en programas de dictado.

[Nielsen 2003]
Jackob Nielsen, 2003. Voice Interfaces: Assessing the Potential.

[Stephen 2002]
Stephen Cook, 2002. Speach recognition, How to.