Respuestas
Respuesta:
Un sistema de reconocimiento de voz está formado por varias capas o modelos, según señala Piña. El primero de ellos es el modelo acústico, que permite a la tecnología identificar si el sonido procede de una llamada de móvil, de un teléfono IP o cualquier otro medio. Determinar el canal de comunicación es importante para establecer el grado de distorsión que puede experimentar el mensaje.
El modelo lingüístico va a continuación y se trata del idioma. Pero no es tan sencillo como indicar al sistema que reconozca castellano, francés o mandarín. “Nuestro software está perfectamente preparado para portugués, pero en ocasiones nuestra gente de servicios tiene que hacer algunas pequeñas modificaciones, por ejemplo para entender el portugués que se habla en Madeira, que puede tener algún giro especial”, comenta el directivo de Nuance. No sólo es preciso entender la lengua sino los distintos acentos con que se habla e incluso entender las formas de expresarse, que pueden ser diferentes en cada hablante.
Ésta es otra capa más: el modelo semántico. Con él se consigue que un sistema de reconocimiento de voz entienda la forma de hablar de la gente, cómo se construyen las frases y cómo puede variar esta construcción, dependiendo de la región, de la cultura y de todas las influencias personales de cada cual. Por último, funciona un motor estadístico, que recoge la frase una vez transcrita a texto y realiza una búsqueda en la base de datos con estos términos.