W3C

Versión en inglés | Versión en francés | Versión en japonés

El Consorcio World Wide Web Publica VozXML 2.0 y Gramática de Reconocimiento del Habla como Recomendaciones del W3C

Acabados los componentes críticos de la Infraestructura del Habla del W3C

Contacto para América y Australia --
Janet Daly, <janet@w3.org>, +1.617.253.5884 ó +1.617.253.2613

Contacto para Europa, África, Oriente Medio --
Marie-Claire Forgue, <mcf@w3.org>, +33.492.38.75.94

Contacto para Asia --
Yasuyuki Hirakawa <chibao@w3.org>, +81.466.49.1170

También hay testimonios disponibles.


http://www.w3.org -- 16 Marzo 2004 -- Dotando de voz a la Web, el Consorcio World Wide Web (W3C) ha publicado VozXML 2.0 y la Especificación de la Gramática de Reconocimiento del Habla (SRGS) como Recomendaciones del W3C. El objetivo de VozXML 2.0 es llevar las ventajas del desarrollo y la entrega de contenidos basado en la Web a las aplicaciones de voz interactivas. SRGS es clave para el soporte del reconocimiento de voz de VozXML, y es utilizado por los desarrolladores para describir a los usuarios finales las respuestas a peticiones habladas.

El anuncio de hoy marca el progreso al estado de Recomendación de las primeras dos especificaciones en la Infraestructura del Interfaz del Habla del W3C. Dirigida a un número mundial estimado de dos billones de líneas de teléfono fijas y móviles, la Infraestructura del Interfaz del Habla del W3C permitirá que un número sin precedentes de personas puedan utilizar cualquier teléfono para interactuar con servicios de la Web diseñados de forma apropiada a través de teclados numéricos, comandos de voz, escucha de voces pregrabadas, voz sintetizada y música. 

"Terminar VozXML 2.0 y SRGS marca un hito apasionante en la convergencia de las tecnologías de telecomunicaciones y de la Web. Históricamente, existían lagunas técnicas y culturales entre la forma en que los sistemas basados en voz y los basados en Internet y la Web habían evolucionado, de forma que la información sólo estaba disponible para los sistemas de voz o para la Web," explicó Tim Berners-Lee, Director del W3C. "Con el desarrollo de la Infraestructura del Interfaz del Habla del W3C, incluyendo VozXML 2.0 y SRGS, ahora somos capaces de integrar y beneficiarnos de los puntos fuertes de ambos grupos - la fuerza e impacto de la investigación industrial y la amplitud de las pruebas y desarrollo de productos, y la extensibilidad y apertura de soluciones técnicas que son consistentes con los principios técnicos de la Web y pueden escalarse en consecuentemente."

Una Recomendación del Consorcio World Wide Web (W3C) se entiende por la industria y por la comunidad Web en general como un estándar Web. Cada Recomendación es una especificación estable desarrollada por un Grupo de Trabajo del W3C y revisada por los Miembros del W3C. Las Recomendaciones promocionan la interoperabilidad de las tecnologías de la Web mediante la comunicación expresa del consenso de la industria construido por el Grupo de Trabajo.

VozXML 2.0 y SRGS Sientan las Bases de la Infraestructura del Interfaz del Habla del W3C

En la Infraestructura del Interfaz del Habla del W3C, VozXML controla el modo en que la aplicación interactúa con el usuario, mientras que el Lenguaje de Marcado de Síntesis del Habla (SSML) se utiliza para generar voz y la Especificación de la Gramática de Reconocimiento del Habla (SRGS) para guiar a los reconocedores de voz a través de gramáticas que describen las respuestas esperadas de los usuarios. Otras especificaciones de la Infraestructura incluyen el Control de Llamadas para Navegadores de Voz (CCXML), que proporciona soporte para control de llamadas telefónicas mediante VozXML y otros sistemas de diálogo, y la Interpretación Semántica para el Reconocimiento de Voz, que define el modo en que las gramáticas de voz se enlazan a la semántica de las aplicaciones.

VozXML 2.0 Dota de Voz e Interactividad a la Infraestructura del Interfaz de Reconocimiento del Habla del W3C

VozXML 2.0 permite a los desarrolladores crear diálogos de audio que muestren voz sintetizada, audio digitalizado, reconocimiento y habla e introducción de tonos duales multifrecuencia (DTMF, o teclados de tonos), grabación de entradas de voz, telefonía, y conversaciones de iniciativa mixta. VozXML se descarga de los servidores Web del mismo modo que HTML. Esto significa que los desarrolladores de aplicaciones pueden sacar ventaja total de las tecnologías Web ampliamente desarrolladas y utilizadas por la industria.

"VozXML 2.0 tiene el poder de cambiar la forma en que se desarrolla la información que se emitirá por teléfono y los servicios de atención a clientes. No tendremos que utilizar nunca más el pulsar 'uno' para esto o 'dos' para aquello. En ve de eso, podremos realizar selecciones y proporcionar información mediante voz," explicó Dave Raggett, Líder de Actividad de Navegación de Voz del W3C. "Además, VozXML 2.0, crea oportunidades para personas con discapacidades visuales o para aquellos que necesitan acceso Web mientras tienen ocupados sus ojos y manos en otras cosas, como obtener indicaciones mientras se conduce." 

SRGS Dirige el Reconocimiento Robusto de las Respuestas de Usuario

La Especificación de la Gramática de Reconocimiento del Habla --SRGS-- permite que las aplicaciones especifiquen las palabras y frases que se pedirá a los usuarios decir. Esto facilita un reconocimiento sólido independiente de la persona que hable.

SRGS cubre las entradas de voz y DTMF. Las entradas DTMF son valiosas en condiciones con ruido o en las que el contexto social hace que hablar sea incómodo. Los reconocedores de voz son generalmente capaces de informar del grado de confianza -- esto es, la probabilidad de que hayan reconocido correctamente la palabra o frase - y pueden proporcionar las mejores alternativas cuando el reconocedor no está seguro del término que realmente empleó el usuario.

SRGS se puede aplicar a más que a voz y ha sido aplicado con éxito al reconocimiento de escritura en el que las entradas del usuario estén limitadas a un conjunto de palabras.

El Grado de Adopción de VozXML 2.0 y SRGS ya es Amplio en la Industria

Para alcanzar el estado de Recomendación del W3C, debe haber evidencias de implementaciones interoperables independientes - debe estar probado que funciona. En el caso de VozXML 2.0, la evidencia de implementaciones es extraordinaria, con al menos ocho implementaciones conocidas entre prototipos y productos a la venta. Está disponible una lista actual de implementadores. El informe de implementación de SRGS incluye al menos seis implementaciones independientes completas.

Existe un amplio conjunto de pruebas público. Mientras que la versión inicial contenía apenas 300 pruebas, la versión final contiene más de 600. Esto complementa el conjunto de pruebas proporcionado con la Especificación de la Gramática de Reconocimiento del Habla y el conjunto de pruebas para el Lenguaje de Marcado de Síntesis de Voz que se convirtió en Candidata a Recomendación del W3C en Diciembre de 2003. Los conjuntos de pruebas para el resto de especificaciones de la Infraestructura del Interfaz de Reconocimiento del Habla, incluyendo la Especificación de la Gramática de Reconocimiento del Habla y CCXML, están siendo desarrolladas por el Grupo de Trabajo de Navegación de Voz del W3C y serán publicados en los próximos meses.

En adición al continuo trabajo en el resto de la Infraestructura del Interfaz del Habla, el Grupo de Trabajo de Navegación de Voz, ya está trabajando duro diseñando los requisitos para la siguiente gran versión del lenguaje de marcado de diálogos, que se construirá sobre el éxito de VozXML 2.0 e incorporará ideas de SALT, XHTML+Voz, y otras contribuciones de Miembros del W3C.

El Grupo de Trabajo de Navegación de Voz del W3C se encuentra entre los más grandes y activos del W3C. Entre sus participantes se encuentran: Aspect Communications, BeVocal, Canon, Comverse Technology, Convedia, ERCIM, France Telecom, HeyAnita, Hitachi, HP, IBM, Intel, IWA-HWG, Loquendo, Microsoft, MITRE, Mitsubishi Electric, Motorola, Nuance Communications, Openstream, SAP, Scansoft, Siemens, Snowshore Networks, Sun Microsystems, Telera, Tellme Networks, Verscape, VoiceGenie Technologies, Voxeo, y Voxpilot.

Sobre el Consorcio World Wide Web [W3C]

El W3C fue creado para guiar la Web hacia su potencial máximo mediante el desarrollo de protocolos comunes que promuevan su evolución y garanticen su interactividad. Se trata de un consorcio de la industria internacional gestionado conjuntamente por el Laboratorio de Ciencia Computacional e Inteligencia Artificial del MIT (MIT CSAIL) en EEUU, el Consorcio Europeo para la Investigación en Informática y Matemáticas (ERCIM) con sede en Francia y la Universidad Keio en Japón. Los Servicios proporcionados por el Consorcio incluyen un almacén de información sobre el World Wide Web para desarrolladores y usuarios, y varios prototipos y aplicaciones de ejemplo para demostrar el uso de estas nuevas tecnologías. Hasta la fecha, cerca de 400 organizaciones son miembros del Consorcio. Para obtener más información visite http://www.w3.org.