Guía Breve de Interacción Multimodal

¿Qué es la Interacción Multimodal?

La Interacción Multimodal o Multimodalidad consiste en un proceso en el cual diversos dispositivos y personas son capaces de llevar a cabo una interacción (auditiva, visual, táctil y gestual) conjunta desde cualquier sitio, en cualquier momento, utilizando cualquier dispositivo y de forma accesible, incrementando así la interacción entre personas, y entre dispositivos y personas.

¿Para qué sirve?

El usuario a través de la interacción multimodal podrá determinar el modo o modos de interacción que quiere utilizar para acceder a la información, lo que extiende y mejora la interfaz del usuario ya que se hace posible la utilización conjunta de la voz y otros tipos de dispositivos de introducción de datos como teclados, ratones, lápices, pantallas táctiles, etc.. Aunque esta forma de interacción conjunta está especialmente dirigida a las aplicaciones móviles, que incorporan controles por voz y disponen de pantallas de dimensiones reducidas, también está pensado para otros sectores como la automoción (navegadores integrados, pantallas táctiles, etc), la oficina (pantallas táctiles de las fotocopiadoras), o los electrodomésticos más avanzados.

¿Cómo funciona?

La manera de hacer que diferentes mecanismos de acceso a la información puedan interactuar conjuntamente ofreciéndonos una experiencia satisfactoria, se hace cada vez más difícil ante un mercado en expansión, en lo que se refiere a dispositivos de acceso a información, arquitecturas, sistemas operativos, etc. Por este motivo la estandarización adquiere una gran importancia.

Actualmente, el W3C trabaja en estándares como VoiceXML, SSML, SRGS, SISR, InkML y herramientas de integración de datos de entrada como EMMA.

El siguiente esquema muestra cómo funcionaría el ciclo de entrada y salida de datos, y los componentes que intervienen en el proceso.

Componentes de entrada (input)

Componentes de entrada (input)

Figura 1 - Entrada en un sistema Multimodal

Otros componentes de reconocimiento de entrada de datos pueden incluir visual, lenguaje de signos, DTMF, entradas táctiles, verificación de habla, identificación de escritura, y otros modos de entrada aún por crear.

La salida de datos para cada componente de interpretación puede ser expresada a través de EMMA, lenguaje que representa la semántica o el significado de los datos. Tanto el usuario como el sistema pueden crear información que puede ser enviada directamente al administrador de interacción sin necesidad de ser codificada por EMMA. Un ejemplo sería cuando se graba audio para ser usado posteriormente.

Componentes de salida (output)

Componentes de salida (output)

Figura 2 - Salida de un sistema Multimodal

La información del administrador de interacción puede estar encaminada directamente al dispositivo de conversión apropiado sin estar codificada en una representación interna. Por ejemplo, el audio grabado se envía directamente al sistema de audio.

Cada modo de salida tiene su componente de estilo y su componente de conversión.

El componente de estilo de voz construye cadenas de texto que contienen etiquetas de lenguaje de marcado de síntesis del habla describiendo cómo se van a pronunciar las palabras. Esto se convierte en voz a través del componente de conversión de voz (SSML). El componente de estilo de voz puede también seleccionar archivos de audio grabados anteriormente para ser reproducidos por el componente de conversión de voz.

El componente de estilo de gráficos crea etiquetas de marcado XHTML , XHTML Basic, o SVG , describiendo la forma en la que los gráficos deben transformarse. El componente de conversión de gráficos transforma la salida procedente del componente de estilo de gráficos en gráficos que se muestran al usuario.

Otros componentes de conversión y estilo son posibles para otros modos de salidas. SMIL puede usarse para coordinar salidas de multimedia.

Ejemplos

Un usuario señala un lugar en un mapa y dice: ¿cómo se llama este sitio? El sistema de interacción multimodal responde diciendo La Plaza de Europa, Gijón, Asturias, España, mostrando en el mapa el texto siguiente La Plaza de Europa, Gijón, Asturias, España. Ahora veamos las acciones llevadas a cabo por los componentes que intervienen en dicha acción:

Usuario: Señala un lugar en el mapa y dice,¿Cómo se llama este sitio?

Componente de reconocimiento del habla: Reconoce las palabras ¿Cómo se llama este sitio?

Componente de reconocimiento del ratón: Reconoce las coordenadas x-y que el usuario ha señalado en el mapa.

Componente de interpretación del habla: Convierte las palabras ¿Cómo se llama este sitio? en una notación interna.

Componente de interpretación de indicación: Convierte las coordenadas x-y del lugar indicado por el usuario en una notación interna.

Componente de integración: Integra la notación interna de las palabras ¿Cómo se llama este sitio?, con la notación interna de las coordenadas x-y.

Componente del administrador de la interacción: Almacena la notación interna en el objeto de la sesión. Convierte la petición en una petición de una base de datos, envía la petición a un sistema de administración de peticiones, la cual devolverá el valor La Plaza de Europa, Gijón, Asturias, España. Añade la respuesta a la notación interna en el objeto de sesión. El administrador de la interacción convierte la respuesta en una notación interna y envía la respuesta al componente de generación.

Componente de generación: Accede al componente de entorno para determinar que los modelos de voz gráficos están disponibles. Decide presentar el resultado como dos modelos complementarios, voz y gráficos. El componente de generación envía una notación interna representando La Plaza de Europa, Gijón, Asturias, España al componente de estilo de voz, y envía una notación interna al componente de estilo de gráficos, mostrando la ubicación de La Plaza de Europa.

Componente de estilo de voz: Convierte en SSML la notación interna que representa La Plaza de Europa, Gijón, Asturias, España.

Componente de estilo de gráficos: Convierte la notación interna que representa la ubicación en un mapa de La Plaza de Europa, Gijón, Asturias, España en una notación HTML.

Componente de conversión de voz: Convierte la notación SSML en voz acústica para que el usuario pueda oírla.

Componente de estilo de gráficos: Convierte la notación HTML en gráficos visuales para que el usuario pueda verlos.

Ejemplo de interacción multimodal con un sistema de localización

Figura 1 - Ilustración del ejemplo de interacción multimodal con un sistema de localización

Más información sobre Interacción Multimodal

Entorno de Interacción Multimodal del W3C
Documento que identifica las partes principales de un sistema multimodal.
Actividad de Interacción Multimodal
Actividad dedicada al desarrollo de la Interacción Multimodal dentro del W3C.
Casos de uso
Presentación de diferentes casos de uso para la Interacción Multimodal.
Requisitos
Requisitos a tener en cuenta en el desarrollo de la Interacción Multimodal.
Página principal del Navegador por Voz
Toda la información sobre la Actividad del Navegador por Voz.
VoiceXML 2.1
Recomendación del W3C. Lenguaje de Marcado Extensible de Voz.
Comenzando con VoiceXML
Breve introducción de Voice XML realizada por Dave Raggett.
SRGS 1.0
Recomendación del W3C. Gramática de Reconocimiento del Habla.
SSML 1.0
Recomendación del W3C. Lenguaje de Etiquetado de Síntesis del Habla.
SISR 1.0
Recomendación del W3C. Interpretación Semántica para el Reconocimiento del Habla.
CCXML 1.0
Borrador de Trabajo del W3C. Lenguaje de Etiquetado Extensible de Controlador Telefónico.
EMMA
Lenguaje de Anotación Multimodal Extensible.
SCXML (State Chart XML)
Borrador de Trabajo. Notación de Máquina de estados para representar de forma abstacta el control de VoiceXML.
Página principal de InkML
Toda la información sobre el Lenguaje de Etiquetado de Tinta.
Demostración realizada por Openstream
Vídeo de multimodalidad en el que se recrean las actividades llevadas a cabo a lo largo de un día por un ejecutivo que, debido a su apretada agenda con constantes viajes, necesita utilizar un sistema mutimodal para desarrollar su trabajo de forma eficaz.
Demostración realizada por Kirusa
Animación en la que se muestra brevemente la interacción multimodal de un usuario con su pocket pc.