Como Interpretar Señas Con Kinect y Verbalizarlo - Niixer

Como Interpretar Señas Con Kinect y Verbalizarlo

En el siguiente articulo  revisaremos como Interpretar Señas con Kinect y verbalizarlo y como será el diseños del Interpretador de Lengua de Señas

El modelo desarrollado en este proyecto constará de varias fases para lograr la clasificación de gestos segmentados.

Se cuenta con un esquema general del modelo donde pueden observarse los detalles de cada etapa. El esquema de clasificación se basa en un sistema probabilístico que tiene en cuenta la información de ambas manos. Si bien el foco del trabajo está puesto en la clasificación de lengua de señas, es posible adaptar el modelo a cualquier tipo de gestos corporal.

De cada mano se utilizan tres componentes esenciales en una seña: la posición, la configuración, y el movimiento de la mano. Para obtener las probabilidades para cada uno de estos componentes se definieron diferentes clasificadores parciales, abordando las características que cada problema presenta.

Fases del desarrollo.

Automatizadores de movimiento

El camino es quizá uno de los fundamentos de una seña. La correcta clasificación del tipo de movimiento realizado por cada mano facilita establecer un punto de partida decisivo en la identificación de la seña.

Aquí, es necesario entender los tipos de movimientos realizados por los intérpretes y que limitaciones existen en ellos. Generalmente, estos movimientos son precisos y simples. Por ejemplo, una mano se desplaza hacia arriba, una mano se mueve a un costado, una mano realiza un movimiento circular, etc.

Estos movimientos en ocasiones se realizan con ambas manos al unánime, en otros casos con una sola mano, o en muchos casos la mano dominante se mueve y la otra queda quieta. Para generar una serie de arreglos representativos del movimiento de cada mano, se utilizarán las diferencias entre las posiciones de cada fotograma de video. se puede considerar la diferencia entre las posiciones de los únicos cinco fotogramas existentes. No obstante, en un caso real los vídeos suelen tener muchas más muestras.

Para llevar esto a cabo se utiliza la diferencia de ciertos pruebas elegidos experimentalmente. Al aumentar el número de pruebas se adquiere mayor información en cuanto a cambios de dirección de una seña, pero se pierde precisión en la magnitud de desplazamiento.

En general, 9 estados deben ser una cantidad apropiada tanto para captar todos los cambios de dirección de una seña, como así también para tener buena información relevante al desplazamiento Descriptores para identificación

 

Publicar señas.

El propósito de esta función es mostrar las letras que corresponden a una determinada seña y calibrar el sistema. En este caso para prueba el conjunto de señas es reducido y se limita a cuatro letras del alfabeto dactilológico.

Así cuando el usuario desea conocer cómo es la seña de la letra “a” entonces el sistema mostrará la letra “a” en un área determinada y se mostraran los resultados asociados al porcentaje de reconocimiento de la seña.

Cargar imagen.

La funcionalidad de cargar imagen, como su nombre lo indica, permite al usuario subir al sistema una imagen de su mano realizando una seña.

Para su correcto funcionamiento, se espera que la mano se vea claramente y el fondo sea oscuro. Al realizar el proceso de carga también se realizará la llamada a los diferentes pasos del procesamiento de imágenes descritos en la sección anterior.

En concreto al realizar la carga se efectúa la binarización de la imagen: escala de grises, negativo y threshold. Una vez que tiene la imagen en binario se aplican los filtros morfológicos opening y closing para disminuir el ruido de la imagen. Al resultado del paso anterior se le aplica una función que recorta la imagen para obtener la imagen con la mano únicamente.

El último paso en esta función es redimensionar la imagen a un tamaño esperado por la aplicación, en este caso es una altura de 150cm. para esto se utiliza el filtro zoom in y zoom out

 

Dispositivos necesarios Dispositivo Kinect

Un kit de desarrollo de software o SDK es un grupo de herramientas que permiten la creación de aplicaciones para un sistema específico, se trabajó con el SDK desarrollado por Microsoft específicamente para Kinect, la versión 1.8.

 

 

Funcionamiento del Sistema Interpretador

El sistema inicia con el comando programado de levantar una de las manos, esta acción ejecuta el procedimiento de inicializar las variables, cargar las librerías y verificar las referencias El sistema identifica la presencia del dispositivo (KINECT), se inicializan las librerías que permiten:

Reflejar en la pantalla el esqueleto o puntos de referencia del usuario, la imagen superpuesta al mismo y el sonido. Inicia el modo de lectura o identificación en el que se realiza una constante comparación de los de los movimientos del esqueleto con el diccionario pre-configurado; al detectar una coincidencia en las coordenadas encontradas con las coordenadas almacenadas envía la orden al interprete, convirtiendo esta orden en una frase que se escucha a través de los parlantes.

Autor: John Cruz

Editor: Carlos Pinzón

Código: UCP1-5

Fuentes:

2015 Aste, AN. Desarrollo De Un Autenticador Con Kinect Mediante Reconocimiento Facial, recuperado de: http://opac.pucv.cl/pucv_txt/txt-0000/UCD0404_01.pdf

 

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *