Novo sistema de leitura labial transcreve falas a partir da câmera do celular

Cientistas de um laboratório focado no desenvolvimento de ferramentas de acessibilidade para computadores desenvolveram um sistema para leitura labial. O LipType, como foi nomeado, se apoia nas câmeras de aparelhos e no tratamento de algoritmos para identificar falas e transcrevê-las — e as aplicações vão além de enviar mensagens.

A criação do laboratório Human-Computer Interaction Group não é inédita, mas é uma das mais avançadas ferramentas de leitura labial por visão computacional já vistas. Originalmente pensadas como um recurso de acessibilidade, as aplicações do LipType se estendem como um mecanismo de privacidade e até segurança em situações de perigo específicas.

“Há vários erros nas transcrições, especialmente em lugares muito barulhentos, ou para pessoas com problemas de dicção ou não falantes nativos [de um idioma]”, comenta o professor Sabbir Arif, que comandou o projeto. “Contudo, LipType funciona para todos: para pessoas que precisam enviar uma mensagem privada num ambiente público ou numa reunião, e com o LipType se poderia ‘dizer’ as palavras sem emitir sons”, explicou.

Acompanhado do hardware contido nas câmeras, o algoritmo trabalha arduamente para identificar cada uma das palavras “pronunciadas” pelo usuário. Para isso, os pesquisadores precisaram incluir vários filtros para adaptar o sistema às mais variadas condições de luz e corretores de erros baseados em modelos da linguagem.

Os resultados se mostraram promissores. Os próprios pesquisadores reconhecem que as melhorias do LipType na leitura labial são significativas e podem trazer mudanças reais no cotidiano de pessoas com problemas na fala. Essa avaliação, inclusive, foi reforçada por uma pesquisa conduzida pelo laboratório entre com portadores e não portadoras de deficiências físicas e a avaliação geral foi positiva: a maioria afirma que usaria a ferramenta no dia a dia.

“LipType analisou falas 58% mais rápido e com 53% mais precisão que qualquer outra solução em vários cenários reais, incluindo em condições de baixa luz e ambientes cheios”, comentou o estudante de graduação em ciência da computação e engenharia Laxmi Pandey.

Aplicações variadas

O laboratório sugere que o LipType pode ser aplicado além da transcrição de falas para a elaboração de mensagens de texto, mas também em caixas eletrônicos ou quiosques inteligentes, que são plataformas presentes no cotidiano de muitas pessoas — portadoras ou não de deficiência física ou com problemas de dicção.

João Marcelo de Assis Peres

joao.marcelo@guiadocftv.com.br

GuiadoCFTV

Avalie esta notícia, mande seus comentários e sugestões. Encontrou alguma informação incorreta ou algum erro no texto?

Importante: ‘Todos os Conteúdos divulgados decorrem de informações provenientes das fontes aqui indicadas, jamais caberá ao Guia do CFTV qualquer responsabilidade pelo seu conteúdo, veracidade e exatidão. Tudo que é divulgado é de exclusiva responsabilidade do autor e ou fonte redatora.’

Quer enviar suas notícias? Envie um e-mail para noticias@guiadocftv.com.br

Deixe uma resposta

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Esse site utiliza o Akismet para reduzir spam. Aprenda como seus dados de comentários são processados.