Apple estuda IA para interpretar características de falas humanas

A Apple considera a acessibilidade como algo de suma importância na tecnologia — o que é visto no número de recursos e funções que a companhia desenvolve para tornar seus dispositivos e serviços mais democráticos e inclusivos.

Isso também se reflete na seara da inteligência artificial, sobre a qual a companhia possui diversos estudos em andamento. Um deles, publicado recentemente [PDF], teve como foco as dimensões de qualidade de voz (Voice Quality Dimensions, ou VQDs), que são características da voz capazes de classificar o estilo de fala.

Posts relacionados

  • Apple Watch não é muito preciso na contagem de calorias queimadas, mostra estudo
  • IA poderá viabilizar monitoramento da frequência cardíaca com os AirPods
  • Estudo da Apple atesta que IAs têm “sotaque” inglês e propõe melhoria

Essas dimensões capturam informações sobre o estilo e a voz do falante, de modo que modelar um conjunto de VQDs — alvo do estudo da Apple — pode oferecer uma visão para diversas aplicações, como aprimorar a curadoria de dados para reconhecimento automático de voz e identificar diferenças na fala, a exemplo daquelas ligadas ao bem-estar ou emoções.

Para tanto, os pesquisadores da Apple treinaram sondas leves (modelos diagnósticos simples que se baseiam em sistemas de fala existentes) em um grande conjunto de dados públicos de fala atípica anotada, incluindo vozes de pessoas com Parkinson, ELA e paralisia cerebral.

Eles também usaram sete dimensões principais para medir como a voz soa:

  • Inteligibilidade: o quão fácil é entender a fala.
  • Consoantes imprecisas: o quão claramente os sons consonantais são articulados.
  • Voz áspera: uma qualidade vocal áspera, tensa ou grave.
  • Naturalidade: o quão típica ou fluente a fala soa para um ouvinte.
  • Monoloudness: a ausência de variação na intensidade da fala.
  • Monopitch: a ausência de variação de tom da fala.
  • Soprosidade: a presença de um ruído de fundo audível, geralmente causada pelo fechamento incompleto das pregas vocais.

O resultado do estudo aponta que as sondas tiveram um ótimo desempenho na maioria das dimensões, variando ligeiramente dependendo da característica da fala. Entretanto, a Apple não se limitou à fala clínica, testando também falas com diferentes emoções.

Foi visto que vozes raivosas apresentaram menor morosidade, vozes calmas foram classificadas como menos ásperas e vozes tristes foram percebidas como mais monótonas.

Tudo isso, é claro, pode ser aplicado para aprimorar as tecnologias existentes da Maçã — podendo abrir caminho para uma Siri mais acessível, por exemplo, capaz de modular sua fala dependendo de como interpreta seu humor e outras possíveis condições.

via 9to5Mac

Adicionar aos favoritos o Link permanente.