Currente calamo (#4)

Article
04/22/2007

Onde tudo começa...

Quando falamos em Reconhecimento de Fala falamos obrigatoriamente em Modelos Acústicos também. Desconhecendo o que isto significa, provavelmente a primeira ideia que nos vem à cabeça será algo relacionado com o estudo do som, o que não é de todo mentira. De facto é nos sons da fala humana que tudo começa! Estes são o resultado da sobreposição de várias ondas e ressonâncias que vão sendo acrescentadas e modificadas ao longo do tracto vocal. Os modelos acústicos reflectem a maneira como pronunciamos/articulamos uma língua, modelando a sequência de sons emitidos aquando da fala. Essa modelação assenta em segmentos de fala mínimos, os fones, para os quais existe um conjunto de símbolos/alfabetos que representam a sua pronunciação. É no campo da fonética articulatória e acústica que se estuda a representação desses símbolos, sua articulação e pronunciação.

Conseguimos descrever palavras analisando as unidades que as constituem, os fones. Um reconhecedor de fala interpreta o sinal de entrada, a fala, como uma sequência de símbolos codificados. Para isso, o sinal é fragmentado em observações de sensivelmente 10 milissegundos cada, reduzindo assim o factor de análise ao intervalo de tempo onde as características de um segmento de som não variam.

Os modelos acústicos dão-nos uma noção sobre a probabilidade de uma determinada observação corresponder a uma determinada entidade. É, portanto, através de modelos sobre as entidades do vocabulário a reconhecer que é possível voltar a juntar esses fragmentos de som.

Baseamos o nosso trabalho em Modelos Escondidos de Markov(do inglês, Hidden Markov Models - HMMs). Chamam-se assim por se fundamentarem nas cadeias de Markov: sequências de estados onde cada estado é condicionado pelo seu anterior. Localizando esta abordagem no nosso domínio, há que construir um conjunto de modelos - um para cada classe de sons a reconhecer - que serão treinados por dados de treino. Os dados são ficheiros áudio e respectivas transcrições (ao nível da palavra) de modo a que seja possível decompor essa transcrição em fones e alinhá-la a cada som do ficheiro áudio correspondente. Usando um modelo de estados, onde cada estado representa uma observação ou segmento de fala descrita, os dados vão-se reagrupando de maneira a criar modelos estatísticos, cada vez mais fidedignos, que consistam em representações das entidades da fala de uma determinada língua.

Neste momento estão a ser desenvolvidos modelos acústicos de Português Europeu. Pretende-se a que sejam utilizados em produtos Microsoft que suportem reconhecimento e síntese de fala em Português, como por exemplo o Voice Command para Windows Mobile, o Exchange Voice Access ou o Windows Media Centre controlado por voz.

Posted by: Carla Simões

Currente calamo (#4)

Additional resources