Por Fábio Reynol - Agência FAPESP em 17/3/2010
Um fonoaudiólogo pede ao paciente para falar a vogal “a” diante de um microfone. Após alguns minutos, em um monitor de computador o médico recebe os dados analisados pelo programa com uma suspeita de diagnóstico, caso alguma alteração seja detectada.
Tornar possível essa cena é o objetivo de pesquisadores da Escola de Engenharia de São Carlos da Universidade de São Paulo que trabalham com sistemas de análise de voz.
Durante o doutorado no Departamento de Engenharia Elétrica, Paulo Rogério Scalassara trabalhou em um sistema de processamento digital de sinais que pudesse discriminar certas doenças relacionadas ao aparelho fonador. O estudo envolveu duas patologias: nódulos nas pregas vocais e o edema de Reinke, uma espécie de inflamação das pregas vocais que provoca o seu inchaço.
Agora, no pós-doutorado no Instituto de Física de São Carlos, também da USP, Scalassara pretende englobar no sistema outras quatro patologias: pólipo, carcinoma da laringe, mal de Parkinson e tremor essencial, um distúrbio neurológico semelhante ao Parkinson. Assim como ocorreu no doutorado, ele tem apoio da FAPESP por meio de Bolsa de Pós-Doutorado.
Scalassara se utiliza de um banco de vozes pré-gravadas e digitalizadas. Esses arquivos são submetidos a análises feitas com softwares baseados em modelos específicos. A inovação da pesquisa está nesses modelos.
“Os modelos convencionais observam alterações em características lineares da voz e nós utilizamos medidas de informação do sinal, como a entropia”, disse à Agência FAPESP.
A entropia, no caso, refere-se ao grau de desordem inerente ao sinal vocal. O que os modelos fazem é selecionar trechos e testar previsões de como ele se comportará em seguida. A previsão é então comparada ao trecho posterior e, desse modo, é testada.
Com base nos modelos de previsão usados, vozes oriundas de tratos vocais saudáveis têm características mais “previsíveis”, ou seja, menor entropia. Por outro lado, doenças que comprometem o aparelho fonador geram vozes com maior entropia. Têm maior grau de irregularidade e, portanto, são menos previsíveis.
No trabalho de doutorado, Scalassara conseguiu um bom índice de êxito ao diferenciar vozes de pacientes saudáveis e de portadores de edema de Reinke e de nódulo nas pregas vocais. No entanto, o sistema não conseguiu apontar entre as duas doenças de qual o paciente sofria.
Segundo a sua hipótese, as doenças também provocam graus diferentes de previsibilidade e, portanto, são passíveis de diferenciação por meio da técnica. Para isso, ele está aperfeiçoando os modelos usados e testando novos.
O banco de vozes utilizado no doutorado – composto por 48 arquivos, sendo 16 vozes saudáveis, 16 com edema de Reinke e 16 com nódulos – foi ampliado por uma coletânea de gravações cedidas pelo Hospital das Clínicas da Universidade de Iowa, nos Estados Unidos, onde atuou como assistente de pesquisa durante parte de seu doutorado. “Esse novo banco de dados conta com amostras de vozes com as outras patologias que estou analisando agora no pós-doutorado”, disse.
Exames não-invasivos
Uma das consequências de pesquisas como essa é promover o desenvolvimento de sistemas de auxílio pré-diagnóstico que possam, por exemplo, evitar exames invasivos como a laringoscopia, caso uma patologia seja detectada por meio do exame vocal.
Pesquisas com sinais vocais para elaboração de diagnósticos começaram a se intensificar há apenas cinco anos no Brasil, segundo José Carlos Pereira, professor da Escola de Engenharia de São Carlos. Juntamente com o professor Carlos Dias Maciel, Pereira orientou Scalassara durante o doutorado.
“Os estudos de modelagem biomecânica de voz se originaram na década de 1960 com pesquisas que pretendiam sintetizar a voz humana ao simular o trato vocal em máquinas. Com o tempo, o estudo mudou de lado ao decompor a voz para se conhecer as condições da laringe”, disse.
A mesma análise vocal que está sendo desenvolvida com o auxílio de computadores já é feita hoje por fonoaudiólogos, com a utilização do ouvido humano. Pereira conta que profissionais com ouvido apurado diferenciam patologias ao ouvir os sons produzidos por pacientes por meio do exame chamado “perceptivo auditivo”. São essas nuances vocais percebidas por humanos treinados que os pesquisadores tentam identificar e passar para as máquinas.
“Não é fácil, porque as pregas vocais são músculos extremamente complicados e há muita caoticidade em suas vibrações. Por isso, modelos lineares não conseguem captar todas as nuances”, explicou.
Outro desafio ressaltado pelos pesquisadores é a multidisciplinaridade e o distanciamento das áreas envolvidas nesse trabalho. “O processamento de sinais exige matemática pesada, ao mesmo tempo que envolve as áreas de fonoaudiologia e otorrinolaringologia”, disse Pereira.
Por conta disso, em seu laboratório engenheiros e cientistas da computação interagem com fonoaudiólogos e contam com a consultoria de médicos otorrinos durante a pesquisa.
O doutorado de Scalassara foi um exemplo. Fonoaudiólogas auxiliaram o doutorando, que é engenheiro, nas análises dos sinais de voz. Durante a coleta esse material foi analisado por médicos e reanalisados pelas fonoaudiólogas.
Por todos esses obstáculos, Pereira estima que a análise de sinais vocais poderá em breve detectar e distinguir as patologias que mais alteram a voz, especialmente nódulos, pólipos e edema de Reinke.
O campus de São Carlos da USP desenvolve um grande número de pesquisas envolvendo processamento de sinais de voz. Além do Laboratório de Processamento de Sinais do Departamento de Engenharia Elétrica da EESC-USP, coordenado pelo professor Pereira, diversos trabalhos são realizados também pelo Instituto de Física de São Carlos por meio do SpeechLab, coordenado pelo professor Rodrigo Capobianco Guido, orientador de Scalassara no pós-doutorado.