Neurocientista descobre como o cérebro interpreta o tom da voz para compreender a intenção no discurso e otimizar a IA

Um estudo inédito revela que uma região do cérebro, há muito conhecida pelo processamento auditivo precoce, desempenha um papel muito mais importante na interpretação do discurso do que se pensava anteriormente.

cérebro; voz
A interpretação que o nosso cérebro faz daquilo que ouvimos, poderá passar para a IA. (Imagem criada por IA)

Um estudo multidisciplinar, da Escola de Comunicação da Universidade Northwestern, da Universidade de Pittsburgh e da Universidade de Wisconsin-Madison, revelou que uma região do cérebro conhecida como giro de Heschl não se limita a processar sons - transforma alterações subtis no tom, conhecidas como prosódia, em informação linguística significativa que orienta a forma como os seres humanos compreendem a ênfase, a intenção e o foco numa conversa.

“Os resultados deste estudo redefinem a nossa compreensão da arquitetura da perceção da fala. Passámos algumas décadas a investigar as nuances de como a fala é abstraída no cérebro, mas este é o primeiro estudo a investigar como são processadas no cérebro as variações subtis de tom que também comunicam significado”.

Bharath Chandrasekaran, co-investigador principal do estudo e professor e presidente do Departamento de Ciências e Distúrbios da Comunicação Roxelyn e Richard Pepper, da Northwestern.

Durante anos, os cientistas acreditaram que todos os aspetos da prosódia eram processados principalmente no giro temporal superior, uma região do cérebro conhecida pela perceção da fala. Chandrasekaran afirma que os resultados desafiam as suposições de longa data sobre como, onde e a velocidade a que a prosódia é processada no cérebro.

Foram implantados elétrodos no córtex cerebral dos participantes

Chandrasekaran associou-se a Dr. Taylor Abel, chefe da neurocirurgia pediátrica da Faculdade de Medicina da Universidade de Pittsburgh, para estudar o processamento da informação auditiva em 11 doentes adolescentes que estavam a receber tratamento neurocirúrgico para epilepsia grave. Em todos eles foram implantados elétrodos no córtex cerebral, que é fundamental para o funcionamento da linguagem.

“Normalmente, a investigação em comunicação e linguística baseia-se em registos não invasivos da superfície da pele, o que a torna acessível mas não muito precisa. Uma colaboração entre neurocirurgiões-cientistas e neurocientistas, como a nossa, permitiu-nos recolher gravações de alta qualidade da atividade cerebral que não teriam sido possíveis de outra forma, e aprender sobre os mecanismos de processamento cerebral de uma forma completamente nova.”

Dr. Taylor Abel.

Para explorar a forma como o cérebro decifra a melodia da fala, os investigadores trabalharam com este raro grupo de doentes a quem foram implantados elétrodos no cérebro como parte do tratamento da epilepsia.

cérebro; compreensão do tom de voz
Em todos os participantes deste estudo foram implantados elétrodos no córtex cerebral, que é fundamental para o funcionamento da linguagem. (Imagem criada por IA)

Enquanto estes doentes ouviam ativamente a gravação de um audiolivro de “Alice no País das Maravilhas”, os cientistas seguiram a atividade de várias regiões do cérebro em tempo real.

O nosso cérebro consegue codificar os acentos tonais

Utilizando as gravações intracerebrais dos elétrodos no cérebro do doente, os investigadores observaram que a secção do giro de Heschl processava alterações subtis no tom da voz - não apenas como som, mas como unidades linguísticas significativas. O cérebro codificou os acentos tonais separadamente dos sons que compõem as palavras.

“O nosso estudo desafia as suposições de longa data sobre como e onde o cérebro capta a melodia natural da fala - aquelas mudanças subtis de tom que ajudam a transmitir significado e intenção. Apesar de estes padrões de tom variarem de cada vez que falamos, o nosso cérebro cria representações estáveis para os compreender.”

G. Nike Gnanataja do Departamento de Ciências da Comunicação e Distúrbios da UW-Madison e coautor do estudo.

Gnanataja diz que a investigação também revelou que a camada oculta de significado transportada pelos contornos prosódicos - a subida e a descida do discurso - é codificada muito mais cedo no processamento auditivo do que se pensava anteriormente.

tom; discurso
Os investigadores fizeram uma investigação semelhante em primatas não humanos, mas os resultados diferem. (Imagem criada por IA)

Foi realizada uma investigação semelhante em primatas não humanos, mas os investigadores descobriram que esses cérebros não tinham essa abstração, apesar de processarem as mesmas pistas acústicas.

Porque é que é esta descoberta é importante

Ao desvendar a camada oculta da fala, Chandrasekaran e a sua equipa descobriram como o cérebro processa os acentos tonais, revelando profundas implicações para vários campos.

“As nossas descobertas podem transformar a reabilitação da fala, os assistentes de voz alimentados por IA e a nossa compreensão do que torna a comunicação humana única”, afirmou.

Compreender o processamento prosódico precoce pode conduzir a novas intervenções para distúrbios da fala e da linguagem, como o autismo, a disprosódia em pacientes que sofreram um acidente vascular cerebral e as diferenças de aprendizagem baseadas na linguagem.

O estudo também realça o papel único da experiência linguística na comunicação humana, uma vez que os primatas não humanos não têm a capacidade de processar os acentos tonais como categorias abstratas.

Além disso, estas descobertas poderão melhorar significativamente os sistemas de reconhecimento de voz baseados em IA, permitindo-lhes lidar melhor com a prosódia, aproximando o processamento da linguagem natural da perceção do discurso humano.

Referência da notícia

G. Nike Gnanateja, Kyle Rupp, Fernando Llanos, Jasmine Hect, James S. German, Tobias Teichert, Taylor J. Abel & Bharath Chandrasekaran. Cortical processing of discrete prosodic patterns in continuous speech. Nature Communications (2025).