Paradigma de treinamento e teste baseado em memorização para reconhecimento robusto de identidade vocal em fala expressiva usando análise de potenciais relacionados a eventos

Wenjun Chen; Xiaoming Jiang

doi:10.3791/66913

É necessária uma assinatura da JoVE para visualizar este conteúdo. Faça login ou comece sua avaliação gratuita.

Method Article

Paradigma de treinamento e teste baseado em memorização para reconhecimento robusto de identidade vocal em fala expressiva usando análise de potenciais relacionados a eventos

DOI:

10.3791/66913

⸱

August 9th, 2024

Wenjun Chen¹, Xiaoming Jiang¹^,²

¹Institute of Linguistics, Shanghai International Studies University, ²Key Laboratory of Language Science and Multilingual Artificial Intelligence, Shanghai International Studies University

Please note that all translations are automatically generated. Click here for the English version.

Resumo

O estudo introduz um paradigma de teste de treinamento para investigar efeitos antigos/novos de potenciais relacionados a eventos em cenários prosódicos confiantes e duvidosos. Os dados revelam um componente positivo tardio aprimorado entre 400-850 ms em Pz e outros eletrodos. Esse pipeline pode explorar fatores além da prosódia da fala e sua influência na identificação do alvo de ligação de sugestões.

Resumo

Reconhecer falantes familiares de fluxos vocais é um aspecto fundamental da comunicação verbal humana. No entanto, ainda não está claro como os ouvintes ainda podem discernir a identidade do falante na fala expressiva. Este estudo desenvolve uma abordagem de reconhecimento de identidade de locutor individual baseada em memorização e um pipeline de análise de dados de eletroencefalograma (EEG) que monitora como os ouvintes reconhecem falantes familiares e diferenciam os desconhecidos. Os dados do EEG capturam processos cognitivos on-line durante a distinção entre alto-falantes novos e antigos com base na voz, oferecendo uma medida em tempo real da atividade cerebral, superando os limites dos tempos de reação e medições de precisão. O paradigma compreende três etapas: os ouvintes estabelecem associações entre três vozes e seus nomes (treinamento); os ouvintes indicam o nome correspondente a uma voz de três candidatos (verificação); Os ouvintes distinguem entre três vozes antigas e três novas vozes de locutor em uma tarefa de escolha forçada de duas alternativas (teste). A prosódia da fala no teste foi confiante ou duvidosa. Os dados do EEG foram coletados usando um sistema de EEG de 64 canais, seguido de pré-processamento e importados para o RStudio para ERP e análise estatística e MATLAB para topografia cerebral. Os resultados mostraram que um componente positivo tardio (LPC) aumentado foi eliciado no locutor antigo em comparação com a condição do locutor novo na janela de 400-850 ms no Pz e outras faixas mais amplas de eletrodos em ambas as prosódias. No entanto, o efeito antigo/novo foi robusto nos eletrodos central e posterior para percepção duvidosa da prosódia, enquanto os eletrodos anterior, central e posterior são para condição de prosódia confiante. Este estudo propõe que este desenho de experimento pode servir como referência para investigar os efeitos de ligação de pistas específicas do falante em vários cenários (por exemplo, expressão anafórica) e patologias em pacientes como fonagnosia.

Introdução

As correntes vocais humanas são ricas em informações, como^emoção1,2^{, estado de} ^saúde3,4, sexo^biológico5,^idade6 e, mais importante, a identidade vocal^{individual7,8}. Estudos têm sugerido que os ouvintes humanos têm uma capacidade robusta de reconhecer e diferenciar as identidades de seus pares por meio de vozes, superando as variações dentro do falante em torno da representação baseada na média da identidade do falante no espaço acústico⁹. Tais variações são provocadas pela manipulação acústica (freqüência fundamental e comprimento do trato vocal, ou seja, F0 e VTL) que corresponde a nenhuma intenção pragmática clara⁹, prosódias emocionais¹⁰ e confiança vocal que transmite a sensação de conhecimento dos falantes¹¹. Experimentos comportamentais se concentraram em muitos fatores que influenciam o desempenho dos ouvintes no reconhecimento dos falantes, incluindo manipulações relacionadas à linguagem ^8,12,13, características relacionadas aos participantes, como experiência musical ou capacidade de leitura^14,15 e adaptações relacionadas a estímulos, como fala invertida ou não palavras^16,17; mais podem ser encontradas em revisões de literatura^18,19. Alguns experimentos recentes investigaram como a variação individual da representação da identidade do falante pode prejudicar a precisão do reconhecimento, considerando aspectos como alta versus baixa expressividade emocional¹⁶ e prosódias neutras versus temerosas⁵; Mais cenários possíveis estão abertos para uma investigação mais aprofundada, conforme sugerido por uma revisão²⁰.

Para a primeira lacuna de pesquisa, o estudo propõe que os fundamentos neurológicos da identificação do falante ainda precisam explorar completamente como a variação dentro do falante desafia as atividades cerebrais dos ouvintes. Por exemplo, em uma tarefa de reconhecimento de falante baseada em fMRI por Zäske et al., o giro temporal póstero-superior direito (pSTG), o giro frontal inferior direito/médio (IFG/MFG), o giro frontal medial direito e o caudado esquerdo mostraram ativação reduzida quando identificados corretamente como falantes antigos versus novos, independentemente do conteúdo linguístico ser o mesmo ou diferente²¹. No entanto, um estudo anterior de eletroencefalografia (EEG) de Zäske et al. não observou esse efeito antigo/novo quando a variação da identidade do falante foi introduzida por meio de diferentes textos²². Especificamente, um componente positivo tardio (LPC) maior variando de 300 a 700 ms, detectado no eletrodo Pz quando os ouvintes encontraram seu locutor treinado familiar expressando o mesmo texto (ou seja, ouvindo um replay com conteúdo linguístico não variado), estava ausente quando os locutores entregaram novos textos.

Em apoio à afirmação feita por Zäske et ^al.21, este estudo suspeita que um efeito antigo/novo ainda pode ser observado, apesar das diferenças no conteúdo linguístico entre as sessões de treinamento e teste em análises de potencial relacionado a eventos (ERP). Esse raciocínio decorre da noção de que a ausência do efeito velho/novo em Zäske et ^al.22, em condições em que diferentes textos foram usados, pode ser atribuída à falta de uma sessão de verificação adicional durante a tarefa de treinamento para garantir um aprendizado de identidade completo e eficaz, como sugerido por Lavan et ^al.23. Consequentemente, o primeiro objetivo do estudo é examinar e validar essa hipótese. Este estudo tem como objetivo testar isso adicionando uma sessão de verificação ao paradigma de teste de treinamento²².

Outra questão-chave que este estudo pretende abordar é a robustez da identificação do falante na presença de prosódia de fala. Estudos comportamentais anteriores sugeriram que os ouvintes lutam particularmente para reconhecer os falantes em diferentes prosódias, o que indica um papel modulador do contexto prosódico - os ouvintes tiveram um desempenho inferior nas diferentes condições de prosódia de teste de treinamento. Este estudo tem como objetivo testar isso, expondo os ouvintes a reconhecer falantes familiares em prosódias confiantes ou duvidosas²⁴. Este estudo espera que as diferenças observadas no ERP ajudem a explicar como a prosódia da fala influencia o reconhecimento de identidade.

O objetivo central do presente estudo é investigar a robustez do efeito antigo/novo no reconhecimento do falante, examinando especificamente se existem diferenças no reconhecimento de falantes em prosódias confiantes versus duvidosas. Xu e Armony¹⁰ realizaram um estudo comportamental usando um paradigma de teste de treinamento, e suas descobertas sugerem que os ouvintes não podem superar as diferenças prosódicas (por exemplo, treinados para reconhecer um falante em prosódia neutra e testados em prosódia com medo) e só podem alcançar precisão inferior ao nível^{de chance 10}. A análise acústica indica que os alto-falantes que expressam estados emotivos variados estão associados à modulação VTL / F0; por exemplo, a prosódia confiante é caracterizada por VTL alongada e F0 mais baixa, enquanto o oposto é verdadeiro para a prosódia duvidosa^11,24. Outra evidência vem do estudo de Lavan et ^al.23, que confirmou que os ouvintes podem se adaptar às mudanças VTL e F0 do falante e formar representações baseadas na média dos falantes. Este estudo reconcilia que, de uma perspectiva de dados comportamentais, os ouvintes provavelmente ainda reconhecerão a identidade do falante em todas as prosódias (por exemplo, treinados para reconhecer alguém em prosódia confiante, mas testados em prosódia duvidosa; relatado em um manuscrito separado em preparação). No entanto, os correlatos neurais da identificação do falante, especificamente a generalização do efeito antigo/novo observado por Zäske et ^al.22, permanecem obscuros. Portanto, o presente estudo está empenhado em validar a robustez do efeito antigo/novo em prosódias confiantes versus duvidosas como contextos para testes.

O estudo introduz um afastamento dos paradigmas de pesquisa anteriores em estudos de efeitos antigos / novos. Enquanto pesquisas anteriores se concentraram em como o reconhecimento do locutor antigo/novo influencia a percepção, este estudo estende isso incorporando dois níveis de confiança (confiante versus duvidoso) ao paradigma (portanto, um estudo 2+2). Isso nos permite investigar o reconhecimento do falante dentro dos contextos de prosódias de fala confiante e duvidosa. O paradigma permite a exploração da robustez de efeitos antigos/novos. As análises dos efeitos da memória e das regiões de interesse (ROI) em contextos de fala confiante e duvidosa servem como evidência para esta investigação.

Em conjunto, o estudo visa atualizar a compreensão dos correlatos de EEG do reconhecimento de voz, com as hipóteses de que o LPC ampliado do efeito antigo/novo do EEG é observável mesmo quando 1) o conteúdo linguístico não é o mesmo, e 2) com a presença de prosódia confiante versus duvidosa. Este estudo investigou as hipóteses por meio de um paradigma de três etapas. Em primeiro lugar, durante a fase de treinamento, os participantes estabeleceram associações entre três vozes e seus nomes correspondentes. Posteriormente, na fase de verificação, eles foram encarregados de identificar o nome correspondente a uma voz de uma seleção de três candidatos. Essa verificação, seguindo Lavan et ^al.23, visa superar a familiarização insuficiente do falante antigo, que levou ao efeito antigo/novo não observado quando o texto nas fases de treinamento e teste diferia⁶, e os falantes não conseguiam reconhecer os falantes em prosódias neutras e temerosas¹⁰. Finalmente, na fase de teste, os participantes distinguiram entre três vozes antigas e três novas vozes em uma tarefa de escolha forçada de duas alternativas, com a prosódia da fala apresentada como confiante ou duvidosa. Os dados do EEG foram coletados usando um sistema de EEG de 64 canais e submetidos a pré-processamento antes da análise. A análise estatística e a análise do potencial relacionado a eventos (ERP) foram realizadas no RStudio, enquanto o MATLAB foi utilizado para análise da topografia cerebral.

Em relação aos detalhes do projeto, este estudo propõe um experimento de aprendizagem da identidade do falante que controla a altura do falante, que está relacionada ao VTL e influencia as impressões de quem está falando²³. Esse aspecto também influencia as impressões sociais, como a dominância percebida²⁵, e essa formação de impressões de nível superior pode interagir com a decodificação da identidade do falante²⁶.

Protocolo

O Comitê de Ética do Instituto de Linguística da Universidade de Estudos Internacionais de Xangai aprovou o projeto de experimento descrito abaixo. O consentimento informado foi obtido de todos os participantes para este estudo.

1. Preparação e validação da audioteca

Gravação e edição de áudio
1. Crie um banco de dados vocal chinês seguindo o procedimento padrão de fazer uma versão anterior em inglês, fazendo adaptações quando necessário para se encaixar no contexto da China¹¹. Para o experimento aqui, foram utilizadas 123 sentenças contendo três tipos de intenções pragmáticas, a saber, julgamento, intenção e fato. Para fazer isso, consulte um corpus¹¹ de instruções em inglês existente e crie uma versão localizada em chinês com cenários localizados adicionais.
2. Recrute 24 falantes (12 mulheres) para expressar essas frases em prosódias neutras, duvidosas e confiantes, referindo-se e adaptando instruções especificadas de tarefas de gravação anteriores^11,24.
  1. Para os palestrantes aqui, recrute 24 falantes de mandarim padrão da Universidade de Estudos Internacionais de Xangai, 12 mulheres e 12 homens, com proficiência demonstrada em mandarim por meio de pontuações de 87 a 91 no Teste de Proficiência em Putonghua. Os participantes do sexo masculino tiveram uma média de 24,55 ± 2,09 anos de idade, com 18,55 ± 1,79 anos de educação e uma altura média de 174,02 ± 20,64 cm. As mulheres apresentaram média de 22,30 ± 2,54 anos, com 18,20 ± 2,59 anos de estudo e estatura média de 165,24 ± 11,42 cm. Nenhum relatou alterações fonoaudiológicas ou distúrbios neurológicos ou psiquiátricos.
3. Peça aos oradores que repitam cada texto duas vezes. Defina a taxa de amostragem em 48.000 Hz no software Praat²⁷. Certifique-se de que nenhum fluxo seja superior a 10 minutos, pois o Praat pode quebrar, causando perda de gravação.
4. Edite o longo fluxo de áudio em clipes por frase com Praat. Como há duas repetições do mesmo texto, selecione a versão que melhor representa a prosódia pretendida como a frase de destino.
Seleção de áudio
1. Normalize a biblioteca de áudio em 70 dB e a taxa de amostragem em 41.000 Hz com o script Praat²⁸. Para fazer isso, abra o Praat, carregue os arquivos de som e selecione-os na janela Objetos. Vá para o menu Modificar, escolha Intensidade da escala..., defina a Nova intensidade média (dB SPL) para 70 na janela de configurações e clique em OK para aplicar a normalização.
2. Recrute 48 ouvintes independentes para avaliar cada áudio em uma escala de 7 Likert sobre o nível de confiança: 1 para nada e 7 para muito confiante¹¹. Certifique-se de que cada frase foi avaliada por 12 avaliadores.
3. Selecione o áudio que se adapta aos limites designados com um princípio principal: certifique-se de que a classificação média para o áudio com intenção confiante seja maior do que o áudio com intenção duvidosa. Certifique-se de que esses limites sejam consistentes em 12 falantes do mesmo sexo biológico. Por exemplo, se esses locutores expressaram duas frases, cada uma com prosódias confiantes e duvidosas, diferenças significativas nas classificações devem ser observadas.
4. Para fins do projeto experimental atual, use quatro blocos de áudio, totalizando 480 clipes de áudio, com cada bloco contendo 120 áudios.
  1. Divida 24 falantes em quatro grupos de seis, com dois grupos de homens e dois grupos de mulheres, cada grupo consistindo de falantes do mesmo sexo biológico.
  2. Para cada grupo, selecione clipes de áudio com base nas classificações perceptivas (no mesmo texto), garantindo que as classificações médias de confiança sejam mais altas do que as classificações duvidosas para cada frase. Esses quatro blocos diferem das seguintes maneiras: 1) os seis locutores combinados - suas identidades são diferentes; 2) metade dos blocos são expressos por homens e a outra metade por mulheres; e 3) o texto expresso em cada bloco é diferente.
5. Antes do início do processo de seleção, documente os dados de altura de cada palestrante. Use essas informações para dividir os falantes em quatro grupos independentes com base no gênero e na altura.
  1. São 24 falantes no total, divididos igualmente entre homens e mulheres. Dentro de cada grupo de gênero, classifique os 12 indivíduos por altura.
6. Divida esses 12 indivíduos em dois grupos de forma alternada; Por exemplo, de uma lista ordenada de 1 a 12, os indivíduos 1, 3, 5, 7, 9 e 11 formariam um grupo e a outra metade formaria o segundo grupo. Dentro desses grupos, execute a seleção de alto-falantes para os clipes de áudio em intervalos regulares com base em sua altura.
  NOTA: A inclusão da altura como fator de controle é baseada em achados que sugerem que as medidas acústicas relacionadas à altura do falante (VTL e F0) influenciam o reconhecimento da identidade do falante e do falante²³.

2. Programação para coleta de dados de EEG

Projetar a matriz de experimentos
1. O estudo emprega um design dentro do sujeito. Prepare uma sessão de teste que se apresente de acordo com cada assunto enquanto adapta a sessão de treinamento. Prepare quatro blocos, com palestrantes masculinos e femininos ocupando cada metade de dois blocos. Designe dois blocos para ser treinado em prosódia confiante e testado em confiante e duvidoso, bem como treinado em prosódia duvidosa e testado em confiante e duvidoso, conforme sugerido na Figura 1.
2. Decida a duração das telas de funcionamento consultando estudos de EEG existentes sobre identificação do falante e percepção de confiança vocal^22,29. Organize a sequência dos quatro blocos com uma matriz quadrada latina entre os participantes^30,31. A codificação Python personalizada é recomendada para preparar essa lista. Veja o trecho de código para a matriz do quadrado latino e a lista de testes para o programa PsychoPy no OSF³².
3. Selecione locutores em cada intervalo de uma sequência de altura do mesmo sexo biológico. Para cada bloco, selecione seis falantes dos 24 locutores originais, que se agrupam em quatro listas de acordo com a altura relatada pelos locutores.
4. Selecione os primeiros 24 nomes nos cem sobrenomes de família da China. Atribua aleatoriamente os sobrenomes aos 24 locutores que expressaram o áudio, dirigindo-se a eles como Xiao (Junior em chinês) ZHAO.
5. Reúna todas as informações relevantes em uma planilha com colunas para Falante (1 a 24), Sexo biológico (masculino ou feminino), Nome da pessoa (dos 24 sobrenomes), Nível de confiança (confiante ou duvidoso), Item (índice de texto), Nível de confiança avaliado (pontuação média do estudo perceptivo), Som (por exemplo, som/1_h_c_f_56.wav),
6. Reconheça corretamente um em cada três (1, 2 ou 3) e reconheça corretamente o antigo e o novo (antigo ou novo). Além disso, certifique-se de que as colunas chamadas training_a, training_b, training_c, check e test tenham sido adicionadas.
7. Adicione as colunas training_a_marker, training_b_marker, check_marker e testing_marker às planilhas para enviar marcadores de EEG. Formate esses marcadores com três dígitos, o que significa que até o número 1 é escrito como 001.
Construindo as três sessões
NOTA: PsychoPy é recomendado para construir o programa, principalmente utilizando o modo construtor. O componente de código no construtor é usado adicionalmente para conectar o programa ao sistema de coleta de dados EEG, contrabalançando os botões F e J e calculando a precisão a ser relatada na tela.
1. Antes de tudo, clique no ícone Editar configurações do experimento e ajuste a célula Informações do experimento em dois campos, ou seja, Participante e Bloco. Deixe o padrão para ambos em branco. Neste estudo, entre os 40 participantes, cada um com quatro blocos, 4/40 participantes passaram por determinados blocos novamente (se a acurácia na sessão de Check for inferior a 10/12), com uma taxa de refazer de 19 refazeres/4 blocos x 40 participantes = 11,875%.
2. Sessão de treinamento: aprendizado de identidade repetido por três vezes
  1. Defina um loop chamado Training_A, que contém três telas: Fixação, Apresentação e um Blank. Marque a opção É Trials . Mantenha o nReps 1, deixando Selected rows e Random Seed em branco. Escreva a condição como abaixo:
    "$"trials/{:}_training_a.xlsx".format(expInfor["Participante"]), expInfo["Bloquear"])
    Onde os testes/ é o nome da pasta; Participante é o índice do participante; Bloco é a sequência de blocos do bloco atual.
  2. Na tela Fixação, adicione um Componente de texto, com Hora de início definida como 0, Tempo de duração definido como 2 (s) e um sinal + colocado na janela de entrada de texto que seleciona Definir a cada repetição. Da mesma forma, inclua um componente Texto semelhante na tela Em branco sem informações na célula Texto e dura 0,5 segundos.
  3. Na tela Apresentação, execute as seguintes ações:
    1. Adicione um componente Som, com Hora de início definida como 0, Tempo de duração da parada deixado em branco e a entrada da célula Som com $Sound e selecione Definir a cada repetição. Marque a tela Iniciar com sincronização.
    2. Adicione outro componente Texto, com a célula Condição inicial inserida com Cross_for_Training_A.status == FINISHED. Deixe a célula Duração da parada em branco. A célula de texto mostra $Name. Selecione Definir a cada repetição.
    3. Adicione um Key_Response_Training_A, no qual a Condição de Início é Training_A.status == FINISHED. Deixe a célula Duração da parada em branco. Marque o fim forçado da rotina. Para Célula de chaves permitidas, adicione espaço; para configuração, selecione Constante.
    4. Adicione um Cross_for_Training_A. Sua Hora de Início é definida como 0; a célula Condição de parada é definida como Training_A.status == FINISHED. Coloque um sinal + na janela de entrada de texto e selecione Definir todas as repetições.
  4. Prepare Training_B seguindo um procedimento semelhante ao Training_A.
3. Sessão de verificação: Selecione os nomes dos três participantes que estão falando.
  1. Defina um loop chamado Verificar, com a mesma tela Fixação e Em branco da sessão de treinamento.
  2. Use uma apresentação diferente do treinamento adicionando uma função para coletar a reação do teclado. Na tela Apresentação, execute a seguinte ação.
    1. Adicione um componente Som e nomeie-o Checking_audio, com Hora de início definida como 0 e deixe a célula Duração da parada em branco. Defina a célula Som como $Sound, com a opção Definir a cada repetição ativada.
    2. Adicione um componente Texto chamado Show_names, com a Condição inicial escrita com um comando:
      Checking_audio.status == CONCLUÍDO
      e deixe Duração da parada em branco. Defina a célula de texto como $ People_Name, com a opção Definir a cada repetição ativada.
    3. Adicione um componente Teclado e intitule-o Key_Response_Check, com a Condição de início sendo Checking_audio.status == FINISHED e deixe Duração da parada em branco. Selecione Forçar Fim da Rotina com as teclas Permitidas num_1, num_2 e num_3 Constante restante para que os participantes possam usar o teclado numérico para indexar sua escolha.
    4. Adicione uma fixação chamada Cross_Check, com a Hora de Início sendo 0 e a entrada Condição de Parada com Checking_audio.status == FINISHED. Adicione um + à célula Texto, que selecionará Definir a cada repetição.
  3. Insira um componente de código. Na seção Iniciar experimento, inicialize total_trials, current_correct, current_incorrect e current_accuracy como 0. Na rotina Begin, defina user_input como None. Na seção Cada quadro, colete a entrada do usuário do teclado e verifique a resposta correta armazenada no arquivo de planilha, com um código-chave de user_key = Key_Response_Check.keys para extrair 1, 2 ou 3. Em seguida, use-o para medir em relação aos 1,2 ou 3 armazenados em uma coluna chamada Correctly_recognize_one_out_of_three.
  4. Uma vez fora do circuito, certifique-se de que uma tela de feedback apareça com a seguinte mensagem: check_feedbacks.text = f" A segunda etapa está concluída.\nVocê identificou o falante em um total de {total_trials} frases,\nReconheceu corretamente {current_correct} falantes,\nJulgou incorretamente {current_incorrect} falantes.\nSua taxa de precisão geral é {current_accuracy}%.\n\nSe estiver abaixo de 83,33%, por favor, sinalize para o experimentador,\nVocê se familiariza com os três alto-falantes mencionados acima.\n\nSe você atender aos requisitos, pressione a barra de espaço para continuar.
4. Sessão de teste: classificando o locutor antigo e o novo
  1. Defina um loop intitulado Teste. Inclui Fixação e Blank (o mesmo que na sessão de treinamento) e uma tela de Apresentação.
  2. Prepare a seção Apresentação conforme abaixo.
    1. Adicione um componente de reprodução de som, Testing_sound, com configurações idênticas às da sessão de treinamento. Adicione um componente Key_response_old_new, que tenha uma Condição de Início de Testing_sound.status == FINISHED, deixe Duração da Parada em branco e marque Forçar Fim da Rotina. Nas teclas Permitidas, inclua f e j e selecione Constante.
  3. Adicione um componente de texto chamado Testing_old_new, com a condição de início sendo Testing_sound.status == FINISHED, deixe a duração da parada em branco e deixe a célula de texto em branco com Definir a cada repetição - o texto será definido por um componente de código posterior.
  4. Adicione um Cross_Testing, com a Hora de Início sendo 0, a Condição de Parada sendo Testing_sound.status == FINISHED e um + na célula Texto enquanto Definir Todas as Repetições estiver ativado.
  5. Adicione um componente Code conforme descrito abaixo.
    1. Na seção Iniciar experimento, inicialize o número total de tentativas (total_trials_t), o número de tentativas corretas (correct_trials_t) e o número de tentativas incorretas (incorrect_trials_t).
    2. Na seção Iniciar rotina, comece com uma verificação condicional para determinar o formato da apresentação com base no número de identificação do participante (expInfo["Participante"]). Se o número de identificação for ímpar, certifique-se de que as instruções para identificar estímulos antigos versus novos sejam apresentadas em um formato, ("Antigo (F) Novo (J)") ou ("Novo (F) 'Velho (J)").
    3. Fora desse loop, há uma tela de feedback com um componente de código. Certifique-se de que cada seção do quadro seja: testing_feedbacks.text = f"Você identificou o falante em um total de {total_trials_t} frases,\nReconheceu corretamente os falantes {correct_trials_t},\nJulgou incorretamente os falantes {incorrect_trials_t}.\nSua taxa de precisão geral é {accuracy_t:.2f}%.\nPressione a barra de espaço para encerrar esta parte atual.
5. Conecte o programa ao sistema Brain Products conforme descrito abaixo.
  1. Sincronize o marcador definindo um marcador como o início de cada áudio. Antes do início do loop Training_A, defina um protocolo de envio de marcador de EEG no componente de código Begin Experiment, conforme descrito abaixo.
    1. Importe componentes essenciais do PsychoPy, incluindo o módulo paralelo, e configure o endereço da porta paralela usando 0x3EFC.
    2. Estabeleça uma função sendTrigger para transmitir marcadores de EEG. Essa função envia um triggerCode especificado pela porta paralela com parallel.setData(triggerCode) depois de verificar se é um inteiro NumPy e convertê-lo conforme necessário.
    3. Adicione uma curta espera de 16 ms para garantir a captura do marcador antes de redefinir o canal de disparo para 0 com parallel.setData(0).
  2. O envio do marcador para o gravador de EEG usa sendTrigger(). Inclua o nome exato da coluna correspondente entre parênteses. Neste estudo, existem training_a_marker, training_b_marker, check_marker e testing_marker - consulte a coluna previamente definida na planilha.

3. Coleta de dados de EEG

Preparando o local
NOTA: Existem pelo menos dois computadores disponíveis para realizar a coleta de dados. Uma é conectar-se ao sistema de EEG e a outra é coletar dados comportamentais. Recomenda-se que outra tela seja criada para espelhar o computador relacionado a dados comportamentais. O sistema consiste em um amplificador e tampas passivas de EEG.
1. Para este estudo, recrutar participantes sem qualquer alteração fonoaudiológica relatada. Certifique-se de que os participantes não tenham nenhum distúrbio psiquiátrico ou neurológico. Um total de 43 participantes foram selecionados, sendo três excluídos devido a problemas de alinhamento com os marcadores de EEG. Dos 40 restantes, havia 20 participantes do sexo feminino e 20 do sexo masculino. O sexo feminino tinha idade entre 20,70 ± 0,37 anos, enquanto o sexo masculino tinha 22,20 ± 0,37 anos. Os anos de estudo foram de 17,55 ± 0,43 para o sexo feminino e 18,75 ± 0,38 para o sexo masculino.
2. Atribua IDs de participantes e convide os participantes a lavar e secar o cabelo dentro de uma hora antes de participar do experimento.
3. Misture o gel eletrolítico e o gel eletrolítico abrasivo na proporção de 1:3, adicionando uma pequena quantidade de água. Mexa a mistura uniformemente em um recipiente com uma colher.
4. Prepare cotonetes de ponta fina e uma touca de EEG seca.
5. Peça ao participante que se sente confortavelmente em uma cadeira e informe-o de que o experimentador aplicará a touca de EEG. Explique que a pasta condutora, que é inofensiva para os humanos e melhora a recepção do sinal cerebral, é aplicada nos orifícios da tampa usando cotonetes.
6. Forneça ao participante instruções sobre as tarefas experimentais e um formulário de consentimento informado para o experimento. Prossiga com a fase de preparação após obter a assinatura do participante.
7. Conecte a tampa do EEG ao amplificador, que por sua vez se conecta ao computador de aquisição de dados do EEG. Este estudo usa uma tampa passiva, por isso é necessário usar um monitor adicional para verificar os indicadores de cor nos 64 eletrodos.
8. Abra o BrainVision Recorder³³ e importe um arquivo de espaço de trabalho personalizado que tenha definido os parâmetros de gravação. Clique em Monitor para verificar a impedância. A barra de cores, do vermelho ao verde, é influenciada pelos níveis de resistência definidos, com as impedâncias alvo variando de 0 a 10 kΩ.
Preparando os participantes
1. Peça ao participante para se sentar ereto em uma cadeira. Selecione um sistema de eletrodo passivo à base de gel de tamanho apropriado (tamanho 54 ou 56) para a cabeça do participante e certifique-se de que o sistema de eletrodo esteja encaixado corretamente de acordo com o sistema 10-20^28,34.
2. Comece mergulhando um cotonete descartável na pasta condutora e aplicando-o nos orifícios da tampa, certificando-se de esfregar no couro cabeludo do participante. O indicador correspondente de um eletrodo ficando verde no computador de coleta de dados de EEG significa que ele está coletando dados ideais com sucesso.
3. Depois que a cor indicativa de todos os eletrodos na tela, exceto os dois eletrodos do lado independente, ficar verde (na tela do monitor), aplique a pasta condutora nos eletrodos laterais. Prenda o eletrodo esquerdo próximo ao olho esquerdo do participante, na área da pálpebra inferior e o eletrodo direito próximo à têmpora direita.
4. Quando todos os eletrodos estiverem verdes, coloque uma rede elástica sobre a cabeça do participante para ajudar a touca de EEG a se encaixar de forma mais segura e estável contra a cabeça do participante.
5. Equipe o participante com fones de ouvido com fio (fones de ouvido de condução aérea específicos usados no laboratório). Feche a porta de blindagem eletromagnética e guie as ações do participante através de um microfone que permite a comunicação dentro e fora. Além disso, monitore os movimentos do participante por meio de um monitor externo, como lembrá-lo de não mover o corpo significativamente; Monitore também o progresso do participante em tarefas comportamentais por meio de um monitor de dados comportamentais.
6. Peça ao participante para usar fones de ouvido conectados ao computador de coleta comportamental por meio de uma interface de áudio.
Executando o experimento bloco por bloco de forma independente
1. No computador de coleta de dados do EEG, abra o BrainVision Recorder e clique em Monitor para verificar novamente a impedância e a gravação Stat/Resume e iniciar a gravação. Crie um novo arquivo de gravação de EEG e nomeie-o de acordo, por exemplo, 14_2, o que significa o segundo bloco para o participante número 14.
2. Abra o programa PsychoPy Executar experimento (botão verde) para o experimento comportamental, insira o ID do participante (por exemplo, 14) e o número do bloco correspondente (por exemplo, 2) e clique em OK para iniciar o experimento.
3. Monitore de perto a precisão dos dados relatados na tela depois que o participante concluir a fase de verificação no computador de dados comportamentais. Se a precisão for inferior a 10 em 12, peça ao participante para refazer a sessão de treinamento até atingir a precisão necessária antes de passar para a fase de teste.
4. Preste muita atenção à precisão final do reconhecimento antigo versus novo relatado na tela depois que o participante conclui a fase de teste do bloco. Se a precisão for excepcionalmente baixa (por exemplo, abaixo de 50%), pergunte sobre os possíveis motivos do participante.
Experimento pós-EEG
1. Depois que o participante tiver completado todos os blocos, peça-lhe que lave o cabelo. Limpe a tampa do EEG removendo a pasta condutora residual com uma escova de dentes, tomando cuidado para não molhar os conectores de sinal e embrulhando-os em sacos plásticos. Depois de limpa, pendure a tampa de EEG em uma área bem ventilada para secar.
2. Copie o EEG e os dados comportamentais em um disco rígido portátil, garantindo que os dados do EEG e os dados comportamentais correspondam. Por exemplo, os dados de EEG são nomeados com dois arquivos, 14_2.eeg e 14_2.vhdr, e os dados comportamentais como um arquivo 14_2.xlsx.

4. Processamento de dados EEG

NOTA: As descrições a seguir envolvem pré-processamento de dados de EEG, análise estatística e visualização usando MATLAB e RStudio para processamento em lote.

Pré-processamento dos dados de EEG com MATLAB
1. Mesclando o EEG e os dados comportamentais
  1. Dado que os participantes podem precisar refazer a tarefa se não atingirem a precisão exigida de 10/12 ou superior, o que afeta a nomenclatura de EEG e dados comportamentais, por exemplo, 14_2.vhdr pode se tornar 14_2(1).vhdr, padronize os nomes dos arquivos removendo caracteres diferentes de 14_2. Ao iterar pelos dados de cada participante, nomeie os arquivos de dados como sub, stripped_filename, .set, resultando em arquivos como sub14_2.set (contendo metadados e links para o conjunto de dados do EEG) e sub10_1.fdt (os dados reais do EEG) salvos automaticamente. Isso renomeia os arquivos 14_2.vhdr e 14_2.eeg para sub14_2.fdt e sub14_2.set.
  2. Use a função EEG = pop_mergeset() para mesclar os dados em um único arquivo para cada participante, combinando diferentes dados de bloco em ordem cronológica em vez de ordem numérica dos blocos 1,2,3,4.
  3. Mescle vários arquivos de dados comportamentais em uma planilha por participante com base na ordem cronológica, o que é essencial para sincronização posterior.
  4. Personalize o código para sincronizar as tentativas nos sinais de EEG com as tentativas nos sinais comportamentais. Por exemplo, testing_list = [37:108, 145:216, 253:324, 361:432] corresponderia aos pontos de marcação de EEG para os quatro blocos.
  5. Converta a planilha de dados comportamentais em um arquivo .txt, resultando em uma tabela com dados em linhas e colunas. Os nomes das colunas incluem a maioria dos mencionados na etapa 2.1.
  6. Redefina o conteúdo dos dados do EEG adicionando informações aos dados do EEG usando um código semelhante ao seguinte, por exemplo, EEG = pop_importepoch(EEG, behav_txt_path, {'Epoch', 'Sound', 'Speaker', 'Gender', 'Confidence_level', 'old_new_speaker', 'same_different_prosody', 'Response'}, 'timeunit', 1, 'headerlines', 1). Esse processo mescla os dados de EEG e comportamentais correspondentes de cada participante por meio de processamento em lote.
    NOTA: Os valores de resposta de 1 e 0 vêm de dados comportamentais, onde 1 representa um julgamento correto e 0 representa um incorreto.
2. Pré-processamento dos dados do EEG
  1. Para referência e rereferência^29,35, chame a função pop_reref para refazer a referência dos dados de EEG ao eletrodo FCz, garantindo que cada sinal seja calculado em relação ao eletrodo FCz. Use a função pop_reref para referenciar novamente os dados do EEG aos canais 28 e 29, representando os eletrodos mastóides bilaterais localizados no couro cabeludo posterior, garantindo que cada sinal seja calculado em relação às mastóides bilaterais.
  2. Defina um filtro passa-alta (para remover tendências lineares) com EEG = pop_eegfiltnew(EEG, [], 0,1, 16500, 1, [], 0) e execute a correção da linha de base de -500 a 0 ms com EEG = pop_rmbase(EEG, [-500 0]).
  3. Inspecione manualmente os testes incorretos: depois de importar os dados com o EEGLAB, selecione Plotar, clique em Dados do canal (rolagem) e defina o máximo do valor para 50.
  4. Exclua testes com artefatos musculares visíveis e outros tipos de artefatos e marque eletrodos ruins: passar o mouse sobre a forma de onda do canal exibirá seu eletrodo. Registre todos os eletrodos defeituosos, retorne à página principal do EEGLAB, selecione Interpolar eletrodos em Ferramentas, escolha Selecionar dos canais de dados, selecione os eletrodos que precisam de interpolação e confirme com OK. Salve o arquivo em uma nova pasta.
  5. Realize a análise de componentes principais (PCA) com EEG = pop_runica(EEG, 'estendido', 1, 'pca', 30, 'interupt', 'on'). Rejeite manualmente ICAs problemáticos, removendo artefatos dos olhos, músculos e ruído do canal e, em seguida, salve o arquivo.
  6. Use a função pop_eegthresh para definir um limite de -75 a +75 Hz para remover valores extremos 34,36,37.
  7. Aplique pop_eegfiltnew com parâmetros definidos (o terceiro parâmetro de entrada) a 30 para reter frequências de 30 Hz e abaixo de³⁸.
  8. Personalize o código para listar todas as condições de interesse, incluindo old_new_speaker = {'old', 'new'}; same_different_prosody = {'mesmo', 'diferente'}; Confidence_level = {'c', 'd'}; e Resposta = {'1', '0'}. Em seguida, combine essas condições para criar combinações de dados como sub1_new_different_c_0 e salve-as como arquivos com uma extensão txt.
Análise de ERPs com RStudio
1. Para organizar os dados, converta-os em um formato longo. Importe todos os arquivos .txt para o RStudio e use a função rbind para anexar cada quadro de dados temporário a todos os dados, criando um quadro de dados grande contendo todos os dados do arquivo. Renomeie a coluna Linha em todos os dados para Tempo para precisão. Utilize a função melt para converter todos os dados de formato largo para longo (Data_Long), onde cada observação ocupa uma linha e inclui todas as condições relacionadas e informações do canal.
2. Use a função de filtro do pacote dplyr para selecionar dados que correspondam a condições específicas: O julgamento é 1. A fonte é h. A memória é antiga ou nova. A prosódia é c ou d.
3. Defina as regiões com base nos canais dos eletrodos da seguinte forma: Anterior esquerdo (F3, F7, FC5, F5, FT7, FC3, AF7, AF3). Central esquerda (C3, T7, CP5, C5, TP7, CP3). Posterior esquerdo (P3, P7, P5, PO7, PO3). Medial anterior (Fz, AFz, FC1, FC2, F1, F2, FCz). Medial central (CP1, CP2, Cz, C1, C2, CPz). Medial posterior (Pz, O1, Oz, O2, P1, POz, P2). Anterior direito (FC6, F4, F8, FC4, F6, AF4, AF8, FT8). Central direito (CP6, C4, T8, CP4, C6, TP8). Posterior direito (P4, P8, PO4, PO8, P6). Agrupe essas regiões em regiões anterior, central e posterior.
4. Salve o espaço de trabalho para carregamento de dados subsequente. Para salvar, use setwd(); Para carregar, use load().
Análise estatística
1. Para análise de dados de EEG em todos os eletrodos, filtre o conjunto de dados para incluir apenas pontos de dados relevantes onde Julgamento é 1, Fonte é h, Memória é antiga ou nova, Sujeito não está vazio e Tempo está entre 400 e 850 ms.
2. Atualize os nomes das regiões de interesse (ROI) com base em mapeamentos predefinidos. Por exemplo, anterior esquerdo, anterior medial e anterior direito são para anterior.
3. Ajuste um modelo linear de efeitos mistos aos dados usando lmer do pacote lme4³⁹, com Tensão como variável de resposta e Memória e ROI como efeitos fixos, incluindo interceptações aleatórias para Assunto e Canal: fit_time_window <- lmer(Tensão ~ Memória * ROI + (1|Assunto) + (1| canal), dados=DADOS). Substitua DATA por dados combinados, somente com confiança e somente duvidosos repetidamente. Veja um código de exemplo no OSF³².
  1. Obtenha os resultados da análise do modelo ajustado: anova(fit_time_window), eta_squared(fit_time_window) e emmeans(fit_time_window, specs = pairwise ~ Memory * ROI, adjust = "Tukey").
4. Para análise de dados de EEG em Pz, ao filtrar o conjunto de dados, siga as mesmas etapas acima, mas também adicione a condição Canal == 'ChPz'. Repita o processo acima, mas use lmer(Voltage ~ Memory + (1|Assunto)) para analisar dados Pz de 400 a 850 ms.
5. Para plotar ERPs no Pz (repita sobre o conjunto de dados combinado, apenas com confiança e apenas duvidoso), filtre o conjunto de dados para incluir apenas pontos de dados relevantes em que Julgamento é 1, Fonte é h, Memória é antiga ou nova e Assunto não está vazio.
  1. Defina um vetor contendo vários pontos de eletrodo (incluindo Pz) e prefixe-os com Ch para corresponder à convenção de nomenclatura de canal nos dados. Selecione Pz out.
  2. Especifique a janela de tempo para a análise do ERP: time_window <- c(400, 850). Defina o eletrodo de interesse, neste caso, Pz. Percorra o eletrodo selecionado e crie gráficos conforme descrito abaixo.
    1. Filtre os dados para o eletrodo Pz usando o filtro (Canal == k) para isolar os pontos de dados relevantes.
    2. Crie um fator de interação para o tipo de linha e a cor com base na condição Memory usando interaction(current_channel_data$Memory) e rotule as condições como Old e New.
    3. Calcule estatísticas resumidas e erro padrão para as medições de tensão ao longo do tempo usando a função summarySEwithin, especificando Tensão como a variável de medida e Tempo como a variável interna.
    4. Gere o gráfico ERP para o eletrodo Pz, adicionando um plano de fundo para a janela de tempo especificada usando geom_rect com os parâmetros xmin, xmax, ymin e ymax. Inclua faixas de erro padrão com geom_ribbon, desenhando a tensão média com geom_line. Personalize a aparência e os rótulos do gráfico usando funções como scale_x_continuous, scale_y_reverse, scale_linetype_manual, scale_fill_manual e scale_color_manual.
  3. Use theme_minimal para o tema base e personalize ainda mais os tamanhos de texto e o posicionamento da legenda com o tema.
Plotagem de topografia com MATLAB
1. Importe dados e condições de configuração, defina a lista de assuntos de 1 a 40 com subject_list = 1:40. Defina duas matrizes de células vazias para armazenar dados para classificações corretas de condições antigas e novas: "human_timelocked_old_correct = {}; human_timelocked_new_correct = {}. Percorra a lista de assuntos, importe os dados de cada assunto e filtre-os com base nas condições.
2. Extraia informações de eventos de dados brutos do EEGLAB, selecionando apenas eventos com a resposta igual a 1. Selecione os ensaios com Origem igual a h e atualize a estrutura de dados de acordo. Separe os dados para condições antigas e novas, limitado a testes corretos com a Fonte h, e execute a análise de bloqueio de tempo.
  1. Calcule a média geral para condições antigas e novas: cfg = []; grandavg_old_correct = ft_timelockgrandaverage(cfg, human_timelocked_old_correct{:}); grandavg_new_correct = ft_timelockgrandaverage(cfg, human_timelocked_new_correct{:}).
3. Execute o teste de permutação conforme descrito abaixo.
  1. Defina a configuração do vizinho usando um arquivo de layout especificado: cfg_neigh = []; cfg_neigh.método = 'distância'; cfg_neigh.layout = 'path_to_layout_file'; vizinhos = ft_prepare_neighbours(cfg_neigh).
  2. Configure os parâmetros para o teste de permutação, incluindo a matriz de design e o método estatístico: cfg = []; cfg.method = 'montecarlo'; cfg.statistic = 'ft_statfun_indepsamplesT'; cfg.correctm = 'cluster'; cfg.clusteralpha = 0,05; cfg.clusterstatistic = 'soma máxima'; cfg.minnbchan = 2; cfg.cauda = 0; cfg.clustertail = 0; cfg.alpha = 0,05; cfg.numrandomization = 1000; cfg.neighbours = vizinhos; cfg.design = [2*unidades(1, comprimento(human_timelocked_new_correct)) unidades(1, comprimento(human_timelocked_old_correct))]; cfg.ivar = 1. Além disso, consulte o link a seguir (https://www.fieldtriptoolbox.org/tutorial/cluster_permutation_freq/) para obter tutoriais sobre como usar o Fieldtrip⁴⁰.
  3. Execute o teste estatístico nos dados médios para condições antigas e novas: stat = ft_timelockstatistics(cfg, human_timelocked_old_correct{:}, human_timelocked_new_correct{:}).
4. Execute a plotagem de intervalo personalizada conforme descrito abaixo.
  1. Calcule a diferença entre as duas condições: cfg = []; cfg.operation = 'subtrair'; cfg.parâmetro = 'média'; grandavg_difference = ft_math(cfg, grandavg_old_correct, grandavg_new_correct).
  2. Defina as janelas de tempo: time_windows = { [0,500, 0,800] % LPC}.
  3. Crie uma figura e trace a diferença entre as condições com ft_topoplotER(cfg_plot, grandavg_difference).

Resultados

O efeito clássico antigo/novo é caracterizado por um aumento significativo na atividade cerebral dos ouvintes no eletrodo Pz (entre 300 a 700 ms) quando o conteúdo de fala da sessão de teste corresponde ao da sessão de treinamento, particularmente na condição de locutor antigo em comparação com a nova condição de locutor²². O protocolo revela uma versão atualizada desse efeito: Em primeiro lugar, observando tendências positivas maiores no eletrodo Pz e em toda a região do cérebro pa...

Discussão

O estudo apresenta um pipeline para coleta e análise de dados de EEG, com foco no reconhecimento de identidades de falantes previamente aprendidas. Este estudo aborda as variações entre as fases de aprendizagem e reconhecimento, incluindo diferenças no conteúdo da^fala22 e na prosódia10. O design é adaptável a uma variedade de campos de pesquisa, incluindo psicolinguística, como pronome e processamento anafórico⁴¹.

Divulgações

Não há informações a serem divulgadas.

Agradecimentos

Este trabalho foi apoiado pela Fundação de Ciências Naturais da China (Grant No. 31971037); o Programa Shuguang apoiado pela Fundação de Desenvolvimento da Educação de Xangai e pelo Comitê Municipal de Educação de Xangai (Concessão nº 20SG31); a Fundação de Ciências Naturais de Xangai (22ZR1460200); o Programa de Orientação de Supervisores da Universidade de Estudos Internacionais de Xangai (2022113001); e o Programa Principal da Fundação Nacional de Ciências Sociais da China (Grant No. 18ZDA293).

Materiais

Name	Company	Catalog Number	Comments
64Ch Standard BrainCap for BrainAmp	Easycap GmbH	Steingrabenstrasse 14 DE-82211	https://shop.easycap.de/products/64ch-standard-braincap
Abrasive Electrolyte-Gel	Easycap GmbH	Abralyt 2000	https://shop.easycap.de/products/abralyt-2000
actiCHamp Plus	Brain Products GmbH	64 channels + 8 AUX	https://www.brainproducts.com/solutions/actichamp/
Audio Interface	Native Instruments GmbH	Komplete audio 6	https://www.native-instruments.com/en/products/komplete/audio-interfaces/komplete-audio-6/
Foam Eartips	Neuronix	ER3-14	https://neuronix.ca/products/er3-14-foam-eartips
Gel-based passive electrode system	Brain Products GmbH	BC 01453	https://www.brainproducts.com/solutions/braincap/
High-Viscosity Electrolyte Gel	Easycap GmbH	SuperVisc	https://shop.easycap.de/products/supervisc

Referências

Larrouy-Maestri, P., Poeppel, D., Pell, M. D. The sound of emotional prosody: Nearly 3 decades of research and future directions. Perspect Psychol Sci. , 17456916231217722 (2024).
Pell, M. D., Kotz, S. A. Comment: The next frontier: Prosody research gets interpersonal. Emotion Rev. 13 (1), 51-56 (2021).
Cummins, N., et al. Multilingual markers of depression in remotely collected speech samples: A preliminary analysis. J Affect Disor. 341, 128-136 (2023).
Cummins, N., Baird, A., Schuller, B. W. Speech analysis for health: Current state-of-the-art and the increasing impact of deep learning. Methods. 151, 41-54 (2018).
Kennedy, E., Thibeault, S. L. Voice-gender incongruence and voice health information-seeking behaviors in the transgender community. Am J Speech-language Pathol. 29 (3), 1563-1573 (2020).
Zäske, R., et al. Electrophysiological correlates of voice memory for young and old speakers in young and old listeners. Neuropsychologia. 116, 215-227 (2018).
Lavan, N., Burton, A. M., Scott, S. K., Mcgettigan, C. Flexible voices: Identity perception from variable vocal signals. Psychonomic Bullet Rev. 26, 90-102 (2019).
Perrachione, T. K., Del Tufo, S. N., Gabrieli, J. D. Human voice recognition depends on language ability. Science. 333 (6042), 595-595 (2011).
Lavan, N., Knight, S., Mcgettigan, C. Listeners form average-based representations of individual voice identities. Nat Comm. 10 (1), 2404 (2019).
Xu, H., Armony, J. L. Influence of emotional prosody, content, and repetition on memory recognition of speaker identity. Quart J Exp Psychol. 74 (7), 1185-1201 (2021).
Jiang, X., Pell, M. D. The sound of confidence and doubt. Speech Comm. 88, 106-126 (2017).
Winters, S. J., Levi, S. V., Pisoni, D. B. Identification and discrimination of bilingual talkers across languages. J Acoustical Soci Am. 123 (6), 4524-4538 (2008).
Orena, A. J., Polka, L., Theodore, R. M. Identifying bilingual talkers after a language switch: Language experience matters. J Acoustical Soc Am. 145 (4), EL303-EL309 (2019).
Xie, X., Myers, E. The impact of musical training and tone language experience on talker identification. J Acoustical Soc Am. 137 (1), 419-432 (2015).
Kadam, M. A., Orena, A. J., Theodore, R. M., Polka, L. Reading ability influences native and non-native voice recognition, even for unimpaired readers. J Acoustical Soc Am. 139 (1), EL6-EL12 (2016).
Fleming, D., Giordano, B. L., Caldara, R., Belin, P. A language-familiarity effect for speaker discrimination without comprehension. Proc Natl Acad Sci. 111 (38), 13795-13798 (2014).
White, K. S., Yee, E., Blumstein, S. E., Morgan, J. L. Adults show less sensitivity to phonetic detail in unfamiliar words, too. J Memory Lang. 68 (4), 362-378 (2013).
Levi, S. Methodological considerations for interpreting the language familiarity effect in talker processing. Wiley Interdiscip Revi: Cognitive Sci. 10 (2), e1483 (2019).
Perrachione, T. K., Frühholz, S., Belin, P. Recognizing Speakers Across Languages. The Oxford Handbook of Voice Perception. , 515-538 (2018).
Lavan, N., Burton, A. M., Scott, S. K., Mcgettigan, C. Flexible voices: Identity perception from variable vocal signals. Psychonomic Bullet Rev. 26 (1), 90-102 (2019).
Zäske, R., Hasan, B. a. S., Belin, P. It doesn't matter what you say: Fmri correlates of voice learning and recognition independent of speech content. Cortex. 94, 100-112 (2017).
Zäske, R., Volberg, G., Kovács, G., Schweinberger, S. R. Electrophysiological correlates of voice learning and recognition. J Neurosci. 34 (33), 10821-10831 (2014).
Lavan, N., Knight, S., Mcgettigan, C. Listeners form average-based representations of individual voice identities. Nat Comm. 10 (1), 1-9 (2019).
Chen, W., Jiang, X. Voice-Cloning Artificial-Intelligence Speakers Can Also Mimic Human-Specific Vocal Expression. Preprints. , (2023).
Pisanski, K., Anikin, A., Reby, D. Vocal size exaggeration may have contributed to the origins of vocalic complexity. Philosoph Trans Royal Soc B. 377 (1841), 20200401 (2022).
Belin, P., Fecteau, S., Bedard, C. Thinking the voice: Neural correlates of voice perception. Trend Cognitive Sci. 8 (3), 129-135 (2004).
. Praat: doing phonetics by computer Available from: https://www.fon.hum.uva.nl/praat/ (2022)
Jiang, X., Pell, M. D. On how the brain decodes vocal cues about speaker confidence. Cortex. 66, 9-34 (2015).
Jiang, X., Gossack-Keenan, K., Pell, M. D. To believe or not to believe? How voice and accent information in speech alter listener impressions of trust. Quart J Exp Psychol. 73 (1), 55-79 (2020).
Rigoulot, S., Pell, M. D. Seeing emotion with your ears: Emotional prosody implicitly guides visual attention to faces. PloS One. 7 (1), e30740 (2012).
Cui, X., Jiang, X., Ding, H. Affective prosody guides facial emotion processing. Curr Psychol. 42 (27), 23891-23902 (2023).
. Memorization-based training and testing paradigm for robust vocal identity recognition in expressive speech using event-related potentials analysis Available from: https://osf.io/6zu83/ (2024)
Brainvision recorder. Available from: https://www.brainproducts.com/downloads/recorder/ (2024)
Jiang, X., Paulmann, S., Robin, J., Pell, M. D. More than accuracy: Nonverbal dialects modulate the time course of vocal emotion recognition across cultures. J Exp Psychol. 41 (3), 597 (2015).
Jiang, X., Pell, M. D. The feeling of another's knowing: How "mixed messages" in speech are reconciled. J Exp Psychol. 42 (9), 1412 (2016).
Zhou, X., et al. Semantic integration processes at different levels of syntactic hierarchy during sentence comprehension: An erp study. Neuropsychologia. 48 (6), 1551-1562 (2010).
Jiang, X., Tan, Y., Zhou, X. Processing the universal quantifier during sentence comprehension: Erp evidence. Neuropsychologia. 47 (8-9), 1799-1815 (2009).
Acunzo, D. J., Mackenzie, G., Van Rossum, M. C. W. Systematic biases in early erp and erf components as a result of high-pass filtering. J Neurosci Meth. 209 (1), 212-218 (2012).
Bates, D. Fitting linear mixed models in r. R. 5 (1), 27-30 (2005).
Oostenveld, R., Fries, P., Maris, E., Schoffelen, J. M. Fieldtrip: Open source software for advanced analysis of meg, eeg, and invasive electrophysiological data. Computat Intelligence Neurosci. 2011, 1-9 (2011).
Coopmans, C. W., Nieuwland, M. S. Dissociating activation and integration of discourse referents: Evidence from erps and oscillations. Cortex. 126, 83-106 (2020).
Humble, D., et al. The jena voice learning and memory test (jvlmt): A standardized tool for assessing the ability to learn and recognize voices. Behavior Res Meth. 55 (3), 1352-1371 (2023).
Holmes, E., To, G., Johnsrude, I. S. How long does it take for a voice to become familiar? Speech intelligibility and voice recognition are differentially sensitive to voice training. Psychol Sci. 32 (6), 903-915 (2021).
Kroczek, L. O. H., Gunter, T. C. Communicative predictions can overrule linguistic priors. Sci Rep. 7 (1), 17581 (2017).
Kroczek, L. O. H., Gunter, T. C. The time course of speaker-specific language processing. Cortex. 141, 311-321 (2021).
Schroeger, A., et al. Atypical prosopagnosia following right hemispheric stroke: A 23-year follow-up study with mt. Cognitive Neuropsychol. 39 (3-4), 196-207 (2022).
Garrido, L., et al. Developmental phonagnosia: A selective deficit of vocal identity recognition. Neuropsychologia. 47 (1), 123-131 (2009).
Schelinski, S., Borowiak, K., Von Kriegstein, K. Temporal voice areas exist in autism spectrum disorder but are dysfunctional for voice identity recognition. Social Cognitive Affective Neurosci. 11 (11), 1812-1822 (2016).
Holle, H., Gunter, T. C. The role of iconic gestures in speech disambiguation: Erp evidence. J Cognitive Neurosci. 19 (7), 1175-1192 (2007).
Regel, S., Coulson, S., Gunter, T. C. The communicative style of a speaker can affect language comprehension? Erp evidence from the comprehension of irony. Brain Res. 1311, 121-135 (2010).

Reimpressões e Permissões

Solicitar permissão para reutilizar o texto ou figuras deste artigo JoVE

Solicitar Permissão

Explore Mais Artigos

Comportamento Edi o 210 Reconhecimento do falante express o vocal pros dia da fala potenciais relacionados a eventos voz

This article has been published

Video Coming Soon

Keep me updated: