Paradigme d’entraînement et de test basé sur la mémorisation pour une reconnaissance robuste de l’identité vocale dans la parole expressive à l’aide de l’analyse des potentiels liés aux événements

Wenjun Chen; Xiaoming Jiang

doi:10.3791/66913

Auteurs

Contactez-nous

S'identifier

Un abonnement à JoVE est nécessaire pour voir ce contenu. Connectez-vous ou commencez votre essai gratuit.

Method Article

Paradigme d’entraînement et de test basé sur la mémorisation pour une reconnaissance robuste de l’identité vocale dans la parole expressive à l’aide de l’analyse des potentiels liés aux événements

DOI:

10.3791/66913

⸱

August 9th, 2024

Wenjun Chen¹, Xiaoming Jiang¹^,²

¹Institute of Linguistics, Shanghai International Studies University, ²Key Laboratory of Language Science and Multilingual Artificial Intelligence, Shanghai International Studies University

Please note that all translations are automatically generated. Click here for the English version.

Résumé

L’étude introduit un paradigme de test d’entraînement pour étudier les effets anciens/nouveaux des potentiels liés aux événements dans des scénarios prosodiques confiants et douteux. Les données révèlent une composante positive tardive améliorée entre 400 et 850 ms à Pz et à d’autres électrodes. Ce pipeline peut explorer des facteurs au-delà de la prosodie de la parole et leur influence sur l’identification des cibles de liaison aux indices.

Résumé

Reconnaître les locuteurs familiers des flux vocaux est un aspect fondamental de la communication verbale humaine. Cependant, il n’est pas clair comment les auditeurs peuvent encore discerner l’identité du locuteur dans un discours expressif. Cette étude développe une approche de reconnaissance de l’identité individuelle du locuteur basée sur la mémorisation et un pipeline d’analyse de données d’électroencéphalogramme (EEG) qui l’accompagne, qui surveille la façon dont les auditeurs reconnaissent les locuteurs familiers et distinguent les inconnus. Les données EEG capturent les processus cognitifs en ligne lors de la distinction entre les nouveaux et les anciens locuteurs en fonction de la voix, offrant une mesure en temps réel de l’activité cérébrale, dépassant les limites des temps de réaction et des mesures de précision. Le paradigme comprend trois étapes : les auditeurs établissent des associations entre trois voix et leurs noms (formation) ; les auditeurs indiquent le nom correspondant à une voix de trois candidats (vérification) ; Les auditeurs font la distinction entre trois anciennes et trois nouvelles voix de haut-parleur dans une tâche à choix forcé à deux alternatives (test). La prosodie de la parole lors des tests était soit confiante, soit douteuse. Les données EEG ont été collectées à l’aide d’un système EEG à 64 canaux, puis prétraitées et importées dans RStudio pour l’ERP et l’analyse statistique et MATLAB pour la topographie cérébrale. Les résultats ont montré qu’une composante positive tardive (LPC) élargie était induite chez l’ancien locuteur par rapport à la condition du nouveau locuteur dans la fenêtre de 400 à 850 ms dans le Pz et dans d’autres gammes plus larges d’électrodes dans les deux prosodies. Pourtant, l’effet ancien/nouveau était robuste dans les électrodes centrales et postérieures pour la perception douteuse de la prosodie, tandis que les électrodes antérieures, centrales et postérieures sont pour l’état de prosodie confiante. Cette étude propose que ce modèle d’expérience puisse servir de référence pour étudier les effets de liaison de signaux spécifiques au locuteur dans divers scénarios (par exemple, l’expression anaphorique) et des pathologies chez des patients comme la phonagnosie.

Introduction

Les flux vocaux humains sont riches en informations, telles que l’émotion^1,2, l’état de santé ^3,4, le sexe biologique⁵, l’âge⁶ et, plus important encore, l’identité vocale individuelle ^7,8. Des études ont suggéré que les auditeurs humains ont une solide capacité à reconnaître et à différencier l’identité de leurs pairs à travers les voix, surmontant les variations au sein du locuteur autour de la représentation moyenne de l’identité du locuteur dans l’espace acoustique⁹. De telles variations sont provoquées par une manipulation acoustique (fréquence fondamentale et longueur du conduit vocal, c’est-à-dire F0 et VTL) qui ne correspond à aucune intention pragmatique claire⁹, à des prosodies émotionnelles¹⁰ et à une confiance vocale qui transmet le sentiment de savoir¹¹ du locuteur. Les expériences comportementales se sont concentrées sur de nombreux facteurs qui influencent la performance des auditeurs dans la reconnaissance des locuteurs, y compris les manipulations liées au langage ^8,12,13, les caractéristiques liées aux participants telles que l’expérience musicale ou la capacité de lecture^14,15, et les adaptations liées aux stimuli comme la parole à l’envers ou les non-mots^16,17 ; On peut en trouver plus dans les revues de littérature^18,19. Quelques expériences récentes ont examiné comment la variation individuelle de la représentation de l’identité du locuteur pourrait miner la précision de la reconnaissance, en tenant compte d’aspects tels que l’expressivité émotionnelle élevée par rapport à faible¹⁶ et les prosodies neutres par rapport aux prosodies craintives⁵ ; D’autres scénarios possibles peuvent faire l’objet d’une enquête plus approfondie, comme le suggère une étude²⁰.

Pour la première lacune de la recherche, l’étude propose que les fondements neurologiques de l’identification du locuteur n’ont pas encore pleinement exploré comment la variation au sein du locuteur défie les activités cérébrales des auditeurs. Par exemple, dans une tâche de reconnaissance du locuteur basée sur l’IRMf par Zäske et al., le gyrus temporal postérieur supérieur droit (pSTG), le gyrus frontal inférieur droit/moyen (IFG/MFG), le gyrus frontal médial droit et le corps caudé gauche des participants ont montré une activation réduite lorsqu’ils étaient correctement identifiés comme anciens ou nouveaux locuteurs, que le contenu linguistique soit identique ou différent²¹. Cependant, une étude antérieure d’électroencéphalographie (EEG) réalisée par Zäske et al. n’a pas observé cet effet ancien/nouveau lorsque la variation de l’identité du locuteur était introduite à travers différents textes²². Plus précisément, une composante positive tardive (LPC) plus grande, allant de 300 à 700 ms, détectée à l’électrode Pz lorsque les auditeurs rencontraient leur locuteur familier exprimant le même texte (c’est-à-dire entendant une relecture avec un contenu linguistique non varié), était absente lorsque les locuteurs délivraient de nouveaux textes.

À l’appui de l’affirmation de Zäske et ^al.21, cette étude soupçonne qu’un effet ancien/nouveau peut encore être observé malgré les différences de contenu linguistique entre les sessions de formation et les sessions de test dans les analyses de potentiel lié aux événements (ERP). Ce raisonnement découle de l’idée que l’absence de l’effet ancien/nouveau dans Zäske et ^al.22, dans des conditions où des textes différents ont été utilisés, peut être attribuée à l’absence d’une session de vérification supplémentaire pendant la tâche de formation pour assurer un apprentissage approfondi et efficace de l’identité, comme suggéré par Lavan et ^al.23. Par conséquent, le premier objectif de l’étude est d’examiner et de valider cette hypothèse. Cette étude vise à tester cela en ajoutant une session de vérification au paradigme de test d’entraînement²².

Une autre question clé que cette étude vise à aborder est la robustesse de l’identification du locuteur en présence de prosodie de la parole. Des études comportementales antérieures ont suggéré que les auditeurs ont particulièrement du mal à reconnaître les locuteurs à travers différentes prosodies, ce qui indique un rôle modulateur du contexte prosodique - les auditeurs ont sous-performé dans les différentes conditions de prosodie de test d’entraînement. Cette étude vise à tester cela en exposant les auditeurs à reconnaître des locuteurs familiers dans des prosodies confiantes ou douteuses²⁴. Cette étude s’attend à ce que les différences observées dans l’ERP aident à expliquer comment la prosodie vocale influence la reconnaissance de l’identité.

L’objectif principal de la présente étude est d’étudier la robustesse de l’effet ancien/nouveau dans la reconnaissance du locuteur, en examinant spécifiquement s’il existe des différences dans la reconnaissance des locuteurs dans les prosodies confiantes et douteuses. Xu et Armony¹⁰ ont réalisé une étude comportementale en utilisant un paradigme de test d’entraînement, et leurs résultats suggèrent que les auditeurs ne peuvent pas surmonter les différences prosodiques (par exemple, entraînés à reconnaître un locuteur en prosodie neutre et testés sur la prosodie craintive) et ne peuvent atteindre une précision inférieure au niveau de chance¹⁰. L’analyse acoustique indique que les haut-parleurs exprimant des états émotionnels variés sont associés à la modulation VTL/F0 ; par exemple, la prosodie confiante est caractérisée par une VTL allongée et un F0 inférieur, alors que l’inverse est vrai pour la prosodie douteuse^11,24. Une autre preuve provient de l’étude de Lavan et ^al.23, qui a confirmé que les auditeurs peuvent s’adapter aux changements VTL et F0 du locuteur et former des représentations basées sur la moyenne des locuteurs. Cette étude confirme que, du point de vue des données comportementales, les auditeurs sont susceptibles de reconnaître l’identité du locuteur à travers les prosodies (par exemple, entraînés à reconnaître une prosodie confiante mais testés dans une prosodie douteuse ; rapportés dans un manuscrit séparé en préparation). Pourtant, les corrélats neuronaux de l’identification du locuteur, en particulier la généralisabilité de l’effet ancien/nouveau observé par Zäske et ^al.22, restent incertains. Par conséquent, la présente étude s’engage à valider la robustesse de l’effet ancien/nouveau dans les prosodies confiantes par rapport aux prosodies douteuses comme contextes de test.

L’étude s’écarte des paradigmes de recherche précédents dans les études sur les effets anciens/nouveaux. Alors que les recherches antérieures se concentraient sur la façon dont la reconnaissance des anciens/nouveaux locuteurs influence la perception, cette étude étend cela en incorporant deux niveaux de confiance (confiant ou douteux) dans le paradigme (donc, une étude 2+2). Cela nous permet d’étudier la reconnaissance du locuteur dans le contexte de prosodies de parole confiantes et douteuses. Le paradigme permet d’explorer la robustesse des effets anciens/nouveaux. Les analyses des effets de mémoire et des régions d’intérêt (ROI) dans des contextes de parole confiants et douteux servent de preuves à cette enquête.

Dans l’ensemble, l’étude vise à mettre à jour la compréhension des corrélats EEG de la reconnaissance vocale, avec les hypothèses que le LPC élargi de l’effet ancien/nouveau de l’EEG est observable même lorsque 1) le contenu linguistique n’est pas le même, et 2) avec la présence d’une prosodie confiante ou douteuse. Cette étude a examiné les hypothèses à travers un paradigme en trois étapes. Tout d’abord, pendant la phase de formation, les participants ont établi des associations entre trois voix et leurs noms correspondants. Par la suite, lors de la phase de vérification, ils ont été chargés d’identifier le nom correspondant à une voix parmi une sélection de trois candidats. Cette vérification, suivant Lavan et ^al.23, vise à surmonter la familiarisation insuffisante de l’ancien locuteur, ce qui a conduit à l’effet ancien/nouveau non observé lorsque le texte dans les phases d’entraînement et de test différait⁶, et que les locuteurs ne pouvaient pas reconnaître les locuteurs à travers des prosodies neutres et craintives¹⁰. Enfin, dans la phase de test, les participants ont distingué entre trois anciennes et trois nouvelles voix de locuteur dans une tâche à choix forcé à deux alternatives, la prosodie de la parole étant présentée comme confiante ou douteuse. Les données EEG ont été collectées à l’aide d’un système EEG à 64 canaux et ont subi un prétraitement avant l’analyse. L’analyse statistique et l’analyse du potentiel lié aux événements (ERP) ont été effectuées dans RStudio, tandis que MATLAB a été utilisé pour l’analyse de la topographie cérébrale.

En ce qui concerne les détails de conception, cette étude propose une expérience d’apprentissage de l’identité du locuteur qui contrôle la taille de l’orateur, qui est liée à la VTL et influence les impressions de qui parle²³. Cet aspect influence également les impressions sociales, telles que la dominance perçue²⁵, et une telle formation d’impression de niveau supérieur pourrait interagir avec le décodage de l’identité du locuteur²⁶.

Protocole

Le Comité d’éthique de l’Institut de linguistique de l’Université d’études internationales de Shanghai a approuvé le plan d’expérience décrit ci-dessous. Le consentement éclairé a été obtenu de tous les participants à cette étude.

1. Préparation et validation de la bibliothèque audio

Enregistrement et édition audio
1. Créez une base de données vocale chinoise en suivant la procédure standard de création d’une version anglaise précédente tout en faisant des adaptations si nécessaire pour s’adapter au contexte de China¹¹. Pour l’expérience ici, 123 phrases contenant trois types d’intentions pragmatiques, à savoir, le jugement, l’intention et les faits, ont été utilisées. Pour ce faire, reportez-vous à un corpus^{d’instructions anglais 11} existant et créez une version chinoise localisée avec des scénarios localisés supplémentaires.
2. Recrutez 24 locuteurs (12 femmes) pour exprimer ces phrases dans des phrases neutres, douteuses et confiantes tout en se référant et en adaptant des instructions spécifiées de tâches d’enregistrement passées^11,24.
  1. Pour les intervenants ici, recrutez 24 locuteurs standard de mandarin de l’Université d’études internationales de Shanghai, 12 femmes et 12 hommes, avec une maîtrise démontrée du mandarin grâce à des scores de 87 à 91 au test de compétence Putonghua. Les participants masculins avaient en moyenne 24,55 ± 2,09 ans, avec 18,55 ± 1,79 ans d’éducation et une taille moyenne de 174,02 ± 20,64 cm. Les femmes avaient en moyenne 22,30 ± 2,54 ans, 18,20 ± 2,59 ans d’éducation et une taille moyenne de 165,24 ± 11,42 cm. Aucun n’a signalé de troubles de la parole, de l’ouïe ou de troubles neurologiques ou psychiatriques.
3. Demandez aux intervenants de répéter chaque texte deux fois. Réglez la fréquence d’échantillonnage à 48 000 Hz dans le logiciel Praat²⁷. Assurez-vous qu’aucun flux ne dure plus de 10 minutes, car Praat peut tomber en panne, entraînant une perte d’enregistrement.
4. Modifiez le long flux audio en clips par phrase avec Praat. Comme il y a deux répétitions du même texte, sélectionnez la version qui représente le mieux la prosodie prévue comme phrase cible.
Sélection audio
1. Normalisez la bibliothèque audio à 70 dB et la fréquence d’échantillonnage à 41 000 Hz avec le script Praat²⁸. Pour ce faire, ouvrez Praat, chargez les fichiers audio et sélectionnez-les dans la fenêtre Objets. Allez dans le menu Modifier, choisissez Echelle d’intensité..., réglez la nouvelle intensité moyenne (dB SPL) sur 70 dans la fenêtre des paramètres, puis cliquez sur OK pour appliquer la normalisation.
2. Recrutez 48 auditeurs indépendants pour évaluer chaque audio sur une échelle de 7 Likert en fonction du niveau de confiance : 1 pour pas du tout et 7 pour très confiant¹¹. Assurez-vous que chaque phrase a été évaluée par 12 évaluateurs.
3. Sélectionnez l’audio qui convient aux seuils désignés avec un principe majeur : assurez-vous que la note moyenne pour l’audio avec une intention douteuse est supérieure à celle de l’audio avec une intention douteuse. Assurez-vous que ces seuils sont cohérents pour 12 locuteurs du même sexe biologique. Par exemple, si ces locuteurs exprimaient deux phrases, chacune avec des prosodies confiantes et douteuses, des différences significatives dans les notes doivent être observées.
4. Aux fins du plan d’expérience actuel, utilisez quatre blocs audio, soit un total de 480 clips audio, chaque bloc contenant 120 éléments audio.
  1. Divisez 24 bavards en quatre groupes de six, avec deux groupes de mâles et deux groupes de femelles, chaque groupe étant composé de bavards du même sexe biologique.
  2. Pour chaque groupe, choisissez des clips audio en fonction des évaluations perceptuelles (sur le même texte), en vous assurant que les notes de confiance moyennes étaient plus élevées que les notes douteuses pour chaque phrase. Ces quatre blocs diffèrent de la manière suivante : 1) les six locuteurs combinés - leurs identités sont différentes ; 2) la moitié des blocs sont exprimés par les mâles et l’autre moitié par les femelles ; et 3) le texte exprimé dans chaque bloc est différent.
5. Avant de commencer le processus de sélection, documentez les données de taille de chaque haut-parleur. Utilisez ces informations pour diviser les locuteurs en quatre groupes indépendants en fonction du sexe et de la taille.
  1. Il y a 24 locuteurs au total, répartis à parts égales entre les hommes et les femmes. Dans chaque groupe de genre, triez les 12 individus par taille.
6. Divisez ces 12 individus en deux groupes de manière alternée ; Par exemple, à partir d’une liste triée de 1 à 12, les individus 1, 3, 5, 7, 9 et 11 formeraient un groupe et l’autre moitié le deuxième groupe. Au sein de ces groupes, effectuez la sélection des haut-parleurs pour les clips audio à intervalles réguliers en fonction de leur hauteur.
  REMARQUE : L’inclusion de la taille comme facteur de contrôle est basée sur des résultats suggérant que les mesures acoustiques liées à la hauteur du haut-parleur (VTL et F0) influencent la reconnaissance de l’identité de l’orateur et du locuteur²³.

2. Programmation de la collecte de données EEG

Concevoir la matrice d’expérience
1. L’étude utilise une conception intra-sujet. Préparez une session de test qui se présente selon chaque sujet tout en adaptant la session de formation. Préparez quatre blocs, avec des orateurs masculins et féminins prenant chaque moitié de deux blocs. Attribuez deux blocs pour être entraîné à la prosodie confiante et testé à la fois sur confiant et douteux, ainsi que pour être entraîné à la prosodie douteuse et testé à la fois confiant et douteux, comme suggéré dans la figure 1.
2. Décidez de la durée de fonctionnement des écrans en vous référant aux études EEG existantes sur l’identification du locuteur et la perception de la confiance vocale^22,29. Organisez la séquence des quatre blocs avec une matrice carrée latine entre les participants ^30,31. Un codage Python personnalisé est recommandé pour préparer une telle liste. Voir l’extrait de code pour la matrice carrée latine et la liste d’essai du programme PsychoPy sur OSF³².
3. Choisissez des locuteurs à chaque intervalle à partir d’une séquence de hauteur du même sexe biologique. Pour chaque bloc, sélectionnez six locuteurs parmi les 24 locuteurs d’origine, qui se regroupent en quatre listes en fonction de la taille rapportée des locuteurs.
4. Sélectionnez les 24 premiers noms de la liste des cent noms de famille chinois. Attribuez au hasard les noms de famille aux 24 locuteurs qui ont exprimé l’audio en vous adressant à eux comme Xiao (Junior en chinois) ZHAO.
5. Rassemblez toutes les informations pertinentes dans une feuille de calcul avec des colonnes pour le locuteur (1 à 24), le sexe biologique (masculin ou féminin), le nom de la personne (parmi les 24 noms de famille), le niveau de confiance (confiant ou douteux), l’élément (index textuel), le niveau de confiance évalué (score moyen de l’étude perceptuelle), le son (par exemple, son/1_h_c_f_56.wav),
6. Reconnaître correctement un sur trois (1, 2 ou 3) et reconnaître correctement l’ancien et le nouveau (ancien ou nouveau). De plus, assurez-vous que les colonnes nommées training_a, training_b, training_c, check et test ont été ajoutées.
7. Ajoutez les colonnes training_a_marker, training_b_marker, check_marker et testing_marker aux feuilles de calcul pour envoyer des marqueurs EEG. Formatez ces marqueurs avec trois chiffres, ce qui signifie que même le chiffre 1 est écrit 001.
Préparation des trois sessions
REMARQUE : PsychoPy est recommandé pour construire le programme, principalement en utilisant le mode constructeur. Le composant de code dans le constructeur est également utilisé pour connecter le programme au système de collecte de données EEG, en contrebalançant les boutons F et J et en calculant la précision à signaler à l’écran.
1. Avant toute chose, cliquez sur l’icône Modifier les paramètres de l’expérience et ajustez la cellule Informations sur l’expérience en deux champs, à savoir Participant et Bloc. Laissez la valeur par défaut pour les deux comme vide. Dans cette étude, parmi les 40 participants, chacun ayant quatre blocs, 4 participants sur 40 sont repassés par certains blocs (si la précision de la session de vérification est inférieure à 10/12), avec un taux de refaire de 19 comptes de rétablissement/4 blocs x 40 participants = 11,875 %.
2. Session de formation : apprentissage répété de l’identité trois fois
  1. Définissez une boucle nommée Training_A, qui contient trois écrans : Fixation, Présentation et un Blank. Cochez l’option Is Trials . Gardez les nReps 1, en laissant les lignes sélectionnées et la graine aléatoire vides. Écrivez la condition comme ci-dessous :
    « $"trials/{ :}_training_a.xlsx ».format(expInfor["Participant"]), expInfo["Bloquer"])
    Where the trials/ est le nom du dossier ; Participant est l’indice du participant ; Le bloc est la séquence de blocs du bloc actuel.
  2. Dans l’écran Fixation, ajoutez un composant de texte, avec l’heure de début définie sur 0, la durée définie sur 2 (s) et un signe + placé dans la fenêtre de saisie de texte qui sélectionne Définir chaque répétition. De même, incluez un composant de texte similaire dans l’écran vide sans aucune information dans la cellule Texte, et il dure 0,5 seconde.
  3. Dans l’écran Présentation, effectuez les actions suivantes :
    1. Ajoutez un composant Son, avec l’heure de début définie sur 0, la durée d’arrêt laissée vide et l’entrée de la cellule son avec $Sound et sélectionnez Définir chaque répétition. Cochez l’écran Synchroniser démarrer avec.
    2. Ajoutez un autre composant Texte, avec la cellule Condition de début saisie avec Cross_for_Training_A.status == FINISHED. Laissez la cellule Durée d’arrêt vide. La cellule de texte affiche $Name. Sélectionnez Définir chaque répétition.
    3. Ajoutez un Key_Response_Training_A dans lequel la condition de début est Training_A.status == FINISHED. Laissez la cellule Durée d’arrêt vide. Cochez la case Forcer la fin de la routine. Pour la cellule Clés autorisées, ajoutez de l’espace ; pour le paramétrage, sélectionnez Constante.
    4. Ajoutez un Cross_for_Training_A. Son heure de début est définie sur 0 ; la cellule Condition d’arrêt est définie sur Training_A.status == FINISHED. Mettez un signe + dans la fenêtre de saisie de texte et sélectionnez Définir chaque répétition.
  4. Préparez Training_B en suivant une procédure similaire à celle Training_A.
3. Vérification de la session : Sélectionnez les noms des trois participants qui parlent.
  1. Définissez une boucle nommée Check, avec le même Fixation et le même écran vide que la session d’entraînement.
  2. Utilisez une présentation différente de celle de la formation en ajoutant une fonction pour recueillir la réaction du clavier. Dans l’écran Présentation, effectuez l’action suivante.
    1. Ajoutez un composant Son et nommez-le Checking_audio, avec l’heure de début définie sur 0 et laissez la cellule Durée d’arrêt vide. Définissez la cellule Son sur $Sound, avec l’option Définir chaque répétition activée.
    2. Ajoutez un composant Text nommé Show_names, avec Start Condition écrit avec une commande :
      Checking_audio.status == TERMINÉ
      et laissez l’option Durée d’arrêt vide. Définissez la cellule de texte sur $ People_Name, avec l’option Définir chaque répétition activée.
    3. Ajoutez un composant Clavier et donnez-lui le titre Key_Response_Check, avec la condition de début Checking_audio.status == TERMINÉ et laissez la durée d’arrêt vide. Sélectionnez Forcer la fin de la routine avec les touches autorisées num_1, num_2 et num_3 constante restante afin que les participants puissent utiliser le pavé numérique pour indexer leur choix.
    4. Ajoutez une fixation nommée Cross_Check, avec l’heure de début 0 et l’entrée Condition d’arrêt avec Checking_audio.status == FINISHED. Ajoutez un + à la cellule Texte, qui sélectionnera Définir chaque répétition.
  3. Insérez un composant de code. Dans la section Commencer l’expérience, initialisez total_trials, current_correct, current_incorrect et current_accuracy sur 0. Dans la routine Begin, définissez user_input comme Aucun. Dans la section Chaque image, collectez l’entrée de l’utilisateur à partir du clavier et comparez la réponse correcte stockée dans le fichier de tableur, avec un code de touche de user_key = Key_Response_Check.touches pour extraire 1, 2 ou 3. Ensuite, utilisez-le pour évaluer par rapport aux 1, 2 ou 3 stockés dans une colonne nommée Correctly_recognize_one_out_of_three.
  4. Une fois sorti de la boucle, assurez-vous qu’un écran de retour d’information s’affiche avec le message suivant : check_feedbacks.text = f" La deuxième étape est terminée.\nVous avez identifié le haut-parleur dans un total de {total_trials} phrases,\nAvez correctement reconnu {current_correct} haut-parleurs,\nDes {current_incorrect} haut-parleurs mal jugés.\nVotre taux de précision global est de {current_accuracy}%.\n\nS’il est inférieur à 83,33%, Veuillez signaler à l’expérimentateur,\nVous refaites connaissance avec les trois haut-parleurs mentionnés ci-dessus.\n\nSi vous remplissez les conditions, veuillez appuyer sur la barre d’espace pour continuer.
4. Session de test : classification de l’ancien et du nouveau locuteur
  1. Définissez une boucle intitulée Testing. Il comprend la fixation et l’ébauche (les mêmes que lors de la session de formation) et un écran de présentation.
  2. Préparez la section Présentation comme ci-dessous.
    1. Ajoutez un composant de sonorisation, Testing_sound, avec des paramètres identiques à ceux de la séance d’entraînement. Ajoutez un composant Key_response_old_new, dont la condition de début est Testing_sound.status == FINISHED, laissez la durée d’arrêt vide et cochez Forcer la fin de la routine. Dans les touches autorisées, incluez f et j, puis sélectionnez Constante.
  3. Ajoutez un composant Texte nommé Testing_old_new, avec Start Condition Testing_sound.status == FINISHED, laissez la durée d’arrêt vide et laissez la cellule Texte vide avec Set Every Repeat - le texte sera défini par un composant de code ultérieur.
  4. Ajoutez un Cross_Testing, avec l’heure de début 0, la condition d’arrêt Testing_sound.status == TERMINÉ, et un + dans la cellule Texte lorsque l’option Définir chaque répétition est activée.
  5. Ajoutez un composant Code comme décrit ci-dessous.
    1. Dans la section Commencer l’expérience, initialisez le nombre total d’essais (total_trials_t), le nombre d’essais corrects (correct_trials_t) et le nombre d’essais incorrects (incorrect_trials_t).
    2. Dans la section Commencer la routine, commencez par une vérification conditionnelle pour déterminer le format de présentation en fonction du numéro d’identification du participant (expInfo["Participant"]). Si le numéro d’identification est impair, assurez-vous que les instructions pour identifier les stimuli anciens et nouveaux sont présentées dans un seul format, soit (« Old(F) New(J) ») ou (« New (F) 'Old (J) »).
    3. En dehors de cette boucle, il y a un écran de retour avec un composant de code. Assurez-vous que chaque section de l’image indique : testing_feedbacks.text = f"Vous avez identifié le locuteur dans un total de {total_trials_t} phrases,\nCorrectement reconnu {correct_trials_t} locuteurs,\nDes {incorrect_trials_t} haut-parleurs mal jugés.\nVotre taux de précision global est de {accuracy_t :.2f}%.\nVeuillez appuyer sur la barre d’espace pour terminer cette partie en cours.
5. Connectez le programme au système Brain Products comme décrit ci-dessous.
  1. Synchronisez le marqueur en définissant un marqueur au début de chaque audio. Avant le tout début de la boucle Training_A, définissez un protocole d’envoi de marqueur EEG dans le composant de code Begin Experiment, comme décrit ci-dessous.
    1. Importez les composants essentiels de PsychoPy, y compris le module parallèle, et configurez l’adresse du port parallèle à l’aide de 0x3EFC.
    2. Établissez une fonction sendTrigger pour transmettre les marqueurs EEG. Cette fonction envoie un triggerCode spécifié via le port parallèle avec parallel.setData(triggerCode) après avoir vérifié s’il s’agit d’un entier NumPy et l’avoir converti si nécessaire.
    3. Ajoutez une courte attente de 16 ms pour assurer la capture du marqueur avant de réinitialiser le canal de déclenchement à 0 avec parallel.setData(0).
  2. L’envoi du marqueur à l’enregistreur EEG utilise sendTrigger(). Indiquez le nom exact de la colonne correspondante entre parenthèses. Dans cette étude, il y a training_a_marker, training_b_marker, check_marker et testing_marker - reportez-vous à la colonne précédemment définie dans la feuille de calcul.

3. Collecte des données EEG

Préparation du lieu
REMARQUE : Il y a au moins deux ordinateurs disponibles pour effectuer la collecte de données. L’une consiste à se connecter au système EEG, et l’autre à collecter des données comportementales. Il est recommandé de créer un autre écran pour refléter l’ordinateur lié aux données comportementales. Le système se compose d’un amplificateur et de capuchons EEG passifs.
1. Pour cette étude, recrutez des participants sans aucun trouble de la parole et de l’audition. Assurez-vous que les participants ne présentent aucun trouble psychiatrique ou neurologique. Au total, 43 participants ont été sélectionnés, dont trois ont été exclus en raison de problèmes d’alignement avec les marqueurs EEG. Sur les 40 participants restants, il y avait 20 femmes et 20 hommes. Les femmes étaient âgées de 20,70 ± 0,37 an, tandis que les hommes étaient âgés de 22,20 ± 0,37 an. Leur niveau d’éducation était de 17,55 ± 0,43 pour les femmes et de 18,75 ± 0,38 pour les hommes.
2. Attribuez des identifiants aux participants et invitez-les à laver et à sécher leurs cheveux dans l’heure qui suit avant de participer à l’expérience.
3. Mélangez le gel d’électrolytes et le gel d’électrolytes abrasif dans un rapport de 1:3, en ajoutant une petite quantité d’eau. Mélangez uniformément dans un récipient avec une cuillère.
4. Préparez des cotons-tiges à bout fin et un bonnet EEG sec.
5. Demandez au participant de s’asseoir confortablement sur une chaise et informez-le que l’expérimentateur appliquera le capuchon EEG. Expliquez que la pâte conductrice, qui est inoffensive pour les humains et améliore la réception des signaux cérébraux, est appliquée sur les trous du capuchon à l’aide de cotons-tiges.
6. Fournissez au participant des instructions sur les tâches expérimentales et un formulaire de consentement éclairé pour l’expérience. Procéder à la phase de préparation après avoir obtenu la signature du participant.
7. Connectez le capuchon EEG à l’amplificateur, qui à son tour se connecte à l’ordinateur d’acquisition de données EEG. Cette étude utilise un capuchon passif, il est donc nécessaire d’utiliser un moniteur supplémentaire pour vérifier les indicateurs de couleur sur les 64 électrodes.
8. Ouvrez BrainVision Recorder³³ et importez un fichier d’espace de travail personnalisé qui a défini les paramètres d’enregistrement. Cliquez sur Moniteur pour vérifier l’impédance. La barre de couleur, du rouge au vert, est influencée par les niveaux de résistance définis, avec des impédances cibles allant de 0 à 10 kΩ.
Préparation des participants
1. Demandez au participant de s’asseoir droit sur une chaise. Choisissez un système d’électrodes passives à base de gel de taille appropriée (taille 54 ou 56) pour la tête du participant et assurez-vous que le système d’électrodes est correctement ajusté selon le système 10-20^28,34.
2. Commencez par tremper un coton-tige jetable dans la pâte conductrice et appliquez-le dans les trous du capuchon, en veillant à frotter contre le cuir chevelu du participant. L’indicateur correspondant d’une électrode qui devient verte sur l’ordinateur de collecte de données EEG signifie qu’il collecte avec succès des données optimales.
3. Une fois que la couleur indicative de toutes les électrodes à l’écran, à l’exception des deux électrodes indépendantes est devenue verte (sur l’écran du moniteur), appliquez la pâte conductrice sur les électrodes latérales. Fixez l’électrode gauche près de l’œil gauche du participant, au niveau de la paupière inférieure et l’électrode droite près de la tempe droite.
4. Une fois que toutes les électrodes sont vertes, placez un filet élastique sur la tête du participant pour aider le capuchon EEG à s’adapter plus solidement et de manière plus stable contre la tête du participant.
5. Équipez le participant d’écouteurs filaires (écouteurs à conduction d’air spécifiques utilisés en laboratoire). Fermez la porte de blindage électromagnétique et guidez les actions du participant grâce à un microphone qui permet la communication à l’intérieur et à l’extérieur. De plus, surveillez les mouvements du participant à l’aide d’un moniteur externe, par exemple en lui rappelant de ne pas bouger son corps de manière significative ; Surveillez également la progression du participant dans les tâches comportementales grâce à un moniteur de données comportementales.
6. Demandez au participant de porter des écouteurs connectés à l’ordinateur de collecte comportementale via une interface audio.
Exécution de l’expérience bloc par bloc de manière indépendante
1. Sur l’ordinateur de collecte de données EEG, ouvrez BrainVision Recorder et cliquez sur Moniteur pour vérifier l’impédance et l’enregistrement Stat/Resume et démarrez l’enregistrement. Créez un nouveau fichier d’enregistrement EEG et nommez-le en conséquence, par exemple, 14_2, c’est-à-dire le deuxième bloc pour le participant numéro 14.
2. Ouvrez l’expérience Run du programme PsychoPy (bouton vert) pour l’expérience comportementale, entrez l’ID du participant (par exemple, 14) et le numéro de bloc correspondant (par exemple, 2), puis cliquez sur OK pour démarrer l’expérience.
3. Surveillez de près l’exactitude des données rapportées à l’écran une fois que le participant a terminé la phase de vérification sur l’ordinateur de données comportementales. Si la précision est inférieure à 10 sur 12, demandez au participant de refaire la session de formation jusqu’à ce qu’il atteigne la précision requise avant de passer à la phase de test.
4. Portez une attention particulière à la précision finale de l’ancienne reconnaissance par rapport à la nouvelle signalée à l’écran une fois que le participant a terminé la phase de test du bloc. Si la précision est exceptionnellement faible (par exemple, inférieure à 50 %), renseignez-vous auprès du participant sur les raisons possibles.
Expérience post-EEG
1. Une fois que le participant a terminé tous les blocs, invitez-le à se laver les cheveux. Nettoyez le capuchon EEG en enlevant la pâte conductrice résiduelle à l’aide d’une brosse à dents, en prenant soin de ne pas mouiller les connecteurs de signal et en les enveloppant dans des sacs en plastique. Une fois nettoyé, suspendez le capuchon EEG dans un endroit bien ventilé pour le faire sécher.
2. Copiez l’EEG et les données comportementales sur un disque dur portable, en vous assurant que les données EEG et les données comportementales correspondent. Par exemple, les données EEG sont nommées avec deux fichiers, 14_2.eeg et 14_2.vhdr, et les données comportementales sous forme de fichier 14_2.xlsx.

4. Traitement des données EEG

REMARQUE : les descriptions suivantes concernent le prétraitement des données EEG, l’analyse statistique et la visualisation à l’aide de MATLAB et RStudio pour le traitement par lots.

Prétraitement des données EEG avec MATLAB
1. Fusion de l’EEG et des données comportementales
  1. Étant donné que les participants peuvent avoir besoin de refaire la tâche s’ils n’atteignent pas la précision requise de 10/12 ou plus, ce qui affecte le nommage de l’EEG et des données comportementales, par exemple, 14_2.vhdr peut devenir 14_2(1).vhdr, normalisez les noms de fichiers en supprimant les caractères autres que 14_2. Lors de l’itération des données de chaque participant, nommez les fichiers de données comme sub, stripped_filename, .set, ce qui permet d’enregistrer automatiquement des fichiers tels que sub14_2.set (contenant des métadonnées et des liens vers l’ensemble de données EEG) et sub10_1.fdt (les données EEG réelles). Cela renomme les fichiers 14_2.vhdr et 14_2.eeg en sub14_2.fdt et sub14_2.set.
  2. Utilisez la fonction EEG = pop_mergeset() pour fusionner les données dans un seul fichier pour chaque participant, en combinant différentes données de bloc dans l’ordre chronologique plutôt que dans l’ordre numérique des blocs 1,2,3,4.
  3. Fusionnez plusieurs fichiers de données comportementales dans une seule feuille de calcul par participant en fonction de l’ordre chronologique, ce qui est essentiel pour une synchronisation ultérieure.
  4. Personnalisez le code pour synchroniser les essais dans les signaux EEG avec les essais dans les signaux comportementaux. Par exemple, testing_list = [37:108, 145:216, 253:324, 361:432] correspondrait aux points de repère EEG pour les quatre blocs.
  5. Convertissez la feuille de calcul de données comportementales en un fichier .txt, ce qui permet d’obtenir une table avec des données dans des lignes et des colonnes. Les noms de colonnes incluent la plupart de ceux mentionnés à l’étape 2.1.
  6. Redéfinissez le contenu des données EEG en ajoutant des informations dans les données EEG à l’aide d’un code similaire à ce qui suit, par exemple, EEG = pop_importepoch(EEG, behav_txt_path, {'Epoch', 'Sound', 'Speaker', 'Gender', 'Confidence_level', 'old_new_speaker', 'same_different_prosody', 'Response'}, 'timeunit', 1, 'headerlines', 1). Ce processus fusionne les données EEG et comportementales correspondantes de chaque participant par traitement par lots.
    REMARQUE : Les valeurs de réponse 1 et 0 proviennent de données comportementales, où 1 représente un jugement correct et 0 représente un jugement incorrect.
2. Prétraitement des données EEG
  1. Pour référence et reréférence^29,35, appelez la fonction pop_reref pour réréférencer les données EEG à l’électrode FCz, en vous assurant que chaque signal est calculé par rapport à l’électrode FCz. Utilisez la fonction pop_reref pour réréférencer les données EEG aux canaux 28 et 29, représentant les électrodes mastoïdiennes bilatérales situées au niveau du cuir chevelu postérieur, en veillant à ce que chaque signal soit calculé par rapport aux mastoïdes bilatérales.
  2. Réglez un filtre passe-haut (pour supprimer les tendances linéaires) avec EEG = pop_eegfiltnew(EEG, [], 0.1, 16500, 1, [], 0), et effectuez une correction de base de -500 à 0 ms avec EEG = pop_rmbase(EEG, [-500 0]).
  3. Inspectez manuellement les mauvais essais : après avoir importé les données avec EEGLAB, sélectionnez Parcelle, puis cliquez sur Données de canal (défilement) et réglez la valeur maximale sur 50.
  4. Supprimez les essais avec des artefacts musculaires et autres types d’artefacts visibles et marquez les mauvaises électrodes : en passant la souris sur la forme d’onde du canal, son électrode s’affichera. Enregistrez toutes les électrodes défectueuses, retournez à la page principale de l’EEGLAB, sélectionnez Interpoler les électrodes sous Outils, choisissez Sélectionner à partir des canaux de données, sélectionnez les électrodes nécessitant une interpolation et confirmez avec OK. Enregistrez le fichier dans un nouveau dossier.
  5. Effectuer une analyse en composantes principales (ACP) avec EEG = pop_runica(EEG, 'étendu', 1, 'pca', 30, 'interupt', 'on'). Rejetez manuellement les ICA problématiques, en supprimant les artefacts des yeux, des muscles et du bruit du canal, puis enregistrez le fichier.
  6. Utilisez la fonction pop_eegthresh pour définir un seuil de -75 à +75 Hz afin de supprimer les valeurs extrêmes 34,36,37.
  7. Appliquez pop_eegfiltnew avec les paramètres définis (le troisième paramètre d’entrée) à 30 pour conserver les fréquences de 30 Hz et inférieures à³⁸.
  8. Personnalisez le code pour énumérer toutes les conditions qui vous intéressent, y compris old_new_speaker = {'old', 'new'} ; same_different_prosody = {'identique', 'différent'} ; Confidence_level = {'c', 'd'} ; et Réponse = {'1', '0'}. Ensuite, combinez ces conditions pour créer des combinaisons de données telles que sub1_new_different_c_0 et enregistrez-les en tant que fichiers avec une extension txt.
Analyse des ERP avec RStudio
1. Pour organiser les données, convertissez-les dans un format long. Importez tous les fichiers .txt dans RStudio et utilisez la fonction rbind pour ajouter chaque trame de données temporaire à alldata, créant ainsi une trame de données volumineuse contenant toutes les données de fichier. Renommez la colonne Ligne dans toutes les données en Temps pour plus de précision. Utilisez la fonction melt pour convertir toutes les données du format large au format long (Data_Long), où chaque observation occupe une ligne et inclut toutes les conditions associées et les informations sur le canal.
2. Utilisez la fonction de filtrage du package dplyr pour sélectionner les données correspondant à des conditions spécifiques : Le jugement est de 1. La source est h. La mémoire est soit ancienne, soit nouvelle. La prosodie est c ou d.
3. Définissez les régions en fonction des canaux d’électrodes comme suit : Antérieur gauche (F3, F7, FC5, F5, FT7, FC3, AF7, AF3). Centre gauche (C3, T7, CP5, C5, TP7, CP3). Postérieur gauche (P3, P7, P5, PO7, PO3). Médialement antérieur (Fz, AFz, FC1, FC2, F1, F2, FCz). Médial central (CP1, CP2, Cz, C1, C2, CPz). Médial postérieur (Pz, O1, Oz, O2, P1, POz, P2). Antérieur droit (FC6, F4, F8, FC4, F6, AF4, AF8, FT8). Centre-droit (CP6, C4, T8, CP4, C6, TP8). Postérieur droit (P4, P8, PO4, PO8, P6). Regroupez ces régions en régions antérieures, centrales et postérieures.
4. Enregistrez l’espace de travail pour le chargement ultérieur des données. Pour sauvegarder, utilisez setwd() ; Pour charger, utilisez load().
Analyse statistique
1. Pour l’analyse des données EEG sur toutes les électrodes, filtrez l’ensemble de données pour n’inclure que les points de données pertinents où le jugement est 1, la source est h, la mémoire est ancienne ou nouvelle, le sujet n’est pas vide et le temps est compris entre 400 et 850 ms.
2. Mettez à jour les noms des régions d’intérêt (ROI) en fonction de mappages prédéfinis. Par exemple, l’antérieur gauche, l’antérieur médial et l’antérieur droit sont pour l’antérieur.
3. Ajustez un modèle linéaire à effets mixtes aux données à l’aide de lmer du package lme4³⁹, avec Voltage comme variable de réponse et Memory et ROI comme effets fixes, y compris des interceptions aléatoires pour le sujet et le canal : fit_time_window <- lmer(Voltage ~ Memory * ROI + (1|Sujet) + (1| chaîne), données=DONNÉES). Remplacez DATA par des données combinées, uniquement en toute confiance et des données douteuses à plusieurs reprises. Voir un exemple de code sur OSF³².
  1. Obtenez les résultats de l’analyse à partir du modèle ajusté : anova(fit_time_window), eta_squared(fit_time_window), et emmeans(fit_time_window, sps = pairwise ~ Memory * ROI, adjust = « Tukey »).
4. Pour l’analyse des données EEG dans Pz, lors du filtrage de l’ensemble de données, suivez les mêmes étapes que ci-dessus, mais ajoutez également la condition Channel == 'ChPz'. Répétez le processus ci-dessus, mais utilisez lmer(Tension ~ Mémoire + (1|Sujet)) pour analyser des données Pz de 400 à 850 ms.
5. Pour tracer les ERP dans le Pz (répétez l’opération sur l’ensemble de données combiné, avec confiance uniquement et douteux uniquement), filtrez l’ensemble de données pour n’inclure que les points de données pertinents où le jugement est 1, la source est h, la mémoire est ancienne ou nouvelle et le sujet n’est pas vide.
  1. Définissez un vecteur contenant plusieurs points d’électrode (y compris Pz) et préfixez-les avec Ch pour correspondre à la convention de dénomination des canaux dans les données. Sélectionnez Pz out.
  2. Spécifiez la fenêtre horaire pour l’analyse ERP : time_window <- c(400, 850). Définissez l’électrode qui vous intéresse, dans ce cas, Pz. Passez en boucle sur l’électrode sélectionnée et créez des tracés comme décrit ci-dessous.
    1. Filtrez les données de l’électrode Pz à l’aide du filtre (Canal == k) pour isoler les points de données pertinents.
    2. Créez un facteur d’interaction pour le type de ligne et la couleur en fonction de la condition Mémoire à l’aide de interaction(current_channel_data$Memory) et étiquetez les conditions comme Ancien et Nouveau.
    3. Calculez des statistiques récapitulatives et une erreur standard pour les mesures de tension au fil du temps à l’aide de la fonction summarySEwithin, en spécifiant Tension comme variable de mesure et Temps comme variable intérieure.
    4. Générez le tracé ERP pour l’électrode Pz, en ajoutant un arrière-plan pour la fenêtre de temps spécifiée à l’aide de geom_rect avec les paramètres xmin, xmax, ymin et ymax. Incluez des rubans d’erreur standard avec geom_ribbon, en dessinant la tension moyenne avec geom_line. Personnalisez l’apparence et les étiquettes du tracé à l’aide de fonctions telles que scale_x_continuous, scale_y_reverse, scale_linetype_manual, scale_fill_manual, etc. scale_color_manual.
  3. Utilisez theme_minimal pour le thème de base et personnalisez davantage la taille du texte et le placement de la légende avec le thème.
Tracé de topographie avec MATLAB
1. Importez les données et définissez les conditions de paramétrage, définissez la liste des sujets de 1 à 40 avec subject_list = 1:40. Définissez deux tableaux de cellules vides pour stocker les données afin de classer correctement les anciennes et les nouvelles conditions : "human_timelocked_old_correct = {} ; human_timelocked_new_correct = {}. Parcourez la liste des sujets, importez les données de chaque sujet et filtrez-les en fonction des conditions.
2. Extrayez les informations d’événement à partir des données brutes d’EEGLAB, en sélectionnant uniquement les événements dont la réponse est égale à 1. Sélectionnez les essais dont la source est égale à h et mettez à jour la structure de données en conséquence. Séparez les données pour les anciennes et les nouvelles conditions, limitez-vous aux essais corrects avec la source h et effectuez une analyse de verrouillage temporel.
  1. Calculez la moyenne générale pour l’ancienne et la nouvelle condition : cfg = [] ; grandavg_old_correct = ft_timelockgrandaverage(cfg, human_timelocked_old_correct{ :}) ; grandavg_new_correct = ft_timelockgrandaverage(cfg, human_timelocked_new_correct{ :}).
3. Effectuez le test de permutation comme décrit ci-dessous.
  1. Définissez la configuration du voisin à l’aide d’un fichier de mise en page spécifié : cfg_neigh = [] ; cfg_neigh.method = 'distance' ; cfg_neigh.layout = 'path_to_layout_file' ; voisins = ft_prepare_neighbours(cfg_neigh).
  2. Configurez les paramètres du test de permutation, y compris la matrice de conception et la méthode statistique : cfg = [] ; cfg.method = 'Montecarlo' ; cfg.statistic = 'ft_statfun_indepsamplesT' ; cfg.correctm = 'cluster' ; cfg.clusteralpha = 0,05 ; cfg.clusterstatistic = 'maxsum' ; cfg.minnbchan = 2 ; cfg.queue = 0 ; cfg.clustertail = 0 ; cfg.alpha = 0,05 ; cfg.numrandomisation = 1000 ; cfg.neighbours = voisins ; cfg.design = [2*ones(1, length(human_timelocked_new_correct)) ones(1, length(human_timelocked_old_correct))] ; cfg.ivar = 1. De plus, reportez-vous au lien suivant (https://www.fieldtriptoolbox.org/tutorial/cluster_permutation_freq/) pour des tutoriels sur l’utilisation de Fieldtrip⁴⁰.
  3. Effectuez le test statistique sur les données moyennées pour les anciennes et les nouvelles conditions : stat = ft_timelockstatistics(cfg, human_timelocked_old_correct{ :}, human_timelocked_new_correct{ :}).
4. Effectuez un traçage d’intervalle personnalisé comme décrit ci-dessous.
  1. Calculez la différence entre les deux conditions : cfg = [] ; cfg.operation = 'soustraire' ; cfg.parameter = 'moy' ; grandavg_difference = ft_math(cfg, grandavg_old_correct, grandavg_new_correct).
  2. Définir les fenêtres horaires : time_windows = { [0.500, 0.800] % LPC}.
  3. Créez une figure et tracez la différence entre les conditions avec ft_topoplotER(cfg_plot, grandavg_difference).

Résultats

L’effet classique ancien/nouveau est caractérisé par une augmentation significative de l’activité cérébrale des auditeurs sur l’électrode Pz (entre 300 et 700 ms) lorsque le contenu de la parole de la session de test correspond à celui de la session d’entraînement, en particulier dans l’ancien état du locuteur par rapport à la nouvelle condition^{du locuteur 22}. Le protocole dévoile une version mise à jour de cet effet : tout d’abord, en observant des tendances positives plus...

Discussion

L’étude présente un pipeline pour la collecte et l’analyse de données EEG, en se concentrant sur la reconnaissance des identités de locuteurs précédemment apprises. Cette étude aborde les variations entre les phases d’apprentissage et de reconnaissance, y compris les différences dans le contenu de la parole²² et la prosodie¹⁰. La conception est adaptable à une gamme de domaines de recherche, y compris la psycholinguistique, comme le traitement des pronoms et ...

Déclarations de divulgation

Il n’y a aucune information à divulguer.

Remerciements

Ce travail a été soutenu par la Fondation des sciences naturelles de Chine (subvention n° 31971037) ; le programme Shuguang soutenu par la Fondation pour le développement de l’éducation de Shanghai et le Comité municipal de l’éducation de Shanghai (subvention n° 20SG31) ; la Fondation des sciences naturelles de Shanghai (22ZR1460200) ; le programme d’orientation des superviseurs de l’Université d’études internationales de Shanghai (2022113001) ; et le programme majeur de la Fondation nationale des sciences sociales de Chine (subvention n° 18ZDA293).

matériels

Name	Company	Catalog Number	Comments
64Ch Standard BrainCap for BrainAmp	Easycap GmbH	Steingrabenstrasse 14 DE-82211	https://shop.easycap.de/products/64ch-standard-braincap
Abrasive Electrolyte-Gel	Easycap GmbH	Abralyt 2000	https://shop.easycap.de/products/abralyt-2000
actiCHamp Plus	Brain Products GmbH	64 channels + 8 AUX	https://www.brainproducts.com/solutions/actichamp/
Audio Interface	Native Instruments GmbH	Komplete audio 6	https://www.native-instruments.com/en/products/komplete/audio-interfaces/komplete-audio-6/
Foam Eartips	Neuronix	ER3-14	https://neuronix.ca/products/er3-14-foam-eartips
Gel-based passive electrode system	Brain Products GmbH	BC 01453	https://www.brainproducts.com/solutions/braincap/
High-Viscosity Electrolyte Gel	Easycap GmbH	SuperVisc	https://shop.easycap.de/products/supervisc

Références

Larrouy-Maestri, P., Poeppel, D., Pell, M. D. The sound of emotional prosody: Nearly 3 decades of research and future directions. Perspect Psychol Sci. , 17456916231217722 (2024).
Pell, M. D., Kotz, S. A. Comment: The next frontier: Prosody research gets interpersonal. Emotion Rev. 13 (1), 51-56 (2021).
Cummins, N., et al. Multilingual markers of depression in remotely collected speech samples: A preliminary analysis. J Affect Disor. 341, 128-136 (2023).
Cummins, N., Baird, A., Schuller, B. W. Speech analysis for health: Current state-of-the-art and the increasing impact of deep learning. Methods. 151, 41-54 (2018).
Kennedy, E., Thibeault, S. L. Voice-gender incongruence and voice health information-seeking behaviors in the transgender community. Am J Speech-language Pathol. 29 (3), 1563-1573 (2020).
Zäske, R., et al. Electrophysiological correlates of voice memory for young and old speakers in young and old listeners. Neuropsychologia. 116, 215-227 (2018).
Lavan, N., Burton, A. M., Scott, S. K., Mcgettigan, C. Flexible voices: Identity perception from variable vocal signals. Psychonomic Bullet Rev. 26, 90-102 (2019).
Perrachione, T. K., Del Tufo, S. N., Gabrieli, J. D. Human voice recognition depends on language ability. Science. 333 (6042), 595-595 (2011).
Lavan, N., Knight, S., Mcgettigan, C. Listeners form average-based representations of individual voice identities. Nat Comm. 10 (1), 2404 (2019).
Xu, H., Armony, J. L. Influence of emotional prosody, content, and repetition on memory recognition of speaker identity. Quart J Exp Psychol. 74 (7), 1185-1201 (2021).
Jiang, X., Pell, M. D. The sound of confidence and doubt. Speech Comm. 88, 106-126 (2017).
Winters, S. J., Levi, S. V., Pisoni, D. B. Identification and discrimination of bilingual talkers across languages. J Acoustical Soci Am. 123 (6), 4524-4538 (2008).
Orena, A. J., Polka, L., Theodore, R. M. Identifying bilingual talkers after a language switch: Language experience matters. J Acoustical Soc Am. 145 (4), EL303-EL309 (2019).
Xie, X., Myers, E. The impact of musical training and tone language experience on talker identification. J Acoustical Soc Am. 137 (1), 419-432 (2015).
Kadam, M. A., Orena, A. J., Theodore, R. M., Polka, L. Reading ability influences native and non-native voice recognition, even for unimpaired readers. J Acoustical Soc Am. 139 (1), EL6-EL12 (2016).
Fleming, D., Giordano, B. L., Caldara, R., Belin, P. A language-familiarity effect for speaker discrimination without comprehension. Proc Natl Acad Sci. 111 (38), 13795-13798 (2014).
White, K. S., Yee, E., Blumstein, S. E., Morgan, J. L. Adults show less sensitivity to phonetic detail in unfamiliar words, too. J Memory Lang. 68 (4), 362-378 (2013).
Levi, S. Methodological considerations for interpreting the language familiarity effect in talker processing. Wiley Interdiscip Revi: Cognitive Sci. 10 (2), e1483 (2019).
Perrachione, T. K., Frühholz, S., Belin, P. Recognizing Speakers Across Languages. The Oxford Handbook of Voice Perception. , 515-538 (2018).
Lavan, N., Burton, A. M., Scott, S. K., Mcgettigan, C. Flexible voices: Identity perception from variable vocal signals. Psychonomic Bullet Rev. 26 (1), 90-102 (2019).
Zäske, R., Hasan, B. a. S., Belin, P. It doesn't matter what you say: Fmri correlates of voice learning and recognition independent of speech content. Cortex. 94, 100-112 (2017).
Zäske, R., Volberg, G., Kovács, G., Schweinberger, S. R. Electrophysiological correlates of voice learning and recognition. J Neurosci. 34 (33), 10821-10831 (2014).
Lavan, N., Knight, S., Mcgettigan, C. Listeners form average-based representations of individual voice identities. Nat Comm. 10 (1), 1-9 (2019).
Chen, W., Jiang, X. Voice-Cloning Artificial-Intelligence Speakers Can Also Mimic Human-Specific Vocal Expression. Preprints. , (2023).
Pisanski, K., Anikin, A., Reby, D. Vocal size exaggeration may have contributed to the origins of vocalic complexity. Philosoph Trans Royal Soc B. 377 (1841), 20200401 (2022).
Belin, P., Fecteau, S., Bedard, C. Thinking the voice: Neural correlates of voice perception. Trend Cognitive Sci. 8 (3), 129-135 (2004).
. Praat: doing phonetics by computer Available from: https://www.fon.hum.uva.nl/praat/ (2022)
Jiang, X., Pell, M. D. On how the brain decodes vocal cues about speaker confidence. Cortex. 66, 9-34 (2015).
Jiang, X., Gossack-Keenan, K., Pell, M. D. To believe or not to believe? How voice and accent information in speech alter listener impressions of trust. Quart J Exp Psychol. 73 (1), 55-79 (2020).
Rigoulot, S., Pell, M. D. Seeing emotion with your ears: Emotional prosody implicitly guides visual attention to faces. PloS One. 7 (1), e30740 (2012).
Cui, X., Jiang, X., Ding, H. Affective prosody guides facial emotion processing. Curr Psychol. 42 (27), 23891-23902 (2023).
. Memorization-based training and testing paradigm for robust vocal identity recognition in expressive speech using event-related potentials analysis Available from: https://osf.io/6zu83/ (2024)
Brainvision recorder. Available from: https://www.brainproducts.com/downloads/recorder/ (2024)
Jiang, X., Paulmann, S., Robin, J., Pell, M. D. More than accuracy: Nonverbal dialects modulate the time course of vocal emotion recognition across cultures. J Exp Psychol. 41 (3), 597 (2015).
Jiang, X., Pell, M. D. The feeling of another's knowing: How "mixed messages" in speech are reconciled. J Exp Psychol. 42 (9), 1412 (2016).
Zhou, X., et al. Semantic integration processes at different levels of syntactic hierarchy during sentence comprehension: An erp study. Neuropsychologia. 48 (6), 1551-1562 (2010).
Jiang, X., Tan, Y., Zhou, X. Processing the universal quantifier during sentence comprehension: Erp evidence. Neuropsychologia. 47 (8-9), 1799-1815 (2009).
Acunzo, D. J., Mackenzie, G., Van Rossum, M. C. W. Systematic biases in early erp and erf components as a result of high-pass filtering. J Neurosci Meth. 209 (1), 212-218 (2012).
Bates, D. Fitting linear mixed models in r. R. 5 (1), 27-30 (2005).
Oostenveld, R., Fries, P., Maris, E., Schoffelen, J. M. Fieldtrip: Open source software for advanced analysis of meg, eeg, and invasive electrophysiological data. Computat Intelligence Neurosci. 2011, 1-9 (2011).
Coopmans, C. W., Nieuwland, M. S. Dissociating activation and integration of discourse referents: Evidence from erps and oscillations. Cortex. 126, 83-106 (2020).
Humble, D., et al. The jena voice learning and memory test (jvlmt): A standardized tool for assessing the ability to learn and recognize voices. Behavior Res Meth. 55 (3), 1352-1371 (2023).
Holmes, E., To, G., Johnsrude, I. S. How long does it take for a voice to become familiar? Speech intelligibility and voice recognition are differentially sensitive to voice training. Psychol Sci. 32 (6), 903-915 (2021).
Kroczek, L. O. H., Gunter, T. C. Communicative predictions can overrule linguistic priors. Sci Rep. 7 (1), 17581 (2017).
Kroczek, L. O. H., Gunter, T. C. The time course of speaker-specific language processing. Cortex. 141, 311-321 (2021).
Schroeger, A., et al. Atypical prosopagnosia following right hemispheric stroke: A 23-year follow-up study with mt. Cognitive Neuropsychol. 39 (3-4), 196-207 (2022).
Garrido, L., et al. Developmental phonagnosia: A selective deficit of vocal identity recognition. Neuropsychologia. 47 (1), 123-131 (2009).
Schelinski, S., Borowiak, K., Von Kriegstein, K. Temporal voice areas exist in autism spectrum disorder but are dysfunctional for voice identity recognition. Social Cognitive Affective Neurosci. 11 (11), 1812-1822 (2016).
Holle, H., Gunter, T. C. The role of iconic gestures in speech disambiguation: Erp evidence. J Cognitive Neurosci. 19 (7), 1175-1192 (2007).
Regel, S., Coulson, S., Gunter, T. C. The communicative style of a speaker can affect language comprehension? Erp evidence from the comprehension of irony. Brain Res. 1311, 121-135 (2010).

Réimpressions et Autorisations

Demande d’autorisation pour utiliser le texte ou les figures de cet article JoVE

Demande d’autorisation

Explorer plus d’articles

Comportement Num ro 210 Reconnaissance du locuteur expression vocale prosodie de la parole potentiels li s aux v nements voix

This article has been published

Video Coming Soon

Keep me updated: