Основанная на запоминании парадигма обучения и тестирования для надежного распознавания вокальной идентичности в экспрессивной речи с использованием анализа потенциалов, связанных с событиями

Wenjun Chen; Xiaoming Jiang

doi:10.3791/66913

АВТОРЫ

СВЯЖИТЕСЬ С НАМИ

Войдите в систему

Для просмотра этого контента требуется подписка на Jove Войдите в систему или начните бесплатную пробную версию.

Method Article

Основанная на запоминании парадигма обучения и тестирования для надежного распознавания вокальной идентичности в экспрессивной речи с использованием анализа потенциалов, связанных с событиями

DOI:

10.3791/66913

⸱

August 9th, 2024

Wenjun Chen¹, Xiaoming Jiang¹^,²

¹Institute of Linguistics, Shanghai International Studies University, ²Key Laboratory of Language Science and Multilingual Artificial Intelligence, Shanghai International Studies University

Please note that all translations are automatically generated. Click here for the English version.

Резюме

В исследовании представлена парадигма обучения-тестирования для изучения старых/новых эффектов потенциалов, связанных с событиями, в уверенных и сомнительных просодических сценариях. Данные показывают усиленный поздний положительный компонент между 400-850 мс на Pz и других электродах. Этот конвейер может исследовать факторы, выходящие за рамки речевой просодии, и их влияние на идентификацию мишени.

Аннотация

Узнавание знакомых говорящих из голосовых потоков является фундаментальным аспектом вербальной коммуникации человека. Тем не менее, остается неясным, как слушатели все еще могут различить личность говорящего в экспрессивной речи. В этом исследовании разрабатывается основанный на запоминании подход к распознаванию личности индивидуального говорящего и сопутствующий конвейер анализа данных электроэнцефалограммы (ЭЭГ), который отслеживает, как слушатели узнают знакомых говорящих и различают незнакомых. Данные ЭЭГ фиксируют когнитивные процессы в режиме онлайн во время различения новых и старых говорящих на основе голоса, предлагая измерение активности мозга в режиме реального времени, преодолевая ограничения времени реакции и точных измерений. Парадигма состоит из трех этапов: слушатели устанавливают ассоциации между тремя голосами и их именами (обучение); слушатели указывают имя, соответствующее голосу, из трех кандидатов (проверка); Слушатели различают три старых и три новых голоса говорящих в задаче с двумя альтернативами с принудительным выбором (тестирование). Голосовая просодия при тестировании была либо уверенной, либо сомнительной. Данные ЭЭГ были собраны с помощью 64-канальной системы ЭЭГ с последующей предварительной обработкой и импортированы в RStudio для ERP и статистического анализа и MATLAB для топографии мозга. Результаты показали, что у староговорящего человека был вызван увеличенный поздний положительный компонент (LPC) по сравнению с состоянием новоговорящего в окне 400-850 мс в Pz и других более широком диапазоне электродов в обоих просодиях. Тем не менее, старый/новый эффект был устойчивым в центральном и заднем электродах для сомнительного восприятия просодии, в то время как передний, центральный и задний электроды обеспечивают уверенное состояние просодии. Данное исследование предполагает, что этот дизайн эксперимента может служить эталоном для изучения специфичных для говорящего эффектов связывания сигналов в различных сценариях (например, анафорическая экспрессия) и патологий у пациентов, таких как фонагнозия.

Введение

Человеческие голосовые потоки богаты информацией, такой как эмоции ^1,2, состояние здоровья ^3,4, биологический пол⁵, возраст⁶ и, что более важно, индивидуальная голосовая идентичность ^7,8. Исследования показали, что слушатели-люди обладают устойчивой способностью узнавать и дифференцировать идентичность своих сверстников с помощью голосов, преодолевая внутриговорящие вариации вокруг среднего представления идентичности говорящего в акустическом пространстве⁹. Такие вариации обусловлены акустическими манипуляциями (основной частотой и длиной голосового тракта, т.е. F0 и VTL), что соответствует отсутствию четких прагматических намерений⁹, эмоциональным просодиям¹⁰ и голосовой уверенности, передающей ощущение знания говорящими¹¹. Поведенческие эксперименты были сосредоточены на многих факторах, влияющих на успеваемость слушателей в распознавании говорящих, включая языковые манипуляции ^8,12,13, характеристики, связанные с участниками, такие как музыкальный опыт или способность к чтению ^14,15, и адаптации, связанные со стимулами, такие как обратная речь или неслова^16,17; Больше можно найти в обзорах литературы ^18,19. В нескольких недавних экспериментах изучалось, как индивидуальные вариации репрезентации идентичности говорящего могут подорвать точность распознавания, учитывая такие аспекты, как высокая и низкая эмоциональная выразительность¹⁶ и нейтральные и боязливые просодия⁵; Другие возможные сценарии открыты для дальнейшего изучения, как это было предложено в обзоре²⁰.

Что касается первого пробела в исследованиях, исследование предполагает, что неврологические основы идентификации говорящего еще не полностью изучены, как вариации внутри говорящего влияют на мозговую деятельность слушателей. Например, в задаче по распознаванию говорящего на основе фМРТ Zäske et al., правая задняя верхняя височная извилина (pSTG), правая нижняя/средняя лобная извилины (IFG/MFG), правая медиальная лобная извилина и левая хвостатая извилины показали сниженную активацию при правильной идентификации как старых по сравнению с новыми говорящими, независимо от того, было ли языковое содержание одинаковым или разным²¹. Тем не менее, более раннее исследование электроэнцефалографии (ЭЭГ), проведенное Zäske et al., не наблюдало этого старого/нового эффекта, когда изменение идентичности говорящего вносилось через различные тексты^. В частности, более крупный, поздний положительный компонент (LPC) в диапазоне от 300 до 700 мс, обнаруживаемый на Pz-электроде, когда слушатели сталкивались со своим знакомым обученным говорящим, произносящим тот же текст (т.е. слышащим повтор с неизменяемым лингвистическим содержанием), отсутствовал, когда говорящие произносили новые тексты.

В поддержку утверждения, сделанного Zäske et ^al.21, это исследование предполагает, что старый/новый эффект все еще может наблюдаться, несмотря на различия в лингвистическом содержании между тренировочными и тестовыми сессиями в анализе потенциала, связанного с событиями (ERP). Это обоснование проистекает из представления о том, что отсутствие эффекта старого/нового у Zäske et ^al.22 в условиях, когда использовались разные тексты, может быть связано с отсутствием дополнительной контрольной сессии во время учебного задания для обеспечения тщательного и эффективного обучения идентичности, как это предлагается в Lavan et ^al.23. Следовательно, первая цель исследования состоит в том, чтобы проверить и подтвердить эту гипотезу. Данное исследование направлено на то, чтобы проверить это путем добавления контрольной сессии к парадигме обучения-тестирования²².

Еще одним ключевым вопросом, на который направлено это исследование, является надежность идентификации говорящего в присутствии речевой просодии. Предыдущие поведенческие исследования показали, что слушателям особенно трудно распознавать говорящих в разных просодиях, что указывает на модулирующую роль просодического контекста - слушатели показали слабые результаты в различных условиях обучения-тестирования просодии. Данное исследование направлено на то, чтобы проверить это, представив слушателям возможность узнавать знакомых собеседников в уверенных или сомневающихся просодиях. В этом исследовании ожидается, что наблюдаемые различия в ERP помогут объяснить, как речевая просодия влияет на распознавание личности.

Основной целью настоящего исследования является изучение надежности старого/нового эффекта в распознавании говорящего, в частности, изучение того, существуют ли различия в распознавании говорящих в уверенных и сомнительных просодиях. Сюй и Армони¹⁰ провели поведенческое исследование с использованием парадигмы обучения-тестирования, и их результаты показывают, что слушатели не могут преодолеть просодические различия (например, обучены распознавать говорящего в нейтральной просодии, а протестированы на пугливой просодии) и могут достичь точности только ниже уровня случайности¹⁰. Акустический анализ показывает, что динамики, выражающие различные эмоциональные состояния, связаны с модуляцией VTL/F0; Например, для уверенной просоды характерно удлинение VTL и снижение F0, тогда как для сомнительной просодия^11,24 верно обратное. Еще одно доказательство получено из исследования Lavan et ^al.23, которое подтвердило, что слушатели могут адаптироваться к изменениям VTL и F0 говорящего и формировать усредненные представления говорящих. Это исследование подтверждает, что с точки зрения поведенческих данных слушатели, скорее всего, все еще узнают личность говорящего в разных просодиях (например, обучены распознавать его в уверенной просодии, но протестированы в сомнительной просодии; сообщается в отдельной рукописи, находящейся в стадии подготовки). Тем не менее, нейронные корреляты идентификации говорящего, в частности, обобщаемость эффекта старого/нового, наблюдаемого Zäske et ^al.22, остаются неясными. Следовательно, настоящее исследование направлено на проверку надежности старого/нового эффекта в уверенных и сомнительных просодиях в качестве контекстов для тестирования.

Исследование представляет собой отход от предыдущих исследовательских парадигм в исследованиях старых/новых эффектов. В то время как прошлые исследования были сосредоточены на том, как распознавание старого/нового говорящего влияет на восприятие, это исследование расширяет эту теорию, включая два уровня уверенности (уверенный и сомневающийся) в парадигму (таким образом, исследование 2+2). Это позволяет исследовать распознавание говорящего в контексте уверенных и сомнительных речевых просодий. Эта парадигма позволяет исследовать надежность старых/новых эффектов. Анализ эффектов памяти и областей интереса (ROI) как в контексте уверенной, так и сомнительной речи служит доказательством для этого исследования.

В целом, исследование направлено на актуализацию представлений о коррелятах ЭЭГ распознавания голоса, с гипотезой о том, что увеличенный ЛПК старого/нового эффекта ЭЭГ наблюдается даже при 1) неодинаковом языковом содержании и 2) при наличии уверенной и сомнительной просодии. В этом исследовании гипотезы изучались через трехступенчатую парадигму. Во-первых, на этапе обучения участники установили ассоциации между тремя голосами и соответствующими им именами. Впоследствии, на этапе проверки, им было поручено определить имя, соответствующее голосу, из трех кандидатов. Эта проверка, вслед за Lavan et ^al.23, направлена на преодоление недостаточного освоения старого говорящего, что приводило к ненаблюдаемому эффекту старого/нового^{, когда} текст на этапах обучения и тестирования отличался 6, и говорящие не могли распознать говорящих в нейтральных и боязливых просодиях¹⁰. Наконец, на этапе тестирования участники различали три старых и три новых голоса говорящих в задаче с двумя альтернативами с принудительным выбором, при этом просодия речи представлялась либо уверенной, либо сомнительной. Данные ЭЭГ собирали с помощью 64-канальной ЭЭГ-системы и подвергали предварительной обработке перед анализом. Статистический анализ и анализ событийного потенциала (ERP) проводились в RStudio, в то время как MATLAB использовался для анализа топографии мозга.

Что касается деталей дизайна, в этом исследовании предлагается эксперимент по обучению идентичности говорящего, который контролирует рост говорящего, который связан с VTL и влияет на впечатление от того, кто говорит²³. Этот аспект также влияет на социальные впечатления, такие как воспринимаемое доминирование²⁵, и такое формирование впечатлений более высокого уровня может взаимодействовать с декодированием идентичности^{говорящего26}.

протокол

Комитет по этике Института лингвистики Шанхайского университета международных исследований одобрил описанную ниже схему эксперимента. Для участия в этом исследовании было получено информированное согласие всех участников.

1. Подготовка и валидация аудиотеки

Запись и редактирование аудио
1. Создайте базу данных голоса на китайском языке в соответствии со стандартной процедурой создания предыдущей английской версии, при этом внося изменения там, где это необходимо, чтобы вписаться в контекст China¹¹. Для данного эксперимента было использовано 123 предложения, содержащих три типа прагматических намерений, а именно: суждение, намерение и факт. Для этого обратитесь к существующему корпусу утверждений на английском языке¹¹ и создайте локализованную версию на китайском языке с дополнительными локализованными сценариями.
2. Наберите 24 говорящих (12 женщин) для выражения этих предложений в нейтральной, сомнительной и уверенной форме, ссылаясь на указанные инструкции прошлых заданий на запись и адаптируя их^11,24.
  1. В качестве докладчиков здесь выступят 24 человека, говорящие на стандартном мандаринском наречии из Шанхайского университета международных исследований, 12 женщин и 12 мужчин, которые продемонстрировали владение мандаринским наречием на уровне от 87 до 91 баллов по результатам теста на знание языка путунхуа. Средний возраст участников мужского пола составил 24,55 ± 2,09 года, из них 18,55 ± 1,79 года образования и средний рост 174,02 ± 20,64 см. Средний возраст женщин составил 22,30 ± 2,54 года, из них 18,20 ± 2,59 года образования и средний рост 165,24 ± 11,42 см. Ни в одном из них не сообщалось о нарушениях речи и слуха, неврологических или психических расстройствах.
3. Попросите выступающих повторить каждый текст по два раза. Установите частоту дискретизации на 48 000 Гц в программном обеспечении Praat²⁷. Следите за тем, чтобы поток не длиннее 10 минут, так как Praat может сломаться, что приведет к потере записи.
4. Редактируйте длинный аудиопоток в клипы по предложению с помощью Praat. Поскольку есть два повтора одного и того же текста, выберите вариант, который лучше всего представляет предполагаемую просодию в качестве целевого предложения.
Выбор аудио
1. Нормализуйте аудиотеку на уровне 70 дБ и частоту дискретизации на частоте 41 000 Гц с помощью сценария Praat²⁸. Для этого откройте Praat, загрузите звуковые файлы и выберите их в окне «Объекты». Перейдите в меню Изменить, выберите Интенсивность шкалы..., установите Новую среднюю интенсивность (дБ SPL) на 70 в окне настроек и нажмите OK , чтобы применить нормализацию.
2. Наберите 48 независимых слушателей, чтобы они оценили каждое аудио по одной 7-балльной шкале Лайкерта об уровне достоверности: 1 для полного отсутствия и 7 для очень уверенных¹¹. Убедитесь, что каждое предложение было оценено 12 оценщиками.
3. Выбирайте аудио, которое подходит под заданные пороговые значения, руководствуясь одним главным принципом: убедитесь, что средний рейтинг для уверенных намерений выше, чем для сомнительного звука. Убедитесь, что эти пороговые значения одинаковы для 12 говорящих одного и того же биологического пола. Например, если эти говоруны произнесли два предложения, каждое с уверенными и сомнительными просодиями, то следует отметить существенные различия в оценках.
4. Для целей текущего экспериментального плана используйте четыре блока аудио, всего 480 аудиоклипов, каждый блок должен содержать 120 аудиофрагментов.
  1. Разделите 24 говорящих на четыре группы по шесть человек, две группы самцов и две группы самок, каждая из которых состоит из говорунов одного биологического пола.
  2. Для каждой группы выберите аудиоклипы на основе оценок восприятия (по одному и тому же тексту), следя за тем, чтобы средние оценки достоверности были выше, чем сомнительные оценки для каждого предложения. Эти четыре блока различаются по следующим признакам: 1) объединенные шесть говорящих - их личности различны; 2) половина блоков выражена самцами, а другая половина – самками; и 3) текст, выраженный в каждом блоке, отличается.
5. Прежде чем начать процесс выбора, задокументируйте данные о росте каждого оратора. Используйте эту информацию, чтобы разделить говорящих на четыре независимые группы по полу и росту.
  1. Всего 24 спикера, поровну разделенных между мужчинами и женщинами. В каждой гендерной группе отсортируйте 12 особей по росту.
6. Разделите эти 12 индивидуумов на две группы поочередно; Например, из отсортированного списка от 1 до 12 индивидуумы 1, 3, 5, 7, 9 и 11 образуют одну группу, а другая половина — вторую. В этих группах выполняйте выбор громкоговорителей для аудиоклипов через равные промежутки времени в зависимости от их высоты.
  ПРИМЕЧАНИЕ: Включение роста в качестве контрольного фактора основано на выводах, свидетельствующих о том, что акустические показатели, связанные с высотой говорящего (VTL и F0), влияют на распознавание говорящего и его идентичности²³.

2. Программирование для сбора данных ЭЭГ

Разработка матрицы эксперимента
1. В исследовании используется внутрипредметный дизайн. Подготовьте тестовую сессию, которая представлена по каждому предмету, адаптируя учебную сессию. Подготовьте четыре блока, в каждом из которых будут выступать мужчины и женщины. Назначьте два блока для обучения уверенной просодии и тестирования как на уверенных, так и на сомнительных, а также для обучения сомнительной просодии и тестирования как на уверенных, так и сомнительных, как показано на рисунке 1.
2. Определите продолжительность функционирования экранов, обратившись к существующим исследованиям ЭЭГ по идентификации говорящего и восприятию уверенности голоса^22,29. Организуйте последовательность четырех блоков с латинской квадратной матрицей между участниками^30,31. Для подготовки такого списка рекомендуется использовать индивидуальное кодирование на Python. Смотрите фрагмент кода для матрицы латинского квадрата и список пробных версий программы PsychoPy на OSF³².
3. Выберите говорящих на каждом интервале из последовательности роста того же биологического пола. Для каждого блока выберите шесть говорящих из первоначальных 24 говорящих, которые сгруппируются в четыре списка в соответствии с заявленным ростом говорящих.
4. Выберите первые 24 имени в списке Сотня семейных фамилий Китая. Случайным образом назначьте фамилии 24 говорящим, которые произносят аудио, обращаясь к ним как Сяо (младший по-китайски) ЧЖАО.
5. Соберите всю необходимую информацию в таблицу со столбцами для говорящего (от 1 до 24), биологического пола (мужской или женский), имени человека (из 24 фамилий), уровня уверенности (уверенного или сомнительного), элемента (текстового индекса), оценочного уровня доверия (усредненный балл по результатам исследования восприятия), звука (например, звук/1_h_c_f_56.wav),
6. Правильно распознавать одно из трех (1, 2 или 3), а также правильно распознавать старое и новое (старое или новое). Кроме того, убедитесь, что добавлены столбцы с именами training_a, training_b, training_c, check и test.
7. Добавьте столбцы training_a_marker, training_b_marker, check_marker и testing_marker в таблицы для отправки маркеров ЭЭГ. Отформатируйте эти маркеры с тремя цифрами, то есть даже число 1 записывается как 001.
Подготовка к трем сессиям
ПРИМЕЧАНИЕ: PsychoPy рекомендуется использовать для сборки программы, в основном используя режим сборщика. Компонент Code в конструкторе дополнительно используется для подключения программы к системе сбора данных ЭЭГ, уравновешивая кнопки F и J и рассчитывая точность, о которой будет сообщено на экране.
1. Прежде всего, нажмите на значок «Редактировать настройки эксперимента » и настройте ячейку «Информация об эксперименте» на два поля, а именно: «Участник» и «Блок». Оставьте значение по умолчанию для обоих вариантов пустым. В этом исследовании среди 40 участников, у каждого из которых было по четыре блока, 4 из 40 участников прошли определенные блоки повторно (если точность в сеансе проверки ниже 10/12), с частотой повторов 19 повторных подсчетов/4 блока х 40 участников = 11,875%.
2. Тренинг: повторное изучение идентичности три раза
  1. Определите цикл с именем Training_A, который содержит три экрана: Фиксация, Презентация и Пустой. Отметьте галочкой опцию Is Trials . Оставьте nReps 1, оставив Выбранные строки и Случайное начальное значение пустыми. Запишите условие следующим образом:
    "$"trials/{:}_training_a.xlsx".format(expInfor["Участник"]), expInfo["Блокировать"])
    Где trials/ - это название папки; Участник – индекс участника; Блок — это последовательность блоков текущего блока.
  2. На экране «Фиксация» добавьте текстовый компонент с параметром «Время начала» равным 0, временем длительности равным 2 (с) и знаком «+» в окне ввода текста, который выбирает параметр «Установить каждый повтор». Аналогичным образом, включите аналогичный компонент «Текст» в пустой экран без информации в ячейке «Текст», и это будет длиться 0,5 секунды.
  3. На экране «Презентация» выполните следующие действия:
    1. Добавьте компонент «Звук», установив для параметра «Время начала» значение 0, поле «Время длительности остановки» оставьте пустым, а вход ячейки «Звук» — со значением $Sound и выберите «Установить каждый повтор». Отметьте галочкой экран Начать синхронизацию с.
    2. Добавьте еще один компонент Text, в ячейку Start Condition введите Cross_for_Training_A.status == FINISHED. Оставьте ячейку «Длительность остановки» пустой. В текстовой ячейке отображается $Name. Выберите «Установить каждый повтор».
    3. Добавьте Key_Response_Training_A, в котором условие начала — Training_A.status == FINISHED. Оставьте ячейку «Длительность остановки» пустой. Отметьте галочкой Принудительное окончание процедуры. Для ячейки Разрешенные ключи добавьте пробел; для настройки выберите Константа.
    4. Добавьте Cross_for_Training_A. Время его начала установлено равным 0; ячейка Условие остановки установлена как Training_A.status == FINISHED. Поставьте знак + в окне Ввод текста и выберите Установить каждый повтор.
  4. Приготовьте Training_B, выполнив процедуру, аналогичную Training_A.
3. Сеанс проверки: Выберите имена трех участников, которые выступают.
  1. Определите цикл с именем «Проверка» с тем же экраном «Фиксация» и «Пустой экран», что и в тренировочной сессии.
  2. Используйте презентацию, отличную от презентации обучения, добавив функцию сбора реакции с клавиатуры. На экране «Презентация» выполните следующее действие.
    1. Добавьте компонент «Звук» и назовите его Checking_audio, установив «Время начала» на 0 и оставив ячейку «Длительность остановки» пустой. Установите ячейку «Звук» как $Sound, включив параметр «Установить каждый повтор».
    2. Добавьте компонент Text с именем Show_names, условие запуска которого будет записано с помощью команды:
      Checking_audio.status == ЗАВЕРШЕНО
      и оставьте поле «Длительность остановки» пустым. Установите текстовую ячейку на $ People_Name, включив параметр «Установить каждый повтор».
    3. Добавьте компонент Клавиатура и озаглавьте его Key_Response_Check, с условием запуска Checking_audio.status == FINISHED и оставьте Продолжительность остановки пустой. Выберите «Принудительно завершить процедуру » с помощью клавиш «Разрешено» num_1, num_2 и num_3 «Оставшаяся константа», чтобы участники могли использовать цифровую клавиатуру для индексации своего выбора.
    4. Добавьте фиксацию с именем Cross_Check с начальным временем 0 и входным параметром Stop Condition с Checking_audio.status == FINISHED. Добавьте знак + в ячейку Текст, после чего будет выбран параметр Установить каждый повтор.
  3. Вставьте компонент кода. В разделе Начало эксперимента инициализируйте total_trials, current_correct, current_incorrect и current_accuracy как 0. В подпрограмме «Начало» определите user_input значение «Нет». В разделе «Каждый кадр» соберите вводимые пользователем данные с клавиатуры и проверьте правильность ответа, сохраненного в файле электронной таблицы, с кодом ключа user_key = Key_Response_Check.клавиши для извлечения 1, 2 или 3. Затем используйте его для сравнения с сохраненными 1,2 или 3 в столбце с именем Correctly_recognize_one_out_of_three.
  4. Выйдя из цикла, убедитесь, что на экране обратной связи появится следующее сообщение: check_feedbacks.text = f" Второй шаг завершен.\nВы определили говорящего в общей сложности в {total_trials} предложениях,\nПравильно распознали {current_correct} говорящих,\nНеправильно оценены {current_incorrect} говорящих.\nВаш общий показатель точности составляет {current_accuracy}%.\n\nЕсли он ниже 83,33%, пожалуйста подайте сигнал экспериментатору,\nВы заново познакомитесь с тремя упомянутыми выше динамиками.\n\nЕсли вы соответствуете требованиям, нажмите пробел, чтобы продолжить.
4. Тестовая сессия: классификация старого и нового говоруна
  1. Определите цикл с именем Testing. Он включает в себя Фиксацию и Бланк (то же, что и на тренировке) и Презентационный экран.
  2. Подготовьте раздел «Презентация», как показано ниже.
    1. Добавьте звуковой компонент Testing_sound с настройками, идентичными настройкам сеанса обучения. Добавьте компонент Key_response_old_new, у которого начальное условие имеет значение Testing_sound.status == FINISHED, оставьте Stop Duration пустым и отметьте галочкой Force End of Routine. В разделе Разрешенные ключи добавьте f и j и выберите Константа.
  3. Добавьте компонент Text с именем Testing_old_new, условием начала которого является Testing_sound.status == FINISHED, оставьте Duration Stop пустым, а ячейку Text оставьте пустой с помощью Set Every Repeat - текст будет определен более поздним компонентом кода.
  4. Добавьте Cross_Testing, где Время начала равно 0, Условие остановки — Testing_sound.status == FINISHED, и + в ячейке Текст, пока включен параметр Установить каждый повтор.
  5. Добавьте компонент Code, как описано ниже.
    1. В разделе «Начало эксперимента» укажите общее количество попыток (total_trials_t), количество правильных попыток (correct_trials_t) и количество неправильных попыток (incorrect_trials_t).
    2. В разделе «Начало рутины» начните с условной проверки, чтобы определить формат презентации на основе идентификационного номера участника (expInfo["Участник"]). Если идентификационный номер нечетный, убедитесь, что инструкции по идентификации старых и новых стимулов представлены в одном формате: («Old(F) New(J)») или («New (F) 'Old (J)»).
    3. За пределами этого цикла есть экран обратной связи с компонентом кода. Убедитесь, что каждый раздел кадра гласит: testing_feedbacks.text = f"Вы определили говорящего в общей сложности {total_trials_t} предложений,\nПравильно распознали {correct_trials_t} говорящих,\nНеправильно оценены {incorrect_trials_t} говорящих.\nВаш общий показатель точности {accuracy_t:.2f}%.\nПожалуйста, нажмите пробел, чтобы закончить эту текущую часть.
5. Подключите программу к системе Brain Products, как описано ниже.
  1. Синхронизируйте маркер, установив маркер в качестве начала каждого звука. Перед началом цикла Training_A определите протокол отправки маркеров ЭЭГ в компоненте кода Begin Experiment, как описано ниже.
    1. Импортируйте основные компоненты PsychoPy, включая параллельный модуль, и настройте адрес параллельного порта с помощью 0x3EFC.
    2. Установите функцию sendTrigger для передачи маркеров ЭЭГ. Эта функция отправляет указанный triggerCode через параллельный порт с parallel.setData(triggerCode) после проверки того, является ли он целым числом NumPy, и преобразования его по мере необходимости.
    3. Добавьте короткое ожидание в 16 мс, чтобы обеспечить захват маркера перед сбросом канала триггера в 0 с помощью parallel.setData(0).
  2. Для отправки маркера на регистратор ЭЭГ используется sendTrigger(). Укажите точное название соответствующего столбца в скобках. В данном исследовании есть training_a_marker, training_b_marker, check_marker и testing_marker – обращение к столбцу, определенному ранее в таблице.

3. Сбор данных ЭЭГ

Подготовка места проведения
ПРИМЕЧАНИЕ: Для сбора данных имеется как минимум два компьютера. Один из них заключается в подключении к системе ЭЭГ, а другой – в сборе поведенческих данных. Рекомендуется создать еще один экран для зеркального отображения компьютера, связанного с поведенческими данными. Система состоит из усилителя и пассивных ЭЭГ-колпачков.
1. Для этого исследования были набраны участники без каких-либо нарушений речи и слуха. Убедитесь, что у участников нет никаких психических или неврологических расстройств. Всего было отобрано 43 участника, трое из которых были исключены из-за проблем с выравниванием с маркерами ЭЭГ. Из оставшихся 40 участников было 20 женщин и 20 мужчин. Женщины были в возрасте 20,70 ± 0,37 года, а мужчины — 22,20 ± 0,37 года. Их возраст обучения составил 17,55 ± 0,43 для женщин и 18,75 ± 0,38 для мальчиков.
2. Назначьте идентификаторы участников и предложите им вымыть и высушить волосы в течение часа до участия в эксперименте.
3. Смешайте электролитный гель и абразивный электролитный гель в соотношении 1:3, добавив небольшое количество воды. Равномерно перемешайте смесь в емкости ложкой.
4. Подготовьте ватные палочки с тонким наконечником и сухую ЭЭГ-шапочку.
5. Попросите участника удобно сесть в кресло и сообщите ему, что экспериментатор наложит ЭЭГ-шапочку. Объясните, что проводящая паста, которая безвредна для человека и усиливает прием сигналов мозгом, наносится на отверстия колпачка с помощью ватных палочек.
6. Предоставьте участнику инструкции по выполнению экспериментальных заданий и форму информированного согласия на проведение эксперимента. Приступайте к этапу подготовки после получения подписи участника.
7. Подключите ЭЭГ-шапочку к усилителю, который, в свою очередь, подключается к компьютеру для сбора данных ЭЭГ. В данном исследовании используется пассивный колпачок, поэтому необходимо использовать дополнительный монитор для проверки цветовых индикаторов на 64 электродах.
8. Откройте BrainVision Recorder³³ и импортируйте настраиваемый файл рабочей области, в котором определены параметры записи. Нажмите « Монитор», чтобы проверить импеданс. Цветная полоса, от красного до зеленого, зависит от установленных уровней сопротивления с целевым импедансом в диапазоне от 0 до 10 кОм.
Подготовка участников
1. Попросите участника сесть прямо на стул. Выберите пассивную электродную систему на основе геля соответствующего размера (размер 54 или 56) для головы участника и убедитесь, что электродная система правильно установлена в соответствии с системой 10-20^28,34.
2. Начните с того, что окуните одноразовый ватный тампон в проводящую пасту и нанесите его на отверстия кепки, обязательно потирая кожу головы участника. Индикатор соответствующего электрода, загорающийся зеленым цветом на компьютере для сбора данных ЭЭГ, означает, что он успешно собирает оптимальные данные.
3. После того как индикативный цвет для всех электродов на экране, за исключением двух электродов с независимыми сторонами, станет зеленым (на экране монитора), нанесите проводящую пасту на боковые электроды. Прикрепите левый электрод возле левого глаза участника, в области нижнего века, а правый электрод возле правого виска.
4. Когда все электроды станут зелеными, наденьте на голову участника эластичную сетку, чтобы шапочка ЭЭГ более надежно и устойчиво прилегала к голове участника.
5. Вооружите участника проводными наушниками (специальными воздухопроводящими наушниками, используемыми в лаборатории). Закройте электромагнитную защитную дверцу и управляйте действиями участника через микрофон, который позволяет общаться внутри и снаружи. Кроме того, следите за движениями участника через внешний монитор, например, напоминая ему о том, что он не должен значительно двигать своим телом; Также отслеживайте прогресс участника в выполнении поведенческих задач с помощью монитора поведенческих данных.
6. Попросите участника надеть наушники, подключенные к компьютеру поведенческого сбора данных через аудиоинтерфейс.
Проведение эксперимента блок за блоком независимо друг от друга
1. На компьютере для сбора данных ЭЭГ откройте BrainVision Recorder и нажмите «Монитор», чтобы еще раз проверить импеданс и запись статистики/возобновить и начать запись. Создайте новый файл записи ЭЭГ и назовите его соответственно, например, 14_2, что означает второй блок для участника под номером 14.
2. Откройте программу PsychoPy Run experiment (зеленая кнопка) для поведенческого эксперимента, введите ID участника (например, 14) и соответствующий номер блока (например, 2), а затем нажмите OK , чтобы начать эксперимент.
3. Внимательно следите за точностью данных, отображаемых на экране после того, как участник завершит фазу проверки на компьютере с поведенческими данными. Если точность ниже 10 из 12, попросите участника повторить тренировку до тех пор, пока он не достигнет требуемой точности, прежде чем переходить к этапу тестирования.
4. Обратите особое внимание на окончательную точность распознавания старого и нового образца, отображаемую на экране после того, как участник завершит этап тестирования блока. Если точность исключительно низкая (например, ниже 50%), поинтересуйтесь у участника возможными причинами.
Эксперимент после ЭЭГ
1. После того, как участник выполнит все блоки, предложите ему помыть голову. Очистите колпачок ЭЭГ, удалив остатки проводящей пасты зубной щеткой, стараясь не намочить сигнальные разъемы, и завернув их в полиэтиленовые пакеты. После очистки повесьте шапочку для ЭЭГ в хорошо проветриваемое помещение для просушки.
2. Скопируйте данные ЭЭГ и поведенческие данные на портативный жесткий диск, убедившись, что данные ЭЭГ и поведенческие данные совпадают. Например, данные ЭЭГ именуются двумя файлами, 14_2.eeg и 14_2.vhdr, а поведенческие данные — файлом 14_2.xlsx.

4. Обработка данных ЭЭГ

ПРИМЕЧАНИЕ: Следующие описания включают предварительную обработку данных ЭЭГ, статистический анализ и визуализацию с использованием MATLAB и RStudio для пакетной обработки.

Предварительная обработка данных ЭЭГ с помощью MATLAB
1. Объединение данных ЭЭГ и поведенческих данных
  1. Учитывая, что участникам может потребоваться повторить задачу, если они не достигнут требуемой точности 10/12 или выше, что влияет на именование ЭЭГ и поведенческих данных, например, 14_2.vhdr может стать 14_2(1).vhdr, стандартизируйте имена файлов, удалив символы, отличные от 14_2. Перебирая данные каждого участника, называйте файлы данных sub, stripped_filename, .set, в результате чего файлы типа sub14_2.set (содержащие метаданные и ссылки на набор данных ЭЭГ) и sub10_1.fdt (фактические данные ЭЭГ) будут автоматически сохранены. При этом файлы 14_2.vhdr и 14_2.eeg будут переименованы в sub14_2.fdt и sub14_2.set.
  2. Используйте функцию EEG = pop_mergeset() для объединения данных в один файл для каждого участника, комбинируя разные данные блока в хронологическом порядке, а не в числовом порядке блоков 1,2,3,4.
  3. Объединяйте несколько файлов поведенческих данных в одну таблицу для каждого участника в хронологическом порядке, что важно для последующей синхронизации.
  4. Настройте код для синхронизации испытаний в сигналах ЭЭГ с испытаниями в поведенческих сигналах. Например, testing_list = [37:108, 145:216, 253:324, 361:432] будет соответствовать маркерным точкам ЭЭГ для четырех блоков.
  5. Преобразуйте таблицу поведенческих данных в файл .txt, в результате чего получится таблица с данными как в строках, так и в столбцах. Имена столбцов включают в себя большинство из тех, которые упомянуты в шаге 2.1.
  6. Переопределите содержание данных ЭЭГ, добавив информацию в данные ЭЭГ с помощью кода, аналогичного следующему, например, EEG = pop_importepoch(EEG, behav_txt_path, {'Epoch', 'Sound', 'Speaker', 'Gender', 'Confidence_level', 'old_new_speaker', 'same_different_prosody', 'Response'}, 'timeunit', 1, 'headerlines', 1). Этот процесс объединяет соответствующие данные ЭЭГ и поведения каждого участника посредством пакетной обработки.
    ПРИМЕЧАНИЕ: Значения ответа 1 и 0 основаны на поведенческих данных, где 1 представляет правильное суждение, а 0 — неправильное.
2. Предварительная обработка данных ЭЭГ
  1. Для референса и повторной привязки^29,35 вызовите функцию pop_reref для повторной привязки данных ЭЭГ к FCz-электроду, гарантируя, что каждый сигнал рассчитывается относительно FCz-электрода. Используйте функцию pop_reref для повторной привязки данных ЭЭГ к каналам 28 и 29, представляющим двусторонние сосцевидные электроды, расположенные на задней части головы, гарантируя, что каждый сигнал рассчитывается относительно двусторонних сосцевидных отростков.
  2. Установите фильтр высоких частот (для удаления линейных трендов) с ЭЭГ = pop_eegfiltnew(ЭЭГ, [], 0.1, 16500, 1, [], 0) и выполните коррекцию базового уровня от -500 до 0 мс с ЭЭГ = pop_rmbase(ЭЭГ, [-500 0]).
  3. Ручная проверка плохих испытаний: после импорта данных с помощью EEGLAB выберите «График», затем нажмите « Данные канала» (прокрутка) и установите максимальное значение на 50.
  4. Удалите испытания с видимыми мышечными и другими артефактами и отметьте поврежденные электроды: при наведении курсора мыши на сигнал канала отобразится его электрод. Запишите все поврежденные электроды, вернитесь на главную страницу EEGLAB, выберите «Интерполяция электродов » в разделе «Инструменты», выберите «Выбрать из каналов данных», выберите электроды, требующие интерполяции, и подтвердите нажатием OK. Сохраните файл в новую папку.
  5. Проведите анализ главных компонент (PCA) с ЭЭГ = pop_runica(ЭЭГ, 'расширенный', 1, 'pca', 30, 'interupt', 'on'). Вручную отклоняйте проблемные ICA, удаляя артефакты из глаз, мышц и шума канала, а затем сохраняйте файл.
  6. Используйте функцию pop_eegthresh для установки порога от -75 до +75 Гц для удаления экстремальных значений 34,36,37.
  7. Примените pop_eegfiltnew с установленными параметрами (третий входной параметр) к 30, чтобы сохранить частоты 30 Гц и ниже³⁸.
  8. Настройте код, чтобы перечислить все интересующие вас условия, включая old_new_speaker = {'old', 'new'}; same_different_prosody = {'то же самое', 'другое'}; Confidence_level = {'c', 'd'}; и Response = {'1', '0'}. Затем объедините эти условия, чтобы создать комбинации данных, такие как sub1_new_different_c_0, и сохраните их как файлы с расширением txt.
Анализ ERP с помощью RStudio
1. Чтобы упорядочить данные, преобразуйте их в длинный формат. Импортируйте все .txt файлы в RStudio и используйте функцию rbind для добавления каждого временного кадра данных к alldata, создавая большой кадр данных, содержащий все данные файла. Переименуйте столбец Строка во всех данных в Время для точности. Используйте функцию melt для преобразования alldata из широкого в длинный формат (Data_Long), где каждое наблюдение занимает строку и включает все связанные условия и информацию о канале.
2. Используйте функцию фильтра из пакета dplyr для выбора данных, соответствующих определенным условиям: Суждение равно 1. Источник - h. Память бывает либо старой, либо новой. Просодия бывает c или d.
3. Определите области на основе электродных каналов следующим образом: Левый передний (F3, F7, FC5, F5, FT7, FC3, AF7, AF3). Левый центральный (С3, Т7, СР5, С5, ТП7, СР3). Левая задняя (P3, P7, P5, PO7, PO3). Медиальная передняя (Fz, AFz, FC1, FC2, F1, F2, FCz). Медиальная центральная (CP1, CP2, Cz, C1, C2, CPz). Медиальная задняя (Pz, O1, Oz, O2, P1, POz, P2). Правая передняя (FC6, F4, F8, FC4, F6, AF4, AF8, FT8). Правый центральный (CP6, C4, T8, CP4, C6, TP8). Правый задний (P4, P8, PO4, PO8, P6). Сгруппируйте эти области в переднюю, центральную и заднюю области.
4. Сохраните рабочую область для последующей загрузки данных. Для экономии используйте setwd(); Для загрузки используйте load().
Статистический анализ
1. Для анализа данных ЭЭГ по всем электродам отфильтруйте набор данных, включив в него только релевантные точки данных, где суждение равно 1, источник — h, память — старая или новая, объект — не пустой, а время — от 400 до 850 мс.
2. Обновление названий областей интереса (ROI) на основе предопределенных сопоставлений. Например, левый передний, медиальный передний и правый передний предназначены для передних.
3. Подгонка линейной модели смешанных эффектов к данным с помощью lmer из пакета^{lme4 39}, с напряжением в качестве переменной отклика и памятью и ROI в качестве фиксированных эффектов, включая случайные пересечения для объекта и канала: fit_time_window <- lmer(Voltage ~ Memory * ROI + (1|Тема) + (1| канал), data=DATA). Многократно заменяйте DATA на комбинированные, только уверенные и сомнительные данные. Смотрите пример кода в OSF³².
  1. Получите результаты анализа из подогнанной модели: anova(fit_time_window), eta_squared(fit_time_window) и emmeans(fit_time_window, specs = попарно ~ Память * ROI, adjust = "Tukey").
4. Для анализа данных ЭЭГ в Pz, при фильтрации набора данных, выполните те же действия, что и выше, но также добавьте условие Channel == 'ChPz'. Повторите описанный выше процесс, но используйте lmer(Voltage ~ Memory + (1|Тема)) для анализа Pz-данных от 400 до 850 мс.
5. Чтобы построить график ERP в Pz (повторите по объединенному, уверенно только и сомнительному набору данных), отфильтруйте набор данных, включив в него только релевантные точки данных, где Суждение равно 1, Источник — h, Память — старая или новая, а Тема не пуста.
  1. Определите вектор, содержащий несколько точек электродов (включая Pz), и добавьте к ним префикс Ch в соответствии с соглашением об именовании каналов в данных. Выберите Pz out.
  2. Укажите временное окно для анализа ERP: time_window <- c(400, 850). Определите интересующий электрод, в данном случае Pz. Пройдитесь по выбранному электроду и создайте графики, как описано ниже.
    1. Отфильтруйте данные для Pz-электрода с помощью фильтра (Channel == k), чтобы изолировать соответствующие точки данных.
    2. Создайте фактор взаимодействия для типа и цвета линии на основе условия Память с помощью interaction(current_channel_data$Memory) и пометьте условия как Старые и Новые.
    3. Вычислите сводную статистику и стандартную ошибку для измерений напряжения с течением времени с помощью функции summarySEwithin, указав Voltage в качестве переменной измерения и Time в качестве переменной within.
    4. Сгенерируйте график ERP для Pz-электрода, добавив фон для указанного временного окна с помощью geom_rect с параметрами xmin, xmax, ymin и ymax. Включите стандартные ленты ошибок с geom_ribbon, отображая среднее напряжение с geom_line. Настройте внешний вид и метки графика с помощью таких функций, как scale_x_continuous, scale_y_reverse, scale_linetype_manual, scale_fill_manual и scale_color_manual.
  3. Используйте theme_minimal для базовой темы и дополнительно настраивайте размеры текста и размещение легенды с помощью темы.
Построение топографии с помощью MATLAB
1. Импортируем данные и устанавливаем условия, определяем список предметов от 1 до 40 с subject_list = 1:40. Определите два пустых массива ячеек для хранения данных для корректной классификации старых и новых состояний: "human_timelocked_old_correct = {}; human_timelocked_new_correct = {}. Просмотрите список субъектов, импортируйте данные каждого субъекта и отфильтруйте их по условиям.
2. Извлекайте информацию о событиях из исходных данных EEGLAB, выбирая только события с Ответом, равным 1. Выберите испытания с параметром Источник, равным h, и обновите структуру данных соответствующим образом. Разделяйте данные для старых и новых условий, ограничиваясь правильными испытаниями с помощью источника h, и выполняйте анализ блокировки времени.
  1. Рассчитайте общее среднее значение как для старых, так и для новых условий: cfg = []; grandavg_old_correct = ft_timelockgrandaverage(cfg, human_timelocked_old_correct{:}); grandavg_new_correct = ft_timelockgrandaverage(cfg, human_timelocked_new_correct{:}).
3. Проведите тест на перестановку, как описано ниже.
  1. Определим конфигурацию соседей с помощью указанного файла макета: cfg_neigh = []; cfg_neigh.method = 'расстояние'; cfg_neigh.layout = 'path_to_layout_file'; соседи = ft_prepare_neighbours(cfg_neigh).
  2. Настройте параметры для теста перестановок, включая матрицу дизайна и статистический метод: cfg = []; cfg.method = 'монтекарло'; cfg.statistic = 'ft_statfun_indepsamplesT'; cfg.correctm = 'кластер'; cfg.clusteralpha = 0.05; cfg.clusterstatistic = 'maxsum'; cfg.minnbchan = 2; cfg.tail = 0; cfg.clustertail = 0; cfg.alpha = 0.05; cfg.numrandomization = 1000; cfg.neighbours = соседи; cfg.design = [2*ones(1, length(human_timelocked_new_correct)) ones(1, length(human_timelocked_old_correct)))]; cfg.ivar = 1. Кроме того, обратитесь к следующей ссылке (https://www.fieldtriptoolbox.org/tutorial/cluster_permutation_freq/) для получения уроков по использованию Fieldtrip⁴⁰.
  3. Проведите статистический тест на усредненных данных для старых и новых условий: stat = ft_timelockstatistics(cfg, human_timelocked_old_correct{:}, human_timelocked_new_correct{:}).
4. Выполните построение пользовательских интервалов, как описано ниже.
  1. Вычислите разницу между двумя условиями: cfg = []; cfg.operation = 'вычитать'; cfg.parameter = 'avg'; grandavg_difference = ft_math(cfg, grandavg_old_correct, grandavg_new_correct).
  2. Определите временные окна: time_windows = { [0.500, 0.800] % LPC}.
  3. Создайте рисунок и постройте график разницы между условиями с помощью ft_topoplotER(cfg_plot, grandavg_difference).

Результаты

Классический эффект «старый/новый» характеризуется значительным увеличением мозговой активности слушателей на Pz-электроде (от 300 до 700 мс), когда содержание речи в тестовой сессии совпадает с речевым во время учебной сессии, особенно в состоянии старого говорящего по сравнению с новым ...

Обсуждение

В исследовании представлен конвейер для сбора и анализа данных ЭЭГ, уделяя особое внимание распознаванию ранее изученных идентичностей говорящих. В этом исследовании рассматриваются различия между фазами обучения и узнавания, в том числе различия в содержании речи²² и

Раскрытие информации

Информация не подлежит разглашению.

Благодарности

Работа выполнена при поддержке Фонда естественных наук Китая (грант No 31971037); программа «Шугуан» при поддержке Шанхайского фонда развития образования и Шанхайского муниципального комитета по образованию (грант No 20SG31); Шанхайский фонд естественных наук (22ZR1460200); Программа ориентации супервайзеров Шанхайского университета международных исследований (2022113001); и Крупная программа Национального фонда социальных наук Китая (грант No 18ZDA293).

Материалы

Name	Company	Catalog Number	Comments
64Ch Standard BrainCap for BrainAmp	Easycap GmbH	Steingrabenstrasse 14 DE-82211	https://shop.easycap.de/products/64ch-standard-braincap
Abrasive Electrolyte-Gel	Easycap GmbH	Abralyt 2000	https://shop.easycap.de/products/abralyt-2000
actiCHamp Plus	Brain Products GmbH	64 channels + 8 AUX	https://www.brainproducts.com/solutions/actichamp/
Audio Interface	Native Instruments GmbH	Komplete audio 6	https://www.native-instruments.com/en/products/komplete/audio-interfaces/komplete-audio-6/
Foam Eartips	Neuronix	ER3-14	https://neuronix.ca/products/er3-14-foam-eartips
Gel-based passive electrode system	Brain Products GmbH	BC 01453	https://www.brainproducts.com/solutions/braincap/
High-Viscosity Electrolyte Gel	Easycap GmbH	SuperVisc	https://shop.easycap.de/products/supervisc

Ссылки

Larrouy-Maestri, P., Poeppel, D., Pell, M. D. The sound of emotional prosody: Nearly 3 decades of research and future directions. Perspect Psychol Sci. , 17456916231217722 (2024).
Pell, M. D., Kotz, S. A. Comment: The next frontier: Prosody research gets interpersonal. Emotion Rev. 13 (1), 51-56 (2021).
Cummins, N., et al. Multilingual markers of depression in remotely collected speech samples: A preliminary analysis. J Affect Disor. 341, 128-136 (2023).
Cummins, N., Baird, A., Schuller, B. W. Speech analysis for health: Current state-of-the-art and the increasing impact of deep learning. Methods. 151, 41-54 (2018).
Kennedy, E., Thibeault, S. L. Voice-gender incongruence and voice health information-seeking behaviors in the transgender community. Am J Speech-language Pathol. 29 (3), 1563-1573 (2020).
Zäske, R., et al. Electrophysiological correlates of voice memory for young and old speakers in young and old listeners. Neuropsychologia. 116, 215-227 (2018).
Lavan, N., Burton, A. M., Scott, S. K., Mcgettigan, C. Flexible voices: Identity perception from variable vocal signals. Psychonomic Bullet Rev. 26, 90-102 (2019).
Perrachione, T. K., Del Tufo, S. N., Gabrieli, J. D. Human voice recognition depends on language ability. Science. 333 (6042), 595-595 (2011).
Lavan, N., Knight, S., Mcgettigan, C. Listeners form average-based representations of individual voice identities. Nat Comm. 10 (1), 2404 (2019).
Xu, H., Armony, J. L. Influence of emotional prosody, content, and repetition on memory recognition of speaker identity. Quart J Exp Psychol. 74 (7), 1185-1201 (2021).
Jiang, X., Pell, M. D. The sound of confidence and doubt. Speech Comm. 88, 106-126 (2017).
Winters, S. J., Levi, S. V., Pisoni, D. B. Identification and discrimination of bilingual talkers across languages. J Acoustical Soci Am. 123 (6), 4524-4538 (2008).
Orena, A. J., Polka, L., Theodore, R. M. Identifying bilingual talkers after a language switch: Language experience matters. J Acoustical Soc Am. 145 (4), EL303-EL309 (2019).
Xie, X., Myers, E. The impact of musical training and tone language experience on talker identification. J Acoustical Soc Am. 137 (1), 419-432 (2015).
Kadam, M. A., Orena, A. J., Theodore, R. M., Polka, L. Reading ability influences native and non-native voice recognition, even for unimpaired readers. J Acoustical Soc Am. 139 (1), EL6-EL12 (2016).
Fleming, D., Giordano, B. L., Caldara, R., Belin, P. A language-familiarity effect for speaker discrimination without comprehension. Proc Natl Acad Sci. 111 (38), 13795-13798 (2014).
White, K. S., Yee, E., Blumstein, S. E., Morgan, J. L. Adults show less sensitivity to phonetic detail in unfamiliar words, too. J Memory Lang. 68 (4), 362-378 (2013).
Levi, S. Methodological considerations for interpreting the language familiarity effect in talker processing. Wiley Interdiscip Revi: Cognitive Sci. 10 (2), e1483 (2019).
Perrachione, T. K., Frühholz, S., Belin, P. Recognizing Speakers Across Languages. The Oxford Handbook of Voice Perception. , 515-538 (2018).
Lavan, N., Burton, A. M., Scott, S. K., Mcgettigan, C. Flexible voices: Identity perception from variable vocal signals. Psychonomic Bullet Rev. 26 (1), 90-102 (2019).
Zäske, R., Hasan, B. a. S., Belin, P. It doesn't matter what you say: Fmri correlates of voice learning and recognition independent of speech content. Cortex. 94, 100-112 (2017).
Zäske, R., Volberg, G., Kovács, G., Schweinberger, S. R. Electrophysiological correlates of voice learning and recognition. J Neurosci. 34 (33), 10821-10831 (2014).
Lavan, N., Knight, S., Mcgettigan, C. Listeners form average-based representations of individual voice identities. Nat Comm. 10 (1), 1-9 (2019).
Chen, W., Jiang, X. Voice-Cloning Artificial-Intelligence Speakers Can Also Mimic Human-Specific Vocal Expression. Preprints. , (2023).
Pisanski, K., Anikin, A., Reby, D. Vocal size exaggeration may have contributed to the origins of vocalic complexity. Philosoph Trans Royal Soc B. 377 (1841), 20200401 (2022).
Belin, P., Fecteau, S., Bedard, C. Thinking the voice: Neural correlates of voice perception. Trend Cognitive Sci. 8 (3), 129-135 (2004).
. Praat: doing phonetics by computer Available from: https://www.fon.hum.uva.nl/praat/ (2022)
Jiang, X., Pell, M. D. On how the brain decodes vocal cues about speaker confidence. Cortex. 66, 9-34 (2015).
Jiang, X., Gossack-Keenan, K., Pell, M. D. To believe or not to believe? How voice and accent information in speech alter listener impressions of trust. Quart J Exp Psychol. 73 (1), 55-79 (2020).
Rigoulot, S., Pell, M. D. Seeing emotion with your ears: Emotional prosody implicitly guides visual attention to faces. PloS One. 7 (1), e30740 (2012).
Cui, X., Jiang, X., Ding, H. Affective prosody guides facial emotion processing. Curr Psychol. 42 (27), 23891-23902 (2023).
. Memorization-based training and testing paradigm for robust vocal identity recognition in expressive speech using event-related potentials analysis Available from: https://osf.io/6zu83/ (2024)
Brainvision recorder. Available from: https://www.brainproducts.com/downloads/recorder/ (2024)
Jiang, X., Paulmann, S., Robin, J., Pell, M. D. More than accuracy: Nonverbal dialects modulate the time course of vocal emotion recognition across cultures. J Exp Psychol. 41 (3), 597 (2015).
Jiang, X., Pell, M. D. The feeling of another's knowing: How "mixed messages" in speech are reconciled. J Exp Psychol. 42 (9), 1412 (2016).
Zhou, X., et al. Semantic integration processes at different levels of syntactic hierarchy during sentence comprehension: An erp study. Neuropsychologia. 48 (6), 1551-1562 (2010).
Jiang, X., Tan, Y., Zhou, X. Processing the universal quantifier during sentence comprehension: Erp evidence. Neuropsychologia. 47 (8-9), 1799-1815 (2009).
Acunzo, D. J., Mackenzie, G., Van Rossum, M. C. W. Systematic biases in early erp and erf components as a result of high-pass filtering. J Neurosci Meth. 209 (1), 212-218 (2012).
Bates, D. Fitting linear mixed models in r. R. 5 (1), 27-30 (2005).
Oostenveld, R., Fries, P., Maris, E., Schoffelen, J. M. Fieldtrip: Open source software for advanced analysis of meg, eeg, and invasive electrophysiological data. Computat Intelligence Neurosci. 2011, 1-9 (2011).
Coopmans, C. W., Nieuwland, M. S. Dissociating activation and integration of discourse referents: Evidence from erps and oscillations. Cortex. 126, 83-106 (2020).
Humble, D., et al. The jena voice learning and memory test (jvlmt): A standardized tool for assessing the ability to learn and recognize voices. Behavior Res Meth. 55 (3), 1352-1371 (2023).
Holmes, E., To, G., Johnsrude, I. S. How long does it take for a voice to become familiar? Speech intelligibility and voice recognition are differentially sensitive to voice training. Psychol Sci. 32 (6), 903-915 (2021).
Kroczek, L. O. H., Gunter, T. C. Communicative predictions can overrule linguistic priors. Sci Rep. 7 (1), 17581 (2017).
Kroczek, L. O. H., Gunter, T. C. The time course of speaker-specific language processing. Cortex. 141, 311-321 (2021).
Schroeger, A., et al. Atypical prosopagnosia following right hemispheric stroke: A 23-year follow-up study with mt. Cognitive Neuropsychol. 39 (3-4), 196-207 (2022).
Garrido, L., et al. Developmental phonagnosia: A selective deficit of vocal identity recognition. Neuropsychologia. 47 (1), 123-131 (2009).
Schelinski, S., Borowiak, K., Von Kriegstein, K. Temporal voice areas exist in autism spectrum disorder but are dysfunctional for voice identity recognition. Social Cognitive Affective Neurosci. 11 (11), 1812-1822 (2016).
Holle, H., Gunter, T. C. The role of iconic gestures in speech disambiguation: Erp evidence. J Cognitive Neurosci. 19 (7), 1175-1192 (2007).
Regel, S., Coulson, S., Gunter, T. C. The communicative style of a speaker can affect language comprehension? Erp evidence from the comprehension of irony. Brain Res. 1311, 121-135 (2010).

Перепечатки и разрешения

Запросить разрешение на использование текста или рисунков этого JoVE статьи

Запросить разрешение

Смотреть дополнительные статьи

210

This article has been published

Video Coming Soon

Keep me updated:

Конфиденциальность

Условия эксплуатации

Политика

СВЯЖИТЕСЬ С НАМИ

РЕКОМЕНДОВАТЬ БИБЛИОТЕКЕ

НОВОСТИ JoVE

Исследования

Образование

АВТОРЫ

Библиотекарь

О JoVE