이벤트 관련 전위 분석을 사용하여 표현 음성에서 강력한 음성 정체성 인식을 위한 암기 기반 교육 및 테스트 패러다임

Wenjun Chen; Xiaoming Jiang

doi:10.3791/66913

JoVE 비디오를 활용하시려면 도서관을 통한 기관 구독이 필요합니다. 전체 비디오를 보시려면 로그인하거나 무료 트라이얼을 시작하세요.

Method Article

이벤트 관련 전위 분석을 사용하여 표현 음성에서 강력한 음성 정체성 인식을 위한 암기 기반 교육 및 테스트 패러다임

DOI:

10.3791/66913

⸱

August 9th, 2024

Wenjun Chen¹, Xiaoming Jiang¹^,²

¹Institute of Linguistics, Shanghai International Studies University, ²Key Laboratory of Language Science and Multilingual Artificial Intelligence, Shanghai International Studies University

Please note that all translations are automatically generated. Click here for the English version.

요약

이 연구는 확신에 차고 의심스런 운율 시나리오에서 이벤트 관련 잠재력의 오래된/새로운 효과를 조사하기 위한 훈련-테스트 패러다임을 소개합니다. 데이터는 Pz 및 기타 전극에서 400-850ms 사이의 향상된 후기 양성 성분을 보여줍니다. 이 파이프라인은 음성 운율 이상의 요인과 신호 바인딩 대상 식별에 미치는 영향을 탐색할 수 있습니다.

초록

음성 스트림에서 친숙한 화자를 인식하는 것은 인간의 언어 의사 소통의 기본 측면입니다. 그러나 청취자가 어떻게 표현 언어에서 화자의 정체성을 식별할 수 있는지는 여전히 불분명합니다. 이 연구는 암기 기반 개별 화자 정체성 인식 접근 방식과 수반되는 뇌파(EEG) 데이터 분석 파이프라인을 개발하여 청취자가 친숙한 화자를 인식하고 낯선 화자를 구별하는 방법을 모니터링합니다. EEG 데이터는 음성을 기반으로 새로운 화자와 기존 화자를 구분하는 동안 온라인 인지 과정을 캡처하여 뇌 활동을 실시간으로 측정하고 반응 시간 및 정확도 측정의 한계를 극복합니다. 패러다임은 세 단계로 구성됩니다 : 청취자는 세 가지 목소리와 그들의 이름 (훈련) 사이의 연관성을 설정합니다. 청취자는 세 명의 후보의 음성에 해당하는 이름을 나타냅니다(확인). 청취자는 두 가지 대안 강제 선택 작업(테스트)에서 세 가지 이전 화자 목소리와 세 가지 새로운 화자 목소리를 구별합니다. 테스트에서 언어 운율은 자신감이 있거나 의심스러웠습니다. EEG 데이터는 64채널 EEG 시스템을 사용하여 수집한 다음 전처리를 거쳐 ERP 및 통계 분석을 위한 RStudio와 뇌 지형학을 위한 MATLAB으로 가져왔습니다. 결과는 Pz의 400-850ms 창 및 두 프로소디의 다른 더 넓은 범위의 전극에서 새로운 토커 조건과 비교하여 올드 토커에서 확대된 후기 양성 성분(LPC)이 유도되었음을 보여주었습니다. 그러나 이전/새 효과는 의심스런 운율 인식을 위해 중앙 및 후방 전극에서 강력했던 반면, 전방, 중앙 및 후방 전극은 확신 있는 운율 상태를 위한 것입니다. 이 연구는 이 실험 설계가 다양한 시나리오(예: 혐기성 표현) 및 발성아증과 같은 환자의 병리에서 화자별 신호 결합 효과를 조사하기 위한 참고 자료 역할을 할 수 있음을 제안합니다.

서문

인간의 발성에는 감정(emotion)^1,2, 건강 상태^3,4, 생물학적 성(biological sex)⁵, 나이(age⁾⁶, 그리고 더 중요하게는 개인의 발성 정체성(vocal identity)^7,8과 같은 정보가 풍부하다. 연구에 따르면 인간 청취자는 목소리를 통해 동료의 정체성을 인식하고 구별할 수 있는 강력한 능력을 가지고 있으며, 음향 공간에서 화자 정체성의 평균 기반 표현을 둘러싼 화자 내 변동을 극복한다⁹. 이러한 변화는 명확한 실용적 의도^{9, 감정} 운율(emotion prosodies)¹⁰, 화자의 앎감을 전달하는 목소리 자신감(vocal confidence)¹¹에 해당하는 음향 조작(기본 주파수 및 성도 길이, 즉 F0 및 VTL)에 의해 발생한다. 행동 실험은 언어 관련 조작^8,12,13, 음악 경험 또는 읽기 능력과 같은 참가자 관련 특성^14,15, 거꾸로 말하기 또는 비단어와 같은 자극 관련 적응^16,17 등 청취자가 화자를 인식하는 데 영향을 미치는 많은 요인에 초점을 맞췄다. 더 많은 것은 문헌 검토^18,19에서 찾을 수 있습니다. 최근의 몇몇 실험에서는 화자의 정체성 표현의 개인적 차이가 어떻게 인식 정확도를 저해할 수 있는지를 조사했으며, 이는 높은 감정 표현력과 낮은 감정 표현력(high and low emotional expressiveness)¹⁶, 중립적 표현력과 두려운 표현력⁽neutral versus fearful prosodies5)을 포함한 여러 측면을 고려했다. 리뷰²⁰에서 제안한 바와 같이 추가 조사를 위해 더 많은 가능한 시나리오가 열려 있습니다.

첫 번째 연구 격차에 대해, 이 연구는 화자 식별의 신경학적 토대가 화자 내 변이가 청취자의 뇌 활동에 어떻게 도전하는지 아직 완전히 탐구하지 않았다고 제안합니다. 예를 들어, Zäske et al.의 fMRI 기반 화자 인식 과제에서 참가자의 우측 후방상측두이랑(pSTG), 우측 하측/중전두회(IFG/MFG), 우측 내측 전두이랑, 좌측 미상이랑은 언어 내용이 같거나 다르는지에 관계없이 오래된 화자와 새로운 화자로 올바르게 식별되었을 때 활성화가 감소한 것으로 나타났다²¹. 그러나 Zäske et al.의 초기 뇌파 검사(EEG) 연구에서는 화자 정체성 변이가 다른 텍스트를 통해 도입되었을 때 이러한 구/신 효과를 관찰하지 못했다²². 구체적으로, 청취자가 동일한 텍스트를 표현하는 친숙하고 훈련된 발화자를 만났을 때(즉, 다양하지 않은 언어 내용의 재생을 들었을 때) Pz 전극에서 감지된 300ms에서 700ms에 이르는 더 큰 LPC(Late Positive Component)는 발화자가 새로운 텍스트를 전달할 때 없었습니다.

Zäske et ^al.21의 주장을 뒷받침하기 위해 이 연구는 ERP(Event-Related Potential) 분석에서 교육 세션과 테스트 세션 간의 언어 내용의 차이에도 불구하고 이전/새로운 효과가 여전히 관찰될 수 있다고 의심합니다. 이 이론적 근거는 다른 텍스트가 사용된 조건에서 Zäske et ^al.22에서 구/신 효과가 없는 것은 Lavan et ^al.23이 제안한 것처럼 철저하고 효과적인 정체성 학습을 보장하기 위해 훈련 과제 중에 추가 점검 세션이 부족했기 때문일 수 있다는 개념에서 비롯됩니다. 결과적으로 이 연구의 첫 번째 목표는 이 가설을 조사하고 검증하는 것입니다. 본 연구는 훈련-테스팅 패러다임²²에 체크 세션(checking session)을 추가하여 이를 검증하는 것을 목표로 한다.

이 연구가 다루고자 하는 또 다른 핵심 질문은 언어 운율이 있을 때 화자 식별의 견고성입니다. 이전의 행동 연구는 청취자가 서로 다른 운율에 걸쳐 화자를 인식하는 데 특히 어려움을 겪는다는 것을 시사했는데, 이는 운율 맥락의 조절적 역할, 즉 청취자는 다양한 훈련 테스트 운율 조건에서 저조한 성과를 보였습니다. 본 연구는 청자가 자신감 있는 또는 의심스런 운율에서 친숙한 화자를 인식하도록 노출시킴으로써 이를 검증하는 것을 목표로 한다²⁴. 이 연구는 관찰된 ERP 차이가 음성 운율이 ID 인식에 미치는 영향을 설명하는 데 도움이 될 것으로 기대합니다.

본 연구의 핵심 목적은 화자 인식에서 구/신 효과의 견고성을 조사하고, 특히 자신감 있는 운율과 의심스러운 운율에서 발화자를 인식하는 데 차이가 있는지 여부를 조사하는 것입니다. Xu와 Armony¹⁰은 훈련-테스트 패러다임을 사용하여 행동 연구를 수행했으며, 그들의 연구 결과는 청취자가 운율 차이를 극복할 수 없으며(예: 중립 운율에서 발화자를 인식하도록 훈련받은 후 두려운 운율에서 테스트) 확률 수준¹⁰ 미만의 정확도만 달성할 수 있음을 시사합니다. 음향 분석에 따르면 다양한 감정 상태를 표현하는 스피커는 VTL/F0 변조와 관련이 있습니다. 예를 들어, 자신감 있는 운율은 VTL이 길어지고 F0가 낮아지는 것이 특징인 반면, 의심스런 운율^11,24의 경우 그 반대입니다. 또 다른 증거는 Lavan et ^al.23의 연구에서 나온 것으로, 청취자는 화자의 VTL 및 F0 변화에 적응하고 화자의 평균 기반 표현을 형성할 수 있음을 확인했습니다. 이 연구는 행동 데이터 관점에서 청취자가 운율 전반에 걸쳐 화자의 정체성을 여전히 인식할 가능성이 있음을 조정합니다(예: 자신감 있는 운율에서 자신을 인식하도록 훈련받았지만 의심스러운 운율에서 테스트됨, 준비 중인 별도의 원고에 보고됨). 그러나 화자 식별의 신경 상관 관계, 특히 Zäske et ^al.22이 관찰한 이전/새로운 효과의 일반화 가능성은 여전히 불분명합니다. 따라서 현재 연구는 테스트를 위한 맥락으로 확신에 찬 운율과 의심스러운 운율에서 이전/새로운 효과의 견고성을 검증하는 데 전념하고 있습니다.

이 연구는 구/신 효과 연구에서 기존 연구 패러다임에서 벗어난 것을 소개합니다. 과거의 연구는 오래된/새로운 화자 인식이 인식에 미치는 영향에 초점을 맞췄지만, 이 연구는 패러다임에 두 가지 자신감 수준(확신 대 의심)을 통합함으로써 이를 확장했습니다(따라서 2+2 연구). 이를 통해 우리는 자신감 있고 의심스러운 언어 운율의 맥락에서 화자 인식을 조사할 수 있습니다. 이 패러다임은 이전/새로운 효과의 견고성을 탐구할 수 있게 해줍니다. 자신감 있는 음성 맥락과 의심스러운 음성 맥락 모두에서 기억 효과와 관심 영역(ROI)에 대한 분석은 이 조사의 증거로 사용됩니다.

전체적으로, 이 연구는 1) 언어 내용이 동일하지 않고 2) 확신 대 의심 운율이 있는 경우에도 EEG 이전/새 효과의 확대된 LPC가 관찰 가능하다는 가설을 통해 음성 인식의 EEG 상관 관계에 대한 이해를 업데이트하는 것을 목표로 합니다. 본 연구는 3단계 패러다임을 통해 가설을 조사하였다. 첫째, 훈련 단계에서 참가자들은 세 가지 목소리와 그에 해당하는 이름 사이의 연관성을 확립했습니다. 그 후, 확인 단계에서 그들은 3명의 후보 중에서 선택한 음성에 해당하는 이름을 식별하는 임무를 맡았습니다. Lavan et ^al.23에 따른 이러한 점검은 훈련 단계와 테스트 단계의^{텍스트가 다를} 때 관찰되지 않는 오래된 화자 친숙화(old speaker familiarization)가 불충분하고6, 발화자가 중립적이고 두려운 운율(prosodies)을 가로지르는 발화자를 인식할 수 없을 때 관찰되지 않는 오래된 화자에 대한 친숙함을 극복하는 것을 목표로 한다¹⁰. 마지막으로, 테스트 단계에서 참가자들은 두 가지 대안 강제 선택 과제에서 세 가지 기존 화자 목소리와 세 가지 새로운 화자 목소리를 구별했으며, 언어 운율은 자신감 있거나 의심스러운 것으로 제시되었습니다. EEG 데이터는 64채널 EEG 시스템을 사용하여 수집되었으며 분석 전에 전처리를 거쳤습니다. 통계 분석과 ERP(Event-related Potential) 분석은 RStudio에서 수행되었으며, MATLAB은 뇌 지형 분석에 활용되었습니다.

디자인 세부사항과 관련하여, 본 연구는 VTL과 관련이 있고 말하는 사람에 대한 인상에 영향을 미치는 화자의 키를 조절하는 화자 정체성 학습 실험을 제안한다²³. 이러한 측면은 또한 인지된 지배력(perceived dominance)²⁵과 같은 사회적 인상에 영향을 미치며, 이러한 높은 수준의 인상 형성은 화자 정체성(화자 정체성)²⁶을 해독하는 것과 상호작용할 수 있다.

프로토콜

상하이국제대학(Shanghai International Studies University)의 언어학 연구소(Institute of Linguistics)의 윤리위원회(Ethics Committee)는 아래에 설명된 실험 설계를 승인했다. 이 연구에 대한 모든 참가자로부터 정보에 입각한 동의를 얻었습니다.

1. 오디오 라이브러리의 준비 및 검증

오디오 녹음 및 편집
1. 이전 영어 버전을 만드는 표준 절차에 따라 중국어 음성 데이터베이스를 만드는 동시에 중국¹¹의 맥락에 맞게 필요한 경우 조정을 합니다. 이 실험을 위해 세 가지 유형의 화용론적 의도, 즉 판단, 의도, 사실을 포함하는 123개의 문장이 사용되었습니다. 이렇게 하려면 기존 영어 문 말뭉치¹¹ 을 참조하고 추가 지역화된 시나리오가 포함된 지역화된 중국어 버전을 만듭니다.
2. 24명의 화자(여성 12명)를 모집하여 이러한 문장을 중립적이고 의심스럽고 자신감 있는 운율로 표현하면서 과거 녹음 작업^11,24의 지정된 지침을 참조하고 조정합니다.
  1. 이곳의 연사를 위해 상하이 국제 연구 대학의 표준 중국어 사용자 24명(여성 12명, 남성 12명)을 모집하며, Putonghua Proficiency Test에서 87-91점을 통해 중국어 능력이 입증되었습니다. 남성 참가자의 평균 연령은 24.55세± 2.09세였으며 교육 연령은 18.55세± 1.79세였으며 평균 키는 174.02 ± 20.64cm였습니다. 여성의 평균 연령은 22.30세± 2.54세였으며, 교육 연령은 18.20세± 2.59세였으며 평균 키는 165.24± 11.42cm였습니다. 언어 청각 장애나 신경 또는 정신 장애를 보고한 사람은 아무도 없었다.
3. 연사들에게 각 성구를 두 번씩 반복하라고 한다. 소프트웨어 Praat²⁷에서 샘플링 속도를 48,000Hz로 설정합니다. Praat가 고장나서 녹화 손실이 발생할 수 있으므로 스트림이 10분을 넘지 않도록 하십시오.
4. Praat를 사용하여 긴 오디오 스트림을 문장당 클립으로 편집하세요. 동일한 텍스트가 두 번 반복되므로 대상 문장으로 의도한 운율을 가장 잘 나타내는 버전을 선택합니다.
오디오 선택
1. Praat script²⁸을 사용하여 오디오 라이브러리를 70dB로 표준화하고 샘플링 속도를 41,000Hz로 표준화합니다. 이렇게 하려면 Praat를 열고 사운드 파일을 로드한 다음 개체 창에서 선택합니다. Modify(수정) 메뉴로 이동하여 Scale intensity...(스케일 강도)를 선택하고 설정 창에서 New average intensity (dB SPL)(새 평균 강도(dB SPL))를 70으로 설정한 다음 OK(확인 )를 클릭하여 정규화를 적용합니다.
2. 48명의 독립적인 청취자를 모집하여 신뢰 수준에 대한 하나의 7-리커트 척도로 각 오디오를 평가합니다(전혀 그렇지 않음은 1, 매우 확신하는 경우 7¹¹). 각 문장이 12명의 평가자에 의해 평가되었는지 확인합니다.
3. 한 가지 주요 원칙에 따라 지정된 임계값에 적합한 오디오를 선택하십시오: 확신에 찬 의도에 대한 평균 등급이 의심스러운 의도 오디오보다 높은지 확인하십시오. 이러한 임계값이 동일한 생물학적 성별의 12명의 발화자 간에 일관되도록 합니다. 예를 들어, 이 화자들이 각각 확신에 찬 운율과 의심스러운 운율을 가진 두 문장을 표현했다면, 평가에서 유의미한 차이가 관찰되어야 합니다.
4. 현재 실험 설계의 목적을 위해 총 480개의 오디오 클립으로 구성된 4개의 오디오 블록을 사용하며 각 블록에는 120개의 오디오가 포함됩니다.
  1. 24명의 발화자를 6명씩 4개 그룹으로 나누고, 남성은 2개 그룹, 여성은 2개 그룹으로 나뉘며, 각 그룹은 생물학적 성별이 같은 발화자로 구성됩니다.
  2. 각 그룹에 대해 동일한 텍스트의 지각 등급에 따라 오디오 클립을 선택하여 평균 신뢰 등급이 각 문장에 대한 의심 등급보다 높은지 확인합니다. 이 네 가지 블록은 다음과 같은 점에서 다릅니다 : 1) 결합 된 6 명의 화자 - 그들의 정체성은 다릅니다. 2) 블록의 절반은 수컷에 의해 표현되고 다른 절반은 암컷에 의해 표현됩니다. 3) 각 블록에 표현된 텍스트가 다릅니다.
5. 선택 프로세스를 시작하기 전에 각 스피커의 높이 데이터를 문서화하십시오. 이 정보를 사용하여 화자를 성별과 키에 따라 4개의 독립적인 그룹으로 나눕니다.
  1. 총 24명의 화자가 있으며 남성과 여성이 동등하게 나뉩니다. 각 성별 그룹 내에서 12명을 키별로 정렬합니다.
6. 이 12명을 번갈아 가며 두 그룹으로 나눕니다. 예를 들어, 1에서 12까지 정렬된 목록에서 개인 1, 3, 5, 7, 9 및 11은 한 그룹을 형성하고 나머지 절반은 두 번째 그룹을 형성합니다. 이러한 그룹 내에서 오디오 클립의 높이에 따라 일정한 간격으로 스피커를 선택합니다.
  참고: 키를 제어 요인으로 포함하는 것은 화자 높이 관련 음향 측정(VTL 및 F0)이 발화자 및 화자 신원 인식에 영향을 미친다는 연구 결과에 근거한^{것이다 23}.

2. EEG 데이터 수집을 위한 프로그래밍

실험 매트릭스 설계
1. 이 연구는 피험자 내 디자인을 사용합니다. 교육 세션을 조정하는 동안 각 주제에 따라 제공되는 테스트 세션을 준비합니다. 남성 화자와 여성 화자가 각각 두 블록씩 가져가는 4개의 블록을 준비합니다. 그림 1에서 제안한 것처럼 자신감 있는 운율로 훈련하고 확신과 의심 모두에 대해 테스트하고, 의심 운율에서 훈련하고 확신과 의심 모두에 대해 테스트하기 위해 두 개의 블록을 할당합니다.
2. 화자 식별 및 음성 자신감 인식에 대한 기존 EEG 연구를 참조하여 기능 선별 검사의 지속 시간을 결정하십시오^22,29. 참가자^30,31 사이에 라틴 사각형 행렬로 4 개의 블록의 순서를 구성합니다. 이러한 목록을 준비하려면 사용자 정의 Python 코딩을 사용하는 것이 좋습니다. OSF³²의 PsychoPy 프로그램에 대한 시도 목록과 라틴 사각형 행렬에 대한 코드 스니펫을 참조하십시오.
3. 동일한 생물학적 성별의 키 순서에서 각 간격에 따라 발화자를 선택하십시오. 각 블록에 대해 원래 24명의 발화자 중에서 6명의 화자를 선택하고, 발화자는 보고된 신장에 따라 4개의 목록으로 그룹화합니다.
4. 중국의 백개 가족 성에서 처음 24개의 이름을 선택하십시오. 오디오를 표현한 24명의 화자에게 성을 무작위로 할당하여 Xiao(중국어로 Junior) ZHAO와 같이 호칭합니다.
5. 화자(1-24), 생물학적 성별(남성 또는 여성), 사람 이름(24개 성 중), 자신감 수준(자신감 또는 의심스러움), 항목(텍스트 인덱스), 정격 신뢰 수준(지각 연구의 평균 점수), 소리(예: 소리/1_h_c_f_56.wav),
6. 3개 중 1개(1, 2 또는 3)를 올바르게 인식하고 오래된 것과 새로운 것(오래된 또는 새로운 것)을 올바르게 인식합니다. 또한 training_a, training_b, training_c, check 및 test라는 열이 추가되었는지 확인합니다.
7. 스프레드시트에 training_a_marker, training_b_marker, check_marker 및 testing_marker 열을 추가하여 EEG 마커를 보냅니다. 이러한 마커를 세 자리 숫자로 형식화하면 숫자 1도 001로 쓰여집니다.
세 개의 세션을 구축합니다.
참고 : PsychoPy는 주로 빌더 모드를 사용하여 프로그램을 구축하는 것이 좋습니다. 빌더의 코드 구성 요소는 프로그램을 EEG 데이터 수집 시스템과 연결하여 F 및 J 버튼의 균형을 맞추고 화면에 보고할 정확도를 계산하는 데 추가로 사용됩니다.
1. 무엇보다도 먼저 실험 설정 편집 아이콘을 클릭하고 실험 정보 셀을 참가자와 블록이라는 두 개의 필드로 조정합니다. 둘 다의 기본값을 비워 둡니다. 이 연구에서 각각 4개의 블록을 가진 40명의 참가자 중 4/40명의 참가자가 특정 블록을 다시 통과했으며(Check 세션의 정확도가 10/12보다 낮은 경우), 재실행 비율은 19개의 재실행 횟수/4개의 블록 x 40명의 참가자 = 11.875%입니다.
2. 교육 세션: 3회 반복 정체성 학습
  1. Training_A라는 루프를 정의하며, 이 루프에는 Fixation, Presentation, Blank 등 세 개의 화면이 있습니다. Is Trials 옵션을 선택합니다. nReps 1을 유지하고 Selected rows(선택한 행)와 Random Seed(임의 시드)는 비워 둡니다. 아래와 같이 조건을 작성하십시오.
    "$"trials/{:}_training_a.xlsx".format(expInfor["참가자"]), expInfo["차단"])
    여기서 trials/는 폴더의 이름입니다. participant는 참가자의 인덱스입니다. Block은 현재 블록의 블록 시퀀스입니다.
  2. Fixation(고정) 화면에서 Start Time(시작 시간)을 0으로, Duration Time(지속 시간)을 2(s)로 설정한 Text Component(텍스트 구성 요소)를 추가하고, Set Every Repeat(반복 간격 설정)를 선택하는 Text inputing(텍스트 입력) 창에 + 기호를 추가합니다. 마찬가지로, 텍스트 셀에 정보가 없는 빈 화면에 유사한 텍스트 구성 요소를 포함하면 0.5초 동안 지속됩니다.
  3. Presentation(프레젠테이션) 화면에서 다음 작업을 수행합니다.
    1. [Start Time]을 0으로, [Stop Duration Time]을 비워 두고, [Sound] 셀 입력을 $Sound으로 설정하여 [Sound] 구성 요소를 추가하고 [Set Every Repeat]를 선택합니다. 동기화 시작 화면을 선택합니다.
    2. Cross_for_Training_A.status == FINISHED로 입력된 시작 조건 셀과 함께 다른 텍스트 구성 요소를 추가합니다. Stop Duration(중지 기간) 셀은 비워 둡니다. 텍스트 셀에 $Name 표시됩니다. 반복할 때마다 설정을 선택합니다.
    3. 시작 조건이 Training_A.status == FINISHED인 Key_Response_Training_A 추가합니다. Stop Duration(중지 기간) 셀은 비워 둡니다. 루틴의 강제 종료를 선택합니다. 허용된 키 셀에 공백을 추가합니다. 설정의 경우 상수를 선택합니다.
    4. Cross_for_Training_A 추가합니다. 시작 시간은 0으로 설정됩니다. 중지 조건 셀은 Training_A.status == FINISHED로 설정됩니다. 텍스트 입력 창에 + 기호를 입력하고 Set Every Repeat를 선택합니다.
  4. Training_A와 유사한 절차에 따라 Training_B 준비합니다.
3. 세션 확인: 발언하고 있는 세 명의 참가자의 이름을 선택합니다.
  1. 훈련 세션과 동일한 Fixation 및 Blank 화면을 가진 Check라는 루프를 정의합니다.
  2. 키보드에서 반응을 수집하는 기능을 추가하여 교육과 다른 프레젠테이션을 사용합니다. 프레젠테이션 화면에서 다음 작업을 수행합니다.
    1. Sound(사운드) 컴포넌트를 추가하고 이름을 Checking_audio로 지정한 후 Start Time(시작 시간)을 0으로 설정하고 Stop Duration(중지 기간) 셀을 비워 둡니다. 사운드 셀을 $Sound로 설정하고 Set Every Repeat를 켭니다.
    2. 명령으로 작성된 Start Condition 을 사용하여 Show_names라는 Text 구성 요소를 추가합니다.
      Checking_audio.status == 완료됨
      을 클릭하고 [중지 기간]을 비워 둡니다. 텍스트 셀을 $ People_Name로 설정하고 Set Every Repeat를 켭니다.
    3. 키보드 구성 요소를 추가하고 시작 조건을 Checking_audio.status == FINISHED로 지정하고 중지 기간을 비워 두어 Key_Response_Check. 참가자가 숫자 패드를 사용하여 선택 항목을 색인화할 수 있도록 허용된 키 num_1, num_2 및 나머지 num_3 상수를 사용하여 강제 종료 루틴을 선택합니다.
    4. 시작 시간을 0으로 설정하고 중지 조건 입력을 Checking_audio.status == FINISHED로 Cross_Check이라는 고정을 추가합니다. 텍스트 셀에 +를 추가하면 Set Every Repeat가 선택됩니다.
  3. 코드 구성 요소를 삽입합니다. 실험 시작 섹션에서 total_trials, current_correct, current_incorrect 및 current_accuracy를 0으로 초기화합니다. Begin Routine에서 user_input를 None으로 정의합니다. 각 프레임 섹션에서 키보드에서 사용자의 입력을 수집하고 키 코드 user_key = Key_Response_Check.keys를 사용하여 1, 2 또는 3을 추출하여 스프레드시트 파일에 저장된 올바른 응답을 확인합니다. 그런 다음 이를 사용하여 Correctly_recognize_one_out_of_three라는 열에 저장된 1,2 또는 3을 기준으로 측정합니다.
  4. 루프에서 벗어나면 다음 메시지와 함께 피드백 화면이 나타나는지 확인하십시오: check_feedbacks.text = f" 두 번째 단계가 완료되었습니다.\n총 {total_trials}개의 문장에서 화자를 식별했습니다.\n{current_correct}명의 화자를 올바르게 인식했습니다.\n{current_incorrect}명의 화자를 잘못 판단했습니다.\n전체 정확도는 {current_accuracy}%입니다.\n\n83.33% 미만인 경우 실험자에게 신호를 보내주십시오.\n위에서 언급한 세 명의 스피커와 다시 친해지게 됩니다.\n\n요구 사항을 충족하는 경우 스페이스 바를 눌러 계속하십시오.
4. 테스트 세션: 이전 발화자와 새로운 발화자 분류
  1. Testing이라는 루프를 정의합니다. 여기에는 Fixation 및 Blank(교육 세션과 동일)와 Presentation 화면이 포함됩니다.
  2. 아래와 같이 프레젠테이션 섹션을 준비합니다.
    1. 사운드 재생 구성 요소인 Testing_sound를 교육 세션의 것과 동일한 설정으로 추가합니다. 시작 조건이 Testing_sound.status == FINISHED인 Key_response_old_new 구성 요소를 추가하고, 중지 기간을 비워 두고, 루틴 강제 종료를 선택합니다. 허용되는 키에서 f 및 j를 포함하고 상수를 선택합니다.
  3. Start Condition을 Testing_sound.status == FINISHED로 하여 Testing_old_new라는 Text 컴포넌트를 추가하고, Stop Duration을 비워 두고, Set Every Repeat를 사용하여 Text 셀을 비워 둡니다. 텍스트는 이후 코드 컴포넌트에 의해 정의됩니다.
  4. 시작 시간을 0으로, 중지 조건을 Testing_sound.status == FINISHED로 설정하여 Cross_Testing 추가하고, 반복 설정이 켜져 있는 동안 텍스트 셀에 +를 추가합니다.
  5. 아래 설명된 대로 코드 구성 요소를 추가합니다.
    1. Begin Experiment(실험 시작) 섹션에서 총 시행 횟수(total_trials_t), 올바른 시행 횟수(correct_trials_t) 및 잘못된 시행 횟수(incorrect_trials_t)를 초기화합니다.
    2. Begin Routine 섹션에서 참가자의 ID 번호(expInfo["Participant"])를 기반으로 프레젠테이션 형식을 결정하기 위한 조건부 검사로 시작합니다. ID 번호가 홀수인 경우 이전 자극과 새로운 자극을 식별하기 위한 지침이 ("Old(F) New(J)") 또는 ("New (F) 'Old (J)")와 같은 한 가지 형식으로 제공되는지 확인합니다.
    3. 이 루프 외부에는 코드 구성 요소가 있는 피드백 화면이 있습니다. 각 프레임 섹션이 다음과 같은지 확인하십시오: testing_feedbacks.text = f"당신은 총 {total_trials_t}개의 문장에서 화자를 식별했습니다,\n{correct_trials_t}개의 화자를 올바르게 인식했습니다.\n화자를 {incorrect_trials_t}명으로 잘못 판단했습니다.\n전체 정확도는 {accuracy_t:.2f}%입니다.\n이 현재 부분을 종료하려면 스페이스 바를 누르십시오.
5. 아래 설명에 따라 프로그램을 Brain Products 시스템과 연결합니다.
  1. 마커를 각 오디오의 시작으로 설정하여 마커를 동기화합니다. 루프가 시작되기 전에 아래 설명된 대로 코드 구성 요소 Begin Experiment에서 EEG 마커 전송 프로토콜을 정의Training_A.
    1. 병렬 모듈을 포함한 필수 PsychoPy 구성 요소를 가져오고 0x3EFC를 사용하여 병렬 포트의 주소를 구성합니다.
    2. EEG 마커를 전송하기 위한 sendTrigger 함수를 설정합니다. 이 함수는 NumPy 정수인지 확인하고 필요에 따라 변환한 후 parallel.setData(triggerCode)를 사용하여 병렬 포트를 통해 지정된 triggerCode를 보냅니다.
    3. parallel.setData(0)를 사용하여 트리거 채널을 0으로 재설정하기 전에 마커 캡처를 보장하기 위해 16ms의 짧은 대기 시간을 추가합니다.
  2. 마커를 EEG 레코더로 보내는 것은 sendTrigger()를 사용합니다. 괄호 안에 해당 열의 정확한 이름을 포함합니다. 이 연구에는 training_a_marker, training_b_marker, check_marker 및 testing_marker이 있으며 이전에 스프레드시트에서 정의한 열을 참조합니다.

3. EEG 데이터 수집

회장 준비
참고: 데이터 수집을 수행하는 데 사용할 수 있는 컴퓨터가 두 대 이상 있습니다. 하나는 EEG 시스템에 연결하는 것이고 다른 하나는 행동 데이터를 수집하는 것입니다. 행동 데이터 관련 컴퓨터를 미러링하기 위해 다른 화면을 구축하는 것이 좋습니다. 이 시스템은 증폭기와 수동 EEG 캡으로 구성됩니다.
1. 이 연구를 위해 보고된 언어 청각 장애가 없는 참가자를 모집합니다. 참가자가 정신 질환 또는 신경학적 장애가 없는지 확인합니다. 총 43명의 참가자가 선정되었으며 EEG 마커와의 정렬 문제로 인해 3명이 제외되었습니다. 나머지 40명 중 여성 20명, 남성 20명이었다. 여성은 20.70± 0.37세, 남성은 22.20±0.37세였다. 이들의 교육 연수는 여성이 17.55± 0.43, 18.75± 남성이 0.38이었다.
2. 참가자 ID를 할당하고 참가자가 실험에 참여하기 1시간 이내에 머리를 감고 말리도록 초대합니다.
3. 전해질 겔과 연마성 전해질 겔을 1:3 비율로 섞고 소량의 물을 추가합니다. 숟가락으로 용기에 혼합물을 골고루 저어줍니다.
4. 끝이 가는 면봉과 마른 EEG 캡을 준비합니다.
5. 참가자를 의자에 편안하게 앉히고 실험자가 EEG 캡을 적용할 것이라고 알려줍니다. 인체에 무해하고 뇌 신호 수신을 향상시키는 전도성 페이스트를 면봉을 사용하여 캡 구멍에 바른다고 설명합니다.
6. 참가자에게 실험 작업에 대한 지침과 실험에 대한 정보에 입각한 동의서를 제공합니다. 참가자의 서명을 받은 후 준비 단계를 진행합니다.
7. EEG 캡을 증폭기에 연결하면 EEG 데이터 수집 컴퓨터에 연결됩니다. 이 연구는 패시브 캡을 사용하므로 64개 전극의 색상 표시기를 확인하기 위해 추가 모니터를 사용해야 합니다.
8. BrainVision Recorder³³ 을 열고 기록 매개변수를 정의한 사용자 지정 작업 공간 파일을 가져옵니다. 모니터 를 클릭하여 임피던스를 확인합니다. 빨간색에서 녹색까지의 색상 막대는 설정된 저항 레벨의 영향을 받으며 목표 임피던스 범위는 0에서 10kΩ입니다.
참가자 준비시키기
1. 참가자에게 의자에 똑바로 앉으라고 요청합니다. 참가자의 머리에 적합한 크기(크기 54 또는 56)의 젤 기반 수동 전극 시스템을 선택하고 전극 시스템이 10-20 시스템^28,34에 따라 올바르게 장착되었는지 확인합니다.
2. 일회용 면봉을 전도성 페이스트에 담그고 캡의 구멍에 바르는 것으로 시작하여 참가자의 두피에 문지릅니다. EEG 데이터 수집 컴퓨터에서 전극의 해당 표시기가 녹색으로 바뀌면 최적의 데이터를 성공적으로 수집하고 있음을 나타냅니다.
3. 두 개의 독립적인 측면 전극을 제외한 화면의 모든 전극에 대한 표시 색상이 녹색으로 바뀐 후(모니터 화면에서) 측면 전극에 전도성 페이스트를 바릅니다. 왼쪽 전극을 참가자의 왼쪽 눈 근처, 아래 눈꺼풀 부위에 부착하고 오른쪽 전극을 오른쪽 관자놀이 근처에 부착합니다.
4. 모든 전극이 녹색이 되면 참가자의 머리 위에 탄성 그물을 놓아 EEG 캡이 참가자의 머리에 더 안전하고 안정적으로 맞도록 합니다.
5. 참가자에게 유선 헤드폰(실험실에서 사용되는 특정 공기 전도 헤드폰)을 장착합니다. 전자파 차폐 도어를 닫고 안팎으로 소통할 수 있는 마이크를 통해 참가자의 행동을 안내합니다. 또한 외부 모니터를 통해 참가자의 움직임을 모니터링합니다(예: 몸을 크게 움직이지 않도록 상기시킵니다). 또한 행동 데이터 모니터를 통해 행동 과제에 대한 참가자의 진행 상황을 모니터링합니다.
6. 참가자에게 오디오 인터페이스를 통해 행동 수집 컴퓨터에 연결된 이어폰을 착용하도록 요청합니다.
실험을 블록별로 독립적으로 실행
1. EEG 데이터 수집 컴퓨터에서 BrainVision Recorder를 열고 모니터를 클릭하여 임피던스와 Stat/Resume Recording을 다시 확인하고 기록을 시작합니다. 새 EEG 기록 파일을 만들고 그에 따라 이름을 지정합니다(예: 참가자 번호 14의 두 번째 블록을 의미하는 14_2).
2. 행동 실험에 대한 PsychoPy 프로그램의 실험 실행(녹색 버튼)을 열고 참가자의 ID(예: 14)와 해당 블록 번호(예: 2)를 입력한 다음 확인을 클릭하여 실험을 시작합니다.
3. 참가자가 행동 데이터 컴퓨터에서 확인 단계를 완료한 후 화면에 보고된 데이터의 정확성을 면밀히 모니터링합니다. 정확도가 12점 만점에 10점 미만인 경우 참가자에게 테스트 단계로 이동하기 전에 필요한 정확도에 도달할 때까지 훈련 세션을 다시 실행하도록 요청합니다.
4. 참가자가 블록의 테스트 단계를 완료한 후 화면에 보고된 이전 인식과 새 인식의 최종 정확도에 세심한 주의를 기울이십시오. 정확도가 매우 낮은 경우(예: 50% 미만) 참가자에게 가능한 이유에 대해 문의합니다.
EEG 후 실험
1. 참가자가 모든 블록을 완료한 후 머리를 감도록 초대합니다. 칫솔로 잔류 전도성 페이스트를 제거하고 신호 커넥터가 젖지 않도록 주의한 다음 비닐 봉지에 싸서 EEG 캡을 청소합니다. 청소가 끝나면 EEG 캡을 환기가 잘 되는 곳에 걸어 말리십시오.
2. EEG 및 행동 데이터를 휴대용 하드 드라이브에 복사하여 EEG 데이터와 행동 데이터가 일치하는지 확인합니다. 예를 들어, EEG 데이터는 14_2.eeg 및 14_2.vhdr이라는 두 개의 파일로 명명되고 행동 데이터는 14_2.xlsx 파일로 지정됩니다.

4. EEG 데이터 처리

참고: 다음 설명은 EEG 데이터 전처리, 통계 분석 및 MATLAB 및 RStudio를 사용한 시각화를 포함하여 일괄 처리에 대해 설명합니다.

MATLAB을 사용한 EEG 데이터 전처리하기
1. EEG와 행동 데이터 병합
  1. 참가자가 EEG 및 행동 데이터의 이름 지정에 영향을 미치는 10/12 이상의 필요한 정확도에 도달하지 못하는 경우(예: 14_2.vhdr 이 14_2(1).vhdr이 될 수 있음) 작업을 다시 실행해야 할 수 있다는 점을 감안할 때 14_2 이외의 문자를 제거하여 파일 이름을 표준화합니다. 각 참가자의 데이터를 반복하는 동안 데이터 파일의 이름을 sub, stripped_filename, .set으로 지정하면 sub14_2.set(메타데이터 및 EEG 데이터 세트에 대한 링크 포함) 및 sub10_1.fdt(실제 EEG 데이터)와 같은 파일이 자동으로 저장됩니다. 이렇게 하면 14_2.vhdr 및 14_2.eeg 파일의 이름이 sub14_2.fdt 및 sub14_2.set으로 바뀝니다.
  2. EEG = pop_mergeset() 함수를 사용하여 각 참가자에 대해 데이터를 단일 파일로 병합하고 블록 1,2,3,4의 번호 순서가 아닌 시간순으로 서로 다른 블록 데이터를 결합합니다.
  3. 여러 행동 데이터 파일을 시간순에 따라 참가자당 하나의 스프레드시트로 병합할 수 있으며, 이는 나중에 동기화하는 데 필수적입니다.
  4. EEG 신호의 시행을 행동 신호의 시행과 동기화하도록 코드를 사용자 지정합니다. 예를 들어, testing_list = [37:108, 145:216, 253:324, 361:432]는 4개의 블록에 대한 EEG 마커 포인트에 해당합니다.
  5. 행동 데이터 스프레드시트를 .txt 파일로 변환하면 행과 열 모두에 데이터가 있는 테이블이 생성됩니다. 열 이름에는 2.1단계에서 언급한 대부분의 열 이름이 포함됩니다.
  6. EEG = pop_importepoch(EEG, behav_txt_path, {'Epoch', 'Sound', 'Speaker', 'Gender', 'Confidence_level', 'old_new_speaker', 'same_different_prosody', 'Response'}, 'timeunit', 1, 'headerlines', 1)과 유사한 코드를 사용하여 EEG 데이터에 정보를 추가하여 EEG 데이터의 내용을 재정의합니다. 이 프로세스는 일괄 처리를 통해 각 참가자의 해당 EEG 및 행동 데이터를 병합합니다.
    참고: 반응 값 1과 0은 행동 데이터에서 가져온 것으로, 1은 올바른 판단을 나타내고 0은 잘못된 판단을 나타냅니다.
2. EEG 데이터 전처리
  1. 참조 및 재참조^29,35의 경우 pop_reref 함수를 호출하여 EEG 데이터를 FCz 전극으로 다시 참조하여 각 신호가 FCz 전극을 기준으로 계산되도록 합니다. pop_reref 기능을 사용하여 EEG 데이터를 채널 28 및 29로 재참조하며, 이는 후두피에 위치한 양측 유양돌기 전극을 나타내므로 각 신호가 양측 유양돌기를 기준으로 계산되도록 합니다.
  2. EEG = pop_eegfiltnew(EEG, [], 0.1, 16500, 1, [], 0)로 고역 통과 필터(선형 추세 제거용)를 설정하고 EEG = pop_rmbase(EEG, [-500 0])으로 -500에서 0ms까지 기준선 보정을 수행합니다.
  3. 잘못된 시도 수동 검사: EEGLAB으로 데이터를 가져온 후 플롯을 선택한 다음 채널 데이터(스크롤)를 클릭하고 값의 최대값을 50으로 설정합니다.
  4. 눈에 보이는 근육 및 기타 유형의 아티팩트가 있는 시도를 삭제하고 불량 전극을 표시하십시오: 마우스를 채널의 파형 위로 가져가면 전극이 표시됩니다. 모든 불량 전극을 기록하고, EEGLAB 메인 페이지로 돌아가서, 도구에서 전극 보간 을 선택하고, 데이터 채널에서 선택을 선택하고, 보간이 필요한 전극을 선택하고, 확인을 눌러 확인합니다. 파일을 새 폴더에 저장합니다.
  5. EEG = pop_runica(EEG, 'extended', 1, 'pca', 30, 'interupt', 'on')으로 주성분 분석(PCA)을 수행합니다. 문제가 있는 ICA를 수동으로 거부하고 눈, 근육 및 채널 노이즈에서 아티팩트를 제거한 다음 파일을 저장합니다.
  6. pop_eegthresh 함수를 사용하여 -75Hz에서 +75Hz까지의 임계값을 설정하여 극한 값 34,36,37을 제거합니다.
  7. 매개변수(세 번째 입력 매개변수)를 30으로 설정하여 pop_eegfiltnew 적용하면 30Hz 이하의 주파수를 유지할 수^{있습니다.}
  8. old_new_speaker = {'old', 'new'}를 포함하여 관심 있는 모든 조건을 나열하도록 코드를 사용자 지정합니다. same_different_prosody = {'같음', '다름'}; Confidence_level = {'c', 'd'}; 응답 = {'1', '0'}. 그런 다음 이러한 조건을 결합하여 sub1_new_different_c_0와 같은 데이터 조합을 만들고 txt 확장자를 가진 파일로 저장합니다.
RStudio를 사용한 ERP 분석
1. 데이터를 구성하려면 긴 형식으로 변환합니다. 모든 .txt 파일을 RStudio로 가져오고 rbind 함수를 사용하여 각 임시 데이터 프레임을 alldata에 추가하여 모든 파일 데이터를 포함하는 큰 데이터 프레임을 만듭니다. 정확성을 위해 모든 데이터의 행 열 이름을 Time으로 바꿉니다. melt 함수를 사용하여 모든 데이터를 와이드 형식에서 긴 형식(Data_Long)으로 변환하며, 여기서 각 관측치는 행을 차지하고 모든 관련 조건 및 채널 정보를 포함합니다.
2. dplyr 패키지의 filter 함수를 사용하여 특정 조건과 일치하는 데이터를 선택합니다. 판정은 1입니다. 소스는 h입니다. 메모리는 오래되었거나 새 것입니다. 운율은 c 또는 d입니다.
3. 전극 채널을 기반으로 영역을 정의합니다: 왼쪽 전방(F3, F7, FC5, F5, FT7, FC3, AF7, AF3). 왼쪽 중앙(C3, T7, CP5, C5, TP7, CP3). 왼쪽 후방(P3, P7, P5, PO7, PO3). 내측 전방(Fz, AFz, FC1, FC2, F1, F2, FCz). 내측 중앙(CP1, CP2, Cz, C1, C2, CPz). 내측 후방(Pz, O1, Oz, O2, P1, POz, P2). 오른쪽 전방(FC6, F4, F8, FC4, F6, AF4, AF8, FT8). 오른쪽 중앙(CP6, C4, T8, CP4, C6, TP8). 오른쪽 후방(P4, P8, PO4, PO8, P6). 이러한 영역을 전방, 중부 및 후방 지역으로 그룹화합니다.
4. 후속 데이터 로드를 위해 작업 공간을 저장합니다. 저장하려면, setwd()를 사용하십시오; 로드하려면 load()를 사용합니다.
통계 분석
1. 모든 전극에 대한 EEG 데이터 분석의 경우 Judgement가 1, Source가 h, Memory가 이전 또는 새 메모리, Subject가 비어 있지 않고 Time이 400에서 850ms 사이인 관련 데이터 포인트만 포함하도록 데이터 세트를 필터링합니다.
2. 사전 정의된 매핑을 기반으로 관심 영역(ROI)의 이름을 업데이트합니다. 예를 들어, 왼쪽 전방, 내측 전방 및 오른쪽 전방은 전방용입니다.
3. Subject 및 Channel에 대한 랜덤 절편을 포함하여 lme4 패키지³⁹의 lmer를 사용하여 전압을 응답 변수로, 메모리 및 ROI를 고정 효과로 사용하여 선형 혼합 효과 모델을 데이터에 피팅합니다: fit_time_window <- lmer(Voltage ~ Memory * ROI + (1|제목) + (1| 채널), data=DATA). DATA를 결합된 데이터, 자신 있는 데이터, 의심스러울 만한 데이터로 반복해서 교체합니다. OSF³²의 예제 코드를 참조하십시오.
  1. 피팅된 모델에서 분석 결과를 얻습니다: anova(fit_time_window), eta_squared(fit_time_window) 및 emmeans(fit_time_window, specs = pairwise ~ Memory * ROI, adjust = "Tukey").
4. Pz의 EEG 데이터 분석의 경우 데이터 세트를 필터링할 때 위와 동일한 단계를 수행하되 Channel == 'ChPz' 조건도 추가합니다. 위의 과정을 반복하되 lmer(Voltage ~ Memory + (1|Subject))를 사용하여 400 내지 850 ms의 Pz 데이터를 분석한다.
5. Pz에서 ERP를 그리려면(결합된 데이터 세트, 자신 있는 경우에만 데이터 세트에 대해 반복), Judgement가 1, Source가 h, Memory가 이전 또는 새 메모리, Subject가 비어 있지 않은 관련 데이터 포인트만 포함하도록 데이터 세트를 필터링합니다.
  1. 여러 전극 점(Pz 포함)을 포함하는 벡터를 정의하고, 데이터의 채널 명명 규칙과 일치하도록 Ch를 접두사로 붙입니다. Pz out을 선택합니다.
  2. ERP 분석을 위한 시간 창을 time_window <- c(400, 850)로 지정합니다. 관심 있는 전극(이 경우 Pz)을 정의합니다. 선택한 전극을 반복하고 아래 설명된 대로 플롯을 생성합니다.
    1. filter (Channel == k)를 사용하여 Pz 전극에 대한 데이터를 필터링하여 관련 데이터 점을 분리합니다.
    2. interaction(current_channel_data$Memory)을 사용하여 메모리 조건에 따라 선 유형 및 색상에 대한 상호 작용 계수를 생성하고 조건에 이전 및 새 레이블을 지정합니다.
    3. summarySEwithin 함수를 사용하여 시간 경과에 따른 전압 측정값에 대한 요약 통계량과 표준 오차를 계산하고, Voltage를 측정 변수로, Time을 within 변수로 지정합니다.
    4. 파라미터 xmin, xmax, ymin 및 ymax와 함께 geom_rect를 사용하여 지정된 시간 창에 대한 배경을 추가하여 Pz 전극에 대한 ERP 플롯을 생성합니다. geom_ribbon로 표준 오류 리본을 포함하여 geom_line로 평균 전압을 그립니다. scale_x_continuous, scale_y_reverse, scale_linetype_manual, scale_fill_manual, scale_color_manual와 같은 함수를 사용하여 플롯 모양과 레이블을 사용자 지정합니다.
  3. 기본 테마에 theme_minimal 사용하고 테마를 사용하여 텍스트 크기와 범례 배치를 추가로 사용자 지정할 수 있습니다.
MATLAB을 사용한 지형 플로팅
1. 데이터를 가져오고 조건을 설정하고 subject_list = 1:40으로 1에서 40까지의 주제 목록을 정의합니다. 이전 조건과 새 조건의 올바른 분류를 위한 데이터를 저장하기 위해 두 개의 빈 셀형 배열을 정의합니다: "human_timelocked_old_correct = {}; human_timelocked_new_correct = {}입니다. 주제 목록을 반복하고, 각 주제의 데이터를 가져오고, 조건에 따라 필터링합니다.
2. 원시 EEGLAB 데이터에서 이벤트 정보를 추출하여 응답이 1과 같은 이벤트만 선택합니다. Source가 h인 시행을 선택하고 그에 따라 데이터 구조를 업데이트합니다. 이전 조건과 새로운 조건에 대한 데이터를 분리하고, 소스 h를 사용한 올바른 시행으로 제한되며, 시간 잠금 분석을 수행합니다.
  1. 이전 조건과 새 조건 모두에 대한 총평균을 계산합니다: cfg = []; grandavg_old_correct = ft_timelockgrandaverage(cfg, human_timelocked_old_correct{:}); grandavg_new_correct = ft_timelockgrandaverage(cfg, human_timelocked_new_correct{:})입니다.
3. 아래 설명에 따라 순열 테스트를 수행합니다.
  1. 지정된 레이아웃 파일을 사용하여 neighbor 구성을 정의합니다: cfg_neigh = []; cfg_neigh.method = '거리'; cfg_neigh.레이아웃 = 'path_to_layout_file'; 이웃 = ft_prepare_neighbours(cfg_neigh).
  2. 설계 매트릭스 및 통계적 방법을 포함하여 순열 테스트를 위한 매개변수 구성: cfg = []; cfg.method = '몬테카를로'; cfg.통계 = 'ft_statfun_indepsamplesT'; cfg.correctm = '클러스터'; cfg.clusteralpha = 0.05; cfg.clusterstatistic = '최대 합계'; cfg.minnbchan = 2; cfg.tail = 0; cfg.clustertail = 0; cfg.알파 = 0.05; cfg.numrandomization = 1000; cfg.neighbours = 이웃; cfg.design = [2*ones(1, 길이(human_timelocked_new_correct)) ones(1, 길이(human_timelocked_old_correct))]; cfg.ivar = 1입니다. 또한 Fieldtrip⁴⁰ 사용에 대한 자습서는 다음 링크(https://www.fieldtriptoolbox.org/tutorial/cluster_permutation_freq/)를 참조하십시오.
  3. 이전 조건과 새 조건에 대한 평균 데이터에 대해 통계적 검정을 수행합니다(예: stat = ft_timelockstatistics(cfg, human_timelocked_old_correct{:}, human_timelocked_new_correct{:}).
4. 아래 설명된 대로 사용자 정의 간격 플로팅을 수행합니다.
  1. 두 조건의 차이를 계산합니다: cfg = []; cfg.operation = '빼기'; cfg.parameter = '평균'; grandavg_difference = ft_math(cfg, grandavg_old_correct, grandavg_new_correct)입니다.
  2. 시간 창 정의: time_windows = { [0.500, 0.800] % LPC}.
  3. Figure를 만들고 ft_topoplotER(cfg_plot, grandavg_difference)를 사용하여 조건 간의 차이를 플로팅합니다.

결과

고전적인 구/신 효과는 테스트 세션의 음성 내용이 훈련 세션의 내용과 일치할 때, 특히 새로운 발화자 조건(²²)과 비교하여 이전 발화자 조건에서 Pz 전극(300 내지 700ms 사이)에서 청취자의 뇌 활동이 크게 증가하는 것이 특징이다. 이 프로토콜은 이 효과의 업데이트된 버전을 공개합니다: 첫째, 400에서 850ms 사이의 새로운 발화자 상태와 비교하여 이전 상태에 대한 Pz 전극과 전체 ?...

토론

이 연구는 EEG 데이터 수집 및 분석을 위한 파이프라인을 제시하며, 이전에 학습된 화자 정체성을 인식하는 데 중점을 둡니다. 본 연구는 학습 단계와 인식 단계 간의 차이를 다루는데, 여기에는 말하기 내용²² 과 운율¹⁰의 차이도 포함된다. 이 디자인은 대명사 및 아나포릭 처리(anaphoric processing)와 같은 심리언어학을 포함한 다양한 연구 분야에 적용할 수 있다(

공개

공개할 정보는 없습니다.

감사의 말

이 연구는 중국 자연 과학 재단 (Grant No. 31971037)의 지원을 받았습니다. 상하이 교육 발전 재단 (Shanghai Education Development Foundation)과 상하이시 교육위원회 (Shanghai Municipal Education Committee)가 지원하는 Shuguang 프로그램 (보조금 번호 20SG31); 상하이 자연과학재단(22ZR1460200); Shanghai International Studies University (2022113001)의 감독자지도 프로그램; 중국 국가사회과학재단(National Social Science Foundation of China)의 주요 프로그램(보조금 번호 18ZDA293).

자료

Name	Company	Catalog Number	Comments
64Ch Standard BrainCap for BrainAmp	Easycap GmbH	Steingrabenstrasse 14 DE-82211	https://shop.easycap.de/products/64ch-standard-braincap
Abrasive Electrolyte-Gel	Easycap GmbH	Abralyt 2000	https://shop.easycap.de/products/abralyt-2000
actiCHamp Plus	Brain Products GmbH	64 channels + 8 AUX	https://www.brainproducts.com/solutions/actichamp/
Audio Interface	Native Instruments GmbH	Komplete audio 6	https://www.native-instruments.com/en/products/komplete/audio-interfaces/komplete-audio-6/
Foam Eartips	Neuronix	ER3-14	https://neuronix.ca/products/er3-14-foam-eartips
Gel-based passive electrode system	Brain Products GmbH	BC 01453	https://www.brainproducts.com/solutions/braincap/
High-Viscosity Electrolyte Gel	Easycap GmbH	SuperVisc	https://shop.easycap.de/products/supervisc

참고문헌

Larrouy-Maestri, P., Poeppel, D., Pell, M. D. The sound of emotional prosody: Nearly 3 decades of research and future directions. Perspect Psychol Sci. , 17456916231217722 (2024).
Pell, M. D., Kotz, S. A. Comment: The next frontier: Prosody research gets interpersonal. Emotion Rev. 13 (1), 51-56 (2021).
Cummins, N., et al. Multilingual markers of depression in remotely collected speech samples: A preliminary analysis. J Affect Disor. 341, 128-136 (2023).
Cummins, N., Baird, A., Schuller, B. W. Speech analysis for health: Current state-of-the-art and the increasing impact of deep learning. Methods. 151, 41-54 (2018).
Kennedy, E., Thibeault, S. L. Voice-gender incongruence and voice health information-seeking behaviors in the transgender community. Am J Speech-language Pathol. 29 (3), 1563-1573 (2020).
Zäske, R., et al. Electrophysiological correlates of voice memory for young and old speakers in young and old listeners. Neuropsychologia. 116, 215-227 (2018).
Lavan, N., Burton, A. M., Scott, S. K., Mcgettigan, C. Flexible voices: Identity perception from variable vocal signals. Psychonomic Bullet Rev. 26, 90-102 (2019).
Perrachione, T. K., Del Tufo, S. N., Gabrieli, J. D. Human voice recognition depends on language ability. Science. 333 (6042), 595-595 (2011).
Lavan, N., Knight, S., Mcgettigan, C. Listeners form average-based representations of individual voice identities. Nat Comm. 10 (1), 2404 (2019).
Xu, H., Armony, J. L. Influence of emotional prosody, content, and repetition on memory recognition of speaker identity. Quart J Exp Psychol. 74 (7), 1185-1201 (2021).
Jiang, X., Pell, M. D. The sound of confidence and doubt. Speech Comm. 88, 106-126 (2017).
Winters, S. J., Levi, S. V., Pisoni, D. B. Identification and discrimination of bilingual talkers across languages. J Acoustical Soci Am. 123 (6), 4524-4538 (2008).
Orena, A. J., Polka, L., Theodore, R. M. Identifying bilingual talkers after a language switch: Language experience matters. J Acoustical Soc Am. 145 (4), EL303-EL309 (2019).
Xie, X., Myers, E. The impact of musical training and tone language experience on talker identification. J Acoustical Soc Am. 137 (1), 419-432 (2015).
Kadam, M. A., Orena, A. J., Theodore, R. M., Polka, L. Reading ability influences native and non-native voice recognition, even for unimpaired readers. J Acoustical Soc Am. 139 (1), EL6-EL12 (2016).
Fleming, D., Giordano, B. L., Caldara, R., Belin, P. A language-familiarity effect for speaker discrimination without comprehension. Proc Natl Acad Sci. 111 (38), 13795-13798 (2014).
White, K. S., Yee, E., Blumstein, S. E., Morgan, J. L. Adults show less sensitivity to phonetic detail in unfamiliar words, too. J Memory Lang. 68 (4), 362-378 (2013).
Levi, S. Methodological considerations for interpreting the language familiarity effect in talker processing. Wiley Interdiscip Revi: Cognitive Sci. 10 (2), e1483 (2019).
Perrachione, T. K., Frühholz, S., Belin, P. Recognizing Speakers Across Languages. The Oxford Handbook of Voice Perception. , 515-538 (2018).
Lavan, N., Burton, A. M., Scott, S. K., Mcgettigan, C. Flexible voices: Identity perception from variable vocal signals. Psychonomic Bullet Rev. 26 (1), 90-102 (2019).
Zäske, R., Hasan, B. a. S., Belin, P. It doesn't matter what you say: Fmri correlates of voice learning and recognition independent of speech content. Cortex. 94, 100-112 (2017).
Zäske, R., Volberg, G., Kovács, G., Schweinberger, S. R. Electrophysiological correlates of voice learning and recognition. J Neurosci. 34 (33), 10821-10831 (2014).
Lavan, N., Knight, S., Mcgettigan, C. Listeners form average-based representations of individual voice identities. Nat Comm. 10 (1), 1-9 (2019).
Chen, W., Jiang, X. Voice-Cloning Artificial-Intelligence Speakers Can Also Mimic Human-Specific Vocal Expression. Preprints. , (2023).
Pisanski, K., Anikin, A., Reby, D. Vocal size exaggeration may have contributed to the origins of vocalic complexity. Philosoph Trans Royal Soc B. 377 (1841), 20200401 (2022).
Belin, P., Fecteau, S., Bedard, C. Thinking the voice: Neural correlates of voice perception. Trend Cognitive Sci. 8 (3), 129-135 (2004).
. Praat: doing phonetics by computer Available from: https://www.fon.hum.uva.nl/praat/ (2022)
Jiang, X., Pell, M. D. On how the brain decodes vocal cues about speaker confidence. Cortex. 66, 9-34 (2015).
Jiang, X., Gossack-Keenan, K., Pell, M. D. To believe or not to believe? How voice and accent information in speech alter listener impressions of trust. Quart J Exp Psychol. 73 (1), 55-79 (2020).
Rigoulot, S., Pell, M. D. Seeing emotion with your ears: Emotional prosody implicitly guides visual attention to faces. PloS One. 7 (1), e30740 (2012).
Cui, X., Jiang, X., Ding, H. Affective prosody guides facial emotion processing. Curr Psychol. 42 (27), 23891-23902 (2023).
. Memorization-based training and testing paradigm for robust vocal identity recognition in expressive speech using event-related potentials analysis Available from: https://osf.io/6zu83/ (2024)
Brainvision recorder. Available from: https://www.brainproducts.com/downloads/recorder/ (2024)
Jiang, X., Paulmann, S., Robin, J., Pell, M. D. More than accuracy: Nonverbal dialects modulate the time course of vocal emotion recognition across cultures. J Exp Psychol. 41 (3), 597 (2015).
Jiang, X., Pell, M. D. The feeling of another's knowing: How "mixed messages" in speech are reconciled. J Exp Psychol. 42 (9), 1412 (2016).
Zhou, X., et al. Semantic integration processes at different levels of syntactic hierarchy during sentence comprehension: An erp study. Neuropsychologia. 48 (6), 1551-1562 (2010).
Jiang, X., Tan, Y., Zhou, X. Processing the universal quantifier during sentence comprehension: Erp evidence. Neuropsychologia. 47 (8-9), 1799-1815 (2009).
Acunzo, D. J., Mackenzie, G., Van Rossum, M. C. W. Systematic biases in early erp and erf components as a result of high-pass filtering. J Neurosci Meth. 209 (1), 212-218 (2012).
Bates, D. Fitting linear mixed models in r. R. 5 (1), 27-30 (2005).
Oostenveld, R., Fries, P., Maris, E., Schoffelen, J. M. Fieldtrip: Open source software for advanced analysis of meg, eeg, and invasive electrophysiological data. Computat Intelligence Neurosci. 2011, 1-9 (2011).
Coopmans, C. W., Nieuwland, M. S. Dissociating activation and integration of discourse referents: Evidence from erps and oscillations. Cortex. 126, 83-106 (2020).
Humble, D., et al. The jena voice learning and memory test (jvlmt): A standardized tool for assessing the ability to learn and recognize voices. Behavior Res Meth. 55 (3), 1352-1371 (2023).
Holmes, E., To, G., Johnsrude, I. S. How long does it take for a voice to become familiar? Speech intelligibility and voice recognition are differentially sensitive to voice training. Psychol Sci. 32 (6), 903-915 (2021).
Kroczek, L. O. H., Gunter, T. C. Communicative predictions can overrule linguistic priors. Sci Rep. 7 (1), 17581 (2017).
Kroczek, L. O. H., Gunter, T. C. The time course of speaker-specific language processing. Cortex. 141, 311-321 (2021).
Schroeger, A., et al. Atypical prosopagnosia following right hemispheric stroke: A 23-year follow-up study with mt. Cognitive Neuropsychol. 39 (3-4), 196-207 (2022).
Garrido, L., et al. Developmental phonagnosia: A selective deficit of vocal identity recognition. Neuropsychologia. 47 (1), 123-131 (2009).
Schelinski, S., Borowiak, K., Von Kriegstein, K. Temporal voice areas exist in autism spectrum disorder but are dysfunctional for voice identity recognition. Social Cognitive Affective Neurosci. 11 (11), 1812-1822 (2016).
Holle, H., Gunter, T. C. The role of iconic gestures in speech disambiguation: Erp evidence. J Cognitive Neurosci. 19 (7), 1175-1192 (2007).
Regel, S., Coulson, S., Gunter, T. C. The communicative style of a speaker can affect language comprehension? Erp evidence from the comprehension of irony. Brain Res. 1311, 121-135 (2010).

재인쇄 및 허가

JoVE'article의 텍스트 или 그림을 다시 사용하시려면 허가 살펴보기

허가 살펴보기

더 많은 기사 탐색

This article has been published

Video Coming Soon

Keep me updated: