Foreign Accent and Forensic Speaker Identification in Voice Lineups: The Influence of Acoustic Features Based on Prosody

Please note that all translations are automatically generated. Click here for the English version.

403 Views

•

09:09 min

•

September 27th, 2024

DOI :

10.3791/66313-v

September 27th, 2024

•

Leônidas Silva Jr.¹, Plínio A. Barbosa²

¹Center of Humanities, Department of Modern Languages, State University of Paraíba (Universidade Estadual da Paraíba), ²Institute of Language Studies, Department of Linguistics, University of Campinas (Universidade de Campinas)

副本

我们的研究考察了外国口音如何影响说话人的身份。我们专注于基于基频的韵律特征，即语音音调、持续时间和语音质量。我们的目标是了解这些功能如何影响听众对语音阵容的判断。

人们越来越关注和研究自动说话人识别的性能，它将自动化应用于法医说话人比较的工作流程。然而，这些信息就像一个黑匣子，供法医科学家向警方、法官和陪审员报告。基于 GMM、UBM 模型和现场演员等经典技术的自动扬声器识别系统。

还有基于人工智能的神经研究。我们提出了一个自动化流程，保留自动语音识别系统遗漏的语言信息。我们的协议使用听觉和声学相结合的方法进行法医语音比较，同时确定科学发展的国家，但使用自动化工具提取广泛的声学特征以及运行声学相似程序。

首先，以 TXT 文件格式为每个音频文件编写语言转录。标记具有相同名称的 TXT 和 WAV 文件对。为每种 L1、L2 语言创建一个文件夹。

确保相同语言的所有文件对位于同一文件夹中。访问 Munich Automatic Segmentation 强制对准器的 Web 界面，将每对 WAV 和 TXT 文件从文件夹拖放到文件中的虚线矩形中。点击上传按钮将文件上传到对准器。

在服务选项菜单中，对于 L1 L2 英语数据，选择字素到音素到鼠标到电话到音节作为管道名称，选择英语-美国作为语言。保留输出格式的默认选项并保留所有内容。选中 run option 框以接受使用条款。

单击 run web service 按钮以在 aligner 中运行上传的文件。处理完文件后，单击下载为 zip 文件按钮下载文本网格文件。提取文本网格文件，以便以后在语音分析软件中重新对齐。

访问并下载 PRAAT VVUnitAligner 的脚本。确保相同语言的所有文件对和 VVUnitAligner 脚本位于同一文件夹中。打开语音分析软件。

在对象窗口中，单击 Praat 并打开 Praat 脚本以加载脚本。单击运行按钮，然后选择 English-US （英语-美国）语言。现在，从 chunk segmentation （块分割）按钮中，选择 Automatic （自动）。

选中 save text grid files 选项以自动保存新生成的文本网格文件。单击 okay 和 run 按钮以重新对齐语音单位。从给定的站点下载语音节奏提取器脚本，用于自动提取韵律声学特征。

创建一个新文件夹并添加语音节奏提取器脚本以及所有语言的所有音频文本网格文件。打开语音分析软件。在对象窗口中，单击 Praat 并打开 Praat 脚本以加载脚本。

然后单击 run 按钮一次。选中语音质量参数选项以保存输出文件 VQ 以获得语音质量。现在检查 linguistic target 选项以选择语言。

然后检查单位选项以选择以半音为单位的 F0 功能。设置 F0 阈值的值，包括最小阈值和最大阈值。单击 okay，然后单击 run 以自动提取声学特征。

要执行广义加法模型、非参数统计分析，请键入指示的命令，并将包含提取的声学特征的电子表格上传到 R 环境中。最后，按 enter 执行。与 L1 L2 BP 相比，L1 L2 英语的语速下降得更快，由于 L1 L2 BP 的音节持续时间较高且可变性较低，因此斜率较低。

尽管音节持续时间变化增加，但巴西人、L1 BP 和 L2 英语的局部微光保持相对稳定。L2 BP 使用者的停顿率更高，与 L1 英语、L1 BP 和 L2 英语使用者相比，停顿时间更长。发音率与语速类似，发音率较低，与较高的认知语言负荷和音节变化相关。

音节持续时间的标准差随着所有语言水平的语速增加而降低。随着 F0 变异性和语速的增加，L1 BP 和 L2 BP 的音节 varco 降低，而 L1 英语和 L2 英语的音节 varco 增加。与 L1 英语相比，随着语速或停顿时间的增加，辅音的标准差显示 L1 BP 的变异性较低。

元音和辅音的标准差在 L1 BP 和 L2 BP 中遵循下降上升模式，韵律特征增加，而在 L1 英语和 L2 英语中，元音和辅音的标准差先下降然后减弱。在为 English 和 BP 分别准备四个语音阵容后，从所选扬声器中获取音频文件并将它们排列到特定于语言的文件夹中。随机选择 6 个 L1 英语或 L1 BP 语音块。然后从六个语音块之一中选择 L2 英语或 L2 BP 的一个语音块。

访问并下载 Praat Create Lineup 的脚本。在运行脚本之前，请确保 L2 参考语音、L1 箔和 L1 目标语音位于同一文件夹中。打开语音分析软件。

在对象窗口中，单击 Praat 并打开 Praat 脚本以加载脚本。然后单击 run 以执行 create lineup 脚本。在 R 环境中，要执行 Kruskal-Wallace 测试，请键入指示的命令。

然后上传包含听众判断分数的电子表格，然后按 Enter。然后，对于事后 Dunn 测试，键入以下命令并按 Enter。访问并下载 Python 脚本 Acoustic Similarity Cosine Euclidean。

确保下载的脚本与语音排队数据集保存在同一文件夹中。单击 open file 按钮调用脚本，然后单击 run，然后运行 without debugging 按钮来执行脚本。最后，根据声学特征执行语音相似性测试。

在 BP 语音阵容 1 中，箔音 3 被判断为目标语音，箔音 3 和目标语音 4 之间没有显著差异。在 BP 语音阵容 2 中，目标语音 3 和铝箔 4 之间没有发现显着差异。余弦相似性和欧几里得距离都表明箔 3 与 BP 阵容 1 中的目标声音之间存在很强的相关性。

在 BP 阵容 2 中，箔片 4 和目标之间的两个相似性指标都具有很强的相关性。

摘要

探索更多视频

Forensic Speaker Identification

Prosodic acoustic Features

Speech Production

L2 Brazilian Portuguese

Generalized Additive Models

Kruskal Wallis Test

Acoustic Similarity Tests

Listener Perception

此视频中的章节

0:00

Introduction

1:33

Speech Production and Acoustic Analysis in Bilingual English and Brazilian Portuguese Speakers

6:35

Speech Perception and Voice Lineup Procedures in Bilingual English and Brazilian Portuguese Listeners

相关视频

article

一个过程来研究延长食品的限制对海洛因寻求戒断大鼠的影响

11.1K Views

article

方法探索自上而下视觉过程对电机性能的影响

24.9K Views

article

不相干的刺激和动作控制：通过分心 - 响应绑定范式忽略刺激的影响分析

10.6K Views

article

整体面部复合创作以后的视频阵容目击者识别范式

14.1K Views

article

一种用于评价大鼠乙醇的补强性能没有禁水，糖精衰落或扩展访问训练方法

9.6K Views

article

影响下的驾驶: 音乐听力对驾驶行为的影响

12.3K Views

article

用视觉世界范式研究自闭症普通话儿童的句子理解

7.7K Views

article

特征对斑马鱼磁场敏感性的影响评价

6.6K Views

article

与事件相关的潜在研究中,在异常句中所驻住的期望值与综合难度的分离

5.3K Views

article

使用事件相关电位分析在表达性语音中实现稳健声音身份识别的基于记忆的训练和测试范式

1.4K Views

版权所属 © 2025 MyJoVE 公司版权所有，本公司不涉及任何医疗业务和医疗服务。