我们的研究考察了外国口音如何影响说话人的身份。我们专注于基于基频的韵律特征,即语音音调、持续时间和语音质量。我们的目标是了解这些功能如何影响听众对语音阵容的判断。
人们越来越关注和研究自动说话人识别的性能,它将自动化应用于法医说话人比较的工作流程。然而,这些信息就像一个黑匣子,供法医科学家向警方、法官和陪审员报告。基于 GMM、UBM 模型和现场演员等经典技术的自动扬声器识别系统。
还有基于人工智能的神经研究。我们提出了一个自动化流程,保留自动语音识别系统遗漏的语言信息。我们的协议使用听觉和声学相结合的方法进行法医语音比较,同时确定科学发展的国家,但使用自动化工具提取广泛的声学特征以及运行声学相似程序。
首先,以 TXT 文件格式为每个音频文件编写语言转录。标记具有相同名称的 TXT 和 WAV 文件对。为每种 L1、L2 语言创建一个文件夹。
确保相同语言的所有文件对位于同一文件夹中。访问 Munich Automatic Segmentation 强制对准器的 Web 界面,将每对 WAV 和 TXT 文件从文件夹拖放到文件中的虚线矩形中。点击 上传 按钮将文件上传到对准器。
在服务选项菜单中,对于 L1 L2 英语数据,选择字素到音素到鼠标到电话到音节作为管道名称,选择英语-美国作为语言。保留输出格式的默认选项并保留所有内容。选中 run option 框以接受使用条款。
单击 run web service 按钮以在 aligner 中运行上传的文件。处理完文件后,单击 下载为 zip 文件 按钮下载文本网格文件。提取文本网格文件,以便以后在语音分析软件中重新对齐。
访问并下载 PRAAT VVUnitAligner 的脚本。确保相同语言的所有文件对和 VVUnitAligner 脚本位于同一文件夹中。打开语音分析软件。
在对象窗口中,单击 Praat 并打开 Praat 脚本以加载脚本。单击运行按钮,然后选择 English-US (英语-美国) 语言。现在,从 chunk segmentation (块分割) 按钮中,选择 Automatic (自动)。
选中 save text grid files 选项以自动保存新生成的文本网格文件。单击 okay 和 run 按钮以重新对齐语音单位。从给定的站点下载语音节奏提取器脚本,用于自动提取韵律声学特征。
创建一个新文件夹并添加语音节奏提取器脚本以及所有语言的所有音频文本网格文件。打开语音分析软件。在对象窗口中,单击 Praat 并打开 Praat 脚本以加载脚本。
然后单击 run 按钮一次。选中语音质量参数选项以保存输出文件 VQ 以获得语音质量。现在检查 linguistic target 选项以选择语言。
然后检查 单位 选项以选择以半音为单位的 F0 功能。设置 F0 阈值的值,包括最小阈值和最大阈值。单击 okay,然后单击 run 以自动提取声学特征。
要执行广义加法模型、非参数统计分析,请键入指示的命令,并将包含提取的声学特征的电子表格上传到 R 环境中。最后,按 enter 执行。与 L1 L2 BP 相比,L1 L2 英语的语速下降得更快,由于 L1 L2 BP 的音节持续时间较高且可变性较低,因此斜率较低。
尽管音节持续时间变化增加,但巴西人、L1 BP 和 L2 英语的局部微光保持相对稳定。L2 BP 使用者的停顿率更高,与 L1 英语、L1 BP 和 L2 英语使用者相比,停顿时间更长。发音率与语速类似,发音率较低,与较高的认知语言负荷和音节变化相关。
音节持续时间的标准差随着所有语言水平的语速增加而降低。随着 F0 变异性和语速的增加,L1 BP 和 L2 BP 的音节 varco 降低,而 L1 英语和 L2 英语的音节 varco 增加。与 L1 英语相比,随着语速或停顿时间的增加,辅音的标准差显示 L1 BP 的变异性较低。
元音和辅音的标准差在 L1 BP 和 L2 BP 中遵循下降上升模式,韵律特征增加,而在 L1 英语和 L2 英语中,元音和辅音的标准差先下降然后减弱。在为 English 和 BP 分别准备四个语音阵容后,从所选扬声器中获取音频文件并将它们排列到特定于语言的文件夹中。随机选择 6 个 L1 英语或 L1 BP 语音块。然后从六个语音块之一中选择 L2 英语或 L2 BP 的一个语音块。
访问并下载 Praat Create Lineup 的脚本。在运行脚本之前,请确保 L2 参考语音、L1 箔和 L1 目标语音位于同一文件夹中。打开语音分析软件。
在对象窗口中,单击 Praat 并打开 Praat 脚本以加载脚本。然后单击 run 以执行 create lineup 脚本。在 R 环境中,要执行 Kruskal-Wallace 测试,请键入指示的命令。
然后上传包含听众判断分数的电子表格,然后按 Enter。然后,对于事后 Dunn 测试,键入以下命令并按 Enter。访问并下载 Python 脚本 Acoustic Similarity Cosine Euclidean。
确保下载的脚本与语音排队数据集保存在同一文件夹中。单击 open file 按钮调用脚本,然后单击 run,然后运行 without debugging 按钮来执行脚本。最后,根据声学特征执行语音相似性测试。
在 BP 语音阵容 1 中,箔音 3 被判断为目标语音,箔音 3 和目标语音 4 之间没有显著差异。在 BP 语音阵容 2 中,目标语音 3 和铝箔 4 之间没有发现显着差异。余弦相似性和欧几里得距离都表明箔 3 与 BP 阵容 1 中的目标声音之间存在很强的相关性。
在 BP 阵容 2 中,箔片 4 和目标之间的两个相似性指标都具有很强的相关性。