Nuestra investigación examina cómo un acento extranjero influyó en la identificación de los hablantes. Nos centramos en las características prosódicas basadas en la frecuencia fundamental, que es el tono de voz, la duración y la calidad de la voz. Nuestro objetivo es comprender cómo estas características influyen en los juicios de los oyentes en las alineaciones de voz.
Cada vez se presta más atención e investigación sobre el rendimiento del reconocimiento automático de altavoces, que aplica la automatización al flujo de trabajo de la comparación forense de altavoces. Sin embargo, la información es como una caja negra para que los científicos forenses la informen a la policía, los jueces y los miembros del jurado. Sistemas de reconocimiento automático de altavoces basados en técnicas clásicas como GMM, modelos UBM y actores en vivo.
También existe la investigación neuronal basada en la inteligencia artificial. Proponemos un flujo automatizado que preserve la información lingüística perdida por los sistemas automáticos de reconocimiento de voz. Nuestro protocolo utiliza un enfoque auditivo y acústico combinado para la comparación forense del habla, al tiempo que establece los países donde se desarrolló la ciencia, pero utilizando herramientas automatizadas para extraer una amplia gama de características acústicas, así como para ejecutar procedimientos de similitud acústica.
Para empezar, escribe la transcripción lingüística de cada archivo de audio en un formato de archivo TXT. Etiquete el par de archivos TXT y WAV con el mismo nombre. Cree una carpeta para cada idioma L1 y L2.
Asegúrese de que todos los pares de archivos del mismo idioma estén en la misma carpeta. Acceda a la interfaz web del alineador forzado de segmentación automática de Múnich, arrastre y suelte cada par de archivos WAV y TXT de la carpeta al rectángulo discontinuo en los archivos. Haga clic en el botón de carga para cargar los archivos en el alineador.
En el menú de opciones de servicio, para los datos de inglés L1 L2, seleccione grafema a fonema a mouse a teléfono a sílaba para el nombre de la tubería e inglés-EE. UU. para idioma. Mantenga las opciones predeterminadas para el formato de salida y conserve todo. Marque la casilla de opción de ejecución para aceptar los términos de uso.
Haga clic en el botón Ejecutar servicio web para ejecutar los archivos cargados en el alineador. Una vez procesados los archivos, haga clic en el botón Descargar como archivo zip para descargar los archivos de la cuadrícula de texto. Extraiga los archivos de cuadrícula de texto para su posterior realineación en el software de análisis fonético.
Acceda y descargue el script de PRAAT VVUnitAligner. Asegúrese de que todos los pares de archivos del mismo idioma y el script VVUnitAligner estén en la misma carpeta. Abra el software de análisis fonético.
En la ventana del objeto, haga clic en Praat y abra el script Praat para cargar el script. Haga clic en el botón Ejecutar y, a continuación, seleccione el idioma como Inglés-EE. UU. Ahora, en el botón de segmentación de fragmentos, seleccione automático.
Marque la opción guardar archivos de cuadrícula de texto para guardar automáticamente los archivos de cuadrícula de texto recién generados. Haga clic en los botones Aceptar y Ejecutar para realinear las unidades fonéticas. Desde el sitio dado, descargue el script del extractor de ritmo de voz para la extracción automática de características acústicas prosódicas.
Cree una nueva carpeta y agregue el script del extractor de ritmo de voz junto con todos los archivos de cuadrícula de texto de audio de todos los idiomas. Abra el software de análisis fonético. En la ventana del objeto, haga clic en Praat y abra el script Praat para cargar el script.
A continuación, haga clic en el botón Ejecutar una vez. Marque la opción de parámetros de calidad de voz para guardar el archivo de salida VQ para la calidad de voz. Ahora marque la opción de destino lingüístico para elegir el idioma.
A continuación, marque la opción de unidad para elegir las características F0 en semitonos. Establezca los valores para el umbral F0, incluidos los umbrales mínimo y máximo. Haga clic en Aceptar, seguido de ejecutar para la extracción automática de características acústicas.
Para realizar modelos aditivos generalizados, análisis estadísticos no paramétricos, escriba el comando indicado y cargue la hoja de cálculo que contiene las características acústicas extraídas en el entorno R. Por último, pulse Intro para ejecutar. La velocidad del habla disminuyó más rápidamente para L1 L2 inglés en comparación con L1 L2 BP, que tenía pendientes menos pronunciadas debido a una mayor duración de las sílabas y una menor variabilidad.
El brillo local se mantuvo relativamente estable para los hablantes brasileños, L1 BP y L2 inglés, a pesar del aumento de la variabilidad de la duración de las sílabas. La tasa de pausa fue mayor para los hablantes de L2 BP, con pausas más largas en comparación con los hablantes de L1 inglés, L1 BP y L2 inglés. La tasa de articulación se vio afectada de manera similar a la tasa del habla, con tasas más bajas asociadas con una mayor carga lingüística cognitiva y variación de sílabas.
La desviación estándar de la duración de la sílaba disminuyó a medida que aumentaba la velocidad del habla en todos los niveles del idioma. El varco de las sílabas disminuyó para L1 BP y L2 BP con un aumento de la variabilidad F0 y la tasa del habla, mientras que aumentó para L1 inglés y L2 inglés. La desviación estándar de las consonantes mostró una menor variabilidad en L1 BP a medida que aumentaba la velocidad del habla o la duración de la pausa en comparación con L1 inglés.
La desviación estándar para las vocales y las consonantes siguió un patrón de aumento descendente para L1 BP y L2 BP, con características prosódicas crecientes, mientras que disminuyó y luego se atenuó para L1 inglés y L2 inglés. Después de preparar cuatro alineaciones de voz para inglés y BP, obtenga los archivos de audio de los oradores seleccionados y organícelos en carpetas específicas del idioma. Seleccione al azar seis fragmentos de voz en L1 inglés o L1 BP. A continuación, elija un fragmento de voz en inglés L2 o L2 BP de uno de los seis fragmentos de voz.
Acceda y descargue el script de Praat Create Lineup. Antes de ejecutar el script, asegúrese de que la voz de referencia L2, las láminas L1 y la voz de destino L1 estén colocadas en la misma carpeta. Abra el software de análisis fonético.
En la ventana del objeto, haga clic en Praat y abra el script Praat para cargar el script. A continuación, haga clic en ejecutar para ejecutar el script de creación de alineación. En el entorno R, para realizar la prueba de Kruskal-Wallace, escriba el comando indicado.
A continuación, cargue la hoja de cálculo que contiene las puntuaciones de los juicios de los oyentes y pulse Intro. A continuación, para la prueba de Dunn post-hoc, escriba el siguiente comando y pulse Intro. Acceda y descargue el script de Python, Acoustic Similarity Cosine Euclidean.
Asegúrese de que el script descargado se guarde en la misma carpeta que el conjunto de datos de alineación de voz. Haga clic en el botón Abrir archivo para llamar al script y, a continuación, haga clic en los botones Ejecutar y ejecutar sin depurar para ejecutar el script. Por último, realizar pruebas de similitud de voz basadas en las características acústicas.
En la alineación de voz BP uno, la voz foil tres fue juzgada como la voz objetivo, sin diferencias significativas entre la voz foil tres y la voz objetivo cuatro. En la línea de voz BP dos, no se encontraron diferencias significativas entre la voz objetivo tres y la línea cuatro. Tanto la similitud del coseno como la distancia euclidiana mostraron una fuerte correlación entre la lámina tres y la voz objetivo en la alineación BP uno.
En la línea BP dos, ambas métricas de similitud se correlacionaron fuertemente entre la lámina cuatro y el objetivo.