私たちの研究では、外国語のアクセントが話者の識別にどのように影響したかを調べています。私たちは、声のピッチ、持続時間、声の品質である基本周波数に基づく韻律の特徴に焦点を当てています。私たちの目標は、これらの機能が音声ラインナップのリスナーの判断にどのように影響するかを理解することです。
法医学的な話者比較のワークフローに自動化を適用する自動話者認識の性能に注目と研究が注目されています。しかし、その情報は、法医学者が警察や裁判官、陪審員に報告するためのブラックボックスのようなものです。GMM、UBMモデル、生身の俳優などの古典的な技術に基づく自動スピーカー認識システム。
また、人工知能に基づく神経研究もあります。私たちは、自動音声認識システムが見逃した言語情報を保持する自動フローを提案します。私たちのプロトコルは、科学が開発された国を特定しながら、法医学的な音声比較に聴覚と音響を組み合わせたアプローチを使用しますが、幅広い音響特性を抽出し、音響類似性手順を実行するための自動化ツールを使用します。
まず、各オーディオファイルの言語文字起こしをTXTファイル形式で書きます。TXTファイルとWAVファイルのペアに同じ名前のタグを付けます。L1、L2言語ごとにフォルダを作成します。
同じ言語のすべてのファイルペアが同じフォルダにあることを確認します。Munich Automatic Segmentation強制アライナーのWebインターフェイスにアクセスし、WAVおよびTXTファイルの各ペアをフォルダからファイル内の破線の長方形にドラッグアンドドロップします。アップロードボタンをクリックして、ファイルをアライナーにアップロードします。
サービスオプションメニューで、L1 L2 英語データの場合、パイプライン名として「書記素」、「音素」、「マウス」、「電話」、「音節」、言語として「English-US」を選択します。出力形式のデフォルトのオプションを保持し、すべてを保持します。実行オプションのボックスをオンにして、利用規約に同意します。
[Web サービスの実行] ボタンをクリックして、アップロードされたファイルをアライナーで実行します。ファイルが処理されたら、 zip ファイルとしてダウンロードする ボタンをクリックして、テキスト グリッド ファイルをダウンロードします。テキストグリッドファイルを抽出して、後で音声分析ソフトウェアで再調整します。
PRAAT VVUnitAligner のスクリプトにアクセスしてダウンロードします。同じ言語のすべてのファイルペアと VVUnitAligner スクリプトが同じフォルダにあることを確認します。音声解析ソフトウェアを開きます。
オブジェクト ウィンドウで [Praat] をクリックし、Praat スクリプトを開いてスクリプトを読み込みます。実行ボタンをクリックし、言語として英語 - 米国を選択します。次に、チャンク セグメンテーション ボタンから [自動] を選択します。
チェック テキストグリッドファイルの保存 新しく生成されたテキストグリッドファイルを自動的に保存するオプション。「okay」ボタンと「run」ボタンをクリックして、音声単位を再調整します。指定されたサイトから、韻律音響機能の自動抽出のための音声リズム抽出スクリプトをダウンロードします。
新しいフォルダを作成し、音声リズム抽出スクリプトを、すべての言語のすべてのオーディオテキストグリッドファイルとともに追加します。音声解析ソフトウェアを開きます。オブジェクト ウィンドウで [Praat] をクリックし、Praat スクリプトを開いてスクリプトを読み込みます。
次に、実行ボタンを一度クリックします。音声品質パラメータオプションをチェックして、音声品質の出力ファイルVQを保存します。次に、言語ターゲットオプションをチェックして言語を選択します。
次に、ユニットオプションをチェックして、半音単位でF0機能を選択します。F0 しきい値の値 (最小しきい値と最大しきい値を含む) を設定します。[OK] をクリックし、続いて [実行] をクリックして、音響特徴を自動的に抽出します。
一般化加法モデル、ノンパラメトリック統計解析を実行するには、指定されたコマンドを入力し、抽出された音響特徴を含むスプレッドシートを R 環境にアップロードします。最後に、Enterキーを押して実行します。L1 L2 BPは、音節の持続時間が長く、変動性が低いため、急な傾斜が少なかったL1 L2 BPと比較して、L1 L2英語の発話速度が急速に低下しました。
ブラジル語話者、L1 BPおよびL2英語では、音節の長さの変動が増加しているにもかかわらず、ローカルシマーは比較的安定していました。一時停止率はL2 BPスピーカーの方が高く、L1 English、L1 BP、L2 Englishスピーカーと比較して一時停止が長くなりました。調音率は発話率と同様に影響を受け、発話率が低いほど認知言語負荷と音節の変動が高いことと関連していました。
音節の長さの標準偏差は、すべての言語レベルで発話速度が増加するにつれて減少しました。音節のバルコは、F0の変動性と発話率の増加に伴い、L1 BPとL2 BPで減少したが、L1英語とL2英語では増加した。子音の標準偏差は、L1英語と比較して発話速度または一時停止時間が増加するにつれて、L1 BPの変動性が小さいことを示しました。
母音と子音の標準偏差は、L1 BPとL2 BPでは下降上昇パターンに従い、韻律の特徴が増加しましたが、L1英語とL2英語では減少して減衰しました。英語とBPの4つの音声ラインナップを用意したら、選択したスピーカーから音声ファイルを取得し、言語別のフォルダに整理します。L1英語またはL1BPの6つのボイスチャンクをランダムに選択します。次に、6 つのボイス チャンクのいずれかから L2 英語または L2 BP のボイス チャンクを 1 つ選択します。
Praat Create Lineup のスクリプトにアクセスしてダウンロードします。スクリプトを実行する前に、L2 参照音声、L1 フォイル、L1 ターゲット音声が同じフォルダに配置されていることを確認してください。音声解析ソフトウェアを開きます。
オブジェクト ウィンドウで [Praat] をクリックし、Praat スクリプトを開いてスクリプトを読み込みます。次に、[実行] をクリックして、ラインナップ作成スクリプトを実行します。R 環境で Kruskal-Wallace テストを実行するには、示されたコマンドを入力します。
次に、リスナーの判断のスコアを含むスプレッドシートをアップロードし、Enterキーを押します。次に、Dunn の事後テストの場合は、次のコマンドを入力して Enter キーを押します。Python スクリプト Acoustic Similarity Cosine Euclidean にアクセスしてダウンロードします。
ダウンロードしたスクリプトが音声ラインナップデータセットと同じフォルダーに保存されていることを確認します。[ファイルを開く] ボタンをクリックしてスクリプトを呼び出し、[実行] をクリックし、デバッグ ボタンを指定せずに実行してスクリプトを実行します。最後に、音響特性に基づいて音声類似性テストを実行します。
BPボイスラインナップ1では、フォイルボイス3を対象音声とし、フォイル3とターゲットボイス4に大きな差はありませんでした。BP音声ラインナップ2では、ターゲット音声3とフォイル4の間に有意差は見られませんでした。コサイン類似度とユークリッド距離は、フォイル3とBPラインナップ1のターゲットボイスとの間に強い相関関係を示しました。
BPラインナップ2では、フォイル4とターゲットとの間に両方の類似性指標が強く相関していました。