Speaker Criteri di iscrizione

October 21

Speaker Criteri di iscrizione


il riconoscimento Speaker è il problema del computer di stabilire l'identità di un altoparlante con caratteristiche vocali. E 'diverso dal riconoscimento vocale, in cui l'obiettivo è quello di individuare le parole di cui si parla. Un esempio di tecnologia riconoscimento del parlatore sta costruendo sicurezza, quando la porta si apre solo quando una data persona parla nel microfono. Diversi metodi possono essere usati per eseguire questa operazione.

Stima di frequenza

Il segnale parlato ha una componente di rumore sconosciuto, come ad esempio il rumore di fondo e il rumore apparecchiature audio. metodi di stima della frequenza stimare la componente di rumore utilizzando tecniche quali la risoluzione per autovettori, un tipo di matematica importanti in fisica e ingegneria; sottraendo il rumore proveniente dall'ingresso per ottenere una approssimazione al segnale di interesse; e decomposizione quel segnale come somma di componenti di frequenza complessi. Il fatto più importante di questo metodo è che la voce senza rumore di un dato diffusore si riduce ad una rappresentazione più gestibile: l'intensità della voce su alcuni componenti di frequenza (che capita di essere i più intensi.) Questo metodo funziona bene quando il rumore di fondo è un problema e quando le parole pronunciate quando il sistema è stato addestrato potrebbe non essere esattamente le stesse parole dette quando si cerca di autenticare l'altoparlante.

Modello di Markov nascosto

Un modello di Markov nascosto è sempre in uno di un insieme di stati, ma allo stato attuale non è visibile all'osservatore. Tale modello è costantemente facendo transizioni dallo stato attuale a quello successivo a tassi, e con probabilità, determinato dai parametri del modello. Quando si effettua una transizione, il modello può emettere una uscita con una probabilità nota. La stessa uscita può essere generato da una transizione da più stati, con diverse probabilità. Nel caso particolare di riconoscimento del parlatore, un modello di Markov nascosto emette uscite rappresentano fonemi con probabilità che dipendono sequenza prima di stati visitati. Un altoparlante emettendo una sequenza di fonemi (cioè, parlare) corrisponde al modello visitando una sequenza di stati ed emettendo uscite corrispondenti agli stessi fonemi. Questo metodo funziona bene per autenticare l'altoparlante facendogli pronunciare una sequenza di parole che formano frasi complete.

pattern Recognition

Questa tecnica, tra l'essere più complesso utilizzato per il riconoscimento altoparlante, mette a confronto due flussi di voce: quella parlata dalla speaker autenticato, mentre la formazione del sistema, e quello parlato dallo speaker sconosciuto che sta tentando di ottenere l'accesso. L'altoparlante pronuncia le stesse parole, quando la formazione del sistema e, più tardi, quando si cerca di dimostrare la sua identità. Il computer allinea il flusso sonoro di formazione con quello appena ottenuto (per tenere conto di piccole variazioni di ritmo e per i ritardi nella inizio di parlare). Poi, il computer discretizza ciascuno dei due flussi come una sequenza di fotogrammi e calcola la probabilità che ciascuna coppia di frame è parlato dallo stesso altoparlante eseguendoli attraverso un perceptron multistrato - un particolare tipo di rete neurale addestrata per questo compito. Questo metodo funziona bene in condizioni di basso rumore, e quando l'altoparlante è pronunciando esattamente le stesse parole usate per addestrare il sistema.