Cos'è la sintesi vocale: 3 fattori importanti ad essa correlati

Robot da testo a voce

Sintesi vocale

Il metodo per generare un linguaggio artificiale simile a quello umano con l'aiuto delle macchine è chiamato sintesi vocale. Un sistema informatico che viene utilizzato per eseguire questa procedura è chiamato sintetizzatore vocale. Il sistema richiede un'ulteriore implementazione in software o hardware e possiamo notare una sua applicazione in un sistema Text-to-Speech (TTS). Un sistema di sintesi vocale accetta il linguaggio umano quotidiano in formato testo come input e lo converte in parlato come output.

La sintesi vocale viene eseguita sequenziando il parlato registrato sotto forma di unità archiviate in un database. I sistemi variano nella dimensione delle unità vocali memorizzate; la gamma di uscita più ampia è fornita da un sistema che memorizza telefoni o telefoni con possibilità di perdita di chiarezza.

La memorizzazione di parole o frasi intere consente una produzione di alta qualità per particolari domini utente. Questo metodo può essere sostituito incorporando un modello di tratto vocale e varie altre caratteristiche appartenenti alla voce umana e generando un output vocale artificiale.

Sintesi vocale
Panoramica del sistema TTS

La qualità dell’output di un sintetizzatore vocale dipende dalla sua vicinanza alla voce umana reale e dalla facilità con cui viene compresa. L'utilizzo del dispositivo di sintesi vocale è evidente fin dagli anni '1990 ed è stato completamente sviluppato per aiutare le persone con disabilità e menomazioni specifiche.

Panoramica del sistema di sintesi vocale

Ci sono due parti significative in un discorso di sintesi vocale:

  • Front End- È responsabile della conversione del testo di input che contiene vari simboli, numeri e abbreviazioni nella forma equivalente di dati comprensibili e convertibili. Questo processo è definito come normalizzazione del testo o pre-elaborazione dei dati. Ogni parola viene quindi assegnata con trascrizioni fonetiche e separa e contrassegna il testo in unità prosodiche, come frasi, clausole e frasi, attraverso un processo chiamato text-to-phoneme o grapheme-to-phoneme. I due aspetti vengono poi combinati per generare i dati di output contenenti la rappresentazione linguistica simbolica.
  • Estremità posteriore- Generalmente indicato come il "sintetizzatore", questa parte è responsabile della rappresentazione linguistica simbolica nel suono. In un sistema avanzato, questo processo è ulteriormente seguito dal calcolo della prosodia target (contorno del tono, tempi del fonema), che sarà utilizzato nel discorso in uscita.
Custodia per computer e sintetizzatore vocale 19 9663804888
Sintetizzatore vocale utilizzato da Stephen Hawking; Image Source: Science Museum di Londra / Biblioteca di immagini di scienza e societàAlloggiamento per computer e sintetizzatore vocale, 19 (9663804888)CC BY-SA 2.0

Tecnologie coinvolte nella sintesi vocale

Naturalezza e intelligibilità sono gli attributi più significativi che determinano la qualità di un dispositivo di sintesi vocale. La naturalezza è definita dalla capacità del dispositivo di replicare il più fedelmente possibile la voce umana e l'intelligibilità determina la facilità con cui il dispositivo può comprendere il suono in uscita. I sintetizzatori vocali si sforzano di produrre risultati ottimali in entrambi questi aspetti.

La sintesi concatenativa e la sintesi formante sono le due tecnologie primarie che generano forme d'onda del parlato sintetico. Ci sono punti di forza e svantaggi in ciascuna tecnologia e gli usi comuni di un metodo di sintesi di solito determinano la scelta di uno di questi approcci.

Sintesi concatenativa

La sequenza di frammenti di discorso registrato in un certo modo è chiamata sintesi concatenativa. Questo processo produce tipicamente il discorso sintetizzato dal suono più naturale. Tuttavia, le incongruenze tra le variazioni naturali del parlato e la progettazione dei metodi di segmentazione automatizzata della forma d'onda spesso provocano anomalie dell'uscita udibile.

Esistono tre importanti sottotipi di sintesi concatenativa.

  1. Sintesi della selezione delle unità- L'input per questa tecnica di selezione è un ampio database di parlato registrato. La segmentazione del database viene eseguita utilizzando un riconoscimento vocale impostato sulla modalità di allineamento forzato. La segmentazione risulta in unità come telefoni, difoni, parole, frasi, sillabe, morfemi, frasi, ecc. L'indicizzazione di queste unità si basa su vari parametri come altezza, durata, posizione in sillaba e telefoni adiacenti. Il processo dell'albero decisionale seleziona le unità più adatte per formare una catena per l'esecuzione. Più ampio è il database, più naturale è il discorso in uscita. Questa tecnica offre la più straordinaria naturalezza per l'output del parlato basato sui dati registrati.
  2. Sintesi dei difoni- Il database per questa tecnica è costituito solo da difoni, il che lo rende relativamente piccolo. La fonotattica di una lingua selezionata determina l'insieme di tutti i difoni unici da considerare. Il database vocale è costituito da una singola registrazione di ciascun diphone. Varie tecniche di elaborazione del segnale digitale come PSOLA, MBROLA, codifica predittiva lineare vengono utilizzate per sovrapporre la frase target su queste unità diphone. L'utilizzo della sintesi diphone è limitato alla ricerca perché il discorso manca di naturalezza, suona molto robotico e contiene difetti sonori.
  3. Sintesi specifica del dominio Il database per questa tecnica è limitato a parole e frasi preregistrate. L'applicabilità di questo metodo di sintesi è limitata al dominio in base al quale viene generato il database, ad esempio, annunci di stazioni ferroviarie, bollettini meteorologici, orologi parlanti, ecc. L'implementazione di questa tecnologia è semplice e, allo stesso tempo, un alto livello di la naturalezza può essere ottenuta a causa di frasi di output limitate. Per ottenere una fusione fluida delle parole con un discorso naturale, è necessario tenere conto di molte variazioni linguistiche.

Sintesi formante

Per molte applicazioni, la naturalezza della parola non è un obiettivo; piuttosto, affidabilità, intelligenza e precisione ad alta velocità sono più importanti. Ciò può essere ottenuto utilizzando la sintesi del formante, che crea un discorso sintetizzato utilizzando la sintesi additiva e la modellazione acustica. Questo metodo, chiamato anche sintesi basata su regole, crea una forma d'onda vocale artificiale variando parametri come frequenza, livelli di rumore e voicing.

È altamente improbabile che il linguaggio artificiale, dal suono robotico creato dalla tecnologia di sintesi delle formanti venga scambiato per linguaggio umano. I glitch acustici, comuni nei sistemi concatenativi, vengono eliminati principalmente in questa tecnica. A causa dell'assenza di un ampio database di registrazioni vocali, questi programmi sono relativamente piccoli perché trovano impiego in sistemi embedded dove la potenza di elaborazione è limitata.

È possibile trasmettere una varietà di toni di voce ed emozioni oltre a domande e dichiarazioni standard perché i sistemi basati sul formato mostrano il controllo completo su tutti gli aspetti dell'output. Ad esempio, molti videogiochi importanti hanno fatto uso della tecnologia di sintesi del formato per il parlato interattivo.

Sintesi articolatoria

Il metodo utilizzato per generare i suoni del parlato basato sul modello del tratto vocale umano è chiamato sintesi articolatoria. Ha lo scopo di simulare gli articolatori del parlato in uno o più modi. Offre un modo per acquisire una comprensione dello sviluppo del linguaggio e per ricercare la fonetica.

La coarticolazione è un effetto naturale in un tale modello e dovrebbe essere possibile trattare correttamente in teoria le proprietà della sorgente glottale, la relazione del tratto vocale con le corde vocali e come il sistema sottoglottale, il tratto nasale e le cavità del seno influenzano la generazione di un linguaggio simile a quello umano attraverso questo modello.

La sintesi articolatoria comprende tipicamente due componenti distinte: il tratto vocale, che è suddiviso in più sotto-componenti, e le corrispondenti regioni della sezione trasversale utilizzate parametricamente per la riflessione delle caratteristiche delle corde vocali. Nel modello acustico, una linea di trasmissione analogica elettrica approssima ogni campo della sezione trasversale.

La simulazione delle vie vocali è soggetta ai cambiamenti che si verificano nelle funzioni dell'area riguardanti il ​​tempo. La configurazione target assegnata a ciascun suono determina il ritmo del movimento del tratto vocale. Se costruito correttamente, il sintetizzatore articolatorio può riprodurre ogni effetto rilevante nello sviluppo di fricative e esplosive e modellando le transizioni di coarticolazione per replicare i processi coinvolti nella produzione del linguaggio reale.

A metà degli anni '1970, presso gli Haskins Laboratories, Philip Rubin, Tom Baer e Paul Mermelstein crearono il primo sintetizzatore articolatorio comunemente utilizzato per gli esperimenti di laboratorio.

Sintesi basata su HMM

Questa è una sintesi parametrica statistica seguendo i "modelli di Markov nascosti". HMM modellare simultaneamente lo spettro di frequenza, la frequenza fondamentale e la lunghezza del discorso in questo metodo. Le forme d'onda del parlato create sul criterio di massima verosimiglianza vengono create dagli stessi HMM.

Un modello di Markov nascosto (HMM) nella biologia computazionale è una tecnica matematica utilizzata principalmente per la modellazione di sequenze biologiche. Una sequenza viene modellata come output di un metodo stocastico discreto nella sua implementazione, che avanza attraverso un insieme di stati sequenziali che sono "nascosti" all'osservatore.

Sintesi sinusoidale

La sintesi sinusoidale, o voce sinusoidale, è un metodo per sintetizzare il parlato sostituendo i fischietti di tono puro per i formanti (bande di energia prominenti). Philip Rubin ha creato il primo software di sintesi sinusoidale (SWS) per la produzione automatizzata di stimoli per esperimenti percettivi presso gli Haskins Laboratories negli anni '1970.

Il linguaggio sinusoidale è un fenomeno peculiare in cui alcune delle caratteristiche del discorso sono assunte da un piccolo numero di sinusoidi messe insieme - a cui non assomigliano affatto per molti aspetti. È possibile ottenere un'elevata intelligibilità utilizzando tre sinusoidi che tracciano la frequenza e l'ampiezza dei primi tre formanti del parlato.

Sintesi basata sul deep learning

A differenza dell'approccio basato su HMM, il metodo basato sul Deep Learning mappa esplicitamente le caratteristiche linguistiche su caratteristiche acustiche con reti neurali profonde che si sono dimostrate estremamente efficaci nell'apprendimento delle caratteristiche intrinseche dei dati. Le persone hanno suggerito vari modelli nella lunga tradizione di studi che seguono metodi basati sul Deep Learning per la sintesi vocale.

Uno strumento utile per la sintesi vocale è diventato apprendimento profondo in grado di sfruttare grandi quantità di dati di addestramento. Recentemente, sono state condotte sempre più ricerche sulle tecniche di apprendimento profondo o persino sui sistemi end-to-end, e sono stati raggiunti successi allo stato dell'arte.

AIMLDL1
Fonte immagine: file originale: Avimanyu786 Versione SVG: Tukijaaliwa, AI-ML-DL, CC BY-SA 4.0

Settembre 2016 ha segnato l'inizio di WaveNet di DeepMind, un modello generativo profondo di forme d'onda audio grezze. Ha reso evidente che i modelli basati sull'apprendimento profondo possono modellare forme d'onda grezze e funzionare bene da caratteristiche acustiche come spettrogrammi o caratteristiche linguistiche pre-elaborate specifiche per generare espressione.

Vantaggi dei sistemi end-to-end

  • Capacità limitata di analisi del testo utilizzando un unico sistema.
  • Quantità limitata di ingegneria delle funzionalità.
  • Ricco condizionamento degli attributi esistenti e facile adattamento a quelli più nuovi.
  • Maggiore naturalezza e intelligibilità
  • Più robusto rispetto ai modelli multistadio.

Svantaggi dei sistemi end-to-end

  • Esistenza di un problema di inferenza lenta.
  • Dati inferiori si traducono in una sintesi vocale meno robusta.
  • Capacità di controllo limitata rispetto all'approccio concatenativo.
  • La prosodia piatta viene sviluppata con la media sui dati di allenamento.

Sfide coinvolte nella sintesi vocale

  1. Sistemazione di parole pronunciate in modo diverso con la stessa ortografia, in base al contesto.
  2. Inferenza su come espandere un no. in base alla parola, al numero e alla punteggiatura circostanti. Ad esempio, 1465 può essere "millequattrocentosessantacinque" o può anche essere letto come "uno quattro sei cinque", "quattordici sessantacinque" o "quattrocentosessantacinque".
  3. Ambiguità nelle abbreviazioni. Ad esempio, "in" per "pollici" deve essere differenziato dalla parola "in".
  4. L'approccio basato sul dizionario (cercare ogni parola nel dizionario e sostituire l'ortografia con la pronuncia dettagliata nel dizionario per scegliere la pronuncia corretta di ogni parola) del processo da testo a fonema fallisce completamente per qualsiasi parola che può essere trovata in il dizionario.
  5. Approccio basato su regole (per valutare le loro pronunce in base all'ortografia, alle parole vengono applicate regole di pronuncia o all'approccio di "imparare a leggere") del processo da testo a fonema fallisce poiché lo schema tiene conto di ortografie o pronunce insolite perché la sofisticazione delle regole aumenta notevolmente.
  6. Difficoltà nella valutazione affidabile dei sistemi di sintesi vocale a causa della mancanza di standard di prestazioni oggettivi generalmente accettati.
  7. Spostamento del contorno del tono della frase, a seconda che si tratti di un'espressione affermativa, interrogativa o esclamativa.

Per il precedente articolo su Mecanum Wheeled Robot, Clicca qui.

Leggi anche: