L'evoluzione della tecnologia di riconoscimento vocale.

L'evoluzione della tecnologia di riconoscimento vocale.
Ricordi quando l'idea di KITT, l'auto parlante di Knight Rider, ti ha lasciato di nuovo a bocca aperta? O quando Blade Runner Eric Decker ordinò verbalmente al suo computer di migliorare le foto della scena del crimine? L'idea di essere capiti da un computer sembrava piuttosto futuristica, figuriamoci uno che potesse rispondere alle tue domande e capire i tuoi comandi. Informazioni sull'autore Graeme John Cole è un collaboratore di Rev, creatore del motore di riconoscimento vocale automatico più preciso al mondo, Rev.ai. Oggi tutti portiamo KITT nelle nostre tasche. Sospiriamo quando KITT risponde al telefono in banca. La personalità non è ancora presente, ma i computer sono in grado di riconoscere quasi perfettamente le parole che pronunciamo. Michael Knight, l'eroe di Knight Rider che ha collaborato con la sua smart car per combattere il crimine, era scettico sul fatto che KITT potesse capire le sue domande nel 1982. Ma lo sviluppo della tecnologia di riconoscimento vocale era in corso dagli anni '1950. Di seguito è riportato come questa tecnologia si è evoluta gli anni. E come i nostri modi di utilizzare il riconoscimento vocale e le funzionalità di sintesi vocale si sono evoluti con la tecnologia.

Scatola da scarpe IBM

(Credito immagine: IBM)

I primi computer che ascoltano, 1950-1980

Il potere del riconoscimento vocale automatico (ASR) significa che il suo sviluppo è sempre stato associato a grandi nomi. I Bell Laboratories hanno aperto la strada con AUDREY nel 1952. Il sistema AUDREY ha riconosciuto i numeri pronunciati con una precisione dal 97 al 99%, in condizioni attentamente controllate. Tuttavia, secondo James Flanagan, uno scienziato ed ex ingegnere elettrico dei Bell Labs, AUDREY era seduto su "un supporto per relè alto sei piedi, che assorbiva una notevole potenza ed esibiva la miriade di problemi di manutenzione associati ai complessi circuiti dei relè". tubi vuoti". AUDREY era troppo costoso e poco pratico, anche per casi d'uso specializzati. IBM seguì nel 1962 con Shoebox, che riconosceva numeri e semplici termini matematici. Durante questo periodo, i laboratori giapponesi svilupparono il riconoscimento di vocali e fonemi e il primo segmento del discorso. Una cosa è che un computer comprenda una piccola gamma di numeri (ad esempio 0-9), ma la svolta dell'Università di Kyoto è stata quella di "segmentare" una linea vocale in modo che la tecnologia potesse funzionare su una varietà di suoni parlati. Negli anni '1970, il Dipartimento della Difesa (DARPA) ha finanziato il programma Speech Understanding Research (SUR). I frutti di questa ricerca includevano il sistema di riconoscimento vocale HARPY di Carnegie Mellon. HARPY ha riconosciuto frasi da un vocabolario di 1.011 parole, conferendo al sistema la potenza di un bambino medio di tre anni. Quando avevo tre anni, il riconoscimento vocale ora era adorabile e aveva del potenziale, ma non lo avresti voluto in ufficio. HARPY è stato uno dei primi a utilizzare Hidden Markov Models (HMM). Questo metodo probabilistico ha portato allo sviluppo di ASR nel 1980. In effetti, nel 1980, i primi casi d'uso praticabili per gli strumenti di sintesi vocale sono apparsi con il sistema di trascrizione sperimentale di IBM, Tangora. Con una formazione adeguata, Tangora potrebbe riconoscere e scrivere 20.000 parole inglesi. Tuttavia, il sistema era ancora troppo pesante per l'uso commerciale.

ASR a livello di consumatori, dagli anni '1990 agli anni 2010

"Abbiamo pensato che fosse sbagliato chiedere a una macchina di imitare le persone", ricorda Fred Jelinek, un innovatore del riconoscimento vocale IBM. “Dopo tutto, se una macchina deve muoversi, lo fa su ruote, non camminando. Invece di studiare in modo esaustivo come le persone ascoltano e comprendono il parlato, volevamo trovare il modo naturale in cui la macchina lo fa. L'analisi statistica era ora la forza trainante dietro l'evoluzione della tecnologia ASR. Nel 1990, Dragon Dictate è stato rilasciato come primo software di riconoscimento vocale commerciale. Costa 9,000 euro, circa 18,890 euro nel 2021, inflazione inclusa. Fino al rilascio di Dragon Naturally Speaking nel 1997, gli utenti dovevano ancora fare una pausa tra una parola e l'altra. Nel 1992, AT&T ha introdotto il servizio VRCP (Voice Recognition Call Processing) di Bell Labs, che ora elabora circa 1.200 miliardi di transazioni vocali ogni anno. Ma la maggior parte del lavoro di riconoscimento vocale negli anni '1990 ha avuto luogo sotto il cofano. Il personal computer e l'onnipresente web hanno creato nuovi angoli di innovazione. Questa è stata l'opportunità scoperta da Mike Cohen, che è entrato a far parte di Google per lanciare gli sforzi di tecnologia vocale dell'azienda nel 2004. Google Voice Search (2007) ha portato la tecnologia di riconoscimento vocale alle masse. Ma ha anche riciclato i dati vocali di milioni di utenti della rete come materiale di formazione per l'apprendimento automatico. E aveva il peso di elaborazione di Google per migliorare la qualità. Apple (Siri) e Microsoft (Cortana) hanno seguito solo per rimanere in gioco. All'inizio degli anni 2010, l'emergere del deep learning, delle reti neurali ricorrenti (RNN) e della memoria a lungo termine (LSTM) ha portato a un salto iperspaziale nelle capacità della tecnologia ASR. Questo slancio in avanti è stato anche alimentato in larga misura dall'aumento e dalla maggiore disponibilità di calcolo a basso costo e da massicci progressi algoritmici.

Schermata di WWDC 2021

(Credito immagine: Apple)

Lo stato attuale dell'ASR

Basandosi su decenni di evoluzione e in risposta alle crescenti aspettative degli utenti, la tecnologia di riconoscimento vocale ha compiuto ulteriori progressi nell'ultimo mezzo decennio. Le soluzioni per ottimizzare la fedeltà audio variabile e i severi requisiti hardware semplificano il riconoscimento vocale per l'uso quotidiano attraverso la ricerca vocale e l'Internet of Things. Ad esempio, gli altoparlanti intelligenti utilizzano il rilevamento delle parole chiave per fornire risultati immediati utilizzando il software integrato. Durante questo periodo, il resto della frase viene inviato al cloud per l'elaborazione. VoiceFilter-Lite di Google ottimizza il discorso di una persona alla fine della transazione sul dispositivo. Ciò consente ai consumatori di "addestrare" il proprio dispositivo con la voce. La formazione riduce il rapporto sorgente-distorsione (SDR), migliorando l'usabilità delle applicazioni assistive ad attivazione vocale. Il tasso di errore delle parole (WER, la percentuale di parole sbagliate che appaiono durante un processo di conversione da voce a testo) è notevolmente migliorato. Gli accademici suggeriscono che entro la fine del 2020, il 99% del lavoro di trascrizione sarà automatizzato. Gli umani interverranno solo per il controllo di qualità e le correzioni.

Casi d'uso ASR negli anni 2020

La capacità di ASR sta migliorando in simbiosi con gli sviluppi nell'era della rete. Ecco tre interessanti casi d'uso per il riconoscimento vocale automatizzato. L'industria del podcasting supererà il miliardo di dollari nel 2021. Il pubblico è alle stelle e le parole continuano ad arrivare. Le piattaforme di podcast cercano fornitori ASR con alta precisione e word stamp per aiutare le persone a creare podcast più facilmente e massimizzare il valore dei loro contenuti. Fornitori come Descript convertono i podcast in testo che può essere modificato rapidamente. Inoltre, i timestamp basati su parole fanno risparmiare tempo, consentendo all'editor di modellare il podcast finito come l'argilla. Queste trascrizioni rendono anche i contenuti più accessibili a tutto il pubblico e aiutano i creatori a migliorare la ricerca e la rilevabilità dei loro programmi attraverso la SEO. Oggi, sempre più riunioni si svolgono online. E anche quelli che non lo sono spesso si iscrivono. Prendersi qualche minuto è costoso e richiede tempo. Ma le note della riunione sono uno strumento prezioso per i partecipanti per ottenere un riepilogo o rivedere un dettaglio. La trasmissione ASR offre sintesi vocale in tempo reale. Ciò significa sottotitoli facili o trascrizioni dal vivo per riunioni e seminari. Processi come deposizioni legali, assunzioni, ecc. diventa virtuale. ASR può contribuire a rendere questi contenuti video più accessibili e coinvolgenti. Ma ancora più importante, i modelli di machine learning (ML) end-to-end (E2E) migliorano ulteriormente la registrazione del relatore: il record di chi è presente e chi ha detto cosa. In situazioni ad alto rischio, la fiducia negli strumenti è essenziale. Un affidabile motore di sintesi vocale a bassissimo WER elimina l'elemento di dubbio e riduce il tempo necessario per produrre documenti finali e prendere decisioni.

In archivio

Pensi che la Knight Industries abbia mai valutato la trascrizione delle conversazioni tra KITT e Michael per migliorare l'efficienza? Forse no. Ma, alimentate dal recente passaggio al lavoro da casa, sempre più discussioni si svolgono online o per telefono. L'elaborazione del linguaggio naturale (NLP) in tempo reale e ad alta precisione ci dà potere sulle nostre parole. Aggiungi valore a ogni interazione. Gli strumenti non sono più esclusivi di grandi nomi come IBM e DARPA. Sono disponibili per i consumatori, le aziende e gli sviluppatori da utilizzare comunque la loro immaginazione lo ritenga opportuno, poiché la tecnologia di riconoscimento vocale si sforza di superare le promesse della fantascienza. Interessato al riconoscimento vocale? Scopri la nostra raccolta dei migliori software di sintesi vocale