Riconoscimento vocale di Windows - Windows Speech Recognition

Riconoscimento vocale di Windows
WSRIcon.png
Tutorial sul riconoscimento vocale di Windows Vista.PNG
Il tutorial per il riconoscimento vocale di Windows in Windows Vista che illustra la selezione del testo in WordPad per l'eliminazione.
Sviluppatore/i Microsoft
Versione iniziale 30 novembre 2006 ; 14 anni fa ( 2006-11-30 )
Sistema operativo Windows Vista e versioni successive
Tipo Riconoscimento vocale

Windows Speech Recognition ( WSR ) è un riconoscimento vocale sviluppato da Microsoft per Windows Vista che consente ai comandi vocali di controllare l' interfaccia utente del desktop ; dettare testo in documenti elettronici ed e -mail ; navigare in siti web ; eseguire scorciatoie da tastiera ; e per azionare il cursore del mouse . Supporta macro personalizzate per eseguire attività aggiuntive o supplementari.

WSR è una piattaforma di riconoscimento vocale elaborata localmente; non si basa sul cloud computing per l'accuratezza, la dettatura o il riconoscimento, ma si adatta in base a contesti, grammatiche, campioni vocali, sessioni di formazione e vocabolari. Fornisce un dizionario personale che consente agli utenti di includere o escludere parole o espressioni dalla dettatura e di registrare le pronunce per aumentare la precisione del riconoscimento. Sono supportati anche modelli linguistici personalizzati.

Con Windows Vista, WSR è stato sviluppato per essere parte di Windows, poiché in precedenza il riconoscimento vocale era esclusivo di applicazioni come Windows Media Player . È presente in Windows 7 , Windows 8 , Windows 8.1 , Windows RT , Windows 10 e Windows 11 .

Storia

Microsoft è stata coinvolta nel riconoscimento vocale e nella ricerca sulla sintesi vocale per molti anni prima di WSR. Nel 1993, Microsoft ha assunto Xuedong Huang dalla Carnegie Mellon University per guidare i suoi sforzi di sviluppo del linguaggio; la ricerca dell'azienda ha portato allo sviluppo della Speech API (SAPI) introdotta nel 1994. Il riconoscimento vocale era stato utilizzato anche nei precedenti prodotti Microsoft. Office XP e Office 2003 fornivano funzionalità di riconoscimento vocale tra le applicazioni Internet Explorer e Microsoft Office ; inoltre abilitava funzionalità vocali limitate in Windows 98 , Windows ME , Windows NT 4.0 e Windows 2000 . Windows XP Tablet PC Edition 2002 includeva funzionalità di riconoscimento vocale con il Pannello input penna di Tablet PC e Microsoft Plus! per i comandi vocali abilitati per Windows XP per Windows Media Player. Tuttavia, tutto ciò richiedeva l'installazione del riconoscimento vocale come componente separato; prima di Windows Vista, Windows non includeva il riconoscimento vocale integrato o esteso. Office 2007 e versioni successive si basano su WSR per i servizi di riconoscimento vocale.

Windows Vista

Un prototipo di riconoscimento vocale Aero Wizard in Windows Vista (allora noto come "Longhorn") build 4093 .

Al WinHEC 2002 Microsoft ha annunciato che Windows Vista (nome in codice "Longhorn") avrebbe incluso progressi nel riconoscimento vocale e in funzionalità come il supporto di array di microfoni come parte di uno sforzo per "fornire un'infrastruttura audio di qualità coerente per il riconoscimento vocale naturale (continuo) e ( discreto) comando e controllo." Bill Gates ha dichiarato durante il PDC 2003 che Microsoft avrebbe "costruito capacità vocali nel sistema - un grande progresso per quello in 'Longhorn', sia nel riconoscimento che nella sintesi, in tempo reale"; e le build pre-release durante lo sviluppo di Windows Vista includevano un motore vocale con funzionalità di formazione. Una presentazione per sviluppatori PDC 2003 ha dichiarato che Windows Vista includerà anche un'interfaccia utente per il feedback e il controllo del microfono e la configurazione dell'utente e le funzioni di formazione. Microsoft ha chiarito fino a che punto il riconoscimento vocale sarebbe stato integrato quando ha affermato in un kit di sviluppo software pre-release che "gli scenari vocali comuni, come i menu e i pulsanti di attivazione vocale, saranno abilitati a livello di sistema".

Durante WinHEC 2004 Microsoft ha incluso WSR come parte di una strategia per migliorare la produttività sui PC mobili. Microsoft in seguito ha sottolineato l' accessibilità , nuovi scenari di mobilità, supporto per lingue aggiuntive e miglioramenti all'esperienza dell'utente vocale a WinHEC 2005. A differenza del supporto vocale incluso in Windows XP, che è stato integrato con il Pannello input penna del Tablet PC e ha richiesto il passaggio tra comandi separati e Modalità di dettatura, Windows Vista introdurrebbe un'interfaccia dedicata per l'input vocale sul desktop e unificherebbe le modalità di pronuncia separate; gli utenti in precedenza non potevano pronunciare un comando dopo aver dettato o viceversa senza prima passare da una modalità all'altra. Windows Vista Beta 1 includeva il riconoscimento vocale integrato. Per incentivare i dipendenti dell'azienda ad analizzare WSR per problemi software e per fornire feedback, Microsoft ha offerto l'opportunità ai suoi tester di vincere un modello Premium di Xbox 360 .

Durante una dimostrazione di Microsoft il 27 luglio 2006, prima del rilascio di Windows Vista alla produzione (RTM), si è verificato un incidente notevole che ha coinvolto WSR che ha provocato un output non intenzionale di "Cara zia, impostiamo così il doppio del killer elimina seleziona tutto" quando diversi i tentativi di dettare hanno portato a errori di output consecutivi; l'incidente è stato oggetto di notevole derisione tra analisti e giornalisti tra il pubblico, nonostante un'altra dimostrazione per la gestione e la navigazione delle applicazioni abbia avuto successo. Microsoft ha rivelato che questi problemi erano dovuti a un problema tecnico del guadagno audio che causava la distorsione dei comandi e dei dettati da parte del riconoscitore; il problema tecnico è stato risolto prima del rilascio di Windows Vista.

Rapporti dall'inizio del 2007 hanno indicato che WSR è vulnerabile agli aggressori che utilizzano il riconoscimento vocale per operazioni dannose riproducendo determinati comandi audio attraverso gli altoparlanti di un bersaglio; è stata la prima vulnerabilità scoperta dopo la disponibilità generale di Windows Vista . Microsoft ha affermato che sebbene un tale attacco sia teoricamente possibile, una serie di fattori attenuanti e prerequisiti ne limiterebbe l'efficacia o lo preverrebbe del tutto: un bersaglio avrebbe bisogno che il riconoscitore fosse attivo e configurato per interpretare correttamente tali comandi; microfoni e altoparlanti dovrebbero essere entrambi abilitati e a livelli di volume sufficienti; e un attacco richiederebbe al computer di eseguire operazioni visibili e produrre un feedback udibile senza che gli utenti se ne accorgano. Il controllo dell'account utente vieterebbe anche il verificarsi di operazioni privilegiate.

Windows 7

Il blocco appunti per la dettatura in Windows 7 sostituisce l'opzione "abilita la dettatura ovunque" di Windows Vista.

WSR è stato aggiornato per utilizzare Microsoft UI Automation e il suo motore ora utilizza lo stack audio WASAPI , migliorando sostanzialmente le sue prestazioni e consentendo rispettivamente il supporto per la cancellazione dell'eco . Il raccoglitore di documenti, che può analizzare e raccogliere testo in e-mail e documenti per contestualizzare i termini dell'utente, ha migliorato le prestazioni e ora viene eseguito periodicamente in background anziché solo dopo l'avvio del riconoscimento. Anche la modalità di sospensione ha visto miglioramenti delle prestazioni e, per risolvere i problemi di sicurezza, il riconoscimento viene disattivato per impostazione predefinita dopo che gli utenti pronunciano "smetti di ascoltare" invece di essere sospeso. Windows 7 introduce anche un'opzione per inviare dati di formazione vocale a Microsoft per migliorare le versioni future del riconoscimento.

Una nuova interfaccia per gli appunti per la dettatura funziona come un documento temporaneo in cui gli utenti possono dettare o digitare il testo per l'inserimento in applicazioni non compatibili con Text Services Framework . Windows Vista in precedenza forniva un'opzione "abilita la dettatura ovunque" per tali applicazioni.

Windows 8.xe Windows RT

WSR può essere utilizzato per controllare l' interfaccia utente Metro in Windows 8, Windows 8.1 e Windows RT con i comandi per aprire la barra degli accessi ("Premere Windows C"); per dettare o visualizzare comandi in app in stile Metro ("Premi Windows Z"); per eseguire attività nelle app (ad es. "Cambia in Celsius" in MSN Meteo ); e per visualizzare tutte le app installate elencate nella schermata Start ("App").

Windows 10

WSR è presente nell'applicazione Impostazioni a partire dall'aggiornamento di Windows 10 aprile 2018 ( versione 1803 ); la modifica è apparsa per la prima volta in Insider Preview Build 17083. L'aggiornamento di aprile 2018 introduce anche una nuova scorciatoia da tastiera ⊞ Win+ Ctrl+ Sper attivare WSR.

Panoramica e caratteristiche

WSR consente a un utente di controllare le applicazioni e l' interfaccia utente desktop di Windows tramite comandi vocali. Gli utenti possono dettare il testo all'interno di documenti, e-mail e moduli; controllare l'interfaccia utente del sistema operativo; eseguire scorciatoie da tastiera ; e sposta il cursore del mouse . La maggior parte delle applicazioni integrate in Windows Vista può essere controllata; le applicazioni di terze parti devono supportare Text Services Framework per la dettatura. Le lingue supportate sono l' inglese (USA) , l' inglese (Regno Unito) , il francese , il tedesco , il giapponese , il cinese mandarino e lo spagnolo .

Quando viene avviato per la prima volta, WSR presenta una procedura guidata di configurazione del microfono e un tutorial passo-passo interattivo opzionale che gli utenti possono iniziare ad apprendere i comandi di base adattando il riconoscitore alle loro specifiche caratteristiche vocali; si stima che il tutorial richieda circa 10 minuti per essere completato. La precisione del riconoscitore aumenta attraverso l'uso regolare, che lo adatta a contesti, grammatiche, schemi e vocabolari. Sono inoltre supportati modelli linguistici personalizzati per i contesti, la fonetica e le terminologie specifici degli utenti in particolari campi professionali come quello legale o medico. Con Windows Search , il riconoscitore può anche raccogliere testo in documenti, e-mail, nonché input scritto a mano su tablet PC per contestualizzare e disambiguare i termini per migliorare la precisione; nessuna informazione viene inviata a Microsoft.

WSR è una piattaforma di riconoscimento vocale elaborata localmente; non si basa sul cloud computing per la precisione, la dettatura o il riconoscimento. I profili vocali che memorizzano le informazioni sugli utenti vengono conservati localmente. I backup ei trasferimenti di profili possono essere eseguiti tramite Windows Easy Transfer .

Interfaccia

Il riconoscimento vocale che visualizza informazioni basate su diverse modalità; il colore del pulsante di riconoscimento cambia in base all'interazione dell'utente.

L'interfaccia WSR è costituita da un'area di stato che visualizza istruzioni, informazioni sui comandi (ad esempio, se un comando non viene ascoltato dal riconoscitore) e lo stato del riconoscitore; un misuratore vocale mostra un feedback visivo sui livelli di volume. L'area di stato rappresenta lo stato attuale di WSR in un totale di tre modalità, elencate di seguito con i rispettivi significati:

  • Ascolto : il riconoscitore è attivo e attende l'input dell'utente
  • Inattivo : il riconoscitore non ascolterà né risponderà a comandi diversi da "Inizia ascolto"
  • Spento : il riconoscitore non ascolterà né risponderà a nessun comando; questa modalità può essere abilitata pronunciando "Smetti di ascoltare"

I colori del pulsante della modalità di ascolto del riconoscimento indicano le sue varie modalità di funzionamento: blu durante l'ascolto; grigio-blu durante il sonno; grigio quando spento; e giallo quando l'utente cambia contesto (ad esempio, dal desktop alla barra delle applicazioni) o quando un comando vocale viene interpretato erroneamente. L'area di stato può anche visualizzare informazioni utente personalizzate come parte delle macro di riconoscimento vocale di Windows .

Il pannello delle alternative che mostra i suggerimenti per una frase.

Pannello delle alternative

Un'interfaccia di disambiguazione del pannello alternativo elenca gli elementi interpretati come rilevanti per le parole pronunciate da un utente; se la parola o la frase che un utente desiderava inserire in un'applicazione è elencata tra i risultati, un utente può pronunciare il numero corrispondente della parola o frase nei risultati e confermare questa scelta pronunciando "OK" per inserirla all'interno dell'applicazione. Il pannello delle alternative viene visualizzato anche quando si avviano applicazioni o si pronunciano comandi che fanno riferimento a più di un elemento (ad esempio, pronunciare "Avvia Internet Explorer" può elencare sia il browser Web che una versione separata con i componenti aggiuntivi disabilitati). Una voce ExactMatchOverPartialMatch nel registro di Windows può limitare i comandi agli elementi con nomi esatti se nei risultati è inclusa più di un'istanza.

Comandi comuni

Di seguito sono elencati i comandi WSR comuni. Le parole in corsivo indicano una parola che può essere sostituita all'elemento desiderato (es. "direzione" in " direzione di scorrimento " può essere sostituita con la parola " giù "). Un comando "inizia a digitare" consente a WSR di interpretare tutti i comandi di dettatura come scorciatoie da tastiera.

Comandi di dettatura: "Nuova riga"; "Nuovo paragrafo"; "Scheda"; " Parola letterale "; " Numero numerico "; "Vai alla parola "; "Vai dietro alla parola "; "Nessuno spazio"; "Vai all'inizio della frase"; "Vai a fine frase"; "Vai all'inizio del paragrafo"; "Vai a fine paragrafo"; "Vai all'inizio del documento" "Vai alla fine del documento"; "Vai al nome del campo " (ad esempio, vai a indirizzo , cc o oggetto ). I caratteri speciali come una virgola vengono dettati pronunciando il nome del carattere speciale.
Comandi di navigazione:
Scorciatoie da tastiera: "Premi il tasto della tastiera "; "Premi ⇧ Shiftpiù a"; "Premi maiuscola b".
I tasti che possono essere premuti senza prima impartire il comando di stampa includono: ← Backspace, Delete, End, ↵ Enter, Home, Page Down, Page Up, e Tab ↹.
Comandi del mouse: "Clic"; "Click che "; "Doppio click"; "Fai doppio clic su quello "; "Segnare"; "Mark che "; "Fare clic con il pulsante destro del mouse"; "Right-click che "; " MouseGrid ".
Comandi di gestione delle finestre: "Chiudi (in alternativa massimizza, minimizza o ripristina) la finestra"; "Chiudi quello "; "Chiudi nome applicazione aperta "; "Cambia applicazioni"; "Passa al nome dell'applicazione aperta "; " Direzione di scorrimento "; " Direzione di scorrimento in numero di pagine "; "Mostra il desktop"; " Mostra numeri ".
Comandi di riconoscimento vocale: "Inizia ad ascoltare"; "Smetti di ascoltare"; "Mostra opzioni vocali"; "Dizionario vocale aperto"; "Sposta riconoscimento vocale"; "Riduci al minimo il riconoscimento vocale"; "Ripristina riconoscimento vocale". In lingua inglese, i comandi applicabili possono essere mostrati pronunciando "Cosa posso dire?" Gli utenti possono anche interrogare il riconoscitore sulle attività in Windows pronunciando "Come faccio a nominare l'attività " (ad esempio, "Come installo una stampante?") che apre la relativa documentazione di aiuto.
Il comando MouseGrid che visualizza una griglia di numeri sul desktop di Windows Vista.

MouseGrid

MouseGrid consente agli utenti di controllare il cursore del mouse sovrapponendo i numeri in nove regioni sullo schermo; queste regioni si restringono gradualmente man mano che un utente pronuncia il numero o i numeri della regione su cui concentrarsi fino a raggiungere l'elemento di interfaccia desiderato. Gli utenti possono quindi impartire comandi tra cui "Fai clic sul numero della regione ", che sposta il cursore del mouse sulla regione desiderata e quindi fa clic su di essa; e "Segna numero di regione ", che consente di selezionare un elemento (come l'icona di un computer ) in una regione, su cui è possibile fare clic con il comando di clic precedente . Gli utenti possono anche interagire con più regioni contemporaneamente.

Mostra numeri

Le applicazioni e gli elementi dell'interfaccia che non presentano comandi identificabili possono comunque essere controllati chiedendo al sistema di sovrapporre i numeri su di essi tramite un comando Mostra numeri . Una volta attivo, pronunciando il numero sovrapposto si seleziona quell'elemento in modo che un utente possa aprirlo o eseguire altre operazioni. Show Numbers è stato progettato in modo che gli utenti possano interagire con elementi non facilmente identificabili.

Il comando Mostra numeri sovrappone i numeri in Esplora giochi .

Dettatura

WSR consente la dettatura di testo nelle applicazioni e in Windows. Se si verifica un errore di dettatura, è possibile correggerlo pronunciando " Parola corretta " o "Correggi quella" e verrà visualizzato il pannello delle alternative che fornirà suggerimenti per la correzione; questi suggerimenti possono essere selezionati pronunciando il numero corrispondente al numero del suggerimento e pronunciando "OK". Se l'elemento desiderato non è elencato tra i suggerimenti, un utente può pronunciarlo in modo che possa apparire. In alternativa, gli utenti possono pronunciare "Scrivilo" o "Lo compirò da solo" per pronunciare la parola desiderata lettera per lettera; gli utenti possono utilizzare il proprio alfabeto personale o l' alfabeto fonetico NATO (ad es. "N come a novembre") durante l'ortografia.

Più parole in una frase possono essere corrette contemporaneamente (ad esempio, se un utente parla "dettando" ma il riconoscitore interpreta questa parola come "la cosa", un utente può dichiarare "correggi la cosa" per correggere entrambe le parole contemporaneamente). Nella lingua inglese vengono riconosciute per impostazione predefinita oltre 100.000 parole.

Dizionario vocale

Un dizionario personale consente agli utenti di includere o escludere determinate parole o espressioni dalla dettatura. Quando un utente aggiunge una parola che inizia con una lettera maiuscola al dizionario, un utente può specificare se deve essere sempre in maiuscolo o se la maiuscola dipende dal contesto in cui viene pronunciata la parola. Gli utenti possono anche registrare le pronunce per le parole aggiunte al dizionario per aumentare la precisione del riconoscimento; vengono memorizzate anche le parole scritte tramite uno stilo su un tablet PC per la funzione di riconoscimento della grafia di Windows . Le informazioni memorizzate in un dizionario sono incluse come parte del profilo vocale di un utente. Gli utenti possono aprire il dizionario vocale pronunciando il comando "mostra dizionario vocale".

macro

Un'interfaccia di Aero Wizard che mostra le opzioni per creare macro di riconoscimento vocale.

WSR supporta le macro personalizzate tramite un'applicazione supplementare di Microsoft che consente ulteriori comandi in linguaggio naturale . Come esempio di questa funzionalità, una macro-mail rilasciato da Microsoft consente un comando di linguaggio naturale in cui un utente può parlare "invia un'email a contatto su soggetti ", che si apre Microsoft Outlook per comporre un nuovo messaggio con il contatto designato e soggetti inseriti automaticamente. Microsoft ha anche rilasciato macro di esempio per il dizionario vocale, per Windows Media Player, per Microsoft PowerPoint , per la sintesi vocale , per passare da un microfono all'altro, per personalizzare vari aspetti della configurazione del dispositivo audio come i livelli di volume e per query generiche in linguaggio naturale come come "Quali sono le previsioni del tempo?" "Che ore sono?" e "Qual è la data?" Le risposte a queste domande dell'utente vengono pronunciate all'utente nella voce di sintesi vocale Microsoft attiva installata sulla macchina.

Applicazione o articolo Esempi di macro frasi (il corsivo indica le parole sostituibili)
Microsoft Outlook Invia una email Invia email a Invia e-mail a Makoto Invia e-mail a Makoto Yamagishi Invia un'e-mail a Makoto Yamagishi su Invia un'email a Makoto Yamagishi sull'incontro di questa settimana Aggiorna i contatti di posta elettronica di Outlook
Microsoft Powerpoint Diapositiva successiva Diapositiva precedente Prossimo Precedente Vai avanti di 5 diapositive Torna indietro di 3 diapositive Vai alla diapositiva 8
Windows Media Player Prossima traccia Canzone precedente Gioca Beethoven Suona qualcosa di Mozart Ascolta il CD che contiene Nella sala del re della montagna Suona qualcosa scritto nel 1930 Metti in pausa la musica
Microfoni in Windows Microfono Cambia microfono Microfono Array microfono Passa alla linea Passa all'array di microfoni Passa al microfono di linea Passa al microfono dell'array di microfoni
Livelli di volume in Windows Disattiva gli altoparlanti Riattiva gli altoparlanti Spegni l'audio Aumenta il volume Aumenta il volume di 2 volte Diminuire il volume di 50 Imposta il volume a 66
Dizionario vocale WSR Esporta il dizionario vocale Aggiungi una pronuncia Aggiungi quel [ testo selezionato ] al dizionario vocale Blocca quel [ testo selezionato ] dal dizionario vocale Rimuovi quel [ testo selezionato ] [ Testo selezionato ] suona come... Come suona [ testo selezionato ]?
Sintesi vocale Leggi che [ testo selezionato ] Leggi i prossimi 3 paragrafi Leggi la frase precedente Per favore, smetti di leggere Che ore sono? Qual'è la data di oggi? Dimmi le previsioni del tempo per Redmond

Utenti e sviluppatori possono creare le proprie macro in base alla trascrizione e sostituzione del testo; esecuzione dell'applicazione (con supporto per gli argomenti della riga di comando ); tasti rapidi; emulazione di comandi vocali esistenti; o una combinazione di questi elementi. Sono supportati XML , JScript e VBScript . Le macro possono essere limitate ad applicazioni specifiche e le regole per le macro possono essere definite a livello di codice. Affinché una macro venga caricata, deve essere archiviata in una cartella Speech Macros all'interno della directory Documenti dell'utente attivo . Tutte le macro sono firmate digitalmente per impostazione predefinita se è disponibile un certificato utente per garantire che i comandi memorizzati non vengano alterati o caricati da terze parti; se un certificato non è disponibile, un amministratore può crearne uno. I livelli di sicurezza configurabili possono impedire il caricamento di macro non firmate; per richiedere agli utenti di firmare le macro dopo la creazione; e per caricare macro non firmate.

Prestazione

A partire dal 2017 WSR utilizza Microsoft Speech Recognizer 8.0, la versione introdotta in Windows Vista. Per quanto riguarda la dettatura, Mark Hachman, redattore senior di PC World , ha riscontrato un'accuratezza del 93,6% senza formazione, un tasso che non è accurato come il software della concorrenza. Secondo Microsoft, il tasso di precisione durante l'addestramento è del 99%. Hachman ha affermato che Microsoft non discute pubblicamente della funzionalità a causa dell'incidente del 2006 durante lo sviluppo di Windows Vista, con il risultato che pochi utenti sapevano che i documenti potevano essere dettati all'interno di Windows prima dell'introduzione di Cortana .

Guarda anche

Riferimenti

link esterno