Latenza (audio) - Latency (audio)

La latenza si riferisce a un breve periodo di ritardo (di solito misurato in millisecondi ) tra quando un segnale audio entra in un sistema e quando emerge. I potenziali contributori alla latenza in un sistema audio includono la conversione da analogico a digitale , il buffering , l'elaborazione del segnale digitale , il tempo di trasmissione , la conversione da digitale ad analogico e la velocità del suono nel mezzo di trasmissione .

La latenza può essere una metrica critica delle prestazioni nell'audio professionale, inclusi i sistemi di amplificazione del suono , i sistemi foldback (specialmente quelli che utilizzano i monitor in-ear ) la radio e la televisione dal vivo . Un'eccessiva latenza audio può potenzialmente degradare la qualità delle chiamate nelle applicazioni di telecomunicazione . L'audio a bassa latenza nei computer è importante per l' interattività .

Chiamate telefoniche

In tutti i sistemi, si può dire che la latenza è composta da tre elementi: ritardo del codec , ritardo del playout e ritardo della rete.

La latenza nelle chiamate telefoniche è talvolta indicata come ritardo bocca-orecchio ; l'industria delle telecomunicazioni usa anche il terminequalità dell'esperienza(QoE). La qualità della voce è misurata secondo ilmodelloITU; la qualità misurabile di una chiamata si degrada rapidamente quando la latenza del ritardo bocca-orecchio supera i 200 millisecondi. Ilpunteggio medio di opinione(MOS) è inoltre comparabile in modo quasi lineare con la scala di qualità dell'ITU - definita negli standard G.107, G.108 e G.109 - con un fattore di qualitàRcompreso tra 0 e 100. Un MOS di 4 ("Buono") avrebbe unpunteggioRdi 80 o superiore; per raggiungere 100R è necessario un MOS superiore a 4.5.

L'ITU e il 3GPP raggruppano i servizi per gli utenti finali in classi basate sulla sensibilità alla latenza:

Molto sensibile al ritardo Meno sensibile al ritardo
Classi
  • Classe di conversazione (3GPP)
  • Classe Interattiva (ITU)
  • Classe interattiva (3GPP)
  • Classe reattiva (ITU)
  • Classe di streaming (3GPP)
  • Classe tempestiva (ITU)
  • Classe di sfondo (3GPP)
  • Classe non critica (ITU)
Servizi Video/voce conversazionale, video in tempo reale Messaggi vocali Streaming video e voce Fax
Dati in tempo reale Dati transazionali Dati non in tempo reale Dati di sfondo

Allo stesso modo, la raccomandazione G.114 relativa al ritardo bocca-orecchio indica che la maggior parte degli utenti è "molto soddisfatta" finché la latenza non supera i 200 ms, con un R di 90+. Anche la scelta del codec gioca un ruolo importante; i codec di qualità più elevata (e larghezza di banda più elevata) come G.711 sono generalmente configurati per sostenere la latenza di codifica-decodifica minima, quindi su una rete con throughput sufficiente è possibile ottenere latenze inferiori a 100 ms . G.711 a un bitrate di 64 kbit/s è il metodo di codifica utilizzato prevalentemente sulla rete telefonica pubblica commutata .

Chiamate da cellulare

Il codec AMR a banda stretta , utilizzato nelle reti GSM e UMTS , introduce latenza nei processi di codifica e decodifica.

Poiché gli operatori mobili aggiornano le reti best-effort esistenti per supportare più tipi di servizio simultanei su reti all-IP, servizi come Hierarchical Quality of Service ( H-QoS ) consentono politiche QoS per utente e per servizio di dare la priorità al fattore tempo protocolli come chiamate vocali e altro traffico di backhaul wireless.

Un altro aspetto della latenza mobile è l'handoff tra le reti; poiché un cliente sulla rete A chiama un cliente sulla rete B, la chiamata deve attraversare due reti di accesso radio separate , due reti centrali e un gateway mobile di commutazione centrale (GMSC) di interconnessione che esegue l'interconnessione fisica tra i due provider.

chiamate IP

Con QoS end-to-end gestite e connessioni a velocità assicurata , la latenza può essere ridotta ai livelli analogici PSTN/POTS. Su una connessione stabile con larghezza di banda sufficiente e latenza minima, i sistemi VoIP hanno in genere una latenza intrinseca minima di 20 ms. In condizioni di rete meno ideali si cerca una latenza massima di 150 ms per l'uso generale da parte dei consumatori. La latenza è una considerazione più importante quando è presente un'eco ei sistemi devono eseguire la soppressione e la cancellazione dell'eco .

Audio del computer

La latenza può essere un problema particolare nelle piattaforme audio sui computer. Le ottimizzazioni dell'interfaccia supportate riducono il ritardo fino a tempi troppo brevi per essere rilevati dall'orecchio umano. Riducendo le dimensioni del buffer, è possibile ridurre la latenza. Una popolare soluzione di ottimizzazione è ASIO di Steinberg , che bypassa la piattaforma audio e collega i segnali audio direttamente all'hardware della scheda audio. Molte applicazioni audio professionali e semi-professionali utilizzano il driver ASIO, consentendo agli utenti di lavorare con l'audio in tempo reale. Pro Tools HD offre un sistema a bassa latenza simile ad ASIO. Pro Tools 10 e 11 sono anche compatibili con i driver di interfaccia ASIO.

Il kernel in tempo reale di Linux è un kernel modificato, che altera la frequenza del timer standard utilizzata dal kernel di Linux e dà a tutti i processi o thread la possibilità di avere priorità in tempo reale. Ciò significa che un processo time-critical come un flusso audio può avere la priorità su un altro processo meno critico come l'attività di rete. Questo è anche configurabile per utente (ad esempio, i processi dell'utente "tux" potrebbero avere la priorità sui processi dell'utente "nobody" o sui processi di più demoni di sistema ).

Audio della televisione digitale

Molti moderni ricevitori televisivi digitali, set-top box e ricevitori AV utilizzano un'elaborazione audio sofisticata, che può creare un ritardo tra il momento in cui il segnale audio viene ricevuto e il momento in cui viene ascoltato dagli altoparlanti. Poiché anche i televisori introducono ritardi nell'elaborazione del segnale video, ciò può comportare che i due segnali siano sufficientemente sincronizzati da non essere notati dallo spettatore. Tuttavia, se la differenza tra il ritardo audio e video è significativa, l'effetto può essere sconcertante. Alcuni sistemi dispongono di un'impostazione di sincronizzazione labiale che consente di regolare il ritardo audio per la sincronizzazione con il video, mentre altri potrebbero avere impostazioni avanzate in cui è possibile disattivare alcuni passaggi di elaborazione dell'audio.

Il ritardo audio è anche un danno significativo nei giochi ritmici , in cui è necessario un tempismo preciso per avere successo. La maggior parte di questi giochi ha un'impostazione di calibrazione del ritardo in base alla quale il gioco regolerà le finestre di temporizzazione di un certo numero di millisecondi per compensare. In questi casi, le note di una canzone verranno inviate agli altoparlanti prima ancora che il gioco riceva l'input richiesto dal giocatore per mantenere l'illusione del ritmo. I giochi che si basano sull'improvvisazione musicale , come la batteria Rock Band o DJ Hero , possono ancora soffrire tremendamente, poiché il gioco non può prevedere cosa colpirà il giocatore in questi casi e un ritardo eccessivo creerà comunque un notevole ritardo tra il colpire le note e ascoltarle giocare a.

Trasmissione audio

La latenza audio può essere riscontrata nei sistemi di trasmissione in cui qualcuno contribuisce a una trasmissione in diretta su un satellite o un collegamento simile con un ritardo elevato. La persona nello studio principale deve attendere che il contributore all'altra estremità del collegamento risponda alle domande. La latenza in questo contesto potrebbe essere compresa tra diverse centinaia di millisecondi e pochi secondi. La gestione di latenze audio così elevate richiede una formazione speciale per rendere l'uscita audio combinata risultante ragionevolmente accettabile per gli ascoltatori. Laddove possibile, è importante cercare di mantenere bassa la latenza audio della produzione dal vivo per mantenere le reazioni e l'interscambio dei partecipanti il ​​più naturali possibile. Una latenza di 10 millisecondi o superiore è l'obiettivo per i circuiti audio all'interno delle strutture di produzione professionale.

Audio per esibizioni dal vivo

La latenza nelle performance dal vivo si verifica naturalmente dalla velocità del suono . Il suono impiega circa 3 millisecondi per percorrere 1 metro. Piccole quantità di latenza si verificano tra gli artisti a seconda di come sono distanziati l'uno dall'altro e dai monitor da palco, se utilizzati. Questo crea un limite pratico alla distanza tra gli artisti di un gruppo. Il monitoraggio da palco estende questo limite, poiché il suono viaggia vicino alla velocità della luce attraverso i cavi che collegano i monitor da palco.

Gli artisti, in particolare in ampi spazi, sentiranno anche il riverbero , o l'eco della loro musica, poiché il suono che proietta dal palco rimbalza su pareti e strutture e ritorna con latenza e distorsione. Uno degli scopi principali del monitoraggio sul palco è fornire agli artisti un suono più primario in modo che non vengano lanciati dalla latenza di questi riverberi.

Elaborazione del segnale in tempo reale

Mentre le apparecchiature audio analogiche non hanno una latenza apprezzabile, le apparecchiature audio digitali hanno una latenza associata a due processi generali: conversione da un formato a un altro e attività di elaborazione del segnale digitale (DSP) come equalizzazione, compressione e routing.

I processi di conversione digitale includono convertitori analogico-digitale (ADC), convertitori digitale-analogico (DAC) e vari cambiamenti da un formato digitale a un altro, come AES3 che trasporta segnali elettrici a bassa tensione ad ADAT , un trasporto ottico . Qualsiasi processo di questo tipo richiede una piccola quantità di tempo per essere completato; le latenze tipiche sono comprese tra 0,2 e 1,5 millisecondi, a seconda della frequenza di campionamento, della progettazione del software e dell'architettura hardware.

Diverse operazioni di elaborazione del segnale audio come i filtri a risposta all'impulso finito (FIR) e a risposta all'impulso infinita (IIR) adottano approcci matematici diversi allo stesso scopo e possono avere latenze diverse. Inoltre, il buffering del campione di input e output aggiunge ritardo. Le latenze tipiche vanno da 0,5 a dieci millisecondi con alcuni progetti che hanno fino a 30 millisecondi di ritardo.

La latenza nelle apparecchiature audio digitali è più evidente quando la voce di un cantante viene trasmessa attraverso il microfono, attraverso percorsi di missaggio, elaborazione e routing dell'audio digitale, quindi inviata alle proprie orecchie tramite auricolari o cuffie. In questo caso, il suono vocale del cantante viene condotto al proprio orecchio attraverso le ossa della testa, quindi attraverso il percorso digitale alle orecchie alcuni millisecondi dopo. In uno studio, gli ascoltatori hanno riscontrato una latenza maggiore di 15 ms. La latenza per altre attività musicali come suonare la chitarra non ha lo stesso problema critico. Dieci millisecondi di latenza non sono così evidenti per un ascoltatore che non sente la propria voce.

Altoparlanti ritardati

In suono di rinforzo per la musica o discorso di presentazione in grandi spazi, è ottimale per fornire il volume del suono sufficiente per la parte posteriore della sede senza ricorrere a eccessive volumi sonori vicino alla parte anteriore. Un modo per gli ingegneri del suono per ottenere ciò è utilizzare altoparlanti aggiuntivi posizionati a una certa distanza dal palco ma più vicini alla parte posteriore del pubblico. Il suono viaggia nell'aria alla velocità del suono (circa 343 metri (1.125 piedi) al secondo a seconda della temperatura e dell'umidità dell'aria). Misurando o stimando la differenza di latenza tra gli altoparlanti vicino al palco e gli altoparlanti più vicini al pubblico, l'ingegnere del suono può introdurre un ritardo appropriato nel segnale audio che va a questi ultimi altoparlanti, in modo che i fronti d'onda degli altoparlanti vicini e lontani arrivino a lo stesso tempo. A causa del effetto Haas un ulteriori 15 millisecondi possono essere aggiunti al tempo di ritardo degli altoparlanti più vicini al pubblico, in modo che di fronte d'onda della fase li raggiunge prima, di focalizzare l'attenzione del pubblico sul palco, piuttosto che l'altoparlante locale. Il suono leggermente ritardato degli altoparlanti ritardati aumenta semplicemente il livello sonoro percepito senza influire negativamente sulla localizzazione.

Guarda anche

Riferimenti

link esterno