RENDERING IN TEMPO REALE DI AUDIO SPAZIALE NEL CAMPO VICINO - Universit'a di Padova Dipartimento di Ingegneria dell'Informazione
←
→
Trascrizione del contenuto della pagina
Se il tuo browser non visualizza correttamente la pagina, ti preghiamo di leggere il contenuto della pagina quaggiù
Università di Padova Dipartimento di Ingegneria dell’Informazione RENDERING IN TEMPO REALE DI AUDIO SPAZIALE NEL CAMPO VICINO Laureando: Relatore: Simone Spagnol Dott. Federico Avanzini A. A. 2007 - 2008
Abstract In questo lavoro viene trattato il tema della sintesi di suoni spazializzati. Il tragitto di un suono dalla sorgente alle orecchie dell’ascoltatore viene riassun- to in una specifica funzione di trasferimento (Head-related Transfer Function, HRTF). Per una sorgente relativamente vicina, è nota la bontà dell’approssi- mazione di HRTF reali data dall’algoritmo di Duda-Martens (1998), basato sulla nota formula di Lord Rayleigh, applicato ad un modello della testa sferi- co. Tuttavia tale algoritmo, avendo un costo computazionale non indifferente, risulta essere inadeguato in uno scenario dinamico real-time. Viene dunque proposta l’introduzione di un’approssimazione tramite analisi alle compo- nenti principali (PCA) che semplifichi il calcolo delle sopracitate funzioni. Si confrontano quindi le funzioni risultanti con una collezione di HRTF reali misurate per vari soggetti, allo scopo di ricavare una relazione tra il raggio del modello sferico e le misure antropometriche di ogni soggetto. Parole chiave: audio 3D, audio binaurale, ascolto spaziale, head-related transfer function, PCA, campo vicino. iii
iv
Indice Introduzione 1 1 Letteratura e lavori precedenti 3 1.1 Localizzazione del suono: l’audio binaurale . . . . . . . . . . . 3 1.2 La Teoria Duplex di Lord Rayleigh . . . . . . . . . . . . . . . 4 1.2.1 Coni di confusione . . . . . . . . . . . . . . . . . . . . 5 1.2.2 Modelli per la ITD . . . . . . . . . . . . . . . . . . . . 6 1.3 HRIR e HRTF . . . . . . . . . . . . . . . . . . . . . . . . . . 8 1.3.1 Modelli strutturali . . . . . . . . . . . . . . . . . . . . 9 1.3.2 La soluzione teorica di Lord Rayleigh . . . . . . . . . . 10 1.4 Dipendenza dalla distanza della sorgente . . . . . . . . . . . . 12 1.4.1 La percezione della distanza . . . . . . . . . . . . . . . 12 1.4.2 Tori di confusione . . . . . . . . . . . . . . . . . . . . . 14 1.4.3 Modello matematico per il rendering della distanza . . 16 1.5 HRTF e antropometria . . . . . . . . . . . . . . . . . . . . . . 17 2 Metodologie e scelte progettuali 21 2.1 Analisi alle componenti principali (PCA) . . . . . . . . . . . . 21 2.2 Sistema di riferimento utilizzato . . . . . . . . . . . . . . . . . 27 2.3 L’algoritmo HRTF . . . . . . . . . . . . . . . . . . . . . . . . 28 2.3.1 Vincoli real-time . . . . . . . . . . . . . . . . . . . . . 29 2.4 Approssimazione delle HRTF tramite PCA . . . . . . . . . . . 31 2.4.1 Smoothing uditivo delle HRTF . . . . . . . . . . . . . 32 2.5 Personalizzazione delle HRTF . . . . . . . . . . . . . . . . . . 35 v
vi INDICE 3 Approssimazione tramite PCA: risultati 39 3.1 Andamento delle componenti principali . . . . . . . . . . . . . 39 3.2 Scelta del numero di componenti . . . . . . . . . . . . . . . . 44 3.3 Sviluppi futuri . . . . . . . . . . . . . . . . . . . . . . . . . . . 49 4 Personalizzazione delle HRTF: risultati 51 4.1 Ottimizzazione del raggio del modello sferico . . . . . . . . . . 51 4.2 Calcolo del raggio da parametri antropometrici . . . . . . . . . 55 4.3 Sviluppi futuri . . . . . . . . . . . . . . . . . . . . . . . . . . . 61 Conclusioni 63 Appendice: algoritmi MATLAB 65 Bibliografia 71
Introduzione La tesi ha l’obiettivo principale di fornire le basi per la realizzazione di un modello per la sintesi di audio binaurale nel campo vicino, da poter utilizzare in un ambiente real-time. Lo studio della sintesi di audio binaurale si protrae ormai da un centinaio di anni: erano infatti gli inizi del XX Secolo quando il fisico Lord Rayleigh derivò una formula matematica per la diffrazione intorno ad una sfera rigida di un’onda sonora prodotta da una sorgente a distanza infinita. Nei decenni successivi l’attenzione è stata posta su come l’uomo riesca a discriminare la direzione di una sorgente; solo in tempi più recenti è stata presa in consi- derazione anche la percezione della distanza. Fino ai giorni nostri la ricerca in questo campo ha fatto grandi progressi, lasciando tuttavia ancora aperte alcune questioni. Con la sempre più prorompente necessità di applicazioni in tempo rea- le, mentre da una parte lo studio della sintesi binaurale nel campo lontano (sorgente posta oltre il metro di distanza dall’ascoltatore) ha già sortito ri- sultati soddisfacenti, dall’altra un modello real-time efficiente per la sintesi nel campo vicino non è ancora stato proposto. Questo perché nel campo vicino la dipendenza delle funzioni di diffrazione dalla distanza non può es- sere trascurata. E’ dunque proprio su questo punto che la tesi vuole porre il suo accento. Saranno inoltre investigati gli effetti della variabilità nella forma della testa presente in un insieme rappresentativo di soggetti umani sulle stesse funzioni di diffrazione. Il lavoro di tesi si concentra esclusivamente sull’analisi della testa come 1
2 INTRODUZIONE oggetto della diffrazione delle onde, tralasciando i contributi delle altre parti del corpo compresi i padiglioni auricolari. Questi potranno essere aggiunti in un momento successivo per dare forma ad un modello strutturale delle funzioni di trasferimento, idea che ultimamente nella letteratura scientifica sta prendendo sempre più piede. La testa sarà quindi approssimata con una sfera, il modello più semplice possibile, per cui la locazione della sorgente sonora dipenderà soltanto da un angolo di incidenza. Nel primo capitolo verranno introdotte le generalità riguardanti l’audio binaurale, riportando una serie di definizioni e risultati noti in letteratura d’interesse per il lavoro svolto nei capitoli successivi: tra questi, la teoria Duplex, le Head-Related Transfer Functions (HRTF) e la formula di Lord Rayleigh a cui si accennava poco fa. Il secondo capitolo si focalizzerà sugli strumenti analitici utilizzati, tra cui l’analisi alle componenti principali (PCA) e l’algoritmo per costruire le HRTF matematiche, e le scelte progettuali effettuate prima e durante il lavoro di tesi. Nel terzo capitolo verranno presentati i risultati della prima parte del lavoro, quella più rilevante e consistente, riguardanti l’applicazione di PCA ad un insieme di HRTF analitiche allo scopo di ottenere una rappresentazione più compatta delle stesse, ossia adatta ad un ambiente real-time. Il quarto ed ultimo capitolo fornirà invece i risultati della seconda parte del lavoro, focalizzata sui tentativi di personalizzazione delle HRTF facendo variare il raggio del modello sferico a seconda del soggetto. I principali algoritmi utilizzati nel corso del lavoro di tesi, implementati in codice MATLAB, saranno infine riportati in una breve appendice. Le applicazioni real-time a cui questo tipo di lavoro è rivolto sono mol- teplici. Servizi di teleconferenza, dispositivi mobili, sistemi di realtà virtuale multimodale con scopi di intrattenimento o riabilitativi sono alcuni degli esempi di applicazioni che possono solo beneficiare della ricerca in questo campo.
Capitolo 1 Letteratura e lavori precedenti In questo capitolo saranno introdotti i lavori svolti ed i risultati ottenuti fino ad oggi d’interesse per questa tesi. Partendo da un’inquadratura generale sull’audio binaurale, si provvederà quindi a passare in rassegna gli argomenti della teoria Duplex e la localizzazione del suono, le Head-Related Transfer Functions, la formula di Rayleigh ed i modelli utilizzati per il campo vicino, per concludere con una breve discussione sull’uso di parametri antropometrici per personalizzare i modelli. 1.1 Localizzazione del suono: l’audio binau- rale Il suono prodotto da una sorgente è soggetto a varie trasformazioni durante la propagazione verso le orecchie dell’ascoltatore. Tra queste, vi sono le perdite di energia isofrequenziali dovute alla distanza percorsa (path loss) e quelle dipendenti dalla frequenza del suono, perlopiù dovute all’effetto schermante di terzi oggetti eventualmente posti nel mezzo del percorso che causano rifles- sione e diffrazione delle onde sonore (shadowing). Conoscendo queste infor- mazioni risulta dunque lampante la diversità dei flussi sonori che arrivano alle due orecchie dell’ascoltatore: trattasi infatti di due percorsi diversi, influen- 3
4 CAPITOLO 1. LETTERATURA E LAVORI PRECEDENTI zati anche dal ruolo attivo della testa dell’ascoltatore nella trasformazione del suono. E’ proprio la differenza tra questi due flussi sonori a dare all’ascoltatore informazioni sulla collocazione spaziale della sorgente, in modo tale che egli possa discriminarne direzione e distanza entro un certa, limitata, soglia di errore. Questo è il concetto che sta alla base di tutta la teoria riguardante l’audio binaurale. Obiettivo principale della ricerca in questo campo è tentare di riprodurre, attraverso delle cuffie, suoni spazializzati ad alta fedeltà in modo che l’ascoltatore riesca ad avere all’incirca la stessa impressione di direzione e distanza della sorgente che egli avrebbe se il suono fosse riprodotto da una sorgente realmente posta nello spazio attorno a sè. 1.2 La Teoria Duplex di Lord Rayleigh Nel 1907, il fisico Lord Rayleigh studiò i mezzi attraverso i quali un ascoltato- re riesce a discriminare ad un primo livello la direzione di un suono. Secondo la sua teoria sono di fondamentale importanza due parametri interaurali, ovvero dovuti al ruolo attivo della testa nella differenziazione dei due flussi sonori in ingresso ai canali uditivi; questi sono: la differenza interaurale di tempo (Interaural Time Difference, ITD); la differenza interaurale di livello o intensità (Interaural Level Differen- ce, ILD). La ITD è la differenza temporale tra gli istanti di arrivo di un suono alle due orecchie, ed ha come unità di misura i secondi. La ILD (chiamata anche Interaural Intensity Difference, IID) è il rapporto tra le ampiezze dei suoni in ingresso a ciascuno dei due canali uditivi, ed è misurata in dB. In Figura 1.1 questi due concetti sono rappresentati schematicamente. Considerando un segnale sinusoidale a bassa frequenza (fino a 1.5 kHz circa) si ha che la sua lunghezza d’onda è maggiore del raggio della testa, dunque la ITD si riduce ad una differenza di fase tra due segnali sinusoidali.
1.2. LA TEORIA DUPLEX DI LORD RAYLEIGH 5 Figura 1.1: ITD e ILD. Questa è una feature molto potente per discriminare la direzione del suono nel piano orizzontale1 . Al contrario, la ILD non è una feature altrettanto buona in quanto le basse frequenze attraversano la testa senza essere par- ticolarmente attenuate sul lato opposto alla sorgente. In maniera del tutto speculare si può constatare che un segnale sinusoidale ad alta frequenza (da 1.5 a 10 kHz), avendo lunghezza d’onda dell’ordine dei centimetri, provoca una ITD maggiore di un periodo del segnale. Essendo l’orecchio umano sensi- bile soltanto alla fase e non alla differenza temporale assoluta, la ITD risulta poco utile nel suddetto campo di frequenze (a meno che non si consideri l’on- set del suono). Tuttavia, il notevole effetto schermante effettuato dalla testa umana sulle onde ad alta frequenza rende la ILD una feature significativa in questo range spettrale. 1.2.1 Coni di confusione La difficoltà nel riconoscimento della direzione del suono aumenta nel caso di segnali complessi o affetti da rumore. Tuttavia, anche nel caso di segnali puliti, spesso le valutazioni soggettive non sono esenti da grossolani errori, il più tipico dei quali è la cosiddetta front-back confusion: si percepisce cioè che un suono proveniente da davanti sia invece prodotto da una sorgente 1 E’ il piano che divide la testa in due parti orizzontalmente all’altezza delle orecchie.
6 CAPITOLO 1. LETTERATURA E LAVORI PRECEDENTI Figura 1.2: Cono di confusione. posta dietro l’ascoltatore. Questo tipo di errore è fortemente dipendente dalla fisionomia della testa dell’individuo. Per una sorgente posizionata al di sopra o al di sotto del piano orizzon- tale il riconoscimento della direzione diventa problematica. In linea teorica, come si può vedere dalla Figura 1.2, sorgenti sonore posizionate in qualsiasi punto di una superficie conica che punta verso l’orecchio della testa sferica producono gli stessi valori di ITD e ILD. Queste superfici, generalizzazioni del concetto di front-back confusion, prendono il nome di coni di confusione e rappresentano un potenziale scoglio nella accurata percezione della direzione del suono. Tuttavia, in realtà non si avranno mai valori identici di ITD e ILD per le sorgenti poste su un cono di confusione: ciò è dovuto alle numerose asimmetrie facciali ed alla presenza delle orecchie. Ad esempio, nel caso di un suono ad alta frequenza, i padiglioni auricolari con i loro ripiegamenti permettono di immettere nel canale uditivo suoni provenienti da qualsiasi direzione e di dare all’ascoltatore buone indicazioni riguardo l’altezza della sorgente sonora. 1.2.2 Modelli per la ITD Il comportamento della ITD al variare della direzione della sorgente sonora rispetto alla testa è stato ampiamente studiato. Il contributo dato dal ritardo della risposta ad un impulso sonoro tra le due orecchie può essere scorpora-
1.2. LA TEORIA DUPLEX DI LORD RAYLEIGH 7 Figura 1.3: Modello fisico per il calcolo della ITD nella formula di Woodworth. to, attraverso diverse possibili approssimazioni, dal resto delle informazioni spettrali contenute nella risposta stessa. Per una sorgente posta sul piano orizzontale l’approssimazione più comune, indipendente dalla frequenza del suono, è data dalla formula di Woodworth: a(sinθ + θ) IT D = (1.1) c dove c è la velocità del suono2 , a è il raggio della testa se questa viene approssimata con una sfera e θ rappresenta l’azimut 3 della sorgente. Il tutto è riassunto schematicamente in Figura 1.3. Affinché regga l’assunzione delle onde sonore planari, la sorgente deve essere posta lontano dall’ascoltatore. Si osserva però che in realtà la ITD è dipendente dalla frequenza: in par- ticolare, alle basse frequenze il ritardo è circa 1.5 volte maggiore rispetto alle 2 La velocità del suono varia a seconda del mezzo e delle sue proprietà. Nell’aria a temperatura ambiente, essa è approssimativamente pari a 343 m/s. 3 E’ l’angolo che si forma tra i segmenti congiungenti il centro della testa rispettivamente alla proiezione della sorgente sul piano orizzontale ed al punto di osservazione (in questo caso coincidente con il naso).
8 CAPITOLO 1. LETTERATURA E LAVORI PRECEDENTI frequenze più alte. Sono dunque state introdotte ulteriori approssimazioni che tenessero conto di questa dipendenza, sia sotto forma di formule sulla falsariga di quella di Woodworth [16] che di filtri nel dominio della frequenza ottenuti attraverso una ricostruzione a fase minima4 della risposta impulsi- va [13]. Tuttavia, confrontando gli output della formula di Woodworth con dei risultati sperimentali, si è visto che quest’ultima approssima abbastanza bene i dati empirici. E’ stato inoltre verificato sperimentalmente che più la sorgente si allontana dal piano orizzontale, più l’ITD si riduce. Questo effet- to può essere incluso nella formula di Woodworth aggiungendo un termine moltiplicativo: a(sinθ + θ) IT D = cosφ (1.2) 2c dove φ è l’elevazione 5 della sorgente. Infine, se si avvicina la sorgente al- l’ascoltatore, la ITD aumenta di circa 150 µs. Tuttavia l’apparato uditivo umano appare insensibile a ritardi inferiori a 700 µs; per questo motivo gli ef- fetti dell’avvicinamento della sorgente possono essere trascurati nel modellare la ITD [6]. Trovata una buona approssimazione per la ITD (Eq.(1.2)), i cui effetti possono essere semplicemente aggiunti alla fine del processo di sintesi che verrà presentato nel seguito di questo lavoro, d’ora in avanti l’attenzione verrà posta sulla modellazione della ILD. 1.3 HRIR e HRTF La pressione sonora prodotta da una sorgente nel canale uditivo è deter- minata esclusivamente dalla risposta impulsiva nel tragitto dell’onda sonora dalla sorgente stessa al timpano, chiamata Head-Related Impulse Respon- se (HRIR). La sua trasformata di Laplace è detta Head-Related Transfer 4 E’ una tecnica che rimuove dalla fase della risposta impulsiva tutti i termini lineari associati al puro ritardo temporale, usata per allineare nel tempo le risposte impulsive. 5 E’ l’angolo che si forma tra il segmento congiungente il centro della testa alla sorgente ed il piano orizzontale.
1.3. HRIR E HRTF 9 Function (HRTF), e contiene tutte le informazioni istantanee riguardanti la trasformazione dell’onda sonora nello spazio circostante. Chiaramente esiste una HRTF riferita all’orecchio sinistro ed una riferita all’orecchio destro; a meno di perfette simmetrie, queste due HRTF sono diverse tra loro. Ad influenzare la HRTF, oltre al mezzo in cui le onde si propagano, sono gli effetti procurati dalle varie zone del corpo dell’ascoltatore, in particolare la testa, le orecchie, il torso e le spalle. La testa fa sı̀ che l’onda sonora sia diffratta tutt’intorno ad essa, ed ha un effetto schermante sulle onde ad alta frequenza. L’orecchio esterno, invece, possiede delle caratteristiche zone di risonanza che attenuano o amplificano una o più particolari frequenze; inoltre, come già detto in precedenza, riflette le onde sonore ad alta frequenza (dunque con una lunghezza d’onda relativamente limitata) a seconda della loro direzione. Infine, le spalle ed il torso effettuano uno shadowing sui suoni provenienti da sotto l’ascoltatore ed aggiungono ulteriori riflessioni che si addizionano al suono diretto. 1.3.1 Modelli strutturali Il rendering di suoni spazializzati basato su HRTF può avvenire in diversi modi. Sono state proposte approssimazioni delle HRTF complessive basate su funzioni razionali (modelli polo/zero) o su espansioni in serie di componen- ti principali [19, 10] o di armoniche [14], ma la complessità rispettivamente dei coefficienti dei filtri e dell’insieme dei pesi derivanti dall’analisi le rende inadatte in uno scenario real-time. Un’idea più innovativa si basa sulle con- siderazioni fatte in precedenza sugli effetti che si ripercuotono sulla HRTF causati dalle varie zone del corpo. Essendo questi tutti lineari, ne conse- gue che si combinano in maniera additiva nella HRTF complessiva. Dunque i comportamenti della testa, dell’orecchio esterno e del torso possono esse- re analizzati separatamente, sintetizzati e quindi sommati nella funzione di trasferimento totale. Questo è l’approccio seguito nel progetto dei cosiddetti modelli strutturali, nei quali le trasformazioni causate da ogni parte del corpo
10 CAPITOLO 1. LETTERATURA E LAVORI PRECEDENTI Figura 1.4: Un modello strutturale della HRTF [5]. sono rappresentate da filtri separati tra di loro [2, 5]. Un esempio di modello strutturale è riportato in Figura 1.4 [5]. In questa tesi ci concentriamo esclusivamente sulla testa: i contributi di orecchie, torso e spalle possono essere modellati a parte ed integrati con le funzioni riferite alla testa in un ipotetico modello strutturale finale. 1.3.2 La soluzione teorica di Lord Rayleigh Approssimativamente, la testa può essere trattata come una sfera rigida di raggio variabile a seconda del soggetto. Nell’ipotesi che l’onda sonora che arriva ad essa sia prodotta da una sorgente infinitamente distante dal centro della sfera, si può direttamente utilizzare la soluzione di Lord Rayleigh per la diffrazione nel dominio della frequenza. La funzione di trasferimento in un preciso punto di osservazione sulla superficie della sfera ha la seguente forma: ∞ 1 X (−i)m−1 (2m + 1)Pm (cosθ) H(µ, θ) = 2 (1.3) µ m=0 h0m (µ) dove µ è la frequenza normalizzata, 2πa µ=f (1.4) c
1.3. HRIR E HRTF 11 Figura 1.5: Risposta in ampiezza per una sorgente a distanza infinita. e θ è l’angolo di incidenza, ovvero l’angolo tra i raggi che collegano il centro della sfera rispettivamente con la sorgente e con il punto di osservazione. Pm e hm sono due strumenti matematici piuttosto complessi nei quali non ci addentreremo: il polinomio di Legendre e la funzione di Hankel sferica. In Figura 1.5 è riportata la relativa risposta in ampiezza in funzione della frequenza normalizzata per vari angoli di incidenza. Analizzando le curve si possono riportare le seguenti considerazioni: la risposta in ampiezza per qualsiasi angolo di incidenza è unitaria approssimativamente fino ad una frequenza normalizzata pari a 1, che per la testa standard di raggio 8.75 cm [15] corrisponde a circa 625 Hz; nel caso di incidenza normale (θ = 0 ◦ ) si osserva alle alte frequenze un guadagno di 6 dB, pari ad un raddoppio della pressione sonora rispetto al valore che si avrebbe nel campo libero; all’aumentare dell’angolo di incidenza il guadagno diminuisce: la rispo- sta per un angolo di incidenza di 100 gradi è quasi del tutto piatta, e spostando la sorgente dalla parte controlaterale6 della testa si ha atte- 6 Si dice che la sorgente è posizionata nella parte ipsilaterale della sfera se l’onda sonora incide normalmente la superficie in un punto appartenente all’emisfero che ha il polo nel punto di osservazione; controlaterale se l’onda incide la sfera nell’emisfero opposto.
12 CAPITOLO 1. LETTERATURA E LAVORI PRECEDENTI nuazione della pressione sonora, con la presenza di ampie oscillazioni dovute alla propagazione di onde in diverse direzioni attorno la sfera; la risposta minima non corrisponde ad una sorgente situata esattamente dalla parte opposta: un’onda che incide sulla sfera agli antipodi del punto di osservazione (θ = 180 ◦ ) produce il cosiddetto bright spot, dovuto alla somma costruttiva delle onde che viaggiano nelle diverse direzioni intorno alla testa. Il modello sferico della testa, seppure sia l’unico trattabile analiticamente, è anche il meno preciso. Per questo motivo molti lavori cercano di migliorare l’accuratezza del modello proposto considerando la testa come un ellissoide, effettivamente in maniera più conforme alla realtà [11]. 1.4 Dipendenza dalla distanza della sorgente Le considerazioni presentate fino ad ora si erano fondate su un presupposto: che la sorgente sonora fosse sufficientemente lontana dall’ascoltatore. Questo perché l’assunzione fondamentale dei fronti d’onda piani regge soltanto oltre un certo raggio di distanza. La letteratura suggerisce infatti che tutte le asser- zioni ed i modelli introdotti nelle precedenti sezioni siano applicabili quando la sorgente è nel cosiddetto campo lontano, ovverosia in via approssimativa a più di un metro di distanza dal centro della testa. Nel caso in cui non si possa fare affidamento su questa assunzione (detta in termini appropriati, se la sorgente è collocata nel campo vicino) le onde sonore non possono più essere considerate planari ed è dunque necessario introdurre nuovi risultati e modelli, alcuni dei quali sono presentati in questa sezione. 1.4.1 La percezione della distanza La stima da parte di un ascoltatore della distanza di una sorgente sonora è ancora più difficile rispetto alla stima dell’elevazione della stessa. La prima variabile da prendere in considerazione, in assenza di altre informazioni, è
1.4. DIPENDENZA DALLA DISTANZA DELLA SORGENTE 13 l’intensità del suono. Meno un suono è intenso, più lontana dovrebbe essere percepita la sorgente. Tuttavia un boato in lontananza ed un sussurro a pochi centimetri dall’orecchio possono avere la stessa intensità. Per questo è fondamentale avere una certa familiarità con il suono in questione: se sappiamo a priori che si tratta di un sussurro, è molto improbabile che questo sia stato prodotto da una sorgente distante. Ulteriori informazioni sono date dal rapporto tra energia riflessa e diretta, se è presente riverbero7 , e da effetti spettrali dipendenti dalla distanza, il più tipico dei quali è l’assorbimento delle alte frequenze da parte dell’aria. Gli effetti spettrali più interessanti si verificano però nel campo vicino [6, 7, 8]. Portando la sorgente sonora a distanze via via inferiori al metro dal centro della testa sono stati osservati i seguenti comportamenti: il guadagno alle basse frequenze è enfatizzato, rendendo cosı̀ il suono più “scuro”; la ILD aumenta in maniera sostanziale per sorgenti poste lateralmente rispetto all’ascoltatore, anche alle basse frequenze; nella ITD, come discusso nella sezione 1.2.2, si osserva un aumento trascurabile; le caratteristiche della HRTF dipendenti dall’elevazione non sono stret- tamente correlate a quelle della distanza, dunque il contributo del padiglione auricolare alla HRTF è indipendente dalla distanza; la ILD alle basse frequenze è la variabile più importante per la perce- zione della distanza nel campo vicino. Passando da un ambiente statico ad uno dinamico, con l’ascoltatore au- torizzato a muovere la testa nelle diverse direzioni, la percezione della dire- zione della sorgente risulta agevolata. Appare infatti comune la tendenza a 7 Fenomeno acustico legato alla riflessione del suono da parte di un ostacolo posto nei pressi della fonte sonora; tipicamente è associato all’effetto di pareti e pavimenti sulle onde riflesse.
14 CAPITOLO 1. LETTERATURA E LAVORI PRECEDENTI Figura 1.6: Curve iso-ITD (parte sinistra) e iso-ILD (parte destra) [26]. rivolgere lo sguardo verso la sorgente sonora, anche senza l’aiuto visivo, per minimizzare le differenze interaurali, evitando cosı̀ le già citate front/back confusions. Anche la percezione della distanza migliora sensibilmente, grazie all’effetto denominato motion parallax : lasciando che l’ascoltatore si muova senza ruotare la testa, se la sorgente è molto vicina la direzione angolare della stessa varierà in maniera drastica (riflettendosi sulle differenze interaurali), mentre se è lontana il cambiamento apparirà irrilevante. 1.4.2 Tori di confusione Nel campo vicino il concetto di cono di confusione diventa impreciso. Assu- mendo che la testa sia acusticamente trasparente, ossia che i propri effetti sull’onda sonora non dipendano dalla frequenza, si possono analizzare le cur- ve che rappresentano le regioni spaziali in cui le differenze interaurali sono simili, spaziate rispettivamente di 50 µs per la ITD e di 1 dB per la ILD (Figura 1.6).
1.4. DIPENDENZA DALLA DISTANZA DELLA SORGENTE 15 Figura 1.7: Cono e toro di confusione. La figura si limita a rappresentare la regione spaziale racchiusa da un cu- bo di lato 1m con la testa al centro. Sovrapponendo una determinata regione iso-ITD e una zona iso-ILD come nella parte destra della figura e ruotando la loro intersezione attorno all’asse interaurale si ottiene un solido toroida- le in cui ITD e ILD sono analoghe, detto toro di confusione. Si può anche notare che se la sorgente è posta lontano dall’ascoltatore (oltre 2 metri circa sull’asse interaurale) oppure molto vicina ma nei pressi del piano mediano, i tori degenerano nei coni di confusione, come è lecito aspettarsi (Figura 1.7). Se si rimuove l’assunzione della testa acusticamente trasparente, la forte dipendenza della ILD dalla frequenza indurrebbe a catalogare il toro di confusione come un concetto puramente astratto nel caso di suoni ricchi di frequenze. Tuttavia, sotto i 500 Hz l’informazione è identica a quella di una testa acusticamente trasparente, mentre alle medie e alte frequenze gran parte dell’informazione spaziale racchiusa dalla ILD è strettamente correlata con quella della ITD che, come già sappiamo, varia in maniera trascurabile con la distanza. Dunque anche se la banda della sorgente è larga la combina- zione delle informazioni spaziali nelle varie bande restringe la posizione della sorgente allo stesso toro di confusione.
16 CAPITOLO 1. LETTERATURA E LAVORI PRECEDENTI Figura 1.8: Effetto della distanza sulla risposta in ampiezza. 1.4.3 Modello matematico per il rendering della di- stanza La soluzione teorica di Lord Rayleigh per la diffrazione di un’onda sonora da parte di una sfera si basa sull’assunzione che la sorgente sia posta infinita- mente lontana dall’ascoltatore. La soluzione per la pressione sulla superficie della sfera dovuta ad una sorgente sinusoidale puntiforme posta a qualsiasi distanza maggiore del raggio della sfera è stata presentata nel [24]. Definendo la distanza normalizzata rispetto alla sorgente, r ρ= (1.5) a la funzione di trasferimento che ne deriva ha la seguente forma: ∞ ρ −iµρ X hm (µρ) H(ρ, µ, θ) = − e (2m + 1)Pm (cosθ) 0 (1.6) µ m=0 hm (µ) per qualsiasi ρ maggiore di 1. Analogamente al caso precedente di distan- za infinita, si possono fare delle considerazioni sulla risposta in ampiezza al variare della distanza. In Figura 1.8 sono riportate le curve per gli an- goli di incidenza di 0 e 150 gradi (dove la risposta media in frequenza è rispettivamente massima e minima) e diverse distanze normalizzate.
1.5. HRTF E ANTROPOMETRIA 17 Dalla figura si nota come al diminuire della distanza i guadagni e le atte- nuazioni siano amplificati in maniera esponenziale, con la risposta che cresce per θ = 0 e decresce per θ = 150. Inoltre all’aumentare della frequenza la differenza tra le risposte per diverse distanze diminuisce dalla parte ipsila- terale ma aumenta dalla parte controlaterale. La combinazione di questi due effetti motiva la notevole crescita della ILD all’avvicinarsi della sor- gente all’orecchio. Le curve, a meno delle traslazioni dovute ai guadagni o alle attenuazioni, mantengono comunque un andamento simile a quelle di partenza. Nel prossimo capitolo si ritornerà sulla funzione di trasferimento appena analizzata per sviluppare un nuovo modello pensato per l’implementazione in un ambiente dinamico real-time. 1.5 HRTF e antropometria La soluzione di Lord Rayleigh e quella generalizzata di Rabinowitz (Eq. 1.6) sono funzioni del raggio della testa dell’ascoltatore. Data la varietà di forma e grandezza della testa e delle orecchie sia tra le diverse etnie che all’interno delle stesse, fissare dei parametri antropometrici8 standard senza distinzioni appare essere una scelta poco convincente. Si può verificare ad esempio che a livello teorico le curve di ampiezza della funzione di trasferimento per una testa sferica di raggio 7.5 cm ed una di raggio 9.5 cm differiscono tra di loro al massimo soltanto di un paio di dB. Sono stati quindi proposti dei modelli che stimassero i parametri da utilizzare nei modelli matematici per creare HRTF personalizzate. Di particolare interesse per questo lavoro è la stima del raggio del modello sferico della testa da dati antropometrici e sperimentali. In [1] la formula di Woodworth per la ITD alle alte frequenze (Eq. 1.1) viene confrontata 8 Dicesi di parametri fisici variabili tra gli individui e rilevanti per la modellazione delle HRTF. Genuit (1984) propose l’utilizzo di 27 parametri antropometrici; 17 per testa e torso e 10 per l’orecchio.
18 CAPITOLO 1. LETTERATURA E LAVORI PRECEDENTI Figura 1.9: Parametri antropometrici: testa e torso. con una serie di misure sperimentali della ITD per uno specifico soggetto e, minimizzando la differenza quadratica tra i valori risultanti per diversi angoli di incidenza sul piano orizzontale, si trova il raggio ottimo per quel soggetto. In particolare, supponendo che sia stata misurata la ITD per N diversi punti spaziali e poi riassunta nel corrispondente vettore9 T = [T1 , T2 , ..., TN ]t , e siano inoltre r = sinθ + θ e r il corrispondente vettore di valori di r calcolato per tutti gli angoli di incidenza, r = [r1 , r2 , ..., rN ]t ; la formula del raggio ottimo è Tt r a0 = c . (1.7) rt r Nello stesso lavoro viene anche proposto un modello lineare che stima il raggio della testa come somma pesata dei 3 parametri antropometrici più rilevanti, ovvero larghezza, altezza e profondità della testa (vedi Figura 1.9). La forma del modello è la seguente: 9 In questa tesi vettori e matrici sono rappresentati in grassetto, rispettivamente con lettere minuscole e maiuscole; l’esponente t denota i vettori-riga e le matrici trasposte.
1.5. HRTF E ANTROPOMETRIA 19 ae = w1 X1 + w2 X2 + w3 X3 + b (1.8) dove w1 , w2 e w3 sono i pesi ai rispettivi parametri antropometrici e b è un offset. Tenendo per buono il valore del raggio ottimo ricavato dalle misure sperimentali, attraverso una regressione sui dati antropometrici relativi a tutti i soggetti presenti nel database CIPIC [3] sono stati calcolati i seguenti valori dei pesi: w1 = 0.26, w2 = 0.01, w3 = 0.09, e b = 3.2 cm. Ciò significa che l’altezza della testa è un parametro trascurabile mentre la larghezza e la profondità sono entrambi importanti, cosı̀ come l’offset costante b. Tecniche più elaborate consentono di calcolare le HRTF direttamente dalla superficie della testa senza orecchie, costruita attraverso il Boundary Element Method (BEM) sotto forma di una mesh di elementi discreti [17, 18]. Nell’ambito del primo lavoro è stato inoltre verificato come una sfera dello stesso volume della testa ne approssimi il comportamento in maniera molto più fedele rispetto ad una sfera di diametro pari alla distanza interaurale. Va infine detto, per completezza di informazione, che l’antropometria non si applica solamente alla modellazione del comportamento della testa: ad esempio lavori molto recenti utilizzano parametri antropometrici per pro- gettare modelli delle HRTF riferiti alle orecchie [25].
20 CAPITOLO 1. LETTERATURA E LAVORI PRECEDENTI
Capitolo 2 Metodologie e scelte progettuali Questo capitolo si focalizza sulle metodologie utilizzate per sviluppare il mo- dello in tempo reale e sulle scelte progettuali atte a delinearne la solidità e l’applicabilità. Dopo un’introduzione riguardante lo strumento matematico centrale per questa tesi, l’analisi alle componenti principali (PCA), verranno presentati il sistema di coordinate polari utilizzato nel prosieguo e l’algorit- mo di calcolo che approssima la soluzione di Rabinowitz. Successivamente verrà brevemente discussa la necessità di ulteriori approssimazioni per poter utilizzare il modello in un ambiente real-time. Infine si passerà a presentare il lavoro svolto: da una parte l’approssimazione delle funzioni di trasferimento analitiche tramite PCA, dall’altra la personalizzazione delle HRTF attraverso analisi di dati sperimentali e misure antropometriche. 2.1 Analisi alle componenti principali (PCA) L’eccessiva dimensionalità di un insieme di dati spesso risulta essere un pro- blema su cui dover intervenire. Esistono diversi approcci che fanno uso di combinazioni lineari per proiettare i dati in uno spazio di dimensionalità mi- nore, particolarmente utilizzate in quanto semplici da calcolare e trattabili 21
22 CAPITOLO 2. METODOLOGIE E SCELTE PROGETTUALI analiticamente. Il più classico di questi approcci è l’analisi alle componenti principali (Principal Component Analysis, PCA). Consideriamo inizialmente il problema di rappresentare un insieme di n vettori a valori reali x1 ,...,xn , ognuno di dimensione d, attraverso un singolo vettore x0 tale che la somma delle distanze quadratiche tra x0 e i vari xk sia minima. Specificamente, questo vettore deve minimizzare la seguente funzione: n X J0 (x0 ) = kx0 − xk k2 . (2.1) k=1 Si può facilmente verificare che la soluzione a questo problema è data da x0 = m, dove m è la media di tutti i vettori: n 1X m= xk , (2.2) n k=1 infatti possiamo scrivere n X J0 (x0 ) = k(x0 − m) − (xk − m)k2 k=1 Xn n X n X 2 t = kx0 − mk − 2 (x0 − m) (xk − m) + kxk − mk2 k=1 k=1 k=1 Xn n X Xn = kx0 − mk2 − 2(x0 − m)t (xk − m) + kxk − mk2 (2.3) k=1 k=1 k=1 n X n X = kx0 − mk2 − 2(x0 − m)t (nm − nm) + kxk − mk2 k=1 k=1 n X n X 2 = kx0 − mk + kxk − mk2 . k=1 k=1 Poiché la seconda somma è indipendente da x0 , la scelta x0 = m minimizza la prima somma e di conseguenza anche l’intera espressione. Per ottenere un’approssimazione migliore dell’insieme di vettori, in cui sia evidente la va- riabilità dei dati, si possono proiettare i dati su una linea che passi attraverso la media, di equazione
2.1. ANALISI ALLE COMPONENTI PRINCIPALI (PCA) 23 x = m + ae, (2.4) dove e è un vettore unitario nella direzione della linea, e lo scalare a corrispon- de alla distanza di ogni punto dalla media. Approssimando dunque ogni xk con m + ak e, si può trovare l’insieme ottimo di coefficienti ak minimizzando l’errore quadratico nella funzione n X n X 2 J1 (a1 , ..., an , e) = k(m + ak e) − xk k = kak e − (xk − m)k2 k=1 k=1 n n n (2.5) X X X = a2k kek2 −2 t ak e (xk − m) + 2 kxk − mk . k=1 k=1 k=1 Sapendo che kek = 1, per trovare il minimo della funzione si differenzia parzialmente rispetto ad ak e si pone la derivata pari a zero: ∂J1 (a1 , ..., an , e) = 2ak − 2et (xk − m), (2.6) ∂ak ovvero otteniamo la soluzione ottima proiettando il vettore xk sulla linea che passa attraverso la media nella stessa direzione di e, ak = et (xk − m). (2.7) Rimane ora il problema di trovare la miglior direzione per e. Si definisce innanzitutto la matrice di covarianza dell’insieme di vettori, n 1X S= (xk − m)(xk − m)t . (2.8) n k=1 Sostituendo l’Eq. 2.7 nell’Eq. 2.5 otteniamo
24 CAPITOLO 2. METODOLOGIE E SCELTE PROGETTUALI n X n X n X J1 (e) = a2k −2 a2k + kxk − mk2 k=1 k=1 k=1 n X n X =− [et (xk − m)]2 + kxk − mk2 k=1 k=1 n n (2.9) X X =− et (xk − m)(xk − m)t e + kxk − mk2 k=1 k=1 n X t = −ne Se + kxk − mk2 ; k=1 per minimizzare quest’espressione occorre dunque massimizzare et Se, essen- do il secondo termine indipendente da e. Essendo la massimizzazione sog- getta alla condizione kek = 1, si può utilizzare il metodo dei moltiplica- tori di Lagrange1 . Se λ è il moltiplicatore incognito, occorre differenziare l’espressione u = et Se − λ(et e − 1) (2.12) rispetto ad e, ottenendo ∂u = 2Se − 2λe. (2.13) ∂e 1 E’un procedimento matematico per trovare gli estremi di una funzione a valori scalari f (x) soggetta ad uno o più vincoli. Nel caso in cui un vincolo possa essere espresso nella forma g(x) = 0, si costruisce innanzitutto la funzione Lagrangiana L(x, λ) = f (x) + λg(x), (2.10) dove λ è uno scalare chiamato moltiplicatore incognito di Lagrange. Sapendo che la seconda parte della sommatoria è sempre uguale a zero, è sufficiente ora prendere la derivata di L(x, λ) rispetto a x, porla uguale a zero e usare metodi standard di calcolo per risolvere l’equazione risultante in funzione di λ e del valore estremo di x: ∂L(x, λ) ∂f (x) ∂g(x) = +λ = 0. (2.11) ∂x ∂x ∂x Trovata la posizione del valore estremo di x, la determinazione del minimo o del massimo di f è immediata.
2.1. ANALISI ALLE COMPONENTI PRINCIPALI (PCA) 25 Ponendo questo vettore uguale a zero, otteniamo l’uguaglianza Se = λe, (2.14) ovvero e deve essere un autovettore della matrice di covarianza, con rispettivo autovalore λ. In particolare, poiché et Se = λet e = λ, il miglior autovettore possibile secondo il criterio della differenza quadratica minima è quello a cui corrisponde l’autovalore della matrice di covarianza maggiore. Abbiamo cosı̀ trovato la migliore proiezione unidimensionale dei vettori dell’insieme; il risultato può essere esteso a proiezioni a più dimensioni. Per una proiezione p-dimensionale, con p ≤ d, al posto dell’Eq. 2.4 scriviamo p X x=m+ ai e i ; (2.15) i=1 si procede quindi in maniera analoga al caso unidimensionale per dimostrare che la funzione di errore n p X X Jp = k(m + aki ei ) − xk k2 (2.16) k=1 i=1 è minima quando i vettori e1 ,...,ep sono i p autovettori della matrice di cova- rianza aventi gli autovalori maggiori. Poiché la matrice in questione è reale e simmetrica, gli autovettori formano una base ortogonale per rappresenta- re ogni possibile vettore dell’insieme originario, e per questo motivo sono chiamati vettori base. E’ invece chiamata componente principale dell’analisi l’insieme degli n coefficienti ai nell’Eq. 2.15 associati al vettore base i, uno per vettore dell’insieme iniziale. Ovviamente il numero di componenti prin- cipali è pari alla dimensionalità della base; esse vengono convenzionalmente numerate in maniera tale che la prima componente, PC-1, sia quella che cat- tura la maggior parte di variazione comune presente nei dati originari, mentre le componenti successive PC-2,...,PC-p riflettono via via variazioni sempre
26 CAPITOLO 2. METODOLOGIE E SCELTE PROGETTUALI Figura 2.1: PCA: (a) lo spazio iniziale; (b) i vettori base dell’analisi; (c) la ricostruzione bidimensionale. più sporadiche o addirittura uniche2 . La numerazione delle componenti è chiaramente coincidente con l’ordinamento decrescente degli autovalori as- sociati ai vettori base. Un esempio grafico di quanto detto nel caso di uno spazio tridimensionale è riportato in Figura 2.1. La formula matematica per la proiezione di un vettore xk sullo spazio definito dai vettori base è ak = Ct (xk − m), (2.17) dove C è una matrice le cui colonne sono i vettori base, per k = 1,...,p. La ricostruzione dei vettori iniziali attraverso i vettori base e le componenti principali avviene attraverso il calcolo inverso: xk = Cak + m. (2.18) Tuttavia l’uguaglianza è corretta solo nel caso in cui p = d ; nei casi pratici si ha sempre p d dunque la parte destra dell’Eq. 2.18 fornisce soltanto una stima di xk , tanto più accurata quanto maggiore è il numero di componenti principali utilizzate. Ma come determinare l’accuratezza dell’approssimazio- ne in funzione del numero di componenti utilizzate? Uno dei possibili criteri è 2 La media di tutti i vettori, m, viene talvolta considerata la prima componente prin- cipale. In questo lavoro la media sarà considerata a parte, ossia sottratta a tutti i vettori prima dell’effettiva applicazione dell’analisi alle componenti principali.
2.2. SISTEMA DI RIFERIMENTO UTILIZZATO 27 basato sulla varianza nell’insieme di vettori originario (ai quali come sempre è stata tolta la media): d X V ar(d) = λi , (2.19) i=1 dove λi rappresenta l’i -esimo autovalore in ordine decrescente della matrice di covarianza. La misura utilizzata in questo caso è la percentuale di varianza inclusa nelle prime p componenti utilizzate, Pp λi i=1 %V ar(p) = ∗ 100%. (2.20) V ar(d) L’algoritmo che realizza il calcolo dei vettori base e delle componenti princi- pali, pca, è riportato in appendice. 2.2 Sistema di riferimento utilizzato Nel seguito ci si riferirà ad un unico sistema di coordinate spaziali, per evitare qualsiasi sorta di confusione. Il modello della testa utilizzato è chiaramente quello sferico, con raggio inizialmente fissato a = 8.75 cm. In letteratura sono frequentemente usati due principali sistemi di riferimento a coordinate polari, riassunti in Figura 2.2: il sistema polare-verticale ed il sistema polare- interaurale. In questo caso l’origine viene fatta coincidere con il centro della sfera, ed il riferimento angolare per l’incidenza con il raggio che congiunge l’origine al canale uditivo destro, assumendo che le due orecchie sulla sfe- ra siano posizionate in maniera simmetrica rispetto al piano mediano3 . Nei sistemi di riferimento polari sopracitati le coordinate spaziali sono 3; la solu- zione di Rabinowitz è invece funzione di due soli parametri spaziali, distanza r dal centro della testa e angolo di incidenza θ. Vista la perfetta simmetria teorica, l’angolo di incidenza viene convenzionalmente fatto corrispondere 3 E’ il piano di simmetria della testa. In realtà nella testa umana le orecchie sono leggermente spostate verso la parte posteriore, ciascuna di un angolo di circa 10°.
28 CAPITOLO 2. METODOLOGIE E SCELTE PROGETTUALI Figura 2.2: Sistemi di coordinate sferiche: (a) sistema polare-verticale, (b) sistema polare-interaurale. all’azimut. Lavorando esclusivamente su sorgenti poste sul piano orizzon- tale il terzo parametro, l’elevazione, non verrà considerato (a parte qualche accenno). In sintesi il nostro sistema di riferimento coincide con il sistema polare-interaurale, a parte la seguente mappatura del valore dell’azimut per farlo sovrapporre al valore dell’angolo di incidenza: θ0 = −θ + 90◦ . (2.21) Dunque se la sorgente è posta direttamente di fronte all’orecchio destro si avrà θ0 = 0 ◦ , mentre se è di fronte all’orecchio sinistro θ0 = 180 ◦ . I va- lori dell’azimut nelle posizioni intermedie sono speculari rispetto al piano frontale4 . 2.3 L’algoritmo HRTF L’Eq. 1.6 rappresenta la funzione di trasferimento relativa alla testa sferica per una sorgente posta in un qualsiasi punto dello spazio. Si può immedia- tamente constatare che la sommatoria infinita non ci permette di costruire 4 E’ il piano che divide la testa in senso verticale all’altezza delle orecchie.
2.3. L’ALGORITMO HRTF 29 un algoritmo finito per il calcolo della funzione; in generale si devono dunque usare metodi numerici. Inoltre il calcolo delle funzioni di Hankel sferiche e dei polinomi di Legendre richiede un elevato costo computazionale; tuttavia in [13] viene presentato un algoritmo basato su relazioni di ricorrenza in cui tali funzioni matematiche sono sviluppate in maniera iterativa, rendendone più veloce la valutazione. Tale algoritmo estende al caso di distanze arbitra- rie un algoritmo precedente per una sorgente a distanza infinita. La formula che ne deriva è: ∞ 1 ρ −iµ X Qm ( iµρ ) H(ρ, µ, θ) = e (2m + 1)Pm (cosθ) m+1 1 1 , (2.22) iµ m=0 iµ Qm ( iµ ) − Qm−1 ( iµ ) dove i polinomi complessi Pm e Qm sono calcolati ricorsivamente attraverso le seguenti equazioni: Qm (z) = −(2m − 1)zQm−1 (z) + Qm−2 (z) (2.23) 2m − 1 m−1 Pm (x) = xPm−1 (x) − Pm−2 (x), (2.24) m m in cui le condizioni iniziali sono Q0 (z) = z, Q1 (z) = z − z 2 , P0 (x) = 1, P1 (x) = x. (2.25) Il codice dell’algoritmo hrtf è riportato in appendice. Per evitare una com- putazione infinita, visto che la sommatoria risulta ancora illimitata superior- mente, viene incluso un parametro threshold che ha il compito di terminare la computazione quando il rapporto tra l’ultimo termine ricorsivo calcolato e la somma totale di tutti i termini è minore del valore-soglia impostato. 2.3.1 Vincoli real-time Consideriamo uno scenario in cui l’ascoltatore dotato di cuffie è libero di muo- versi rispetto alla sorgente sonora virtuale e viceversa. Applicazioni recenti
30 CAPITOLO 2. METODOLOGIE E SCELTE PROGETTUALI che si basano su questo presupposto richiedono il calcolo in tempo reale delle funzioni di trasferimento per poter tenere fissa la sorgente virtuale rispetto alla posizione del soggetto o viceversa, per di più in modo tale che il suono riprodotto non presenti discontinuità durante il movimento. Bisogna inoltre tenere in conto la possibilità di essere in un ambiente acustico complesso, ovvero tale da contenere molteplici sorgenti sonore disposte in diversi punti spaziali. Per sorgenti poste nel campo lontano la soluzione al problema risulta più agevole, in quanto le rispettive formule non dipendono dalla distanza r, consi- derata infinita; dunque un calcolo a priori delle HRTF, su un insieme discreto di frequenze e facendo variare l’azimut per diversi valori nel piano orizzontale, più la successiva interpolazione per i punti intermedi non è particolarmente gravoso. Nel campo vicino invece, conoscendo i radicali cambiamenti nel- la ILD per una sorgente che si sposta anche soltanto di pochi centimetri, la dipendenza dalla distanza non può essere non considerata. L’algoritmo presentato in questa sezione, seppur sia costruito in maniera iterativa per rendere più rapida la computazione, non garantisce ancora la velocità ne- cessaria per il calcolo in tempo reale delle HRTF. Si potrebbe anche qui tentare di memorizzare gli output dell’algoritmo su una rete di punti discreti (ρ, θ, µ), ma la successiva interpolazione richiederebbe il calcolo di funzioni a tre variabili piuttosto complesse. Inoltre, nel caso in cui si debba simulare un ambiente dove siano presenti più sorgenti in diversi punti spaziali, ogni sorgente dovrebbe essere elaborata con un diverso filtro. In conclusione, possiamo dire che mentre dei modelli in tempo reale per il campo lontano, data la relativa semplicità di realizzazione, sono già stati sviluppati con risultati più che accettabili [5], l’implementazione di modelli analoghi per il campo vicino rimane un problema aperto. In attesa della ge- niale intuizione di turno, si può tentare dunque la strada dell’introduzione di ulteriori possibili approssimazioni, una delle quali è presentata nella sezione successiva.
2.4. APPROSSIMAZIONE DELLE HRTF TRAMITE PCA 31 2.4 Approssimazione delle HRTF tramite PCA L’idea dell’approssimazione presentata in questa sezione, che rappresenta la prima parte del lavoro di tesi, consiste nel costruire una collezione di HRTF per diversi punti sul piano orizzontale, e di rappresentare i moduli di questo insieme tramite un numero limitato di componenti principali derivanti dalla PCA. In letteratura già diversi lavori hanno fatto uso dell’analisi alle componenti principali, ma sempre approssimando dati sperimentali e non analitici come in questo caso [19, 10]. Le scelte progettuali riguardanti la costruzione del suddetto insieme si possono riassumere nei seguenti punti: il raggio della sfera a è fissato, come già detto, al valore standard di 8.75 cm; l’azimut viene fatto variare su 19 valori, da θ = 0 ◦ a θ = 180 ◦ , equi- spaziati di 10 ◦ ; la distanza normalizzata ρ = r/a viene fatta variare in maniera espo- nenziale su 7 valori: ρ = 1.25, 1.5, 2, 4, 8, 16, 32; le HRTF sono calcolate su 100 frequenze discrete, in un range da 1 Hz a 10 kHz, equispaziate di 100 Hz. La scelta di una scala lineare nella discretizzazione delle frequenze è do- vuta alla maggiore importanza della ILD alle alte frequenze, che sono dunque fittamente rappresentate. Delle 133 HRTF cosı̀ scelte si considerano le am- piezze in dB, ottenendo dunque n = 133 vettori a valori reali x1 ,...,xn ciascuno di dimensione d = 150. Un grafico di tutti i vettori è presentato in Figura 2.3. Dopo aver sottratto a ciascuno di questi vettori la media m, si proce- de immediatamente con l’applicazione di PCA, facendo variare il parametro p fino a trovare il trade-off ottimale tra numero di componenti e accura- tezza dell’approssimazione. Inizialmente era stato considerato un range di frequenze fino a 15 kHz; tuttavia le considerazioni sulla ridotta sensibilità da parte dell’orecchio umano delle frequenze tra 10 e 15 kHz hanno portato ad
32 CAPITOLO 2. METODOLOGIE E SCELTE PROGETTUALI Figura 2.3: Le 133 HRTF considerate nell’analisi. una riduzione dell’intervallo considerato. L’utilizzo del nuovo range ha inol- tre sortito risultati migliori nei termini del numero di componenti principali da includere nell’analisi per avere una buona approssimazione; questi sono presentati nel prossimo capitolo. 2.4.1 Smoothing uditivo delle HRTF Viste le ampie oscillazioni nelle risposte in ampiezza delle HRTF alle alte frequenze, si potrebbe pensare di rendere le curve più regolari inserendo, pri- ma dell’applicazione di PCA, un filtro che esegua lo smoothing (“lisciatura”) delle funzioni. Tale filtro non deve comunque stravolgere l’andamento gene- rale delle oscillazioni più importanti; per questo motivo occorrono dei criteri per motivare lo smoothing. Un possibile criterio ci è dato dallo studio della psicoacustica. Nel campo della psicoacustica, attraverso una serie di esperimenti, è stato
2.4. APPROSSIMAZIONE DELLE HRTF TRAMITE PCA 33 Figura 2.4: Comportamento in frequenza della membrana basilare. studiato come la membrana basilare5 abbia un comportamento simile ad un banco di filtri, ciascuno avente la propria frequenza centrale e la propria ban- da. Si definisce banda critica la larghezza di ognuno di questi filtri che, come si può vedere nella Figura 2.4, è fortemente dipendente dalla frequenza. Più precisamente, al crescere della frequenza le bande critiche diventano sempre più larghe. Ne consegue dunque che dal punto di vista psicoacustico la scala lineare per la frequenza usata ad esempio nella trasformata di Fourier non è ottima- le. Vengono invece utilizzate altre scale quali la scala Bark e la scala ERB (Equivalent Rectangular Bandwidth): entrambe approssimano il comporta- mento delle bande critiche, con la seconda che fornisce la migliore risoluzione uditiva [23]. La larghezza di banda della scala ERB in funzione della fre- quenza centrale fc (in kHz), mostrata anche in Figura 2.5 assieme ad altre scale tra cui la Bark, è data dalla seguente equazione: ∆fCE = 24.7(4.37fc + 1). (2.26) Esistono diversi metodi per incorporare questa risoluzione non uniforme del- l’udito nel progetto di filtri da includere successivamente in modelli uditivi più complessi. Tra questi, lo smoothing uditivo è la tecnica che più si addice alle osservazioni precedenti su questo lavoro di tesi. La maniera più semplice 5 Elemento della coclea, organulo dell’orecchio interno, che vibrando contribuisce alla percezione del suono.
34 CAPITOLO 2. METODOLOGIE E SCELTE PROGETTUALI Figura 2.5: Bande ERB e Bark in funzione della frequenza. per realizzarlo è una media mobile in frequenza dove la larghezza della fine- stra sia strettamente correlata alla corrispondente banda critica. La formula generale della media mobile per una precisa HRTF su frequenze discrete è la seguente: 1 X |Hs (f )| = |H(f 0 )|, (2.27) f1 − f0 f0 ≤f 0 ≤f1 dove f1 − f0 è la larghezza della finestra alla frequenza f 0 . Essa può essere determinata dall’Eq. 2.26, se si vuole utilizzare la scala ERB, oppure secondo √ √ altri criteri. Se definiamo f0 = f / K e f1 = f K, la larghezza cresce all’aumentare del parametro K; ad esempio, per K = 5/4 la finestra è larga un terzo di ottava6 , mentre per K = 2 è larga un’ottava. Si è quindi tentato di applicare lo smoothing uditivo alle risposte in am- piezza calcolate con l’algoritmo HRTF. Tuttavia, come si può vedere in Figu- ra 2.6 per una particolare curva, l’approssimazione non sortisce effetti molto 6 L’ottava è l’intervallo tra due frequenze f0 e f1 tale che f1 /f0 = 2.
2.5. PERSONALIZZAZIONE DELLE HRTF 35 Figura 2.6: Tecniche di smoothing applicate ad una risposta in ampiezza (ρ = ∞, θ = 150◦ ). evidenti, almeno nei casi con bande ERB e 1/3 di ottava. La banda di 1 ottava è invece troppo larga per essere accettata da criteri psicoacustici. La motivazione di questo risultato sta nel fatto che le HRTF calcolate anali- ticamente sono già sufficientemente regolari e le oscillazioni che presentano sono tutte rilevanti. La tecnica si applica meglio a curve sperimentali, in cui oltre alle oscillazioni generali sono presenti anche variazioni brusche e ridot- te. In conclusione, in questo lavoro si è deciso di non applicare tecniche di smoothing uditivo in quanto non apportano vantaggi significativi. 2.5 Personalizzazione delle HRTF La seconda parte del lavoro di tesi si focalizza sul rendering di HRTF persona- lizzate. Sono state percorse diverse strade per tentare di ricavare da una colle- zione di dati sperimentali e antropometrici, per ogni individuo preso in consi-
36 CAPITOLO 2. METODOLOGIE E SCELTE PROGETTUALI derazione, il raggio ottimo del modello sferico della testa. Si è esclusivamente fatto riferimento al CIPIC HRTF Database (disponibile sul web all’indirizzo http://interface.cipic.ucdavis.edu/CIL html/CIL HRTF database.htm), la cui release 1.0 contiene le HRIR sperimentali sinistra e destra per 45 soggetti7 a 25 diversi azimut e 50 diverse elevazioni, oltre a 27 misure antropometriche per la maggior parte dei 45 individui [3]. Ogni HRIR è lunga 4.5 ms, campio- nata in 200 istanti temporali per ottenere la frequenza di campionamento di 44100 Hz; l’algoritmo FFT-based per la trasformazione delle HRIR in HRTF è incluso nel codice MATLAB che accompagna la collezione di dati. La li- mitazione principale del database, nell’ottica di questa tesi, sta nel fatto che gli autori non hanno tenuto conto della distanza della sorgente, fissata a 1 metro per tutte le misure, dunque al limite tra campo vicino e lontano. L’idea è quella di ricavare il raggio ottimo per ogni soggetto basandosi sull’informazione contenuta nelle diverse ILD. Inizialmente si è tentato di estrapolare una formula analitica che legasse ILD a raggio ottimo, come è stato fatto nel lavoro di Algazi et al. [1] per la ITD e i cui dettagli sono riportati nella sezione 1.6. Purtroppo alla ILD, essendo la feature largamente variabile a seconda della frequenza, non può essere associato un unico valore come per la ITD. Inoltre la soluzione di Lord Rayleigh, non essendo in forma chiusa, non può essere espressa in funzione del raggio a come invece era possibile con la formula di Woodworth. Si è pensato dunque di far variare il parametro a nella formula di Rabi- nowitz tenendo fisso r = 1 m, in modo da analizzare il comportamento per diversi θ del modulo della funzione di trasferimento all’aumentare del raggio della sfera. Un esempio, per un angolo di incidenza di 150 ◦ e un raggio della testa che varia da 6 a 10 cm con incrementi uniformi di 1 mm, è riportato in Figura 2.7. Dalla figura si può notare come le curve siano molto simili e vicine tra di loro, praticamente indistinguibili se il raggio della testa varia nell’ordine dei millimetri. Addirittura in alcuni intervalli di frequenza la dif- 7 43 soggetti umani appartenenti a diverse etnie e due manichini KEMAR, differenti solo nella grandezza delle orecchie.
Puoi anche leggere