`
`I, Alberto Abad Gareta, declare the following to be true and correct to the best of my knowledge, information, and belief:
`
`1.
`
`2.
`
`3.
`
`I am an Assistant Professor at the Department of Computer Science and Engineering of Instituto Superior
`Técnico (IST) in Lisbon, Portugal, and Researcher at INESC-ID Lisboa, Portugal.
`
`I am not being compensated for this declaration.
`
`I received a Ph.D. degree from the Universitat Politècnica De Catalunya (UPC) in Barcelona, Spain in 2007.
`
`4. My Ph.D. Thesis was titled “A Multi-Microphone Approach to Speech Processing in a Smart-Room
`Environment.” A copy of my Thesis is attached hereto as Appendix A, which is found in the Tesis Doctorals
`en Xarxa (TDX) repository via the following URL: https://www.tdx.cat/handle/10803/6906#page=1.
`
`5.
`
`6.
`
`I began preparing my Thesis in 2006 and exchanged drafts of my Thesis with my advisor, Francisco Javier
`Hernando Pericás, until I was content with the state of my Thesis.
`
`Thereafter, I submitted my Thesis to two external reviewers that provided me with additional feedback.
`
`7. Based on this feedback, I then finalized my Thesis, as reflected in the copy attached hereto as Appendix A. I
`recall that there were only minor differences between the draft I submitted to the external reviewers and the
`final draft of my Thesis.
`
`8. As was the normal process for Ph.D. Thesis papers at UPC, my Thesis was then deposited with the Doctoral
`School of the UPC so that others could access, review, and comment on my Thesis.
`
`9. After my Thesis was deposited, I defended my Thesis on June 29, 2007, which was open to the public.
`
`10. Shortly after I defended my Thesis, I submitted a copy of my Thesis to TDX’s open-access institutional
`repository, where it was made available online for others to download.
`
`11. Based on my recollection and knowledge of the thesis process at UPC, it is my belief that my Thesis was
`made generally available to the public no later than the end of the 2007 year.
`
`Therefore, I declare that the foregoing is true and correct and that any statements made herein on information and belief
`are believed to be true and correct.
`
`Executed on January 18, 2022
`
`___________________________
`Alberto Abad Gareta
`
`INESC-ID - Instituto de Engenharia de Sistemas e Computadores, Investigação e Desenvolvimento em Lisboa
`Rua Alves Redol, 9 – 1000-029 Lisboa – Portugal Tel.: +351 213100300
`Email: info@inesc-id.pt www. inesc-id.pt
`
`Page 1 of 188
`
`SONOS EXHIBIT 1050
`
`
`
`
`
`
`
`
`
`
`Appendix A
`Appendix A
`
`
`
`Page 2 of 188
`
`SONOS EXHIBIT 1050
`
`Page 2 of 188
`
`SONOS EXHIBIT 1050
`
`
`
`PhD Thesis
`
`A multi-microphone approach to speech
`
`processing in a smart-room environment
`
`Author: Alberto Abad Gareta
`
`Advisor: Dr. Fco. Javier Hernando Peric´as
`
`Speech Processing Group
`Department of Signal Theory and Communications
`Universitat Polit`ecnica de Catalunya
`
`Barcelona, February 2007
`
`Page 3 of 188
`
`SONOS EXHIBIT 1050
`
`
`
`Page 4 of 188
`
`SONOS EXHIBIT 1050
`
`Page 4 of 188
`
`SONOS EXHIBIT 1050
`
`
`
`A mis padres y hermana,
`
`Page 5 of 188
`
`SONOS EXHIBIT 1050
`
`
`
`Page6 of 188
`
`SONOS EXHIBIT 1050
`
`Page 6 of 188
`
`SONOS EXHIBIT 1050
`
`
`
`Abstract
`
`Recent advances in computer technology and speech and language processing have made possi-
`ble that some new ways of person-machine communication and computer assistance to human
`activities start to appear feasible. Concretely, the interest on the development of new challenging
`applications in indoor environments equipped with multiple multimodal sensors, also known as
`smart-rooms, has considerably grown.
`
`In general, it is well-known that the quality of speech signals captured by microphones that
`can be located several meters away from the speakers is severely distorted by acoustic noise
`and room reverberation. In the context of the development of hands-free speech applications in
`smart-room environments, the use of obtrusive sensors like close-talking microphones is usually
`not allowed, and consequently, speech technologies must operate on the basis of distant-talking
`recordings. In such conditions, speech technologies that usually perform reasonably well in free
`of noise and reverberation environments show a dramatically drop of performance.
`
`In this thesis, the use of a multi-microphone approach to solve the problems introduced
`by far-field microphones in speech applications deployed in smart-rooms is investigated. Con-
`cretely, microphone array processing is investigated as a possible way to take advantage of the
`multi-microphone availability in order to obtain enhanced speech signals. Microphone array
`beamforming permits targeting concrete desired spatial directions while others are rejected, by
`means of the appropriate combination of the signals impinging a microphone array.
`
`A new robust beamforming scheme that integrates an adaptive beamformer and a Wiener
`post-filter in a single stage is proposed for speech enhancement. Experimental results show that
`the proposed beamformer is an appropriate solution for high noise environments and that it is
`preferable to conventional post-filtering of the output of an adaptive beamformer. However, the
`beamformer introduces some distortion to the speech signal that can affect its usefulness for
`speech recognition applications, particularly in low noise conditions.
`
`Then, the use of microphone arrays for specific speech recognition purposes in smart-room
`environments is investigated. It is shown that conventional microphone array based speech recog-
`nition, consisting on two independent stages, does not provide a significant improvement with
`respect to single microphone approaches, especially if the recognizer is adapted to the actual
`acoustic environmental conditions. In the thesis, it is pointed out that speech recognition needs to
`incorporate information about microphone array beamformers, or otherwise, beamformers need
`to incorporate speech recognition information. Concretely, it is proposed to use microphone array
`beamformed data for acoustic model construction in order to take more benefit from microphone
`arrays. The result obtained with the proposed adaptation scheme with beamformed enrollment
`data shows a remarkable improvement in a speaker dependent recognition system, while only a
`limited enhancement is achieved in a speaker independent recognition system, partially due to
`
`i
`
`Page 7 of 188
`
`SONOS EXHIBIT 1050
`
`
`
`ii
`
`the use of simulated microphone array data.
`
`On the other hand, a common limitation of microphone array processing is that a reliable
`speaker position estimation is needed to correctly steer the beamformer towards the position
`of interest. Additionally, knowledge about the location of the audio sources present in a room
`is information that can be exploited by other smart-room services, such as automatic video
`steering in conference applications. Fortunately, audio source tracking can be solved on the
`basis of multiple microphone captures by means of several different approaches.
`
`In the thesis, a robust speaker tracking system is developed based on successful state of the
`art SRP-PHAT algorithm, which computes the likelihood of each potential source position on the
`basis of the generalized cross-correlation estimations between pairs of microphones. The proposed
`system mainly incorporates two novelties: firstly, cross-correlations are adaptively computed
`based on the estimated velocities of the sources. The adaptive computation permits minimizing
`the influence of the varying dynamics of the speakers present in a room on the overall localization
`performance. Secondly, an accelerated method for the computation of the source position based
`on coarse-to-fine search strategies in both spatial and frequency dimensionalities is proposed. It is
`shown that the relation between spatial resolution and cross-correlation bandwidth is a matter of
`major importance in this kind of fast search strategies. Experimental assessment shows that the
`two novelties introduced permit achieving a reasonably good tracking performance in relatively
`controlled environments with few non-overlapping speakers. Additionally, the remarkable results
`obtained by the proposed audio tracker in an international evaluation confirm the convenience
`of the algorithm developed.
`
`Finally, in the context of the development of novel technologies that can provide additional
`cues of information to the potential services deployed in smart-room environments, acoustic
`head orientation estimation based on multiple microphones is also investigated in the thesis.
`Two completely different approaches are proposed and compared: on the one hand, sophisticated
`methods based on the joint estimation of speaker position and orientation are shown to provide
`a superior performance in exchange of large computational requirements. On the other hand,
`simple and computationally cheap approaches based on speech radiation considerations are
`suitable in some cases, such as when computational complexity is limited or when the source
`position is known beforehand. In both cases, the results obtained are encouraging for future
`research on the development of new algorithms addressed to the head orientation estimation
`problem.
`
`Page 8 of 188
`
`SONOS EXHIBIT 1050
`
`
`
`Resumen
`
`Los avances recientes en tecnolog´ıa inform´atica y procesado del habla y del lenguaje, entre
`otros, han hecho posible que nuevos modos de comunicaci´on entre las personas y las m´aquinas
`empiecen a parecer factibles. Concretamente, el inter´es en el desarrollo de nuevas aplicaciones
`en entornos cerrados equipados con m´ultiples sensores multimodales, tambi´en conocidos como
`salas inteligentes, ha aumentado considerablemente en los ´ultimos tiempos.
`
`En general, es bien sabido que la calidad de las se˜nales de habla capturadas por micr´ofonos
`que pueden encontrarse a varios metros de distancia de los locutores se ve severamente degradada
`por el ruido ac´ustico y por la reverberaci´on de la sala. En el contexto del desarrollo de aplicaciones
`del habla en entornos de salas inteligentes, el uso de sensores que no sean molestos es un requisito
`habitual. Es decir, normalmente no est´a permitido o no es posible usar micr´ofonos cercanos o
`de solapa, y por lo tanto, las tecnolog´ıas del habla desarrolladas tienen que basarse en las
`se˜nales capturadas por micr´ofonos lejanos. En estas situaciones, las tecnolog´ıas del habla que
`habitualmente funcionan razonablemente bien en entornos libres de ruido y reverberaci´on sufren
`un descenso dr´astico en sus prestaciones.
`
`En esta tesis se investigan m´etodos multi-micr´ofono para solventar los problemas que provoca
`el uso de micr´ofonos lejanos en las aplicaciones del habla que habitualmente se desarrollan en
`salas inteligentes. Concretamente, se estudia el procesado de arrays de micr´ofonos como un
`m´etodo posible de aprovechar la disponibilidad de m´ultiples micr´ofonos para obtener se˜nales de
`voz mejoradas. Mediante la correcta combinaci´on de las se˜nales que inciden en una agrupaci´on
`de micr´ofonos, el procesado de arrays permite apuntar direcciones espaciales concretas a la vez
`que otras se rechazan.
`
`Para la mejora del habla con arrays de micr´ofonos, en la tesis se propone el uso de un nuevo
`esquema robusto de conformaci´on que integra en una s´ola etapa un conformador adaptativo y
`una etapa de post-filtrado de Wiener. Los resultados obtenidos muestran que el conformador
`propuesto es una soluci´on adecuada para entornos muy ruidosos y que, en general, es preferible
`al uso convencional de etapas de post-filtrado a la salida de un conformador adaptativo. Sin
`embargo, el conformador muestra cierta degradaci´on de la se˜nal de voz que puede afectar a
`su utilidad para aplicaciones de reconocimiento del habla, especialmente cuando el ruido no es
`demasiado importante.
`
`A continuaci´on se investiga el uso espec´ıfico de arrays de micr´ofonos para el reconocimiento
`del habla en entornos de salas inteligentes. Se demuestra que el uso convencional de arrays de
`micr´ofonos para reconocimiento del habla, que consiste en su aplicaci´on en dos etapas indepen-
`dientes, no aporta una mejora significativa respecto al uso de t´ecnicas mono-canal, especial-
`mente, si el reconocedor est´a adaptado a las condiciones reales del entorno ac´ustico. En la tesis
`se hace ´enfasis en la necesidad de que el reconocimiento del habla incorpore informaci´on de la
`
`iii
`
`Page 9 of 188
`
`SONOS EXHIBIT 1050
`
`
`
`iv
`
`conformaci´on con arrays de micr´ofonos, o alternativamente, que los conformadores incorporen
`informaci´on del reconocimiento del habla. M´as concretamente, se propone el uso de datos cap-
`turados por un array de micr´ofonos y luego procesados por un conformador para la construcci´on
`de los modelos ac´usticos, para de esta manera, obtener un mayor beneficio de los arrays. La apli-
`caci´on del esquema propuesto de adaptaci´on con datos conformados de un array de micr´ofonos
`permite obtener una mejora considerable en un sistema de reconocimiento dependiente de locu-
`tor, mientras que en el caso de un sistema independiente de locutor s´olo se obtiene una mejora
`muy limitada, debido en parte al uso de datos de array simulados.
`
`Por otro lado, una limitaci´on habitual del procesado de arrays de micr´ofonos es que se necesita
`una estimaci´on veros´ımil de la posici´on del locutor para poder apuntar correctamente hacia la
`posici´on de inter´es. Adem´as, el conocimiento de la posici´on de las fuentes ac´usticas que puedan
`estar presentes en una sala es una informaci´on que puede ser aprovechada por otros servicios
`que se desarrollan en las salas inteligentes, como por ejemplo para apuntar autom´aticamente
`una c´amara en v´ıdeo-conferencias. Afortunadamente, existen numerosos m´etodos que permiten
`resolver el problema del seguimiento de fuentes ac´usticas bas´andose en las se˜nales capturadas
`por m´ultiples micr´ofonos.
`
`Concretamente, en la tesis se desarrolla un sistema robusto de localizaci´on de locutor basado
`en uno de los algoritmos actuales de mayor ´exito consistente en el c´omputo de la verosimilitud
`de cada posible posici´on bas´andose en las estimaciones de las correlaciones cruzadas general-
`izadas entre pares de micr´ofonos. El sistema propuesto incorpora principalmente dos novedades.
`Primero, las correlaciones cruzadas se calculan de forma adaptativa bas´andose en las velocidades
`estimadas de las fuentes. Este c´alculo adaptativo se hace de manera que se minimice el efecto
`de las diferentes din´amicas de las fuentes presentes en la sala en el resultado de la localizaci´on.
`Segundo, se propone el uso de un m´etodo acelerado para el c´alculo de la posici´on basado en es-
`trategias de b´usqueda de menor a mayor resoluci´on tanto en el dominio espacial como frecuencial.
`De hecho, se muestra que la relaci´on entre resoluci´on espacial y el ancho de banda considerado
`en el c´alculo de las correlaciones cruzadas es un aspecto fundamental a tener en cuenta en la
`aplicaci´on adecuada de este tipo de estrategias r´apidas. Las dos novedades comentadas permiten
`que el sistema propuesto alcance unos resultados razonablemente buenos cuando se eval´ua en
`escenarios relativamente controlados y con pocos locutores que no se solapan. Adem´as, la con-
`veniencia del sistema de localizaci´on ac´ustica propuesto queda de manifiesto si se atiende a los
`destacados resultados que se obtuvieron en una evaluaci´on internacional.
`
`Finalmente, en la tesis tambi´en se estudia el problema de la estimaci´on de la orientaci´on del
`locutor en base a las se˜nales capturadas por m´ultiples micr´ofonos en el contexto del desarrollo
`de nuevas tecnolog´ıas que puedan aportar informaci´on adicional para los sistemas que potencial-
`mente pueden actuar en salas inteligentes. En concreto, se proponen y comparan dos m´etodos
`completamente diferentes. Por un lado, m´etodos sofisticados basados en la estimaci´on conjunta
`de la posici´on y de la orientaci´on que permiten obtener estimaciones aceptables a cambio de un
`elevado coste computacional. Por otro lado, los m´etodos m´as simples que se basan en considera-
`ciones sobre el diagrama de radiaci´on del habla aunque no son capaces de igualar las prestaciones
`de los m´etodos sofisticados, tambi´en pueden resultar adecuados en algunos casos, como cuando
`se sabe la posici´on de antemano o cuando la complejidad computacional est´a limitada. En ambos
`casos, los resultados obtenidos permiten ser optimistas de cara al futuro desarrollo de nuevos
`algoritmos dedicados a la estimaci´on de la orientaci´on del locutor.
`
`Page 10 of 188
`
`SONOS EXHIBIT 1050
`
`
`
`Resum
`
`Els aven¸cos recents en tecnologia inform`atica i processament de la parla i del llenguatge, entre
`altres, han fet possible que noves maneres de comunicaci´o entre les persones i les m`aquines
`comencin a semblar factibles. Concretament, l’inter`es en el desenvolupament de noves aplicacions
`en entorns tancats equipats amb m´ultiples sensors multimodals, tamb´e coneguts com sales in-
`tel.ligents, ha augmentat considerablement darrerament.
`
`En general, ´es ben conegut que la qualitat de les senyals de la parla capturades per micr`ofons
`que poden trobar-se a diversos metros de dist`ancia dels locutors es veu severament degradada pel
`soroll ac´ustic i per la reverberaci´o de la sala. En el context del desenvolupament d’aplicacions de
`la parla en entorns de sales intel.ligents, l’´us de sensors que no siguin molestos ´es un requeriment
`habitual. ´Es a dir, no est`a normalment perm`es o no ´es possible fer servir micr`ofons propers o
`de solapa, i per tant, les tecnologies de la parla desenvolupades han de basar-se en les senyals
`capturades per micr`ofons llunyans. En aquestes situacions, les tecnologies de la parla que ha-
`bitualment funcionen raonablement b´e en entorns lliures de soroll i reverberaci´o pateixen una
`davallada dr`astica en les seves prestacions.
`
`En aquesta tesis s’investiguen m`etodes multi-micr`ofon per a solucionar els problemes que
`provoca l’´us de micr`ofons llunyans en les aplicacions de la parla que habitualment es desenvolu-
`pen en sales intel.ligents. Concretament, s’estudia el processament d’arrays de micr`ofons com a
`un m`etode possible d’aprofitar la disponibilitat de m´ultiples micr`ofons per a obtenir senyals de
`veu millorades. Mitjan¸cant la correcta combinaci´o de les senyals que incideixen en una agrupaci´o
`de micr`ofons, el processament d’arrays permet apuntar direccions espacials concretes a l’hora
`que altres es rebutgen.
`
`Per a la millora de la parla amb arrays de micr`ofons, en la tesis es proposa l’´us d’un nou
`esquema robust de conformaci´o que integra en nom´es etapa un conformador adaptatiu i una
`etapa de post-filtrat de Wiener. Els resultats obtinguts mostren que el conformador proposat
`´es una soluci´o adequada per a entorns molt sorollosos i que, en general, ´es preferible a l’´us
`convencional d’etapes de post-filtrat a la sortida d’un conformador adaptatiu. No obstant aix`o,
`el conformador mostra una certa degradaci´o de la senyal de veu que pot afectar a la seva utilitat
`per a aplicacions de reconeixement de la parla, especialment quan el soroll no ´es massa important.
`
`A continuaci´o s’investiga l’´us espec´ıfic d’arrays de micr`ofons per al reconeixement de la parla
`en entorns de sales intel.ligents. Es demostra que l’´us convencional d’arrays de micr`ofons per
`al reconeixement de la parla, que consisteix en la seva aplicaci´o en dues etapes independents,
`no aporta una millora significativa respecte de l’´us de t`ecniques mono-canal, especialment, si el
`reconeixedor est`a adaptat a les condicions reals de l’entorn ac´ustic. En la tesis es fa `emfasis en la
`necessitat de que el reconeixement de la parla incorpori informaci´o de la conformaci´o amb arrays
`de micr`ofons, o alternativament, que els conformadors incorporin informaci´o del reconeixement
`
`v
`
`Page 11 of 188
`
`SONOS EXHIBIT 1050
`
`
`
`vi
`
`de la parla. M´es concretament, es proposa utilitzar les dades primer capturades per un array de
`micr`ofons i despr´es processades per un conformador per a la construcci´o dels models ac´ustics,
`per a d’aquesta manera, obtenir un major benefici dels arrays de micr`ofons. La aplicaci´o del
`esquema proposat d’adaptaci´o amb dades conformades d’un array, permet obtenir una millora
`considerable en un sistema de reconeixement depenent de locutor, mentre que en el cas d’un
`sistema independent de locutor nom´es s’obt´e una millora molt limitada, degut en part a l’´us de
`dades d’array simulades.
`
`Per altra banda, una limitaci´o habitual del processament d’arrays de micr`ofons ´es que es
`necessita una estimaci´o versemblant de la posici´o del locutor per a poder apuntar correctament
`cap a la posici´o d’inter`es. A m´es, el coneixement de la posici´o de les fonts ac´ustiques que poden
`estar presents en una sala ´es una informaci´o que pot ser aprofitada per altres serveis que es
`desenvolupen en les sales intel.ligents, com per exemple per a apuntar autom`aticament una
`c`amara en v´ıdeo-conferencies. Afortunadament, existeixen nombrosos m`etodes que permeten
`sol.lucionar el problema del seguiment de fonts ac´ustiques basant-se en les senyals capturades
`per m´ultiples micr`ofons.
`
`Concretament, a la tesis es desenvolupa un sistema robust de localitzaci´o de locutor basat
`en un dels algorismes actuals de major `exit que consisteix en computar la versemblan¸ca de cada
`possible posici´o basant-se en les estimacions de les correlaciones creuades generalitzades entre
`parelles de micr`ofons. El sistema proposat incorpora principalment dues novetats. Primer, les
`correlacions creuades es calculen de forma adaptativa basant-se en las velocitats estimades de
`les fonts. Aquest c`alcul adaptatiu es realitza de manera que es minimitzi l’efecte de les diferents
`din`amiques de les fonts presents en la sala en el resultat de la localitzaci´o. Segon, es proposa
`l’´us d’un m`etode accelerat per al c`alcul de la posici´o basat en estrat`egies de cerca de menor a
`major resoluci´o tant en el domini espacial com en el freq¨uencial. De fet, es mostra que la relaci´o
`entre resoluci´o espacial i l’ample de banda considerat en el c`alcul de les correlacions creuades
`´es un aspecte fonamental a tenir en compte en l’aplicaci´o adequada d’aquest tipus d’estrat`egies
`r`apides. Les dues novetats comentades permeten que el sistema proposat assoleixi uns resultats
`raonablement bons quan s’eval´ua en escenaris relativament controlats i amb pocs locutors que
`no se solapin. A m´es, la conveni`encia del sistema de localitzaci´o ac´ustica proposat queda de
`manifest si s’atenen els destacats resultats que es van obtenir en una evaluaci´o internacional.
`
`Finalment, a la tesis tamb´e s’estudia el problema de l’estimaci´o de l’orientaci´o del locutor en
`base a las senyals rebudes per m´ultiples micr`ofons, en el context del desenvolupament de noves
`tecnologies que poden aportar informaci´o addicional per als sistemes que potencialment poden
`actuar en sales intel.ligents. En concret, es proposen i comparen dos m`etodes completament
`diferents. Por una banda, m`etodes sofisticats basats en l’estimaci´o conjunta de la posici´o i de
`l’orientaci´o permeten assolir estimacions acceptables a canvi d’un elevat cost computacional. Per
`altra banda, els m`etodes m´es simples que es basen en consideracions sobre el diagrama de radiaci´o
`de la parla encara que no s´on capa¸cos d’assolir les prestacions dels m`etodes sofisticats, tamb´e
`poden resultar adequats en alguns casos, como ara quan es coneix la posici´o amb antelaci´o, o b´e
`quan la despesa computacional est`a limitada. En tots dos casos, els resultats obtinguts permeten
`ser optimistes de cara al futur desenvolupament de nous algorismes adre¸cats a l’estimaci´o de
`l’orientaci´o del locutor.
`
`Page 12 of 188
`
`SONOS EXHIBIT 1050
`
`
`
`Agradecimientos
`
`Buscando inspiraci´on para superar de una manera acertada este delicado apartado y que no
`deje descontento a nadie, he acabado por leer lo que escrib´ı en mi proyecto final de carrera.
`Resulta que todos los que aparecen en aquellos agradecimientos, siguen estando a mi lado, lo
`cual refuerza a´un m´as si cabe, el hecho de que me sienta afortunado y orgulloso por la familia
`y amigos que tengo. A todos, incluido los que no cito a continuaci´on, les estoy agradecido por
`dejarme formar parte de sus vidas.
`
`En particular, mi insignificante forma de agradecer todo el amor, cari˜no y apoyo recibido de
`mis padres y hermana, es dedic´andoles esta tesis. Fer, Pili y Marta: gracias por todo, os quiero
`mucho.
`
`Me gustar´ıa recordar tambi´en a los amigos que han estado m´as cerca de mi en estos cuatro
`´ultimos a˜nos y agradecer los buenos momentos compartidos que sin duda me han ayudado
`a seguir adelante. En especial, a mis compa˜neros de piso Sim´on, Aysel y Judith, gracias por
`aguantarme todos los d´ıas. A ´Angel, Javi, Mingo y dem´as “pe˜na micros” por esos grandes
`momentos delante de la consola (y delante de las barras). A Daniel, Rub´en, David, Jaime y
`Marcos por los ratos pasados en la cochera del Pini. A Adri`a, Maribel, Mariella y muchos m´as
`sufridores colegas de doctorado, que con su amistad han contribuido a hacer de la tesis una
`carga un poco menos pesada. A la gente de antes y de ahora de Telecogresca y Taller de S´o,
`que siempre han sido un soplo de aire fresco important´ısimo para mi. Por ´ultimo, y por honrar
`el hecho de que siempre es el que llega m´as tarde a todos los sitios, quiero darle las gracias a
`Luque porque, parafrase´andolo, es la persona con la que comparto m´as nodos.
`
`Finalmente, me queda agradecer a aquellos que han tenido una implicaci´on m´as profesional
`(aunque no exenta de lo personal) en que esta tesis se haya realizado. En primer lugar a mi
`director de tesis Javier, agradecerle que haya sabido llevarme a buen puerto a pesar de lo
`complicado que a veces puedo llegar a ser. A los numerosos compa˜neros que han pasado por el
`despacho por haberme ayudado cuando lo he necesitado, y muy especialmente a Jaume, Pere,
`Pablo, Jordi y Andrey. Tambi´en agradecer a Joachim que se haya ofrecido a revisar la tesis. Por
`´ultimo, a las tres personas, al margen de mi director de tesis, con las que m´as estrechamente he
`colaborado: a Climent, que siempre ha estado dispuesto a ayudarme, a Duˇsan, un modelo en el
`que fijarme, y por supuesto a Carlos, que ha tenido una contribuci´on fundamental en esta tesis.
`
`Alberto Abad Gareta
`
`Febrero 2007
`
`vii
`
`Page 13 of 188
`
`SONOS EXHIBIT 1050
`
`
`
`Page 14 of 188
`
`SONOS EXHIBIT 1050
`
`Page 14 of 188
`
`SONOS EXHIBIT 1050
`
`
`
`Contents
`
`1 Introduction
`
`1.1 Thesis Context . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
`
`1.2 Objectives Statement . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
`
`1.3 Dissertation Outline . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
`
`2 Multi-microphone Processing
`
`2.1 Problem statement: Far-field environment . . . . . . . . . . . . . . . . . . . . . .
`
`2.1.1 Acoustic noise
`
`. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
`
`2.1.2 Reverberation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
`
`2.2 Fundamentals of array signal processing . . . . . . . . . . . . . . . . . . . . . . .
`
`2.2.1 Basic concepts
`
`. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
`
`2.2.2 Applications: Beamforming and DOA estimation . . . . . . . . . . . . . .
`
`2.2.3
`
`Some microphone array particularities . . . . . . . . . . . . . . . . . . . .
`
`2.3 Alternative multi-microphone approaches
`
`. . . . . . . . . . . . . . . . . . . . . .
`
`2.3.1 Blind source separation . . . . . . . . . . . . . . . . . . . . . . . . . . . .
`
`2.3.2 Multi-channel dereverberation techniques
`
`. . . . . . . . . . . . . . . . . .
`
`2.3.3 Binaural processing . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
`
`3 Speech Enhancement and Recognition with Microphone Arrays
`
`3.1 Microphone array processing for speech enhancement . . . . . . . . . . . . . . . .
`
`3.1.1 Fixed beamforming . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
`
`3.1.2 Adaptive beamforming . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
`
`3.1.3 Post-filtering techniques . . . . . . . . . . . . . . . . . . . . . . . . . . . .
`
`3.2 Overview of Automatic Speech Recognition . . . . . . . . . . . . . . . . . . . . .
`
`3.2.1 Front-End . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
`
`ix
`
`1
`
`1
`
`4
`
`5
`
`7
`
`8
`
`9
`
`10
`
`12
`
`13
`
`20
`
`26
`
`30
`
`30
`
`31
`
`32
`
`33
`
`34
`
`34
`
`38
`
`41
`
`43
`
`44
`
`Page 15 of 188
`
`SONOS EXHIBIT 1050
`
`
`
`x
`
`CONTENTS
`
`3.2.2 Back-End . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
`
`3.2.3 Approaches to speech recognition with microphone arrays . . . . . . . . .
`
`48
`
`54
`
`4 Contributions to Microphone Array Speech Enhancement and Recognition 57
`
`4.1
`
`Integrated Wiener-filtering and Adaptive Beamforming . . . . . . . . . . . . . . .
`
`4.1.1 Prior work . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
`
`4.1.2 The proposed Integrated Wiener-filtering with Adaptive beamformer . . .
`
`4.1.3 Experimental evaluation . . . . . . . . . . . . . . . . . . . . . . . . . . . .
`
`4.1.4 Conclusions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
`
`4.2 Development of an ASR system for a smart-room environment
`
`. . . . . . . . . .
`
`4.2.1 Data resources
`
`. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
`
`4.2.2 Baseline Automatic Speech Recognition system . . . . . . . . . . . . . . .
`
`4.2.3
`
`Speaker adaptation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
`
`4.2.4 Acoustic matched training and adaptation . . . . . . . . . . . . . . . . . .
`
`4.2.5
`
`Impact of beamforming on ASR . . . . . . . . . . . . . . . . . . . . . . .
`
`4.2.6 Conclusions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
`
`5 Audio Source Tracking and Head Orientation Estimation
`
`5.1 TDOA and DOA estimation approaches . . . . . . . . . . . . . . . . . . . . . . .
`
`5.1.1 Direction of Arrival estimation . . . . . . . . . . . . . . . . . . . . . . . .
`
`5.1.2 Time Difference of Arrival estimation . . . . . . . . . . . . . . . . . . . .
`
`58
`
`59
`
`60
`
`63
`
`71
`
`72
`
`74
`
`76
`
`78
`
`80
`
`83
`
`91
`
`93
`
`94
`
`95
`
`97
`
`5.2 Position estimation approaches . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100
`
`5.2.1 Direct approaches
`
`. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101
`
`5.2.2 Closed-form approximations . . . . . . . . . . . . . . . . . . . . . . . . . . 101
`
`5.2.3
`
`SRP-based approaches . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103
`
`5.3 Source Tracking approaches . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105
`
`5.4 Head orientation estimation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108
`
`6 Contributions to Speaker Tracking and Head Pose Estimation
`
`111
`
`6.1 Study of head orientation influence in a smart-room environment . . . . . . . . . 112
`
`6.1.1 Talker directivity and reverberation: The effect of orientation . . . . . . . 112
`
`6.1.2 Effect of head orientation on the speaker localization performance
`
`. . . . 114
`
`6.1.3 Conclusions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119
`
`Page 16 of 188
`
`SONOS EXHIBIT 1050
`
`
`
`CONTENTS
`
`xi
`
`6.2 Person tracking system for smart-room environments . . . . . . . . . . . . . . . . 119
`
`6.2.1 Audio person tracking system baseline . . . . . . . . . . . . . . . . . . . . 119
`
`6.2.2 Adaptive smoothing factor for Cross-Power Spectrum (CPS) estimations . 121
`
`6.2.3 The two-pass search algorithm . . . . . . . . . . . . . . . . . . . . . . . . 124
`
`6.2.4 Comparative evaluation . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127
`
`6.2.5 The CLEAR 2006 evaluation campaign . . . . . . . . . . . . . . . . . . . 130
`
`6.2.6 Conclusions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134
`
`6.3 Head Orientation estimation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134
`
`6.3.1 The SRP-PHAT based head orientation estimator
`
`. . . . . . . . . . . . . 135
`
`6.3.2 The HLBR head orientation estimator . . . . . . . . . . . . . . . . . . . . 138
`
`6.3.3 Experimental evaluation . . . . . . . . . . . . . . . . . . . . . . . . . . . . 140
`
`6.3.4 Conclusions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142
`
`7 Conclusions and future work
`
`143
`
`7.1 Summary and conclusions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 143
`
`7.2 Directions for future work . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 148
`
`Bibliography
`
`151
`
`Page 17 of 188
`
`SONOS EXHIBIT 1050
`
`
`
`Page 18 of 188
`
`SONOS EXHIBIT 1050
`
`Page 18 of 188
`
`SONOS EXHIBIT 1050
`
`
`
`List of Figures
`
`2.1 On the left, speech utterance captured by a close-talking microphone. On the right,
`the same speech u