throbber
DECLARATION OF ALBERTO ABAD GARETA
`
`I, Alberto Abad Gareta, declare the following to be true and correct to the best of my knowledge, information, and belief:
`
`1.
`
`2.
`
`3.
`
`I am an Assistant Professor at the Department of Computer Science and Engineering of Instituto Superior
`Técnico (IST) in Lisbon, Portugal, and Researcher at INESC-ID Lisboa, Portugal.
`
`I am not being compensated for this declaration.
`
`I received a Ph.D. degree from the Universitat Politècnica De Catalunya (UPC) in Barcelona, Spain in 2007.
`
`4. My Ph.D. Thesis was titled “A Multi-Microphone Approach to Speech Processing in a Smart-Room
`Environment.” A copy of my Thesis is attached hereto as Appendix A, which is found in the Tesis Doctorals
`en Xarxa (TDX) repository via the following URL: https://www.tdx.cat/handle/10803/6906#page=1.
`
`5.
`
`6.
`
`I began preparing my Thesis in 2006 and exchanged drafts of my Thesis with my advisor, Francisco Javier
`Hernando Pericás, until I was content with the state of my Thesis.
`
`Thereafter, I submitted my Thesis to two external reviewers that provided me with additional feedback.
`
`7. Based on this feedback, I then finalized my Thesis, as reflected in the copy attached hereto as Appendix A. I
`recall that there were only minor differences between the draft I submitted to the external reviewers and the
`final draft of my Thesis.
`
`8. As was the normal process for Ph.D. Thesis papers at UPC, my Thesis was then deposited with the Doctoral
`School of the UPC so that others could access, review, and comment on my Thesis.
`
`9. After my Thesis was deposited, I defended my Thesis on June 29, 2007, which was open to the public.
`
`10. Shortly after I defended my Thesis, I submitted a copy of my Thesis to TDX’s open-access institutional
`repository, where it was made available online for others to download.
`
`11. Based on my recollection and knowledge of the thesis process at UPC, it is my belief that my Thesis was
`made generally available to the public no later than the end of the 2007 year.
`
`Therefore, I declare that the foregoing is true and correct and that any statements made herein on information and belief
`are believed to be true and correct.
`
`Executed on January 18, 2022
`
`___________________________
`Alberto Abad Gareta
`
`INESC-ID - Instituto de Engenharia de Sistemas e Computadores, Investigação e Desenvolvimento em Lisboa
`Rua Alves Redol, 9 – 1000-029 Lisboa – Portugal Tel.: +351 213100300
`Email: info@inesc-id.pt www. inesc-id.pt
`
`Page 1 of 188
`
`SONOS EXHIBIT 1050
`
`

`

`
`
`
`
`
`
`
`Appendix A
`Appendix A
`
`
`
`Page 2 of 188
`
`SONOS EXHIBIT 1050
`
`Page 2 of 188
`
`SONOS EXHIBIT 1050
`
`

`

`PhD Thesis
`
`A multi-microphone approach to speech
`
`processing in a smart-room environment
`
`Author: Alberto Abad Gareta
`
`Advisor: Dr. Fco. Javier Hernando Peric´as
`
`Speech Processing Group
`Department of Signal Theory and Communications
`Universitat Polit`ecnica de Catalunya
`
`Barcelona, February 2007
`
`Page 3 of 188
`
`SONOS EXHIBIT 1050
`
`

`

`Page 4 of 188
`
`SONOS EXHIBIT 1050
`
`Page 4 of 188
`
`SONOS EXHIBIT 1050
`
`

`

`A mis padres y hermana,
`
`Page 5 of 188
`
`SONOS EXHIBIT 1050
`
`

`

`Page6 of 188
`
`SONOS EXHIBIT 1050
`
`Page 6 of 188
`
`SONOS EXHIBIT 1050
`
`

`

`Abstract
`
`Recent advances in computer technology and speech and language processing have made possi-
`ble that some new ways of person-machine communication and computer assistance to human
`activities start to appear feasible. Concretely, the interest on the development of new challenging
`applications in indoor environments equipped with multiple multimodal sensors, also known as
`smart-rooms, has considerably grown.
`
`In general, it is well-known that the quality of speech signals captured by microphones that
`can be located several meters away from the speakers is severely distorted by acoustic noise
`and room reverberation. In the context of the development of hands-free speech applications in
`smart-room environments, the use of obtrusive sensors like close-talking microphones is usually
`not allowed, and consequently, speech technologies must operate on the basis of distant-talking
`recordings. In such conditions, speech technologies that usually perform reasonably well in free
`of noise and reverberation environments show a dramatically drop of performance.
`
`In this thesis, the use of a multi-microphone approach to solve the problems introduced
`by far-field microphones in speech applications deployed in smart-rooms is investigated. Con-
`cretely, microphone array processing is investigated as a possible way to take advantage of the
`multi-microphone availability in order to obtain enhanced speech signals. Microphone array
`beamforming permits targeting concrete desired spatial directions while others are rejected, by
`means of the appropriate combination of the signals impinging a microphone array.
`
`A new robust beamforming scheme that integrates an adaptive beamformer and a Wiener
`post-filter in a single stage is proposed for speech enhancement. Experimental results show that
`the proposed beamformer is an appropriate solution for high noise environments and that it is
`preferable to conventional post-filtering of the output of an adaptive beamformer. However, the
`beamformer introduces some distortion to the speech signal that can affect its usefulness for
`speech recognition applications, particularly in low noise conditions.
`
`Then, the use of microphone arrays for specific speech recognition purposes in smart-room
`environments is investigated. It is shown that conventional microphone array based speech recog-
`nition, consisting on two independent stages, does not provide a significant improvement with
`respect to single microphone approaches, especially if the recognizer is adapted to the actual
`acoustic environmental conditions. In the thesis, it is pointed out that speech recognition needs to
`incorporate information about microphone array beamformers, or otherwise, beamformers need
`to incorporate speech recognition information. Concretely, it is proposed to use microphone array
`beamformed data for acoustic model construction in order to take more benefit from microphone
`arrays. The result obtained with the proposed adaptation scheme with beamformed enrollment
`data shows a remarkable improvement in a speaker dependent recognition system, while only a
`limited enhancement is achieved in a speaker independent recognition system, partially due to
`
`i
`
`Page 7 of 188
`
`SONOS EXHIBIT 1050
`
`

`

`ii
`
`the use of simulated microphone array data.
`
`On the other hand, a common limitation of microphone array processing is that a reliable
`speaker position estimation is needed to correctly steer the beamformer towards the position
`of interest. Additionally, knowledge about the location of the audio sources present in a room
`is information that can be exploited by other smart-room services, such as automatic video
`steering in conference applications. Fortunately, audio source tracking can be solved on the
`basis of multiple microphone captures by means of several different approaches.
`
`In the thesis, a robust speaker tracking system is developed based on successful state of the
`art SRP-PHAT algorithm, which computes the likelihood of each potential source position on the
`basis of the generalized cross-correlation estimations between pairs of microphones. The proposed
`system mainly incorporates two novelties: firstly, cross-correlations are adaptively computed
`based on the estimated velocities of the sources. The adaptive computation permits minimizing
`the influence of the varying dynamics of the speakers present in a room on the overall localization
`performance. Secondly, an accelerated method for the computation of the source position based
`on coarse-to-fine search strategies in both spatial and frequency dimensionalities is proposed. It is
`shown that the relation between spatial resolution and cross-correlation bandwidth is a matter of
`major importance in this kind of fast search strategies. Experimental assessment shows that the
`two novelties introduced permit achieving a reasonably good tracking performance in relatively
`controlled environments with few non-overlapping speakers. Additionally, the remarkable results
`obtained by the proposed audio tracker in an international evaluation confirm the convenience
`of the algorithm developed.
`
`Finally, in the context of the development of novel technologies that can provide additional
`cues of information to the potential services deployed in smart-room environments, acoustic
`head orientation estimation based on multiple microphones is also investigated in the thesis.
`Two completely different approaches are proposed and compared: on the one hand, sophisticated
`methods based on the joint estimation of speaker position and orientation are shown to provide
`a superior performance in exchange of large computational requirements. On the other hand,
`simple and computationally cheap approaches based on speech radiation considerations are
`suitable in some cases, such as when computational complexity is limited or when the source
`position is known beforehand. In both cases, the results obtained are encouraging for future
`research on the development of new algorithms addressed to the head orientation estimation
`problem.
`
`Page 8 of 188
`
`SONOS EXHIBIT 1050
`
`

`

`Resumen
`
`Los avances recientes en tecnolog´ıa inform´atica y procesado del habla y del lenguaje, entre
`otros, han hecho posible que nuevos modos de comunicaci´on entre las personas y las m´aquinas
`empiecen a parecer factibles. Concretamente, el inter´es en el desarrollo de nuevas aplicaciones
`en entornos cerrados equipados con m´ultiples sensores multimodales, tambi´en conocidos como
`salas inteligentes, ha aumentado considerablemente en los ´ultimos tiempos.
`
`En general, es bien sabido que la calidad de las se˜nales de habla capturadas por micr´ofonos
`que pueden encontrarse a varios metros de distancia de los locutores se ve severamente degradada
`por el ruido ac´ustico y por la reverberaci´on de la sala. En el contexto del desarrollo de aplicaciones
`del habla en entornos de salas inteligentes, el uso de sensores que no sean molestos es un requisito
`habitual. Es decir, normalmente no est´a permitido o no es posible usar micr´ofonos cercanos o
`de solapa, y por lo tanto, las tecnolog´ıas del habla desarrolladas tienen que basarse en las
`se˜nales capturadas por micr´ofonos lejanos. En estas situaciones, las tecnolog´ıas del habla que
`habitualmente funcionan razonablemente bien en entornos libres de ruido y reverberaci´on sufren
`un descenso dr´astico en sus prestaciones.
`
`En esta tesis se investigan m´etodos multi-micr´ofono para solventar los problemas que provoca
`el uso de micr´ofonos lejanos en las aplicaciones del habla que habitualmente se desarrollan en
`salas inteligentes. Concretamente, se estudia el procesado de arrays de micr´ofonos como un
`m´etodo posible de aprovechar la disponibilidad de m´ultiples micr´ofonos para obtener se˜nales de
`voz mejoradas. Mediante la correcta combinaci´on de las se˜nales que inciden en una agrupaci´on
`de micr´ofonos, el procesado de arrays permite apuntar direcciones espaciales concretas a la vez
`que otras se rechazan.
`
`Para la mejora del habla con arrays de micr´ofonos, en la tesis se propone el uso de un nuevo
`esquema robusto de conformaci´on que integra en una s´ola etapa un conformador adaptativo y
`una etapa de post-filtrado de Wiener. Los resultados obtenidos muestran que el conformador
`propuesto es una soluci´on adecuada para entornos muy ruidosos y que, en general, es preferible
`al uso convencional de etapas de post-filtrado a la salida de un conformador adaptativo. Sin
`embargo, el conformador muestra cierta degradaci´on de la se˜nal de voz que puede afectar a
`su utilidad para aplicaciones de reconocimiento del habla, especialmente cuando el ruido no es
`demasiado importante.
`
`A continuaci´on se investiga el uso espec´ıfico de arrays de micr´ofonos para el reconocimiento
`del habla en entornos de salas inteligentes. Se demuestra que el uso convencional de arrays de
`micr´ofonos para reconocimiento del habla, que consiste en su aplicaci´on en dos etapas indepen-
`dientes, no aporta una mejora significativa respecto al uso de t´ecnicas mono-canal, especial-
`mente, si el reconocedor est´a adaptado a las condiciones reales del entorno ac´ustico. En la tesis
`se hace ´enfasis en la necesidad de que el reconocimiento del habla incorpore informaci´on de la
`
`iii
`
`Page 9 of 188
`
`SONOS EXHIBIT 1050
`
`

`

`iv
`
`conformaci´on con arrays de micr´ofonos, o alternativamente, que los conformadores incorporen
`informaci´on del reconocimiento del habla. M´as concretamente, se propone el uso de datos cap-
`turados por un array de micr´ofonos y luego procesados por un conformador para la construcci´on
`de los modelos ac´usticos, para de esta manera, obtener un mayor beneficio de los arrays. La apli-
`caci´on del esquema propuesto de adaptaci´on con datos conformados de un array de micr´ofonos
`permite obtener una mejora considerable en un sistema de reconocimiento dependiente de locu-
`tor, mientras que en el caso de un sistema independiente de locutor s´olo se obtiene una mejora
`muy limitada, debido en parte al uso de datos de array simulados.
`
`Por otro lado, una limitaci´on habitual del procesado de arrays de micr´ofonos es que se necesita
`una estimaci´on veros´ımil de la posici´on del locutor para poder apuntar correctamente hacia la
`posici´on de inter´es. Adem´as, el conocimiento de la posici´on de las fuentes ac´usticas que puedan
`estar presentes en una sala es una informaci´on que puede ser aprovechada por otros servicios
`que se desarrollan en las salas inteligentes, como por ejemplo para apuntar autom´aticamente
`una c´amara en v´ıdeo-conferencias. Afortunadamente, existen numerosos m´etodos que permiten
`resolver el problema del seguimiento de fuentes ac´usticas bas´andose en las se˜nales capturadas
`por m´ultiples micr´ofonos.
`
`Concretamente, en la tesis se desarrolla un sistema robusto de localizaci´on de locutor basado
`en uno de los algoritmos actuales de mayor ´exito consistente en el c´omputo de la verosimilitud
`de cada posible posici´on bas´andose en las estimaciones de las correlaciones cruzadas general-
`izadas entre pares de micr´ofonos. El sistema propuesto incorpora principalmente dos novedades.
`Primero, las correlaciones cruzadas se calculan de forma adaptativa bas´andose en las velocidades
`estimadas de las fuentes. Este c´alculo adaptativo se hace de manera que se minimice el efecto
`de las diferentes din´amicas de las fuentes presentes en la sala en el resultado de la localizaci´on.
`Segundo, se propone el uso de un m´etodo acelerado para el c´alculo de la posici´on basado en es-
`trategias de b´usqueda de menor a mayor resoluci´on tanto en el dominio espacial como frecuencial.
`De hecho, se muestra que la relaci´on entre resoluci´on espacial y el ancho de banda considerado
`en el c´alculo de las correlaciones cruzadas es un aspecto fundamental a tener en cuenta en la
`aplicaci´on adecuada de este tipo de estrategias r´apidas. Las dos novedades comentadas permiten
`que el sistema propuesto alcance unos resultados razonablemente buenos cuando se eval´ua en
`escenarios relativamente controlados y con pocos locutores que no se solapan. Adem´as, la con-
`veniencia del sistema de localizaci´on ac´ustica propuesto queda de manifiesto si se atiende a los
`destacados resultados que se obtuvieron en una evaluaci´on internacional.
`
`Finalmente, en la tesis tambi´en se estudia el problema de la estimaci´on de la orientaci´on del
`locutor en base a las se˜nales capturadas por m´ultiples micr´ofonos en el contexto del desarrollo
`de nuevas tecnolog´ıas que puedan aportar informaci´on adicional para los sistemas que potencial-
`mente pueden actuar en salas inteligentes. En concreto, se proponen y comparan dos m´etodos
`completamente diferentes. Por un lado, m´etodos sofisticados basados en la estimaci´on conjunta
`de la posici´on y de la orientaci´on que permiten obtener estimaciones aceptables a cambio de un
`elevado coste computacional. Por otro lado, los m´etodos m´as simples que se basan en considera-
`ciones sobre el diagrama de radiaci´on del habla aunque no son capaces de igualar las prestaciones
`de los m´etodos sofisticados, tambi´en pueden resultar adecuados en algunos casos, como cuando
`se sabe la posici´on de antemano o cuando la complejidad computacional est´a limitada. En ambos
`casos, los resultados obtenidos permiten ser optimistas de cara al futuro desarrollo de nuevos
`algoritmos dedicados a la estimaci´on de la orientaci´on del locutor.
`
`Page 10 of 188
`
`SONOS EXHIBIT 1050
`
`

`

`Resum
`
`Els aven¸cos recents en tecnologia inform`atica i processament de la parla i del llenguatge, entre
`altres, han fet possible que noves maneres de comunicaci´o entre les persones i les m`aquines
`comencin a semblar factibles. Concretament, l’inter`es en el desenvolupament de noves aplicacions
`en entorns tancats equipats amb m´ultiples sensors multimodals, tamb´e coneguts com sales in-
`tel.ligents, ha augmentat considerablement darrerament.
`
`En general, ´es ben conegut que la qualitat de les senyals de la parla capturades per micr`ofons
`que poden trobar-se a diversos metros de dist`ancia dels locutors es veu severament degradada pel
`soroll ac´ustic i per la reverberaci´o de la sala. En el context del desenvolupament d’aplicacions de
`la parla en entorns de sales intel.ligents, l’´us de sensors que no siguin molestos ´es un requeriment
`habitual. ´Es a dir, no est`a normalment perm`es o no ´es possible fer servir micr`ofons propers o
`de solapa, i per tant, les tecnologies de la parla desenvolupades han de basar-se en les senyals
`capturades per micr`ofons llunyans. En aquestes situacions, les tecnologies de la parla que ha-
`bitualment funcionen raonablement b´e en entorns lliures de soroll i reverberaci´o pateixen una
`davallada dr`astica en les seves prestacions.
`
`En aquesta tesis s’investiguen m`etodes multi-micr`ofon per a solucionar els problemes que
`provoca l’´us de micr`ofons llunyans en les aplicacions de la parla que habitualment es desenvolu-
`pen en sales intel.ligents. Concretament, s’estudia el processament d’arrays de micr`ofons com a
`un m`etode possible d’aprofitar la disponibilitat de m´ultiples micr`ofons per a obtenir senyals de
`veu millorades. Mitjan¸cant la correcta combinaci´o de les senyals que incideixen en una agrupaci´o
`de micr`ofons, el processament d’arrays permet apuntar direccions espacials concretes a l’hora
`que altres es rebutgen.
`
`Per a la millora de la parla amb arrays de micr`ofons, en la tesis es proposa l’´us d’un nou
`esquema robust de conformaci´o que integra en nom´es etapa un conformador adaptatiu i una
`etapa de post-filtrat de Wiener. Els resultats obtinguts mostren que el conformador proposat
`´es una soluci´o adequada per a entorns molt sorollosos i que, en general, ´es preferible a l’´us
`convencional d’etapes de post-filtrat a la sortida d’un conformador adaptatiu. No obstant aix`o,
`el conformador mostra una certa degradaci´o de la senyal de veu que pot afectar a la seva utilitat
`per a aplicacions de reconeixement de la parla, especialment quan el soroll no ´es massa important.
`
`A continuaci´o s’investiga l’´us espec´ıfic d’arrays de micr`ofons per al reconeixement de la parla
`en entorns de sales intel.ligents. Es demostra que l’´us convencional d’arrays de micr`ofons per
`al reconeixement de la parla, que consisteix en la seva aplicaci´o en dues etapes independents,
`no aporta una millora significativa respecte de l’´us de t`ecniques mono-canal, especialment, si el
`reconeixedor est`a adaptat a les condicions reals de l’entorn ac´ustic. En la tesis es fa `emfasis en la
`necessitat de que el reconeixement de la parla incorpori informaci´o de la conformaci´o amb arrays
`de micr`ofons, o alternativament, que els conformadors incorporin informaci´o del reconeixement
`
`v
`
`Page 11 of 188
`
`SONOS EXHIBIT 1050
`
`

`

`vi
`
`de la parla. M´es concretament, es proposa utilitzar les dades primer capturades per un array de
`micr`ofons i despr´es processades per un conformador per a la construcci´o dels models ac´ustics,
`per a d’aquesta manera, obtenir un major benefici dels arrays de micr`ofons. La aplicaci´o del
`esquema proposat d’adaptaci´o amb dades conformades d’un array, permet obtenir una millora
`considerable en un sistema de reconeixement depenent de locutor, mentre que en el cas d’un
`sistema independent de locutor nom´es s’obt´e una millora molt limitada, degut en part a l’´us de
`dades d’array simulades.
`
`Per altra banda, una limitaci´o habitual del processament d’arrays de micr`ofons ´es que es
`necessita una estimaci´o versemblant de la posici´o del locutor per a poder apuntar correctament
`cap a la posici´o d’inter`es. A m´es, el coneixement de la posici´o de les fonts ac´ustiques que poden
`estar presents en una sala ´es una informaci´o que pot ser aprofitada per altres serveis que es
`desenvolupen en les sales intel.ligents, com per exemple per a apuntar autom`aticament una
`c`amara en v´ıdeo-conferencies. Afortunadament, existeixen nombrosos m`etodes que permeten
`sol.lucionar el problema del seguiment de fonts ac´ustiques basant-se en les senyals capturades
`per m´ultiples micr`ofons.
`
`Concretament, a la tesis es desenvolupa un sistema robust de localitzaci´o de locutor basat
`en un dels algorismes actuals de major `exit que consisteix en computar la versemblan¸ca de cada
`possible posici´o basant-se en les estimacions de les correlaciones creuades generalitzades entre
`parelles de micr`ofons. El sistema proposat incorpora principalment dues novetats. Primer, les
`correlacions creuades es calculen de forma adaptativa basant-se en las velocitats estimades de
`les fonts. Aquest c`alcul adaptatiu es realitza de manera que es minimitzi l’efecte de les diferents
`din`amiques de les fonts presents en la sala en el resultat de la localitzaci´o. Segon, es proposa
`l’´us d’un m`etode accelerat per al c`alcul de la posici´o basat en estrat`egies de cerca de menor a
`major resoluci´o tant en el domini espacial com en el freq¨uencial. De fet, es mostra que la relaci´o
`entre resoluci´o espacial i l’ample de banda considerat en el c`alcul de les correlacions creuades
`´es un aspecte fonamental a tenir en compte en l’aplicaci´o adequada d’aquest tipus d’estrat`egies
`r`apides. Les dues novetats comentades permeten que el sistema proposat assoleixi uns resultats
`raonablement bons quan s’eval´ua en escenaris relativament controlats i amb pocs locutors que
`no se solapin. A m´es, la conveni`encia del sistema de localitzaci´o ac´ustica proposat queda de
`manifest si s’atenen els destacats resultats que es van obtenir en una evaluaci´o internacional.
`
`Finalment, a la tesis tamb´e s’estudia el problema de l’estimaci´o de l’orientaci´o del locutor en
`base a las senyals rebudes per m´ultiples micr`ofons, en el context del desenvolupament de noves
`tecnologies que poden aportar informaci´o addicional per als sistemes que potencialment poden
`actuar en sales intel.ligents. En concret, es proposen i comparen dos m`etodes completament
`diferents. Por una banda, m`etodes sofisticats basats en l’estimaci´o conjunta de la posici´o i de
`l’orientaci´o permeten assolir estimacions acceptables a canvi d’un elevat cost computacional. Per
`altra banda, els m`etodes m´es simples que es basen en consideracions sobre el diagrama de radiaci´o
`de la parla encara que no s´on capa¸cos d’assolir les prestacions dels m`etodes sofisticats, tamb´e
`poden resultar adequats en alguns casos, como ara quan es coneix la posici´o amb antelaci´o, o b´e
`quan la despesa computacional est`a limitada. En tots dos casos, els resultats obtinguts permeten
`ser optimistes de cara al futur desenvolupament de nous algorismes adre¸cats a l’estimaci´o de
`l’orientaci´o del locutor.
`
`Page 12 of 188
`
`SONOS EXHIBIT 1050
`
`

`

`Agradecimientos
`
`Buscando inspiraci´on para superar de una manera acertada este delicado apartado y que no
`deje descontento a nadie, he acabado por leer lo que escrib´ı en mi proyecto final de carrera.
`Resulta que todos los que aparecen en aquellos agradecimientos, siguen estando a mi lado, lo
`cual refuerza a´un m´as si cabe, el hecho de que me sienta afortunado y orgulloso por la familia
`y amigos que tengo. A todos, incluido los que no cito a continuaci´on, les estoy agradecido por
`dejarme formar parte de sus vidas.
`
`En particular, mi insignificante forma de agradecer todo el amor, cari˜no y apoyo recibido de
`mis padres y hermana, es dedic´andoles esta tesis. Fer, Pili y Marta: gracias por todo, os quiero
`mucho.
`
`Me gustar´ıa recordar tambi´en a los amigos que han estado m´as cerca de mi en estos cuatro
`´ultimos a˜nos y agradecer los buenos momentos compartidos que sin duda me han ayudado
`a seguir adelante. En especial, a mis compa˜neros de piso Sim´on, Aysel y Judith, gracias por
`aguantarme todos los d´ıas. A ´Angel, Javi, Mingo y dem´as “pe˜na micros” por esos grandes
`momentos delante de la consola (y delante de las barras). A Daniel, Rub´en, David, Jaime y
`Marcos por los ratos pasados en la cochera del Pini. A Adri`a, Maribel, Mariella y muchos m´as
`sufridores colegas de doctorado, que con su amistad han contribuido a hacer de la tesis una
`carga un poco menos pesada. A la gente de antes y de ahora de Telecogresca y Taller de S´o,
`que siempre han sido un soplo de aire fresco important´ısimo para mi. Por ´ultimo, y por honrar
`el hecho de que siempre es el que llega m´as tarde a todos los sitios, quiero darle las gracias a
`Luque porque, parafrase´andolo, es la persona con la que comparto m´as nodos.
`
`Finalmente, me queda agradecer a aquellos que han tenido una implicaci´on m´as profesional
`(aunque no exenta de lo personal) en que esta tesis se haya realizado. En primer lugar a mi
`director de tesis Javier, agradecerle que haya sabido llevarme a buen puerto a pesar de lo
`complicado que a veces puedo llegar a ser. A los numerosos compa˜neros que han pasado por el
`despacho por haberme ayudado cuando lo he necesitado, y muy especialmente a Jaume, Pere,
`Pablo, Jordi y Andrey. Tambi´en agradecer a Joachim que se haya ofrecido a revisar la tesis. Por
`´ultimo, a las tres personas, al margen de mi director de tesis, con las que m´as estrechamente he
`colaborado: a Climent, que siempre ha estado dispuesto a ayudarme, a Duˇsan, un modelo en el
`que fijarme, y por supuesto a Carlos, que ha tenido una contribuci´on fundamental en esta tesis.
`
`Alberto Abad Gareta
`
`Febrero 2007
`
`vii
`
`Page 13 of 188
`
`SONOS EXHIBIT 1050
`
`

`

`Page 14 of 188
`
`SONOS EXHIBIT 1050
`
`Page 14 of 188
`
`SONOS EXHIBIT 1050
`
`

`

`Contents
`
`1 Introduction
`
`1.1 Thesis Context . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
`
`1.2 Objectives Statement . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
`
`1.3 Dissertation Outline . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
`
`2 Multi-microphone Processing
`
`2.1 Problem statement: Far-field environment . . . . . . . . . . . . . . . . . . . . . .
`
`2.1.1 Acoustic noise
`
`. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
`
`2.1.2 Reverberation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
`
`2.2 Fundamentals of array signal processing . . . . . . . . . . . . . . . . . . . . . . .
`
`2.2.1 Basic concepts
`
`. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
`
`2.2.2 Applications: Beamforming and DOA estimation . . . . . . . . . . . . . .
`
`2.2.3
`
`Some microphone array particularities . . . . . . . . . . . . . . . . . . . .
`
`2.3 Alternative multi-microphone approaches
`
`. . . . . . . . . . . . . . . . . . . . . .
`
`2.3.1 Blind source separation . . . . . . . . . . . . . . . . . . . . . . . . . . . .
`
`2.3.2 Multi-channel dereverberation techniques
`
`. . . . . . . . . . . . . . . . . .
`
`2.3.3 Binaural processing . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
`
`3 Speech Enhancement and Recognition with Microphone Arrays
`
`3.1 Microphone array processing for speech enhancement . . . . . . . . . . . . . . . .
`
`3.1.1 Fixed beamforming . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
`
`3.1.2 Adaptive beamforming . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
`
`3.1.3 Post-filtering techniques . . . . . . . . . . . . . . . . . . . . . . . . . . . .
`
`3.2 Overview of Automatic Speech Recognition . . . . . . . . . . . . . . . . . . . . .
`
`3.2.1 Front-End . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
`
`ix
`
`1
`
`1
`
`4
`
`5
`
`7
`
`8
`
`9
`
`10
`
`12
`
`13
`
`20
`
`26
`
`30
`
`30
`
`31
`
`32
`
`33
`
`34
`
`34
`
`38
`
`41
`
`43
`
`44
`
`Page 15 of 188
`
`SONOS EXHIBIT 1050
`
`

`

`x
`
`CONTENTS
`
`3.2.2 Back-End . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
`
`3.2.3 Approaches to speech recognition with microphone arrays . . . . . . . . .
`
`48
`
`54
`
`4 Contributions to Microphone Array Speech Enhancement and Recognition 57
`
`4.1
`
`Integrated Wiener-filtering and Adaptive Beamforming . . . . . . . . . . . . . . .
`
`4.1.1 Prior work . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
`
`4.1.2 The proposed Integrated Wiener-filtering with Adaptive beamformer . . .
`
`4.1.3 Experimental evaluation . . . . . . . . . . . . . . . . . . . . . . . . . . . .
`
`4.1.4 Conclusions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
`
`4.2 Development of an ASR system for a smart-room environment
`
`. . . . . . . . . .
`
`4.2.1 Data resources
`
`. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
`
`4.2.2 Baseline Automatic Speech Recognition system . . . . . . . . . . . . . . .
`
`4.2.3
`
`Speaker adaptation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
`
`4.2.4 Acoustic matched training and adaptation . . . . . . . . . . . . . . . . . .
`
`4.2.5
`
`Impact of beamforming on ASR . . . . . . . . . . . . . . . . . . . . . . .
`
`4.2.6 Conclusions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
`
`5 Audio Source Tracking and Head Orientation Estimation
`
`5.1 TDOA and DOA estimation approaches . . . . . . . . . . . . . . . . . . . . . . .
`
`5.1.1 Direction of Arrival estimation . . . . . . . . . . . . . . . . . . . . . . . .
`
`5.1.2 Time Difference of Arrival estimation . . . . . . . . . . . . . . . . . . . .
`
`58
`
`59
`
`60
`
`63
`
`71
`
`72
`
`74
`
`76
`
`78
`
`80
`
`83
`
`91
`
`93
`
`94
`
`95
`
`97
`
`5.2 Position estimation approaches . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100
`
`5.2.1 Direct approaches
`
`. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101
`
`5.2.2 Closed-form approximations . . . . . . . . . . . . . . . . . . . . . . . . . . 101
`
`5.2.3
`
`SRP-based approaches . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103
`
`5.3 Source Tracking approaches . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105
`
`5.4 Head orientation estimation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108
`
`6 Contributions to Speaker Tracking and Head Pose Estimation
`
`111
`
`6.1 Study of head orientation influence in a smart-room environment . . . . . . . . . 112
`
`6.1.1 Talker directivity and reverberation: The effect of orientation . . . . . . . 112
`
`6.1.2 Effect of head orientation on the speaker localization performance
`
`. . . . 114
`
`6.1.3 Conclusions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119
`
`Page 16 of 188
`
`SONOS EXHIBIT 1050
`
`

`

`CONTENTS
`
`xi
`
`6.2 Person tracking system for smart-room environments . . . . . . . . . . . . . . . . 119
`
`6.2.1 Audio person tracking system baseline . . . . . . . . . . . . . . . . . . . . 119
`
`6.2.2 Adaptive smoothing factor for Cross-Power Spectrum (CPS) estimations . 121
`
`6.2.3 The two-pass search algorithm . . . . . . . . . . . . . . . . . . . . . . . . 124
`
`6.2.4 Comparative evaluation . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127
`
`6.2.5 The CLEAR 2006 evaluation campaign . . . . . . . . . . . . . . . . . . . 130
`
`6.2.6 Conclusions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134
`
`6.3 Head Orientation estimation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134
`
`6.3.1 The SRP-PHAT based head orientation estimator
`
`. . . . . . . . . . . . . 135
`
`6.3.2 The HLBR head orientation estimator . . . . . . . . . . . . . . . . . . . . 138
`
`6.3.3 Experimental evaluation . . . . . . . . . . . . . . . . . . . . . . . . . . . . 140
`
`6.3.4 Conclusions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142
`
`7 Conclusions and future work
`
`143
`
`7.1 Summary and conclusions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 143
`
`7.2 Directions for future work . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 148
`
`Bibliography
`
`151
`
`Page 17 of 188
`
`SONOS EXHIBIT 1050
`
`

`

`Page 18 of 188
`
`SONOS EXHIBIT 1050
`
`Page 18 of 188
`
`SONOS EXHIBIT 1050
`
`

`

`List of Figures
`
`2.1 On the left, speech utterance captured by a close-talking microphone. On the right,
`the same speech u

This document is available on Docket Alarm but you must sign up to view it.


Or .

Accessing this document will incur an additional charge of $.

After purchase, you can access this document again without charge.

Accept $ Charge
throbber

Still Working On It

This document is taking longer than usual to download. This can happen if we need to contact the court directly to obtain the document and their servers are running slowly.

Give it another minute or two to complete, and then try the refresh button.

throbber

A few More Minutes ... Still Working

It can take up to 5 minutes for us to download a document if the court servers are running slowly.

Thank you for your continued patience.

This document could not be displayed.

We could not find this document within its docket. Please go back to the docket page and check the link. If that does not work, go back to the docket and refresh it to pull the newest information.

Your account does not support viewing this document.

You need a Paid Account to view this document. Click here to change your account type.

Your account does not support viewing this document.

Set your membership status to view this document.

With a Docket Alarm membership, you'll get a whole lot more, including:

  • Up-to-date information for this case.
  • Email alerts whenever there is an update.
  • Full text search for other cases.
  • Get email alerts whenever a new case matches your search.

Become a Member

One Moment Please

The filing “” is large (MB) and is being downloaded.

Please refresh this page in a few minutes to see if the filing has been downloaded. The filing will also be emailed to you when the download completes.

Your document is on its way!

If you do not receive the document in five minutes, contact support at support@docketalarm.com.

Sealed Document

We are unable to display this document, it may be under a court ordered seal.

If you have proper credentials to access the file, you may proceed directly to the court's system using your government issued username and password.


Access Government Site

We are redirecting you
to a mobile optimized page.





Document Unreadable or Corrupt

Refresh this Document
Go to the Docket

We are unable to display this document.

Refresh this Document
Go to the Docket