`3ABO.L( lA HHTEJIEKTY AJIHY CBOJMHY
`lipoj: 23so101 n-ssl/06
`Eeorpa.L\, 21.03.07
`
`OliABEIIITElbE
`
`Y cnpoBe)leHOM nocTyITKY ¢opManHor IICIIIITl1B3fb3, yrnpfjCHO je ,,la npHjaBa, CXOllHO 01tpe1tfot
`1.IJ13H3 40. CT31l I. 3aKOH3 0 naTeHntMa ( 11CJ1yJK6eHl1 JlHCT CUf", 6p, 32/04 ), lfCTIYfh3B3 YCJ!OBC 33 o6jaey.
`
`Ol!jaBHTH y" rJJaCHHKY HHTeJ1eKryaJ1He CBOjHHe" 6poj
`CJle)lehe fiO)lUTKe O npHjaBH riaTCHTa:
`
`2-·~007
`1l O 4 JUN 2007
`
`(51) MKnC7l: H 04 B 3/20
`
`(ll) Epoj .!IOl<)'MeHTa: TT-551/06
`
`(21) Epoj np11jaee: TT-551/06
`
`(22) J(aTyM II0)1HOWefba: 04.10.06
`
`(13) A
`
`(61) lipoj ocHOBHe npujaae: IT-
`11.11-1 Il3TCHTa:
`
`(62) Epoj npso6ttme npttjaee: TI -
`
`(30) Tio,11aL1H
`o npasy npsettcrna:
`3eMJ&a: PC
`,QaryM: 04.10.2006
`
`Epoj: IT-551/06
`
`(23) J(aryM H3Jlara!ha Ha MefjyttapO/IHOj H3JlOlK6H:
`
`(54) Ha:me rrpoHa.nacKa:
`MHKpOcpOHCKOf Hll33
`
`(YU)
`
`
`
`CHCTCM H nocrynaK sa CJIOOO.!IHY roeopHy KOMYHHKau11jy IIOMohy
`
`
`
`(EN) System and technique for hands-free voice communication using microphone array
`
`np11jaee: MicronasNIT, <l>pyrnKoropcKa I la Hoa11 Ca.a
`(71) I10.11Hoc11naL1
`
`(72) ITpoHana:iaq-H J(P 3opaH Waptth,ByKacosHheea 65/7 HoeH lieorpan; J(p CJJ06o.11att Joewq11h
`8Hlllfb11qK11 eettall 67, lieorpa,u; )].p Brra,u11Mwp KoealfeBwh P3,11ttuqKa 35 A;)].p H11KOJ1a Tecrr11h Eyrr. Uapa
`Jla3apa 29; J(p J(paratt KyKOJb, Hapo11ttor cjlpottra 31; Hom1 Ca.n.
`
`OliAB-06
`
`Adresa: Ktterntt,e Jby6Huc 5, I IOOO Beograd, Telefon: 2-630-499, faks. 311-23-77
`
`Page 1 of 31
`
`SONOS EXHIBIT 1022
`
`
`
`(74) TTyHOMOnHHK:
`
`2
`
`n 0311 ea ce noJ1Hoc11nau npHjase Jia, yxonHKO je y MoryhHocrn, 3asoey JIOCTaBH TeKCT nareHTHe np1tjase,
`npeaon Ha eHr.leCKfl je3HK Ha3HR3 npoHa1acKa II ancrpaKTa y eneKTJ)OHCKOj q>OpMll, lJHMe he ce 3HaTHO y6p3aTH
`TeXHwIKe npnnpeMe 3a o6jaay npeJIMerne np11jaee naTeHrn.
`
`Ha 33XTCD flOllHOCllOUa npHjase, 3aBOA he H3BpWHTH CYWTHHCl<O
`l!CIJHTI!Ba!l,C yCJ1oea nare1-rm6HJJHOCTH,
`HaseneHH 3anes llOllHOCH ce HaKOH o6jaee npHjase naTeHTa y 'Tnacmn<y 1rn1eneKTYa1rne csojHne", a H aj Ka c Hu j e y
`pony oo 6 ,11ece11u oo oaHa o6jaee. Y c.11)"iajy nporryWTa!-ha Hanpen HaeeneHor poKa, noJIHOCHJJOll npajaee
`MO)l(e IJOJlHeTH JaXTCB 3a cyurrHHCKO HC!llllHBatt,e ycnoea nareHTHUHJIHOCTH y H8KHa/lHOM poKy 0)\ 30 )laHa OJI naHa
`nplljeMa 06asew-re11,a o rip01'CKY po1<a. 0 ll3H)' o6jaee npHjase ITaTeHTa, ITOllHOCHJ1au npHjaee lie 611m HaKHa.'U-IO
`o6aeewTeH, noce6101M JlO!lllCOM 3aeoaa.
`
`Y3 38XTCB, noAHOCHJJal.lje /IYlKaH JlOCTllBHTH /10Ka3 0 YlJ.llahettoj TaKCH y HJHOCY 0,!13600,00 llHtlapa. TaKca ce
`
`ynnahyje Ha lKIIPO pa'lyH 6poj 840-742221843-57, ca fl0311BOM Ha 6poj 97, llillq>pa ca KOHlpOJlHHM 6pojeM OIJIJJTl!He
`CCilHWTa ynnarnoua (BHJleTH IlpHJJor 3 I1paBl1JlHIIKa O ycJTOBIIMa ll H84HHy solje11,a patJ)lla Ja ymazy jaBHHX ITPHXOlla H
`pacnopen cpe11crnsa ca THX patJy11a, "CnylK6eH11 rnac1111K PC", 6p. 20/2007 on 20.02.2007 ro,!111He) , ca 11a:maKoM
`"TaKca 33 cywn!HCKO HCnHTHBa!-hc" Ii YJ Hasolje!-he 6poja np11jasc naTCHTa (npHMaJJ31.l: Peny6Jlll'IKC a,!IM!1HHClpaTHBHe
`TaKCe ). I1011HeTH 33XTeB ce He MOlKe noaylill.
`
`llooHOCILWlJ npujaee Koju Je ucmoepeMeHo u oo,wahu npoHaqCJ3a~. HaBeoeH_V maKcy nrnha y UJHOcy oo 10%.
`
`flUJlHOCHJlaU npHjase y H3BC!lCHOM pory He ITOJIHece 33XTeR Ja CYWTllHCKO HCIJHTIIBau.e yc1ooa
`AKO
`nare11m6HJIHOCTH npHjaoe Ja npH3Hau.e naTeura, npHjaoa Ja npH3Hau.e nareHTa he ce cMarparn ITOB}"leHOM, rnro lie ce
`YTBP/IHTH33KJb}"lKOM.
`
`06aeenneu,e aoCTaBHTH:
`
`- no.rtHOCHouy np11jaae, nyreM 3acryntt11Ka
`MicronasNIT <l>pywKoropcKa I IA
`HOBII Ca.11
`- Perncrpy, AOTT
`- Y cn11c
`
`Page 2 of 31
`
`SONOS EXHIBIT 1022
`
`
`
`APSTRAKT
`
`Pronalazak se odnosi na sistem i postupak za slobodnu govornu komunikaciju u
`
`video-telefonskim iii telekonferencijskim primenama zasnovan na mikrofonskom nizu
`
`ciji je cilj kvalitetno snimanje govornika u prostoriji u uslovima veceg rastojanja,
`
`prisutnih smetnji, akustickog eha od udaljenog govornika i TV programa, reverberacije
`
`prostorije i kretanja govornika u prostoriji. Sistem se sastoji od: digitalnog TV
`
`prijemnika i digitalne kamere za reprodukciju i snimanje slike, respektivno, stereo
`
`zvucnika i mikrofonskog niza za reprodukciju i snimanje zvuka, respektivno,
`
`pojacavackog i akvizicionog modula za audio signale i DSP za obradu akustickih
`
`signala. Postupak za obradu mikrofonskih signala se izvrsava u frekvencijskom domenu
`
`i sastoji se od: potiskivanja akustickog eha nastalog od signala udaljenog govomika i
`
`stereo signala TV programa, prostomog filtriranja bliskog govornika u odnosu na izvore
`
`smetnji i reverberaciju prostorije na bazi adaptivne karakteristike usmerenosti
`
`mikrofonskog niza, lociranja govomika u horizontalnoj ravni, potiskivanja svih
`
`rezidualnih smetnji i adaptivne kontrole pojacanja predajnog signala.
`
`3D1
`
`XJ
`
`302
`
`suc1
`
`AEC
`•
`• akusticki SA£CJ
`J>Oliskiv~
`cha
`
`.Xj
`
`I
`
`C$
`~ X6
`§
`.;.:
`r--
`
`x,
`
`y
`
`D,d
`
`} stereo TV signal •
`signal udaljenog govomika
`
`303
`
`•
`•
`•
`
`SD-BF
`superdirektivni
`usmerivaf
`
`SBF NR
`potiskiva~
`hlma
`
`o.
`
`304
`
`DOA
`azimut
`
`306
`
`JO?
`
`...
`SAGC I FF:I I § -
`
`ka
`udaljenom
`govomiku
`
`kontrola
`kamere
`
`Page 3 of 31
`
`SONOS EXHIBIT 1022
`
`
`
`SISTEM I POSTUP AK ZA SLOBODNU GOVORNU
`KOMUNIKACIJU POMOCU MIKROFONSKOG
`NIZA
`
`OBLAST TEHNIKE NA KOJU SE PRONALAZAK ODNOSI
`
`Pronalazak pripada oblasti abrade akustickog signala, iii konkretnije, metodama
`
`ponistavanja akustickog eha, prostomog selektovanja i lociranja govomika u
`
`reverberantnom akustickom ambijentu i potiskivanja suma primenom mikrofonskog
`
`mza.
`
`TEHNICKI PROBLEM
`
`Slobodni, "hands-free" (engl.), komunikacioni sistemi za prenos govomog
`
`signala u punom dupleksu koriste se u mnogim aplikacijama kao sto su: video(cid:173)
`
`telefonski sistemi, telekonferencij ski sistemi, spikerfoni u prostoriji iii kolima,
`
`komunikacija covek-racunar putem glasa, itd. "Hands-free" govoma komunikacija
`
`podrazumeva da se govomik nalazi u akustickom ambijentu na odredenoj distanci od
`
`interfejsnih elemenata sistema - mikrofona i zvucnika. Ovakvi uslovi odvijanja govome
`
`komunikacije generisu vise tehnickih problema koje je potrebno resiti da bi se odrzao
`
`kvalitet komunikacije na prihvatljivom nivou.
`
`Osnovni problem jeste akusticki eho koji nastaje prenosom dela akusticke
`
`energije iz zvucnika u mikrofon tako da sagovornik na udaljenom kraju cuje sopstveni
`
`glas kao smetnju. Konvencionalno, ponistavanje signala eha obavlja adaptivni filtar
`
`estimiranjem prenosne funkcije akustickog puta izmedu zvucnika i mikrofona, tako da
`
`se na njegovom izlazu dobija priblizno isti signal kao sto je signal akustickog eha.
`
`Oduzimanja ova dva signala se ponistava akusticki eho. Medutim, ponistavanje eha ne
`
`moze biti idealno zbog nelineamosti sistema i nestacionamosti akustickog ambijenta.
`
`Kao rezultat pojavljuje se rezidualni signal eha. Pri tome ostaje osnovni zahtev da
`
`snimljeni govomi signal na blizem kraju ne sme biti izoblicen primenom postupka
`
`potiskivanja eha.
`
`U akustickom ambijentu akusticke smetnje mogu biti razlicite prirode i uzroka.
`
`One mogu biti stacioname i nestacioname (na primer kao sto su sum racunara iii buka u
`
`Page 4 of 31
`
`SONOS EXHIBIT 1022
`
`
`
`2
`
`automobilu) i poticati od vise izvora lociranih na razlicitim pozicijama u prostoru gde se
`
`nalazi govornik. Pored toga u zatvorenim prostorima (radne sobe, sale, automobilska
`
`kabina) pojavljuje se efekat reverberacije, koji se manifestuje kao difuzna smetnja.
`
`Posto se govornik najcesce nalazi u ovakvom ambijentu onda se mora izvrsiti njegova
`
`separacija od ostalih izvora smetnji kako bi se omogucilo samo njegovo snimanje.
`
`Konvencionalno, ovaj problem se resava primenom mikrofonskog niza koji se sastoji od
`
`vise mikrofona poredanih na minimalnoj medusobnoj distanci. Odredena konfiguracija
`
`mikrofona omogucava dobijanje sistema sa usmerenom karakteristikom osetljivosti.
`
`Ovakav mikrofonski sistem ima dovoljno uzanu karakteristiku usmerenosti da u
`
`prostoru ambijenta moze snimiti samo odabranog govomika dok ostale izvore smetnji
`
`koji se nalaze na drugim pozicijama (lokacijama) moze potisnuti i time ostvariti dobitak
`
`u odnosu izabrani govomik - ostale smetnje. Velicina ovog dobitka zavisi od:
`
`karakteristike usmerenosti mikrofonskog niza (sirine osnovne petlje ), velicine bocnih
`
`petlji, separabilnosti govomika i izvora smetnji (da nisu suvise blizu), velicine
`
`reverberacije, nestacionamosti svih izvora signala, itd.
`
`Odredivanje pravca u prostoru na kome se nalazi izabrani govomik i
`
`usmeravanje karakteristike usmerenosti mikrofonskog niza ka njemu jeste vazan
`
`problem u "hands-free" komunikacionim sistemima. Postupci odredivanja pravca su
`
`veoma osetljivi na sve smetnje prisutne u ambijentu i posebno: na nestacionarnost
`
`izabranog govomika (kada se on krece u ambijentu) i kada se u datom ambijentu nalazi
`
`vise govornika koji istovremeno govore (cocktail-party efekat). Odredivanje pravca
`
`aktuelnog govomika u odnosu na mikrofonski niz u horizontalnoj ravni je veoma vazno
`
`u video-telefonskim i telekonferencijskim sistemima, jer je neophodno odrediti
`
`koordinate za kontrolu video kamere.
`
`Kod snimanja govora u akustickom ambijentu uvek se pojavljuje problem
`
`aditivnog stacionamog i/ili nestacionarnog suma kao i rezidualnog suma u obradi
`
`ak:ustickog signala. Ovi sumovi degradiraju kvalitet snimljenog govornog signala a
`
`ukoliko su dovoljno intenzivni mogu izazvati i narusavanje njegove razumljivosti.
`
`Postoji mnogo algoritama za potiskivanje suma, optimiziranih za pojedine vrste
`
`sumova, ali se uvek postavlja zahtev da se ostvari odreden dobitak u poboljsanju odnosa
`
`signal/sum pod uslovom da se ne unesu izoblicenja u govomi signal i time dodatno ne
`
`narusi njegova razumljivost.
`
`Promenljivi ambijentalni uslovi i posebno, promenljivo rastojanje govornik(cid:173)
`
`mikrofonski niz, zahtevaju automatsku kontrolu pojacanja sistema kako bi nivo glasa
`
`Page 5 of 31
`
`SONOS EXHIBIT 1022
`
`
`
`3
`
`govomika bio sto stabilniji i prijatniji za slusaoca na udaljenom kraju
`
`telekomunikacionog kanala. Automatska kontrola pojacanja u sistemima koji rade u
`
`punom dupleksu zahteva dodatne informacije od detektora aktivnosti govora na blizem
`
`kraju, detektora aktivnosti govora na daljem kraju kao i potiskivaca akustickog eha.
`
`Iz izlozenog se vidi da su tehnicki problemi u resenju slobodnog, "hands-free",
`
`komunikacionog sistema za prenos govomog signala u punom dupleksu i njegovu
`
`primenu u video-telefonskim i/ili telekonferencijskim sistemima veoma slozeni i da
`
`zahtevaju integralni pristup u optimizaciji resenja, posebno kada se ima u vidu rad
`
`sistema u realnom vremenu na bazi komercijalne platforme digitalnog procesora signala
`
`(DSP).
`
`STANJE TEHNIKE
`
`K valitetno snimanje govora u uslovima prisustva akustickih smetnji i
`
`reverberacije prostorije predstavlja slozen problem. U uslovima kada se spektri korisnog
`
`govomog signala preklapaju sa spektrima prisutnih smetnji, jednokanalnim postupcima
`
`obrade nije moguce ostvariti znacajnije poboljsanje kvaliteta govomog signala. Sa
`
`razvojem digitalne obrade signala i postizanjem dovoljno velike racunarske snage DSP(cid:173)
`
`a otvoren je put za primenu visemikrofonskih postupaka obrade akustickih signala.
`
`Prednost mikrofonskih nizova u odnosu na jednokanalne postupke obrade je njihova
`
`sposobnost da prilagode svoju prostomu karakteristiku prijema (karakteristiku
`
`usmerenosti) trenutnom prostomom rasporedu odabranog govomika i smetnji. Pri tome
`
`ostvaruju maksimalno potiskivanje prisutnih smetnji uz istovremeno isticanje
`
`odabranog govomika. Osnovni problemi koji se u primeni mikrofonskih nizova srecu su
`
`sledeci (M.S. Brandstein, D.B. Ward (Eds.), Microphone Arrays: Signal Processing
`
`Techniques and Applications, Springer, Berlin 2001; Y. Huang, J. Benesty, Audio signal
`
`processing for next generation multimedia communication systems, Kluwer Academic
`
`Publishers Publ., 2004.): nepoznavanje tacne lokacije odabranog govomika,
`nepoznavanje broja i prostomog rasporeda prisutnih smetnji, visestruke refleksije
`
`korisnog izvora i smetnji o zidove prostorije i nestacionamost izvora akustickih smetnji
`
`i odabranog govomika.
`
`Kada se mikrofonski niz upotrebi u video-telefonskim ili telekonferencijskim
`
`sistemima koji funcionisu u punom dupleksu, onda se broj problema uvecava. Najveci
`
`problem je pojava akustickog eha, zatim potreba za automatskom regulacijom pojacanja
`
`Page 6 of 31
`
`SONOS EXHIBIT 1022
`
`
`
`4
`
`(AGC) predajnog dela sistema, kao i mogu6a poJava nestabilnosti sistema, tzv.
`
`mikrofonija. Dodatni problem koji ovaj patent razmatra je postojanje signala TV
`
`programa koji se kao aditivni akusticki eho pojavljuje na ulazu mikrofonskog niza.
`
`Veliki broj navedenih problema generisao je veoma razlicita resenja koja su
`
`patentirana i koja resavaju iii pojedinacne probleme ili integralno nekoliko problema.
`
`Na primer: U.S. objavljena patentna prijava 2006/0153360 Al, prijavljen 2. septembra
`
`2005., sa naslovom ,,Speech signal processing with combined noise reduction and echo
`
`compensation", daje integralno resenje potiskivaca eha i potiskivaca suma, zatim U.S.
`
`patent 7,035,415 B2, prijavljen 15. maja 2001, sa naslovom ,,Method and device for
`
`acoustic echo cancellation combined with adaptive beamforming", koji daje integralno
`
`resenje potiskivaca eha i resenje za formiranje usmerene karakteristike mikrofonskog
`
`niza, zatim EP objavljena patentna prijava 1 633 121 Al, prijavljen 3. septembra 2004.,
`
`sa naslovom ,,Speech signal processing with combined adaptive noise reduction and
`
`adaptive echo compensation", daje integralno resenje potiskivaca rezidualnog eha i
`
`potiskivaca suma, zatim EP objavljena patentna prijava 1 571 875 A2, prijavljen 23.
`
`februara 2005., sa naslovom ,,A system and method for beamforming using a
`
`microphone array", koji daje resenje samo za formiranje usmerene karakteristike
`
`mikrofonskog niza, zatim EP objavljena patentna prijava 1 581 026 Al, prijavljen 17.
`
`marta 2004., sa naslovom ,,Method for detecting and reducing noise from a microphone
`
`array", daje resenje samo za potiskivanje suma u mikrofonskom nizu, kao i EP
`
`objavljena patentna prijava l 286 175 A2, prijavljen 1. avgusta 2002., sa naslovom
`
`,,Robust talker localization in reverberant environment", daje resenje samo za
`
`lokalizaciju govomika u reverberantnoj sobi.
`
`Integralno resenje svih naznacenih problema, izlozeno u ovom patentu,
`objedinjuje pozitivne osobine pojedinih postupaka obrade signala u resenju svakog od
`
`naznacenih problema, integralno ih resava u frekvencijskom domenu optimizirajuci
`
`racunarske resurse i daje resenje koje u realnom vremenu obezbeduje kvalitetnu
`
`slobodnu govomu komunikaciju u video-telefonskim i/ili telekonferencijskim
`
`sistemima.
`
`IZLAGANJE SUSTINE PRONALASKA
`
`Predmet ovog pronalaska je sistem za slobodnu govomu komunikaciju u video(cid:173)
`
`telefonskim iii telekonferencijskim primenama koji koristi mikrofonski niz i slozenu
`
`Page 7 of 31
`
`SONOS EXHIBIT 1022
`
`
`
`5
`
`obradu akustickog signala u cilju obezbedenja kvaliteta i razumljivosti govornog signala
`
`u slozenom akustickom ambijentu i u kome su mnogi prethodno nabrojani nedostaci
`
`pojedinacno iii integralno eliminisani.
`
`Sistemom, koji je predmet pronalaska, prenosi se govor a kao prenosni medijum
`
`se koristi digitalna televizija. Za snimanje i reprodukciju govomog signala koristi se
`mikrofonski niz i zvucnici, respektivno, koji su sastavni elementi TV prijemnika. Posto
`
`je rec o video-telefonskim ili telekonferencijskim primenama, za snimanje
`
`reprodukciju slike koristi se digitalna kamera i digitalni TV prijernnik, respektivno.
`
`Sustina pronalaska jeste u specificnoj obradi govomog signala koji se snima u
`
`akustickom ambijentu prostorije u kojoj se nalazi sistem i govomik. Za snimanje
`
`govomika u prostoriji, koji se nalazi na odredenom rastojanju (do nekoliko metara) od
`
`TV prijernnika, sistem koristi mikrofonski niz od N mikrofona. Mikrofonski niz snima
`
`sve signale u prostoriji: koristan signal kao direktan talas koji stize od govomika do
`
`mikrofona i signale smetnji koji mogu biti raznovrsni. Kao signali smetnje pojavljuju
`
`se: akusticki eho kao direktan zvucni talas iz zvucnika preko kojih se emituje glas
`
`sagovomika sa udaljenog kraja komunikacionog kanala, akusticki eho kao direktan
`
`zvucni talas iz zvucnika preko kojih se emituje stereo TV program, direktni talasi od
`
`jednog iii vise izvora sumova iii izvora drugih smetnji koji se mogu naci u prostoriji i
`
`svi reflektovani talasi (eho prostorije) koji poticu od svih izvora zvukova, ukljucujuci i
`
`govornika, a koji nastaju usled reverberacije prostorije. Treba naglasiti da izvori
`
`zvukova u prostoriji mogu biti stacionarni ili nestacionami, sto je najcesci slucaj, kako
`
`po svojim karakteristikama tako i po lokaciji u prostoriji (pokretni izvori zvukova).
`
`Razlicite smetnje zahtevaju razlicite tehnike za njihovo eliminisanje i sustina
`
`pronalaska jeste u optimalnom projektovanju algoritama koji treba da maksimalno
`
`eliminisu smetnje i da obezbede najbolji kvalitet govomog signala koji se prenosi do
`
`sagovornika na udaljenom kraju komunikacionog kanala.
`
`Mikrofonski signali iz mikrofonskog niza se obraduju u digitalnoj formi u DSP,
`kompletno u frekvencijskom domenu. Ovaj domen omogucava odredene prednosti u
`
`pogledu brzine obrade i broja racunskih operacija, sto je veoma vazno za DSP i rad u
`
`realnom vremenu. Za potiskivanje akustickog eha neophodno je da se u DSP uvedu i
`
`signali iz zvucnika.
`
`U DSP-u se izvrsava vise slozenih algoritama: algoritam za potiskivanje signala
`
`akustickog eha (AEC -Acoustic Echo Cancelling), algoritam za obradu mikrofonskih
`
`signala u cilju formiranja adaptivne karakteristike usmerenosti mikrofonskog niza
`
`Page 8 of 31
`
`SONOS EXHIBIT 1022
`
`
`
`6
`
`(ABF -Adaptive Beam Forming), algoritam za ocenu pravca dolaska korisnog signala
`
`(DOA-Direction of Arrival) odnosno lociranje govomika u prostoriji, algoritam za
`
`potiskivanje stacionamog i nestacionamog suma i rezidualnog eha (NR- Noise
`
`Reduction) i algoritam za automatsku kontrolu pojacanja sistema (AGC -Automatic
`
`Gain Control) radi kompenzacije razlicite udaljenosti govornika od mikrofonskog niza.
`
`Pored ovih osnovnih algoritama u DSP-u se izvrsava i vise drugih algoritama kao sto
`
`su: detektor aktivnosti govora (V AD - Voice Activated Detector) na blizem kraju, VAD
`
`na daljem kraju, detektor istovremene aktivnosti govora na oba kraja (DTD -Double
`
`Talk Detector), dodatno filtriranje radi redukcije suma (PF - Post Filtering), itd. Cilj
`
`svih navedenih algoritama je maksimalna redukcija svih smetnji uz minimalnu
`
`degradaciju govornog signala i time obezbedivanja maksimalnog kvaliteta predajnog
`
`govomog signala.
`
`Specifican aspekt pronalaska se nalazi u adaptivnom potiskivanju akustickog eha
`
`pomocu adaptivnih filtarac koji modeliraju prenosnu karakteristiku akustickog puta od
`
`zvucnika do mikrofona. Prenosna karakteristika je slozena jer se radi o prenosnom putu
`
`od 2 (stereo) zvucnika do N mikrofona u mikrofonskom nizu, zbog cega se svaki
`
`mikrofonski signal filtrira sopstvenim adaptivnim filtrom. Kontrolu rada adaptivnih
`
`filtara vrsi detektor aktivnosti govora na oba kraja.
`
`Sledecu specificnost pronalaska cini adaptivna karakteristika usmerenosti
`
`mikrofonskog niza koja omogucava prostorno filtriranje, odnosno izdvajanje pravca u
`
`prostoru na kome se nalazi govomik i gde se koristan signal maksimalno pojacava u
`
`odnosu na signale iz ostalih pravaca koji se slabe. Usmerena karakteristika
`
`mikrofonskog niza se ostvaruje adaptivnim ponderisanjem i sumiranjem mikrofonskih
`
`signala, sto obezbeduje stabilan indeks usmerenosti u frekvencijskom domenu i vecu
`
`robusnost sistema za slobodnu govornu komunikaciju u reverberantnom akustickom
`
`ambijentu.
`
`Odredivanje dolaznog pravca direktnog akustickog talasa od govornika je
`
`naredna specificnost pronalaska. Ova funkcija u sistemu slobodne govome
`
`komunikacije je neophodna za kontrolu i upravljanje usmerenom karakteristikom
`
`mikrofonskog niza po azimutu, a moze se koristiti i za kontrolu i upravljanje video
`
`kamere. Ona koristi mikrofonske signale posle potiskivanja akustickog eha. Nakon
`
`odredivanja generalizovane kroskorelacije mikrofonskih signala i njihovih faznih
`
`transforrnacija, estimira se dolazni pravac direktnog akustickog talasa govornika. Ova
`
`funkcija je pod direktnom kontrolom detektora aktivnosti govora.
`
`Page 9 of 31
`
`SONOS EXHIBIT 1022
`
`
`
`7
`
`Sledecu specificnost pronalaska cini postupak adaptivnog potiskivanja
`
`stacionarnog i nestacionarnog suma. Postupak je realizovan na bazi nelineamog
`
`kompresora estimiranog suma koji se odreduje u nekoliko podopsega. Koriste se dve
`
`estimacije suma koje obezbeduju rezultat potiskivanja optimiziran prema
`
`karakteristikama govomog signala. To je ucinjeno iz razloga potrebe da proces
`
`adaptivnog potiskivanja suma ne sme degradirati govorni signal. Proces filtriranja se
`
`zavrsava adaptivnim Wiener-ovim post-filtrom.
`
`Specifican aspekt pronalaska jeste i automatska kontrola pojacanja govomog
`
`signala pre predaje ka udaljenom sagovorniku. Ova specificnost je vazan sastavni
`
`elemenat sistema za slobodnu govornu komunikaciju. Sistem obezbeduje kompenzaciju
`
`razlicitih intenziteta govornog signala, kao individualnih karakteristika govomika, ali i
`
`razlicite intenzitete govora u zavisnosti da Ii se govornik nalazi blize iii dalje u odnosu
`
`na mikrofonski niz. Resenje pravi razliku da Ii je govomik aktivan iii se u korisnom
`
`signalu pojavljuje: pauza, rezidualni eho, akusticka smetnja iii signal govora sa
`
`udaljenog kraja; zbog toga resenje koristi vise informacija prethodno detektovanih u
`
`sistemu. Analiza moguceg scenarija mora biti pouzdana, u protivnom maze doci do
`
`negativnog efekta slabljenja korisnog govornog signala.
`
`Inventivnost u ovom pronalasku se nalazi u poboljsanju svake od navedenih
`
`specificnosti, ali i u postupku integrisanja svih algoritama u jedinstvenu celinu koja
`
`funkcionise stabilno i kvalitetno. Algoritamske procedure su optimizirane koriscenjem
`
`zajednickih resursa.
`
`Ovi i drugi aspekti, specificnosti i benefiti ovog pronalaska bice ocigledniji
`
`nakon uvida u detaljan opis pronalaska, patentne zahteve i pripadajuce crteze.
`
`KRATAK OPIS SLIKA I NACRT A
`
`Slika 1 -
`
`prikazuje elemente sistema za slobodnu video-telefonsku
`
`komunikaciju pomocu mikrofonskog niza i digitalne televizije.
`
`Slika 2 - prikazuje ambijentalne uslove primene sistema za slobodnu video(cid:173)
`
`telefonsku komunikaciju pomocu mikrofonskog niza.
`
`Slika 3 - prikazuje blok dijagram podsistema za obradu audio signala u okviru
`
`sistema za slobodnu video-telefonsku komunikaciju; on sadrzi mikrofonski niz sa
`
`adaptivnom karakteristikom usmerenosti (SD-BF), blok za lociranje govornika u
`
`Page 10 of 31
`
`SONOS EXHIBIT 1022
`
`
`
`8
`
`prostoru (DOA), blok za potiskivanje eha (AEC), blok za potiskivanje suma (NR) i blok
`
`za automatsku kontrolu pojacanja (AGC).
`
`Stika 4 - prikazuje blok dijagram za potiskivanje akustickog eha (AEC).
`
`Slika 5 - prikazuje blok dijagram za adaptivno odredivanje pravca bliskog
`
`govomika po horizontali (DOA-azimut).
`
`Stika 6 - prikazuje blok dijagram za prostomo filtriranje (SD-BF).
`
`Slika 7 - prikazuje blok dijagram za potiskivanje suma (NR).
`
`Stika 8 - prikazuje blok dijagram za automatsku regulaciju pojacanja (AGC).
`
`DETALJAN OPIS PRONALASKA
`
`Ovaj pronalazak opisuje sistem i postupak obrade akustickog signala za
`
`slobodnu govornu komunikaciju pomocu mikrofonskog niza.
`
`Slika 1 prikazuje elemente sistema za slobodnu video-telefonsku komunikaciju
`
`pomocu mikrofonskog niza i digitalne televizije. Digitalni televizor 100, koji korisniku
`
`normalno sluzi za pracenje TV programa, u sistemu za slobodnu video-telefonsku
`
`komunikaciju koristi se kao video monitor za video komunikaciju sa sagovomikom i
`
`kao audio terminal za audio komunikaciju. Naime, kada se putem komunikacionog
`
`kanala 101 dobije poziv i uspostavi veza sa sagovomikom tada se televizor 100 koristi
`kao multimedijalni interfejs gde se preko zvucnika 102 slusa sagovornik a na delu
`
`ekrana 105 televizora 100 prati se slika sagovomika. Istovremeno, na udaljenom kraju
`
`komunikacionog kanala, sagovomik na slicnom TV prijemniku vidi sagovomika sa
`blizeg kraja, koga snima kamera 104 i mikrofonski niz 103. Kamera 104 je pokretna i
`
`njom se upravlja na bazi koordinata koje se dobijaju obradom mikrofonskih signala iz
`
`mikrofonskog niza 103.
`
`Analogni signali iz mikrofona u mikrofonskom nizu 103 se pojacavaju pomocu
`pojacavaca 106 i zajedno sa stereo signalima iz zvucnika 102 se uvode u akvizicioni
`
`modul 107, gde se digitalizuju i tako digitalizovani predaju DSP-u 108 na dalju obradu.
`
`Obradeni govomi signal govomika na blizem kraju pomocu DSP-a 108 prenosi se preko
`komunikacionog kanala 101 do sagovomika na daljem kraju. Obradom akustickih
`
`signala u DSP-u 108 dobijaju se prostome koordinate lociranja govomika u prostoriji u
`kojoj se nalazi sistem za slobodnu komunikaciju, pomocu kojih DSP 108 upravlja sa
`
`Page 11 of 31
`
`SONOS EXHIBIT 1022
`
`
`
`9
`
`pokretnom kamerom 104 usmeravajucu je ka govomiku. Na taj nacin se ostvaruje
`
`potpuno slobodna audio i video komunikacija dva sagovomika preko sistema digitalne
`
`televizije.
`
`Slika 2 sematski prikazuje ambijentalne uslove primene sistema za slobodnu
`
`video-telefonsku komunikaciju pomocu mikrofonskog niza; prikazan je samo deo
`
`sistema koji se odnosi na obradu akustickog signala. U prostoriji 201 nalaze se sistem za
`
`slobodnu video-telefonsku komunikaciju, govomik 202 i izvor suma 203, sto je
`
`uobicajeno za svaki akusticki ambijent. Preko zvucnika 102 stereo audio sistema
`digitalne televizije govomik 202 slusa dolazni govomi signal 204 sagovomika sa
`
`udaljenog kraja najcesce kao mono signal. Zvuk u ambijentu prostorije 201 snima
`
`mikrofonski niz 103 sastavljen od N mikrofona. Nakon kompleksne obrade
`mikrofonskih signala u bloku 207 govomi signal govomika 202 se preko bloka 208
`
`prenosi ka udaljenom sagovomiku kao mono signal.
`
`Ambijentalni uslovi odvijanja govome komunikacije u prostoriji 201 su veoma
`kompleksni. Kod slobodne video-telefonske komunikacije u prostoriji 201 postoji
`
`minimum tri izvora zvuka: stereo zvucnici 102 koji emituju govor udaljenog
`
`sagovomika i TV program, govornik 202 i bar jedan izvor suma 203. U prostoriji maze
`
`biti i vise izvora sumova: sum racunara, sum klima sistema, buka sa ulice koja prodire u
`
`prostoriju kroz prozore, buka iz susednih prostorija, vibracije zgrade, iii drugi govomik,
`
`vise govomika, izvor muzike, itd. Dakle, pojavljuje se veoma slozena akusticka slika u
`
`prostoriji. Mikrofonski niz 103 snima, kao senzorski sistem, sve zvuke u prostoriji,
`
`snima direktne zvucne talase od svakog izvora ali i sve refleksije od zidova prostorije i
`
`drugih predmeta koji se nalaze u njoj. Tako na primer, od zvucnika 102 do
`mikrofonskog niza 103 stize direktan talas 209 i rnnogi reflektovani talasi od kojih je
`
`samo jedan 210 prikazan na slici 2; od govomika 202 stize direktan talas 211 i pored
`ostalih i dva reflektovana talasa 212a i 212b, od izvora suma 203 stize direktan talas
`213 i pored ostalih i reflektovani talas 214.
`
`Od svih zvukova koje mikrofonski niz snima jedino je direktan talas 211 od
`govomika 202 koristan signal, svi ostali su smetnje. Od svih smetnji najveca je
`
`akusticki eho 209 koji dolazi iz zvucnika 102. Sve ostale retleksije zbimo cine
`
`reverberaciju prostorije. Zadatak bloka za obradu audio signala 207 jeste da potisne
`
`signal akustickog eha, da selektuje koristan signal 211 od svih ostalih smetnji, da
`
`potisne signale reverberacije i da potisne direktne signale izvora smetnji, kojih moze da
`bude i vise od jednog izvora. Poseban zadatak bloka 211 jeste adaptivno pracenje
`
`Page 12 of 31
`
`SONOS EXHIBIT 1022
`
`
`
`10
`
`nestacionamosti akusticke scene u prostoriji bilo da se govomik pokrece, iii da se od
`
`razgovora do razgovora nalazi na razlicitim pozicijama u prostoriji, ili da se izvori
`
`sumova pokrecu, da su nestacionarni ili da menjaju svoje karakteristike. U daljem tekstu
`
`bice pojedinacno opisana resenja koja su u ovom pronalasku primenjena.
`
`Na slici 3 prikazana je blok sema kompletnog postupka abrade audio signala u
`
`okviru sistema za slobodnu video-telefonsku komunikaciju pomocu mikrofonskog niza.
`
`Svi mikrofonski signali 103, od Ml do MS, kao i signali stereo zvucnika 102, Zv-L i
`Zv-D, se digitalizuju u akvizicionom bloku 107, slika 1, i konvertuju u frekvencijski
`
`domen pomocu brze Fourierove transformacije (FFT) 301 u signale x1 do x7. Treba
`naglasiti da mikrofonski niz sadrzi 5 mikrofona u resenju ovog patenta, ali se moze
`primeniti veci broj mikrofona ukoliko odredena aplikacija to zahteva. U bloku 302 vrsi
`
`se potiskivanje akustickog eha u svim signalima x1 do x5, koristeci signale x6 i x7 kao
`
`referentne. Signali sa potisnutim ehom SAECJ do SAEcs koriste se u bloku 304 za
`
`odredjivanje pravca direktnog zvucnog talasa DOA (Direction OJ Arrival) po
`
`horizontali (azimutu 0a) od aktuelnog govomika i time omogucava njegovo pracenje u
`
`prostoriji. Na osnovu ocenjenog ugla 00 u bloku 303 se optimiziraju tezinski koeficijenti
`
`signala x1 do x5 u cilju formiranja karakteristike horizontalne usmerenosti mikrofonskog
`
`niza sa maksimumom prijema na pravcu Ba. Karakteristika prijema formirana u bloku
`
`303 ima superdirektivno svojstvo sto znaci da joj je indeks usmerenosti ( direktivnosti)
`
`prijema veci u odnosu na karakteristiku koja bi se dobila samo kompenzacijom
`
`kasnjenja i sumiranjem mikrofonskih signala.
`
`U bloku 303 vrsi se vremenska kompenzacija medusobnog kasnjenja akustickih
`
`signala od govornika do mikrofona. Kontrolom ovog kasnjenja signalom DOA ( 00 ) iz
`bloka 304, omogucava se upravljanje karakteristikom usmerenosti mikrofonskog niza
`po azimutu. Takode, u bloku 303 formira se karakteristika usmerenosti mikrofonskog
`niza, SD-BF (Superdirective Beamformer). Ova karakteristika ima osnovnu petlju
`
`usmerenja dovoljno uzanu i usmerenu u zeljenom pravcu, dok su bocne petlje znatno
`
`manje po intenzitetu. Time se omogucava mikrofonskom nizu prostorno filtriranje,
`
`odnosno separaciju izvora zvukova po horizontali. Ovako formirana karakteristika
`
`usmerenosti je veoma bitna sa aspekta utisavanja signala bocnih smetnji u odnosu na
`
`korisni signal i sa aspekta smanjenja efekta reverberacije prostorije. Karakteristika
`
`usmerenosti se formira ponderisanjem mikrofonskih signala i njihovim sumiranjem u
`
`j edinstveni izlazni signal.
`
`Page 13 of 31
`
`SONOS EXHIBIT 1022
`
`
`
`11
`
`Signal na izlazu bloka 303 sadrzi koristan govorni signal i signal smetnji koji se
`
`sastoji od rezidualnog signala nakon potiskivanja akustickog eha, potisnut sum
`ambijenta i potisnute signale reverberacije. Ovaj signal ulazi u blok NR (Noise
`Reduction) 305 gde se vrsi dodatno potiskivanje signala smetnji. Proces potiskivanja je
`
`adaptivan obzirom na nestacionarnost signala smetnji. Takode, vazan zahtev u
`
`realizaciji NR bloka jeste da proces potiskivanja suma ne sme da utice na kvalitet
`
`govornog signala.
`
`Finalni blok abrade signala u sistemu za slobodnu govornu komunikaciju u
`
`video-telefonskim ili telekonferencijskim primenama jeste blok 306 za automatsku
`kontrolu pojacanja AGC (Automati Gain Control) obradenog govornog signala. U
`
`ovom bloku koristi se vise informacija iz celokupnog sistema koje su vazne za
`
`definisanje mogucih uslova u kojima se govomi signal moze naci i gde je potrebno na
`
`odgovaraju6i nacin izvrsiti njekovu amplitudsku korekciju. Na taj nacin se moze
`
`obezbediti priblizno isti nivo predajnog govomog signala nezavisno od udaljenosti
`
`aktuelni govomik od mikrofonskog niza i obezbediti njegov bolji kvalitet na udaljenom
`
`kraju komunikacionog kanala.
`
`Na izlazu sistema rezultat abrade signala se transformise iz frekvencijskog u
`
`vremenski domen pomocu inverzne FFT u bloku 307. Estimirani govomi signal na
`
`blizern kraju (§) se prenosi kroz kanal ka udaljenom sagovorniku.
`
`Na slici 4 prikazan je blok dijagram potiskivaca akustickog eha (AEC) 302, koji
`
`se sastoji od dva osnovna bloka: blok 401 koji se sastoji od 5 adaptivnih NLMS
`(Normalized Least Mean Square) algoritama i bloka 402 cija je osnovna funkcija
`
`detekcija aktivnosti govora bliskog i udaljenog govornika DID (Double Talk
`
`Detection).
`NLMS algoritmi, NLMSl do NLMS6, obraduju signale iz mikrofona x 1 do x5 i
`
`obradene signale sAECl do sAECJ prosleduju dalje ka blokovima 303, 304 i 306, slika 3.
`
`Funkcija NLMS algoritama je potiskivanje eha u svakom od mikrofonskih signala. Ovu
`funkciju omogucavaju referentni signali iz zvucnika 102