Głos jest naszym głównym środkiem komunikacji, a telefonia umożliwia nam łączenie się za pomocą głosu od ponad stulecia. Rozmowa telefoniczna, jaką znamy, ewoluowała od analogowej do cyfrowej, od stacjonarnej do mobilnej i od niskiej jakości mowy do naturalnej jakości mowy. Wciąż jednak brakowało jednego zasadniczego postępu: sposobu umożliwienia transmisji na żywo w pełni autentycznego, wciągającego dźwięku.
Wprowadzenie kodeka IVAS (Immersive Voice and Audio Services), ustandaryzowanego przez 3GPP w wydaniu 18 w czerwcu tego roku, stanowi znaczący postęp w technologii audio. W przeciwieństwie do tradycyjnych monofonicznych połączeń głosowych, IVAS umożliwia transmisję wciągającego, trójwymiarowego dźwięku, oferując bogatsze i bardziej realistyczne wrażenia komunikacyjne. Ta innowacja jest możliwa dzięki nowym formatom audio zoptymalizowanym pod kątem konwersacyjnego dźwięku przestrzennego. Jednym z takich przykładów jest nowy format dźwięku przestrzennego wspomaganego metadanymi, MASA, który wykorzystuje tylko dwa kanały audio i metadane do opisów dźwięku przestrzennego. Przestrzenne połączenia audio pozwalają użytkownikom doświadczyć dźwięku tak, jakby odbywał się w prawdziwym życiu, wraz z funkcjami takimi jak śledzenie głowy.
Poniżej przeanalizujemy wyzwania związane z wprowadzeniem połączeń telefonicznych na żywo 3D do telefonów komórkowych, wymagania stawiane komunikacji przestrzennej i nowemu kodekowi IVAS, a także wpływ, jaki dźwięk 3D na żywo na żywo będzie miał na zmianę gry na ludzi, operatorów komórkowych i smartfony biznesowe.
Dyrektor ds. zarządzania produktami w Nokia Technologies.
Wprowadzenie połączeń 3D do telefonów komórkowych
Ostatnią dużą innowacją w połączeniach głosowych był wprowadzony w 2014 roku kodek EVS, uznawany przez konsumentów za HD Voice+. Chociaż znacznie poprawił jakość połączeń, podobnie jak wszystkie poprzednie kodeki, zapewniał jedynie monofoniczne wrażenia słuchowe.
Wraz z wprowadzeniem połączeń audio 3D – największego skoku w technologii połączeń głosowych od dziesięcioleci – pojawia się wyzwanie polegające na stworzeniu autentycznych, wciągających wrażeń w codziennej komunikacji. Chociaż technologia głosu znacznie ewoluowała – od analogowej do cyfrowej, stacjonarnej do mobilnej oraz od niskiej jakości do naturalnej jakości mowy – przesyłanie dźwięku przestrzennego, w którym dźwięki są odbierane jako naturalnie dochodzące ze wszystkich stron, jest znacznie trudniejsze do odtworzenia w środowiskach mobilnych.
Osiągnięcie tego poziomu wciągających wrażeń dźwiękowych było łatwiejsze w kontrolowanych warunkach, takich jak kina i gry wideogdzie projektowanie dźwięku jest kluczowym elementem, ale jego odtwarzanie podczas codziennych rozmów komórkowych wiąże się z szeregiem przeszkód technicznych, w tym przetwarzaniem dźwięku przestrzennego w czasie rzeczywistym, ograniczeniami sprzętowymi i zapewnianiem kompatybilności między urządzeniami.
Kodek głosowy Immersive Voice and Audio Services (IVAS) jest zatem najważniejszym krokiem naprzód w technologii dźwięku połączeń głosowych od dziesięcioleci.
Jak stawić czoła wyzwaniom związanym z komunikacją przestrzenną i je pokonać
Aby Immersive Voice stało się solidnym rozwiązaniem dźwięku przestrzennego, należało pokonać kilka wyzwań. Kluczową kwestią jest redukcja szumów, kluczowa dla poprawy przejrzystości mowy w miejscach takich jak koncerty lub przyroda. Tradycyjne metody redukcji hałasu często odfiltrowują jedynie dźwięki ciągłe, takie jak buczenie klimatyzacji lub hałas uliczny, ale często pozostawiają inny hałas w tle. Zakłócenia wiatru również stanowią wyzwanie, ponieważ wprowadzają niepożądany hałas i powodują wahania poziomów dźwięku.
Jednak ostatnie postępy w uczeniu maszynowym i inteligentnej redukcji szumów pozwoliły rozwiązać te problemy. Na przykład technologia immersyjnego dźwięku została zaprojektowana tak, aby inteligentnie regulować stopień redukcji szumów tła w zależności od otaczającego środowiska, a także zapewniać użytkownikom kontrolę, umożliwiając im ręczną regulację poziomów redukcji szumów. Zapewnia to transmisję najważniejszych dźwięków przy jednoczesnej minimalizacji niepożądanego szumu tła.
Wciągające konfiguracje audio z wieloma mikrofony i głośniki również napotykają poważną przeszkodę – echo akustyczne. Dzieje się tak, gdy mikrofony zbierają dźwięk z pobliskiego miejsca głośnikipowodując niechciane sprzężenie zwrotne. Problem staje się jeszcze większym wyzwaniem w konfiguracjach z dźwiękiem przestrzennym, gdzie rozmieszczenie i liczba głośników wpływa na jakość dźwięku i zdolność urządzenia do przechwytywania dźwięku przestrzennego. Tradycyjne metody eliminacji echa akustycznego (AEC) często nie sprawdzają się dobrze w tak złożonych środowiskach. Aby rozwiązać ten problem, stworzono rozwiązanie przestrzenne AEC oparte na uczeniu maszynowym, które usuwa dźwięk głośnika z wejścia mikrofonowego za pomocą sygnału referencyjnego. Poprawia to jakość dźwięku, szczególnie w przypadku dźwięku przestrzennego w aplikacjach głosowych działających w czasie rzeczywistym.
Przedstawiamy kodek IVAS
Aby zapewnić dźwięk przestrzenny w połączeniach telefonicznych, oprócz usług Over-the-Top (OTT), w ramach projektu partnerstwa trzeciej generacji (3GPP) przyjęto niedawno nowy standard kodeka głosowego. Opracowany poprzez współpraca z 13 firm standard kodeka IVAS został uwzględniony w wersji 18 firmy 3GPP, bazując na powszechnie używanym kodeku Enhanced Voice Services (EVS). Co ważne, kodek IVAS zachowuje pełną kompatybilność wsteczną, zapewniając płynną interoperacyjność z istniejącymi usługami głosowymi.
Jedną z kluczowych innowacji podczas standaryzacji IVAS było stworzenie nowego parametrycznego formatu audio, Metadata-Assisted Spatial Audio (MASA), zaprojektowanego specjalnie dla urządzeń o ograniczonych rozmiarach, takich jak smartfony. Kodek IVAS zawiera wbudowany moduł renderujący, który obsługuje binauralny dźwięk śledzony przez głowę i odtwarzanie z wieloma głośnikami w formacie MASA.
Dodatkowo wciągający pakiet SDK klienta głosowego może służyć jako interfejs IVAS, przechwytując dźwięk przestrzenny z mikrofonów urządzeń i konwertując go do znormalizowanego formatu MASA. Technologia ta umożliwia prawdziwie wciągające wrażenia dźwiękowe 3D podczas różnych typów połączeń głosowych.
Moc dźwięku 3D na żywo: co to oznacza dla ludzi, operatorów i firm
Nowy, wciągający dźwięk 3D rewolucjonizuje wrażenia dźwiękowe dla konsumentów, przedsiębiorstw i branż. Dla konsumentów pogłębia zaangażowanie w interakcje z przyjaciółmi i rodziną poprzez udostępnianie lokalnych dźwięków, zarówno transmitowanych na żywo, jak i nagrywanych, oraz zapewnia pełne zanurzenie w zsynchronizowanych doświadczeniach Metaverse. W przypadku przedsiębiorstw połączenia głosowe z dźwiękiem 3D otwierają nowe możliwości, począwszy od ulepszonych doświadczenie klienta poprzez kierunkowy dźwięk po transformację współpracy zespołowej i podejmowania decyzji. W warunkach przemysłowych analityka dźwięku może sterować zautomatyzowanymi procesami, takimi jak konserwacja predykcyjna, usprawnianie operacji i zwiększanie wydajności.
Aby umożliwić takie doświadczenia w zróżnicowanych warunkach sieciowych, dostawcy usług potrzebują skalowalnych rozwiązań, które optymalizują wydajność niezależnie od ograniczeń przepustowości. Standardowy kodek 3GPP IVAS obsługuje przepływność w zakresie od 13,2 do 512 kbit/s, zapewniając wciągającą jakość dźwięku niezależnie od tego, czy jest używany w przeciążonych sieciach, czy w środowiskach przesyłania strumieniowego wysokiej jakości. Ta skalowalność umożliwia dostawcom usług obsługę większej liczby użytkowników, zapewniając jednocześnie bogate wrażenia dźwiękowe.
Patrząc w przyszłość, oczekuje się, że zachowania użytkowników oparte na głosie będą nadal ewoluować. Poza tradycyjnymi połączeniami, przestrzenna komunikacja audio zostanie rozszerzona o półsynchroniczne przesyłanie wiadomości za pośrednictwem popularnych aplikacji, przesyłanie między sobą plików głosowych i szersze wykorzystanie połączeń grupowych. Wraz z rozwojem urządzeń i usług rozszerzonej rzeczywistości w różnych branżach, zakres komunikacji głosowej stanie się jeszcze szerszy, a jej cechą charakterystyczną będzie zanurzenie. Kluczowym czynnikiem tej ewolucji będzie standaryzacja i integracja kodeka IVAS z najnowszym zaawansowanym standardem 5G, co jest niezbędne do zapewnienia interoperacyjności niezbędnej do zapewnienia połączeń 3D na każdym telefonie za naciśnięciem jednego przycisku.
Oceniliśmy najlepsze systemy telefonów biznesowych.
Ten artykuł powstał w ramach kanału Expert Insights TechRadarPro, na którym przedstawiamy najlepsze i najbystrzejsze umysły dzisiejszej branży technologicznej. Poglądy wyrażone tutaj są poglądami autora i niekoniecznie są poglądami TechRadarPro lub Future plc. Jeśli jesteś zainteresowany współpracą, więcej informacji znajdziesz tutaj: https://www.techradar.com/news/submit-your-story-to-techradar-pro