Przyszłość komunikacji mobilnej: połączenie audio IVAS

24 October 2024

Głos jest naszym głównym środkiem komunikacji, a telefonia umożliwia nam łączenie się za pomocą głosu od ponad stulecia. Rozmowa telefoniczna, jaką znamy, ewoluowała od analogowej do cyfrowej, od stacjonarnej do mobilnej i od niskiej jakości mowy do naturalnej jakości mowy. Wciąż jednak brakowało jednego zasadniczego postępu: sposobu umożliwienia transmisji na żywo w pełni autentycznego, wciągającego dźwięku.

Wprowadzenie kodeka IVAS (Immersive Voice and Audio Services), ustandaryzowanego przez 3GPP w wydaniu 18 w czerwcu tego roku, stanowi znaczący postęp w technologii audio. W przeciwieństwie do tradycyjnych monofonicznych połączeń głosowych, IVAS umożliwia transmisję wciągającego, trójwymiarowego dźwięku, oferując bogatsze i bardziej realistyczne wrażenia komunikacyjne. Ta innowacja jest możliwa dzięki nowym formatom audio zoptymalizowanym pod kątem konwersacyjnego dźwięku przestrzennego. Jednym z takich przykładów jest nowy format dźwięku przestrzennego wspomaganego metadanymi, MASA, który wykorzystuje tylko dwa kanały audio i metadane do opisów dźwięku przestrzennego. Przestrzenne połączenia audio pozwalają użytkownikom doświadczyć dźwięku tak, jakby odbywał się w prawdziwym życiu, wraz z funkcjami takimi jak śledzenie głowy.

Poniżej przeanalizujemy wyzwania związane z wprowadzeniem połączeń telefonicznych na żywo 3D do telefonów komórkowych, wymagania stawiane komunikacji przestrzennej i nowemu kodekowi IVAS, a także wpływ, jaki dźwięk 3D na żywo na żywo będzie miał na zmianę gry na ludzi, operatorów komórkowych i smartfony biznesowe.

Kai Havukainena

Dyrektor ds. zarządzania produktami w Nokia Technologies.

Wprowadzenie połączeń 3D do telefonów komórkowych

Ostatnią dużą innowacją w połączeniach głosowych był wprowadzony w 2014 roku kodek EVS, uznawany przez konsumentów za HD Voice+. Chociaż znacznie poprawił jakość połączeń, podobnie jak wszystkie poprzednie kodeki, zapewniał jedynie monofoniczne wrażenia słuchowe.

Wraz z wprowadzeniem połączeń audio 3D – największego skoku w technologii połączeń głosowych od dziesięcioleci – pojawia się wyzwanie polegające na stworzeniu autentycznych, wciągających wrażeń w codziennej komunikacji. Chociaż technologia głosu znacznie ewoluowała – od analogowej do cyfrowej, stacjonarnej do mobilnej oraz od niskiej jakości do naturalnej jakości mowy – przesyłanie dźwięku przestrzennego, w którym dźwięki są odbierane jako naturalnie dochodzące ze wszystkich stron, jest znacznie trudniejsze do odtworzenia w środowiskach mobilnych.

Osiągnięcie tego poziomu wciągających wrażeń dźwiękowych było łatwiejsze w kontrolowanych warunkach, takich jak kina i gry wideogdzie projektowanie dźwięku jest kluczowym elementem, ale jego odtwarzanie podczas codziennych rozmów komórkowych wiąże się z szeregiem przeszkód technicznych, w tym przetwarzaniem dźwięku przestrzennego w czasie rzeczywistym, ograniczeniami sprzętowymi i zapewnianiem kompatybilności między urządzeniami.

Kodek głosowy Immersive Voice and Audio Services (IVAS) jest zatem najważniejszym krokiem naprzód w technologii dźwięku połączeń głosowych od dziesięcioleci.

Jak stawić czoła wyzwaniom związanym z komunikacją przestrzenną i je pokonać

Aby Immersive Voice stało się solidnym rozwiązaniem dźwięku przestrzennego, należało pokonać kilka wyzwań. Kluczową kwestią jest redukcja szumów, kluczowa dla poprawy przejrzystości mowy w miejscach takich jak koncerty lub przyroda. Tradycyjne metody redukcji hałasu często odfiltrowują jedynie dźwięki ciągłe, takie jak buczenie klimatyzacji lub hałas uliczny, ale często pozostawiają inny hałas w tle. Zakłócenia wiatru również stanowią wyzwanie, ponieważ wprowadzają niepożądany hałas i powodują wahania poziomów dźwięku.

Jednak ostatnie postępy w uczeniu maszynowym i inteligentnej redukcji szumów pozwoliły rozwiązać te problemy. Na przykład technologia immersyjnego dźwięku została zaprojektowana tak, aby inteligentnie regulować stopień redukcji szumów tła w zależności od otaczającego środowiska, a także zapewniać użytkownikom kontrolę, umożliwiając im ręczną regulację poziomów redukcji szumów. Zapewnia to transmisję najważniejszych dźwięków przy jednoczesnej minimalizacji niepożądanego szumu tła.

Wciągające konfiguracje audio z wieloma mikrofony i głośniki również napotykają poważną przeszkodę – echo akustyczne. Dzieje się tak, gdy mikrofony zbierają dźwięk z pobliskiego miejsca głośnikipowodując niechciane sprzężenie zwrotne. Problem staje się jeszcze większym wyzwaniem w konfiguracjach z dźwiękiem przestrzennym, gdzie rozmieszczenie i liczba głośników wpływa na jakość dźwięku i zdolność urządzenia do przechwytywania dźwięku przestrzennego. Tradycyjne metody eliminacji echa akustycznego (AEC) często nie sprawdzają się dobrze w tak złożonych środowiskach. Aby rozwiązać ten problem, stworzono rozwiązanie przestrzenne AEC oparte na uczeniu maszynowym, które usuwa dźwięk głośnika z wejścia mikrofonowego za pomocą sygnału referencyjnego. Poprawia to jakość dźwięku, szczególnie w przypadku dźwięku przestrzennego w aplikacjach głosowych działających w czasie rzeczywistym.

Przedstawiamy kodek IVAS

Aby zapewnić dźwięk przestrzenny w połączeniach telefonicznych, oprócz usług Over-the-Top (OTT), w ramach projektu partnerstwa trzeciej generacji (3GPP) przyjęto niedawno nowy standard kodeka głosowego. Opracowany poprzez współpraca z 13 firm standard kodeka IVAS został uwzględniony w wersji 18 firmy 3GPP, bazując na powszechnie używanym kodeku Enhanced Voice Services (EVS). Co ważne, kodek IVAS zachowuje pełną kompatybilność wsteczną, zapewniając płynną interoperacyjność z istniejącymi usługami głosowymi.

Jedną z kluczowych innowacji podczas standaryzacji IVAS było stworzenie nowego parametrycznego formatu audio, Metadata-Assisted Spatial Audio (MASA), zaprojektowanego specjalnie dla urządzeń o ograniczonych rozmiarach, takich jak smartfony. Kodek IVAS zawiera wbudowany moduł renderujący, który obsługuje binauralny dźwięk śledzony przez głowę i odtwarzanie z wieloma głośnikami w formacie MASA.

Dodatkowo wciągający pakiet SDK klienta głosowego może służyć jako interfejs IVAS, przechwytując dźwięk przestrzenny z mikrofonów urządzeń i konwertując go do znormalizowanego formatu MASA. Technologia ta umożliwia prawdziwie wciągające wrażenia dźwiękowe 3D podczas różnych typów połączeń głosowych.

Moc dźwięku 3D na żywo: co to oznacza dla ludzi, operatorów i firm

Nowy, wciągający dźwięk 3D rewolucjonizuje wrażenia dźwiękowe dla konsumentów, przedsiębiorstw i branż. Dla konsumentów pogłębia zaangażowanie w interakcje z przyjaciółmi i rodziną poprzez udostępnianie lokalnych dźwięków, zarówno transmitowanych na żywo, jak i nagrywanych, oraz zapewnia pełne zanurzenie w zsynchronizowanych doświadczeniach Metaverse. W przypadku przedsiębiorstw połączenia głosowe z dźwiękiem 3D otwierają nowe możliwości, począwszy od ulepszonych doświadczenie klienta poprzez kierunkowy dźwięk po transformację współpracy zespołowej i podejmowania decyzji. W warunkach przemysłowych analityka dźwięku może sterować zautomatyzowanymi procesami, takimi jak konserwacja predykcyjna, usprawnianie operacji i zwiększanie wydajności.

Aby umożliwić takie doświadczenia w zróżnicowanych warunkach sieciowych, dostawcy usług potrzebują skalowalnych rozwiązań, które optymalizują wydajność niezależnie od ograniczeń przepustowości. Standardowy kodek 3GPP IVAS obsługuje przepływność w zakresie od 13,2 do 512 kbit/s, zapewniając wciągającą jakość dźwięku niezależnie od tego, czy jest używany w przeciążonych sieciach, czy w środowiskach przesyłania strumieniowego wysokiej jakości. Ta skalowalność umożliwia dostawcom usług obsługę większej liczby użytkowników, zapewniając jednocześnie bogate wrażenia dźwiękowe.

Patrząc w przyszłość, oczekuje się, że zachowania użytkowników oparte na głosie będą nadal ewoluować. Poza tradycyjnymi połączeniami, przestrzenna komunikacja audio zostanie rozszerzona o półsynchroniczne przesyłanie wiadomości za pośrednictwem popularnych aplikacji, przesyłanie między sobą plików głosowych i szersze wykorzystanie połączeń grupowych. Wraz z rozwojem urządzeń i usług rozszerzonej rzeczywistości w różnych branżach, zakres komunikacji głosowej stanie się jeszcze szerszy, a jej cechą charakterystyczną będzie zanurzenie. Kluczowym czynnikiem tej ewolucji będzie standaryzacja i integracja kodeka IVAS z najnowszym zaawansowanym standardem 5G, co jest niezbędne do zapewnienia interoperacyjności niezbędnej do zapewnienia połączeń 3D na każdym telefonie za naciśnięciem jednego przycisku.

Oceniliśmy najlepsze systemy telefonów biznesowych.

Ten artykuł powstał w ramach kanału Expert Insights TechRadarPro, na którym przedstawiamy najlepsze i najbystrzejsze umysły dzisiejszej branży technologicznej. Poglądy wyrażone tutaj są poglądami autora i niekoniecznie są poglądami TechRadarPro lub Future plc. Jeśli jesteś zainteresowany współpracą, więcej informacji znajdziesz tutaj: https://www.techradar.com/news/submit-your-story-to-techradar-pro

źródło

Przyszłość komunikacji mobilnej: połączenie audio IVAS

LEAVE A REPLY Cancel reply

Najnowszy artykuł

Naukowcy włączają i wyłączają geny za pomocą zaprojektowanych przez sztuczną inteligencję...

Szef największej australijskiej grupy technologicznej notowanej na giełdzie odchodzi po doniesieniach...

W jakich stanach w Ameryce jest najwięcej zwycięzców loterii?

Reżyser „Venom 3” ujawnia, jak obsadzili tajemniczego nowego złoczyńcę

Allu Arjun ujawnia nową datę premiery swojego thrillera akcji, dzieli się...

Europejski sąd najwyższy nakazał firmie Intel zakończenie długotrwałego postępowania antymonopolowego

Kategoria