Dołącz do naszych codziennych i cotygodniowych biuletynów, aby otrzymywać najnowsze aktualizacje i ekskluzywne treści na temat wiodącego w branży zakresu sztucznej inteligencji. dowiedz się więcej


hume aiStartup specjalizujący się w emocjonalnie inteligentnych interfejsach głosowych, uruchomił sterowanie głosoweEksperymentalna funkcja, która umożliwia programistom i użytkownikom tworzenie niestandardowych głosów AI poprzez precyzyjną modulację charakterystyki głosu – nie jest wymagane żadne kodowanie, szybkie inżynieria AI ani umiejętności projektowania dźwięku.

To wydanie opiera się na fundamentach wcześniejszego oprogramowania Empathic Voice Interface 2 (EVI 2), które wprowadziło zaawansowane możliwości w zakresie naturalności, reakcji emocjonalnych i dostosowywania.

Chociaż zarówno Evi2, jak i Voice Control pozwalają uniknąć ryzyka klonowania głosu, Cowen stwierdził, że praktyka ta stwarza wyzwania etyczne i praktyczne.

Zamiast tego Hume koncentruje się na dostarczaniu narzędzi do tworzenia unikalnych, wyrazistych głosów dostosowanych do potrzeb użytkownika, takich jak chatboty obsługi klienta, asystenci cyfrowi, korepetytorzy, przewodnicy lub funkcje ułatwień dostępu.

Wyjście poza predefiniowane głosy AI na rzecz niestandardowych, szytych na miarę rozwiązań

Sterowanie głosem zapewnia programistom możliwość dostosowania głosu w 10 różnych wymiarach, w tym:

„męski kobiecy: Asertywność płci, pomiędzy bardziej męskim i bardziej kobiecym.

szczerość: Stanowczość głosu, pomiędzy nieśmiałością a śmiałością.

odbić się: Gęstość głosu, pośrednia pomiędzy pełnym i głębokim.

Pewność siebie: Pewność głosu, coś pomiędzy nieśmiałością a pewnością siebie.

Podniecenie: Pośród entuzjazmu, spokoju i podniecenia w głosie.

nos: otwartość głosu, pomiędzy czystym a nosowym.

Odpoczynek: napięcie w głosie, pomiędzy napiętym i zrelaksowanym.

smarowanie: Tekstura głosu waha się od gładkiej do stabilnej.

ostrość: Żywotność dźwięku, pomiędzy cichym i głośnym.

szczelność: Wstrzemięźliwość głosu, pomiędzy napiętym i oddychającym.

To narzędzie niewymagające kodu umożliwia użytkownikom dostrajanie charakterystyki dźwięku w czasie rzeczywistym za pomocą wirtualnych suwaków ekranowych. Jest obecnie dostępny na wirtualnym placu zabaw Hume’a, wymagając Bezpłatna rejestracja użytkownika w celu uzyskania dostępu,

To wydanie rozwiązuje główny problem branży sztucznej inteligencji: poleganie na gotowych głosach, które często nie spełniają konkretnych potrzeb marek lub aplikacji, lub ryzyko związane z klonowaniem głosu.

To skupienie się na dostosowywaniu jest zgodne z szerszym celem Hume’a, jakim jest rozwój sztucznej inteligencji głosowej opartej na emocjonalnych niuansach.

Wysiłki firmy na rzecz rozwoju sztucznej inteligencji głosowej zostały podkreślone wraz z wprowadzeniem na rynek we wrześniu 2024 r. modelu Evi 2, który firma określiła jako znaczące ulepszenie w stosunku do swojego poprzednika.

EVI 2 poprawił opóźnienia o 40%, obniżył koszty o 30% i rozszerzył funkcje modulacji głosu, zapewniając programistom bezpieczniejszą alternatywę dla klonowania głosu.

Suwak > Wskazówka tekstowa

Podejście Hume oparte na badaniach odgrywa kluczową rolę w rozwoju produktów. Firma, której współzałożycielem jest były Google DeepMinder Alan Cowen, wykorzystuje zastrzeżony model oparty na międzykulturowych nagraniach głosowych w połączeniu z danymi z ankiet dotyczących emocji.

Ta metodologia, zakorzeniona w nauce o emocjach, stanowi podstawę zarówno EVI 2, jak i nowo wprowadzonej funkcji Sterowanie głosowe.

Sterowanie głosowe rozszerza te zasady, uwzględniając zróżnicowane, często nieskuteczne sposoby, w jakie ludzie rozumieją głosy.

Interfejs narzędzia oparty na suwakach rejestruje typowe właściwości percepcyjne głosu, takie jak głośność czy artykulację, bez prób nadmiernego upraszczania tych cech za pomocą podpowiedzi tekstowych.

Sterowanie głosowe jest dostępne od razu w wersji beta i integruje się z empatycznym interfejsem głosowym Hume (EVI), dzięki czemu jest dostępne dla szerokiej gamy aplikacji.

Programiści mogą wybrać głos podstawowy, dostosować jego charakterystykę i wyświetlić podgląd wyników w czasie rzeczywistym. Proces ten zapewnia powtarzalność i spójność między sesjami, co jest kluczowym elementem aplikacji działających w czasie rzeczywistym, takich jak boty obsługi klienta czy wirtualni asystenci.

Wpływ Evi 2 jest widoczny w możliwościach sterowania głosowego. We wcześniejszych modelach wprowadzono takie funkcje, jak podpowiedzi w trakcie rozmowy i obsługa wielu języków, co poszerzyło zakres aplikacji głosowych AI.

Na przykład EVI 2 zapewnia czas reakcji poniżej sekundy, umożliwiając naturalne i natychmiastowe rozmowy. Umożliwia także dynamiczne dostosowywanie stylu mówienia podczas rozmów, co czyni go wszechstronnym narzędziem dla firm.

Wyróżnij się na konkurencyjnym rynku

Koncentracja Hume’a na optymalizacji głosu i inteligencji emocjonalnej stawia go na silnego konkurenta w dziedzinie sztucznej inteligencji głosowej, nawet w porównaniu z dobrze finansowanymi rywalami, takimi jak OpenAI z zaawansowanymi trybami głosowymi i ElevenLabs, które zapewniają bibliotekę predefiniowanych głosów.

Hume nadal pracuje nad innowacyjnym podejściem do głosowej sztucznej inteligencji. Plany rozszerzenia funkcji Sterowanie głosowe obejmują wprowadzenie dodatkowych zmiennych wymiarów, udoskonalenie jakości głosu w przypadku ekstremalnych ustawień oraz zwiększenie zakresu dostępnych głosów podstawowych.

Wraz z wprowadzeniem funkcji Voice Control firma Hume umacnia swoją pozycję lidera w dziedzinie innowacji głosowych w zakresie sztucznej inteligencji, oferując narzędzia, które traktują priorytetowo personalizację, inteligencję emocjonalną i możliwość adaptacji w czasie rzeczywistym. Programiści mogą już dziś uzyskać dostęp do sterowania głosowego za pośrednictwem platformy Hume, co stanowi kolejny krok naprzód w ewolucji rozwiązań głosowych opartych na sztucznej inteligencji.


Source link