OpenAI ogłasza nową technologię klonowania głosu z 15-sekundowego nagrania audio
OpenAI wprowadziło nowe innowacyjne narzędzie o nazwie Voice Engine, które może sklonować głos dowolnej osoby z 15-sekundowej próbki audio.
Voice Engine analizuje krótki sygnał audio i tworzy naturalnie brzmiącą mowę z “emocjonalnymi i realistycznymi głosami”. Ta innowacyjna technologia, oparta na istniejącym API syntezy mowy OpenAI, może być przydatna do różnych celów: audiobooków, tłumaczeń językowych i pomocy osobom z zaburzeniami mowy.
OpenAI zdaje sobie sprawę z poważnego ryzyka związanego z korzystaniem z tej technologii, w tym z możliwości jej niewłaściwego wykorzystania przez osoby pozbawione skrupułów. W związku z tym firma aktywnie pracuje nad zapewnieniem prywatności i bezpieczeństwa oraz wdrożyła szereg środków, takich jak znak wodny i proaktywne monitorowanie wykorzystania systemu.
Zgodnie z zapowiedzią, Voice Engine pozostaje na etapie wstępnym, ale firma przeprowadziła już udane programy pilotażowe, które pokazują potencjał Voice Engine. Podgląd odbył się na Uniwersytecie Browna, gdzie funkcja została wykorzystana do pomocy pacjentom z zaburzeniami mowy.
Według OpenAI, ich silnik głosowy zostanie wdrożony podczas zbierania opinii od partnerów i przestrzegania polityki, która zabrania używania sklonowanych głosów bez zgody osoby. Ponadto planowane jest utworzenie “listy zabronionych głosów” w celu uniknięcia nadużyć.
Szacowany koszt korzystania z Voice Engine wynosi około 15 USD za milion znaków, czyli około 162 500 słów.