Microsoft introduceert HD-stemmen met verbeterde expressiviteit in Azure AI Speech

2024/09/30

Vorig jaar onthulde Microsoft superrealistische AI-stemmen die zijn ontworpen voor conversationele toepassingen, zoals chatbots, spraakassistenten, gaming en meer. Met de Azure Speech SDK of REST API konden ontwikkelaars deze neurale tekst-naar-spraak (TTS)-stemmen integreren in hun toepassingen. De afgelopen maanden heeft Microsoft zijn aanbod aanzienlijk uitgebreid en biedt het nu meer dan 500 neurale stemmen in meer dan 140 talen en landinstellingen.

Vandaag introduceerde Microsoft een verbeterde HD-versie van zijn neurale tekst-naar-spraakservice voor geselecteerde stemmen. Deze nieuwe HD-stemmen verbeteren de algehele expressiviteit door emotiedetectie die rekening houdt met de context van de invoertekst. Microsoft beweert dat deze nieuwste HD-stemmen gebruikmaken van autoregressieve transformertaalmodellen, waardoor spraak wordt geproduceerd die aansluit bij het stemtimbre van het geselecteerde platform. De voordelen van de nieuwe HD-stemmen zijn onder andere:

Menselijke spraakgeneratie : het verbeterde model interpreteert invoertekst nauwkeurig en begrijpt het onderliggende sentiment, waardoor de spreektoon in realtime kan worden aangepast aan de overgebrachte emotie.
Conversationeel : Dit nieuwe model genereert spontane pauzes en nadruk. Microsoft benadrukt dat het veelvoorkomende fonemen zoals pauzes en stopwoorden kan repliceren.
Prosodievariaties : Het HD-spraaksysteem introduceert kleine variaties in elke uitvoer, wat het realisme verbetert door ervoor te zorgen dat elke zin anders klinkt dan eerder gegenereerde spraak.

Garfield He, programmamanager Cognitive Services Speech bij Microsoft, gaf het volgende commentaar op de lancering van HD Voice:

“Met innovatieve technologie die akoestische en linguïstische kenmerken gebruikt om spraak te genereren die wordt gekenmerkt door rijke, natuurlijke variaties, detecteert het vakkundig emotionele signalen in de tekst en past het autonoom de toon en stijl van de stem aan. Deze upgrade levert een menselijker spraakpatroon op, gekenmerkt door verbeterde intonatie, ritme en emotie.”

In de onderstaande video vindt u voorbeeldaudio-inhoud die met dit HD-spraakmodel is gegenereerd.

https://www.youtube.com/watch?v=UCYok4I4a24

PodCast content creation with Azure neural HD voices and GPT (Andrew & Emma) (https://www.youtube.com/watch?v=UCYok4I4a24)

De nieuwe HD-stemmen zijn momenteel in preview voor ontwikkelaars in drie regio’s: Oost-VS, West-Europa en Zuidoost-Azië. De kosten voor het gebruik van deze HD-stemmen zijn vastgesteld op $ 30 per 1 miljoen tekens.

Bron: Microsoft

Bron

Geef een reactie Reactie annuleren