Juvoly Spraak API
Sinds de start van Juvoly werken we intensief aan de ontwikkeling van onze eigen spraakmodellen. We zijn dan ook verheugd om ons nieuwste model te presenteren. Dit model is niet alleen sneller en duurzamer, maar ook aanzienlijk nauwkeuriger.
​
Waarom een eigen spraakmodel?
Sinds de introductie van Whisper (gemaakt door OpenAI) en de daaropvolgende modellen Whisper V2 en Whisper V3 hebben we een ongekende nauwkeurigheid gezien in Nederlandstalige audiotranscriptie. Whisper presteert niet alleen uitmuntend op evaluatiedatasets bedoeld om een spraakherkenningssysteem te testen op nauwkeurigheid (Common Voice, Fleurs en Vox Populi), maar is ook ongekend goed in Long-Form transcriptie (audiosegmenten langer dan 1 minuut). Een groot probleem van evaluatiedatasets is echter dat de audiolengte varieert tussen de 4 tot 7 seconden. Dit is veel korter dan de gesprekken die huisartsen tijdens hun consult voeren, waardoor evaluatiedatasets minder geschikt zijn om audiomodelen te testen die bedoeld zijn voor lange gesprekken.
20%
Nauwkeuriger
40x
keer sneller
10x
keer duurzamer
Dan OpenAI's Whisper
* Whisper V3 is te instabiel voor gebruik
** Fleurs bevat vooral buitenlandse termen zoals “Yosemite Falls” en is eigenlijk bedoeld voor multi-taal systemen, geïncludeerd om te laten zien dat Whisper hier uitzonderlijk goed in is.
​
De percentages die hier worden weergegeven staat voor WER, oftewel de "Woordenfoutverhouding". WER meet hoeveel fouten er in een transcript zitten vergeleken met het totale aantal uitgesproken woorden. Hoe lager de WER, hoe beter een spraak-naar-tekst systeem je woorden herkent.
Per seconde audio heeft ons model nog maar 1 tot 10 milliseconden nodig om audio te transcriberen. We kunnen het rapport dus bijna instantaan opbouwen terwijl het gesprek tussen patiënt en dokter gaande is. Ook kunnen we nu met 1 GPU ongeveer 100 huisartsen van real-time gesprekken voorzien. In plaats van 11 kWh hebben we nu nog maar 350 Wh nodig.