top of page

Sinds de verschijning van Careless Whisper (https://arxiv.org/abs/2402.08021) zijn er talloze artikelen verschenen op mediakanalen, maar ook op LinkedIn (zie dit bericht). In dit artikel wil ik graag delen wat Whisper is, waarom we problemen ondervinden met Whisper en hoe we hier bij Juvoly mee omgaan.


Wat is Whisper?

Whisper is een end-to-end spraakherkenningsmodel. De bron van Whisper wordt niet benoemd in de paper zelf, maar het is zeer waarschijnlijk dat het model getraind is op YouTube-data. Veel video's zijn daar ondertiteld door de makers zelf—zeer bruikbare trainingsdata dus! Echter, TV Gelderland is een van de grootste aanbieders van video's met ondertiteling op YouTube. Het komt daarom regelmatig voor dat Whisper aan het einde van een zin, zodra er stilte valt, de tekst "Ondertiteld door TV GELDERLAND 2021" produceert.


Whisper is beschikbaar in verschillende varianten, maar de meest gebruikte is de large versie met 1550 miljoen parameters—de helft voor de encoder en de andere helft voor de decoder. Er zijn drie versies van Whisper Large:


Whisper Large V1

  • Getraind op basis van de originele Whisper-dataset

  • Percentage foute woorden op Common Voice: 7,1%

  • Hallucineert het minst op audiodata


Whisper Large V2

  • Getraind op de Whisper-dataset met data-augmentatie

  • Percentage foute woorden op Common Voice: 5,8%

  • Hallucineert middelmatig vaak


Whisper Large V3

  • Getraind op YouTube-video's die door Whisper zelf zijn ondertiteld

  • Percentage foute woorden op Common Voice: 4,3%

  • Hallucineert aanzienlijk vaak


In de ongeveer 680.000 uur aan data die Whisper gebruikt voor training, is ongeveer 3.000 uur Nederlands. Whisper is tot op heden het meest accurate spraakherkenningsmodel voor de 100+ talen die het ondersteunt. Voor sommige Europese talen zijn er betere open-source alternatieven; Nederlands is hier (voorlopig) niet een van.


Whisper is getraind op segmenten van 30 seconden audio. Het model is dus niet bedoeld voor real-time inzet, wat een grote beperking is.


Waarom hallucineert Whisper?

De manier waarop Whisper is getraind is uniek, althans voor de schaal waarop het is gedaan. Whisper is namelijk getraind met weakly supervised data. De makers hebben data verzameld van verschillende online bronnen zonder te controleren of de audio en de ondertiteling daadwerkelijk overeenkomen met wat er is uitgesproken. Zoals eerder aangegeven, is het niet ongewoon dat Whisper "TV GELDERLAND 2021" als output genereert.


Een groot probleem van deze methode is dat ondertiteling vaak niet één-op-één overeenkomt met de uitgesproken woorden, vooral bij mensen die de taal nog niet volledig beheersen. Neem bijvoorbeeld de volgende zin, uitgesproken door iemand die Nederlands aan het leren is:

"Ik ben geprikt door de bij"

Deze zal zeer waarschijnlijk worden ondertiteld als:

"Ik ben door een bij geprikt"

Whisper heeft dus moeite om akoestiek (het geluid) te scheiden van de tekst (de ondertiteling). In de 680.000 uur aan data van Whisper is het aannemelijk dat dit soort discrepanties voorkomen.

Omdat Whisper een end-to-end model is, hebben we geen controle over de akoestiek en de tekst. Als we Whisper simpelweg ruis als input geven, kan de decoder (het taalmodel van Whisper) verrassend goed dingen verzinnen.


Wat doen we bij Juvoly?

Bij Juvoly kwamen we al vroeg achter het probleem van Whisper. Toen we in 2023 Whisper aan het uitproberen waren om consulten tussen arts en patiënt samen te vatten in een huisartspraktijk in Rotterdam-Zuid, kwamen hallucinaties geregeld voor in de geproduceerde transcripties—aanzienlijk vaker dan in testgesprekken tussen twee personen op kantoor. Ook werden medicijnnamen vaak verkeerd herkend. Voorbeelden zijn "1 april" (bedoeld werd enalapril) en "C3zine" (bedoeld werd cetirizine).

Niet alleen was Whisper ongeschikt voor de consulten, maar het verbruikte ook aanzienlijk veel stroom vanwege de grootte van het model. Bovendien is Whisper niet geschikt voor real-time transcriptie, iets wat onze gebruikers nodig hebben om relevante bronnen op te zoeken voor de arts of patiënt, of om in de toekomst vertalingen aan te bieden.

Al snel begonnen we met het bouwen van onze eigen spraakherkenningsmodellen. In samenwerking met taalscholen hebben we data verzameld om inzicht te krijgen in hoe mensen de Nederlandse taal spreken wanneer het niet hun moedertaal is. Op deze manier hebben we uiteindelijk ons Kolibri-model ontwikkeld:


Kolibri (Nederlands model)

  • Gebaseerd op de Juvoly-dataset

  • Percentage foute woorden op Common Voice: 3,7%

  • Hallucinaties geminimaliseerd


Ons model heeft een maximale latency van 1 seconde en heeft ook maar maximaal 1 seconde nodig voor verwerking. Daarnaast zijn onze modellen aanzienlijk kleiner; per jaar audio stoten we evenveel COâ‚‚ uit als twee kilometer rijden met de auto.


Binnenkort andere talen

We willen niet alleen Nederlands aanbieden; zo willen we alle Europese stemmen gehoord laten worden in de consult kamers van Europa. Zo zijn we nu hard bezig om nieuwe talen te introduceren. Een daarvan is bijvoorbeeld de Friese taal!


Geïnteresseerd? Meer weten?

Onze modellen zijn beschikbaar via een API en zijn goed gedocumenteerd: https://documentation.juvoly.nl/. Voor het gebruik is een API-key nodig. Stuur daarvoor een mailtje naar thomas@juvoly.nl.


Wij zijn genomineerd door de kamer van koophandel voor de innovatieprijs 2024. Deze prijs erkent de meest innovatieve bedrijven van Nederland. Het is een mooie beloning voor onze inzet om de administratiedruk in de zorg tegen te gaan en de zorg leuker te maken.


Wil je meer weten over onze nominatie? Bezoek de officiële KVK-pagina hier.

Bedankt voor jullie vertrouwen en steun.

Afgelopen maand hebben wij een eerste afspraak gehad bij een taalschool om huisartsgesprekken na te spelen en op te nemen. Dit is als doel om de medisch Nederlandse AI spraakherkenning te verbeteren. 


Projectleider Anouk Mul en geneeskundestudent William Miedema waren op bezoek bij taalschool Taaltent & Organisatie in Spijkenisse. 



Eerst hebben we het met de cursisten gehad over de huisarts in Nederland: wat doet de huisarts, waarin verschilt de werkwijze met de huisarts uit het land van herkomst, en hoe kun je een gesprek bij de huisarts goed voorbereiden? Ook was er ruimte voor persoonlijke vragen aan de arts in opleiding. 



Daarna volgde het naspelen van een ‘echt’ gesprek bij de huisarts. Een gezellige diverse groep cursisten die een leuke (en nuttige) middag hebben gehad, en voor ons weer een goede stap in de richting van een inclusieve applicatie die iedereen in Nederland goed kan verstaan! 



Bedankt voor de warme ontvangst Taaltent & Organisatie en wellicht tot snel!






2

Wil je samenwerken of heb je een vraag over Juvoly? Neem contact met ons op.

NEN 7510
ISO 27001

Juvoly is ISO 27001 en NEN 7510 gecertificeerd.

Contactgegevens

Langegracht 70

2312NV Leiden

Nederland

​

Email: info@juvoly.nl

Telefoon: 071 22 030 44​​

Bedrijfsgegevens

Juvoly B.V.

NL19BUNQ2092649787

KVK: 90493133

© 2024 Juvoly B.V.

bottom of page