Wij gebruiken cookies om jou de best mogelijke ervaring te bieden op onze website. Wij gaan er van uit dat je akkoord gaat met de cookies wanneer je onze site blijft gebruiken. Privacybeleid
Zet automatisch je video en audio om naar tekst met onze hoogwaardige AI modellen.
Laat onze transcribenten je tekst perfectioneren.
Vertaalde ondertitels van ongevenaarde kwaliteit.
Voeg onze spraak-naar-tekst API toe aan je tech-stack en/of vraag een op maat gemaakt model aan.
Ondertiteling en transcripties voor media en omroepen.
Ondertitels & Transcriptie voor onderwijsinstellingen.
Ondertitels & Transcriptie voor overheden.
Ondertiteling en transcripties voor de gezondheidszorg.
Alles wat je moet weten over transcriptie en ondertiteling.
Neem contact met ons op bij vragen.
Lees hoe Amberscript klanten helpt hun zakelijke doelen te bereiken.
Vind het antwoord op al je vragen over Amberscript.
Wij maken audio toegankelijk.
“In de komende 10 jaar zullen we niet alleen een muis en toetsenbord gebruiken, maar zal spraakherkenningstechnologie dusdanig geperfectioneerd worden dat het een standaard onderdeel van elke interface is” (Bill Gates, 1997)
Alhoewel Bill Gates er iets naast zat qua timing, is zijn voorspelling wel uitgekomen. Met de ontwikkeling van producten als Alexa, Cortana, Siri en Google Assistant gebruikt men al voor een groot deel spraakherkenning in plaats van uittypen om opdrachten te geven aan digitale apparatuur.
Recente ontwikkelingen op het gebied van spraakherkenning helpen niet alleen het leven makkelijker te maken en de workflow productiever, maar het biedt ook nieuwe kansen; kansen die vroeger misschien onmogelijk leken.
Spraak-naar-tekst software heeft verschillende toepassingen en het worden er jaarlijks steeds meer. Gezondheidszorg, betere klantenservice, kwalitatief onderzoek, journalistiek – dit zijn maar enkele voorbeelden van industrieën waarbij spraak-naar-tekst software een groot verschil heeft gemaakt.
Professionals in verschillende vakgebieden hebben transcripten van hoge kwaliteit nodig om al hun werktaken te kunnen volbrengen. De technologie die spraakherkenning ondersteunt ontwikkelt zich snel en maakt het steeds sneller, goedkoper en gemakkelijker om automatisch te transcriberen vergeleken met handmatige transcriptie.
Waarom is automatische spraakherkenning opeens zo populair in Europa? Het antwoord is simpel – digitale toegankelijkheid. Zoals aangegeven in de EU Richtlijnen 2016/2102, moeten overheden maatregelen treffen om te zorgen dat iedereen gelijke toegang heeft tot informatie. Podcasts, video’s en audio opnames moeten worden aangeboden met captions of als transcript, zodat mensen met hoorproblemen deze informatie ook kunnen opnemen.
De kern van automatische transcriptie is het automatische spraakherkenningssysteem. Kort gezegd, deze systemen bestaan uit akoestische en taalkundige componenten die op een of meerdere computers runnen.
Het akoestische component is verantwoordelijk voor het omzetten van de audio in jouw bestand naar een serie van akoestische eenheden – hele kleine geluidsvoorbeelden. Heb je wel eens een geluidsgolf gezien? Dat is analoog geluid, ofwel: de trillingen die ontstaan als je geluid maakt. Deze trillingen worden omgezet naar digitale signalen die de software kan analyseren. De akoestische eenheden worden dan gekoppeld aan bestaande “phonemen” – de geluiden die voorkomen in onze taal waarmee we daadwerkelijk worden en uitspraken vormen.
Daarna is het taalkundige component verantwoordelijk voor het omzetten van deze serie akoestische eenheden naar woorden, zinnen en alinea’s. Er zijn natuurlijk veel woorden die hetzelfde klinken maar niet hetzelfde betekenen, zoals: “zei” en “zij”.
Het taalkundige component analyseert alle voorgaande woorden en hoe deze in verhouding tot elkaar staan, om een schatting te maken van welk woord er moet volgen. Kenners noemen dit “Hidden Markov Models” – deze worden veel gebruikt in spraakherkenningssoftware. Dat is de manier waarop spraakherkenningsengines verschillende delen van spraak en woordeinde’s kunnen vaststellen. (Met gevarieerd succes)
Een voorbeeld: “Jij hebt geen cola” – zelfs al zou de “t” aan het einde van het woord “hebt” amper worden uitgesproken, dan kan het taalkundige component nog altijd vastellen dat na “jij” het woord “hebt” moet komen en niet “heb”.
Het is ook makkelijk zelf uit te proberen met een spraakherkenningsapplicatie, omdat ze allemaal door middel van taalkundige modellen werken. Bij Google Assistant bijvoorbeeld, kan je een woord met spraak “uittypen” en daarna een zin met dat woord geven, waardoor de transcriptie waarschijnlijk volledig accuraat zal zijn.
Voordat je een automatische transcriptie service kan gebruiken moeten beide componenten “getraind” worden om een bepaalde taal goed te kunnen verstaan. Zowel het akoestische component van de audio (de manier waarop dingen worden uitgesproken en zijn opgenomen) als het taalkundige component (wat er wordt gezegd) zijn cruciaal voor de uiteindelijke nauwkeurigheid van de transcriptie.
Bij Amberscript zijn wij voortdurend bezig met het verbeteren van de akoestische en taalkundige componenten om onze spraakherkenningsengine te perfectioneren.
Het spreker-afhankelijk-model wordt door één bepaalde stem getraind. Een voorbeeld hiervan is de spraak-naar-tekst oplossing “Dragon”. Je kan ook Siri, Google Assistant en Cortana trainen om enkel jouw stem te herkennen. (In andere woorden, je traint de stem-assistent dan om spreker-afhankelijk te worden)
Spreker-afhankelijke modellen zijn vaak meer accuraat, maar het kost meer tijd om dit model te trainen. Daarnaast is dit model dus niet flexibel en is niet in verschillende settingen toepasbaar, bijvoorbeeld bij conferenties niet.
Je kunt het vast al raden – spreker-onafhankelijke modellen kunnen verschillende stemmen herkennen zonder enige training. Dit model gebruiken we momenteel bij Amberscript.
Klik hier om gratis te transcriberen.
Nee! Er zijn veel verschillende spraakherkenningstools die dezelfde doeleinden dienen. Sommige tools zijn ontworpen voor simpele, herhalende opdrachten en sommige zijn veel meer gevorderd. Laten we kijken naar de verschillende niveaus van spraakherkenning.
1) Heb je wel eens een bedrijf gebeld waarbij je aan de andere kant van de lijn enkel een robot-stem hoorde die vraagt of je je nummer wilt achterlaten? Dat is de meest simpele tool op het gebied van spraakherkenning, die werkt met behulp van patroon-matching. De woordenschat van deze tool is erg gelimiteerd, maar kan wel jouw telefoonnummer verstaan en opslaan.
2) Het volgende niveau van spraakherkenning benodigt analyse van statistieken en verschillende modellen zoals de “Hidden Markov Models”.
3) Het ultieme niveau van spraakherkenning is gebaseerd op kunstmatige neurale netwerken – oftewel, de engine kan dingen aanleren en zichzelf verbeteren. Google’s, Microsoft’s en onze eigen engine kunnen automatisch leren.
Alhoewel spraakherkenning technologie over het afgelopen decennium zich snel heeft ontwikkeld, zijn er nog een aantal uitdagingen op het gebied van spraak-naar-tekst software. Momenteel zijn er nog de volgende beperkingen als het op spraak-naar-tekst software aankomt:
– Opname-omstandigheden. De prestatie van zowel handmatige als automatische transcriptie is voornamelijk afhankelijk van de kwaliteit van de opname. Spraakherkenningssoftware is nog steeds niet bestendig tegen rumoer op de achtergrond of mensen die tegelijkertijd praten.
Wil je de kwaliteit van jouw opname en daarmee ook jouw automatische transcriptie verbeteren? Klik dan hier!
– Het herkennen van bepaalde dialecten en accenten. Taal is een gecompliceerd concept, en iedereen spreekt het net even anders. Verschillende dialecten en accenten maken het lastig voor het model om alles aan te leren. Dit is wel te overkomen door middel van het verzamelen van veel verschillende data.
– Hononiemen verstaan. Hononiemen zijn woorden die hetzelfde klinken, maar anders gespeld worden en soms zelfs een andere betekenis hebben. Bijvoorbeeld de woorden “zei” en “zij”. De juiste keuze maken kan alleen wanneer je de context begrijpt. Alhoewel moderne spraak-naar-text engines ondersteund worden door AI, is het nog altijd lastig voor machines om unieke context te begrijpen.
Onze engine is geschat tot wel 95% accuraat te zijn – iets wat nog niet bestond op de Nederlandse markt. We delen daarom graag waar deze unieke prestatie aan te danken is:
Laten we het hebben over de volgende grote stap voor de gehele industrie: Natural Language Understanding (NLU). Dit is een tak van kunstmatige intelligentie dat zich bezig houdt met de manier waarop machines de menselijke taal kunnen begrijpen en interpreteren. NLU zorgt ervoor dat spraakherkenningstechnologie niet enkel de taal kan transcriberen, maar dat de machine ook daadwerkelijk weet wat de informatie betekent. Kort gezegd, NLU algoritmes toevoegen aan een spraak-naar-tekst converter, is eigenlijk het toevoegen van een brein aan de software.
NLU moet de oplossing worden voor de grootste uitdaging op het gebied van spraakherkenning: begrijpen en verwerken van unieke context.
Er zijn vele disciplines waarbij NLU (als onderdeel van Natural Language Processing, NLP) al een grote rol speelt. Wat voorbeelden:
We zijn momenteel NLU algoritmes in onze systemen aan het integreren, zodat onze spraakherkenningssoftware nog slimmer en nog meer toepasbaar wordt in verschiilende situaties.
We hopen dat je nu wat meer op de hoogte bent van wat er allemaal speelt op het geweldige gebied van spraakherkenning. Voor nog meer leuke en interessante informatie, lees ook onze andere blogposts!
Er worden verschillende technieken voor sprekers- en tijdherkenning gebruikt, onze standaardoplossingen zijn onder andere x-vector diarization of 2-kanaals diarization.
Nee, bij de integratie met onze software kan jouw platform worden ondersteund door de AI-engine van Amberscript.
Onze spraakherkenningssoftware kan tot 99% nauwkeurige transcripties leveren. Om de nauwkeurigheid te verhogen, kan je een aangepaste engine aanvragen, die specifieke termen, accenten of woordenschat bevat. Voor meer informatie kan je hier contact met ons opnemen.
Ja, onze software kan bestanden transcriberen met meerdere sprekers en deze van elkaar onderscheiden. Verschillende sprekers worden weergegeven als “Spreker 1”, “Spreker 2”, enz. Je kan de naam van de sprekers in de online editor wijzigen om de geautomatiseerde aanduidingen te verbeteren.