Vandaag las ik een nieuwsbericht van het Nationaal Archief, waarin ze aangeven een grote stap te hebben gemaakt met het automatisch transcriberen van handgeschreven teksten van archiefstukken. Hierbij worden de teksten automatisch omgezet in voor machines leesbare tekst. Eigenlijk is dit dus hetzelfde als iemand die een handgeschreven brief leest en vervolgens intypt in een tekstverwerker en deze zo digitaliseert.
In het nieuwsbericht staat, dat er slechts 6,15% van de karakters verkeerd werd herkend. Mijn verwachting is, dat dit in de toekomst veel lager kan liggen. Zeker wanneer er een soort woordenschat wordt opgebouwd en automatisch kan worden bepaald of een woord correct is, of dat er wellicht na een veel voorkomende verwisseling van letters alsnog een correct woord ontstaat.
Doordat dit transcriberen in het verleden door onderzoekers werd gedaan en nu door machines, ligt het tempo waarin teksten beschikbaar komen veel hoger. Dit zorgt vervolgens voor een nieuw probleem, waar het nieuwsbericht verder op in gaat. Onderzoekers krijgen nu zoveel informatie die nog niet is beoordeeld, ingedeeld of in een bepaalde context geplaatst. Kortom, het is nog niet goed te doorzoeken. Om ook dit te automatiseren zijn ze nu samen met de Rijksdienst voor Ondernemend Nederland (RVO) op zoek naar slimme oplossingen. Als voorbeeld wordt hier kunstmatige intelligentie genoemd.
Het artikel sluit overigens mooi aan op een eerder bericht op deze website over gezichtsherkenning. Ook hierbij is gebruik gemaakt van machine learning en kan ons als onderzoeker helpen om bepaalde dingen te automatiseren.