Ga naar hoofdinhoud

Software analyseert kennis op Wikipedia

Informatici van de TU Darmstadt hebben een softwarepakket ontwikkeld, waarmee een computer gebruik kan maken van kennis in online programma’s als Wikipedia of Wiktionary. Deze software brengt niet alleen de droom van de realisering van het automatisch spraakbegrip dichterbij maar herbergt daarbij ook een niet te onderschatten potentie voor bijvoorbeeld woordenboeken.

Tot nog toe kon computers slechts in bescheiden omvang spraakherkenning en intelligent gebruik worden toegekend met behulp van zogenaamde ’op regels gebaseerde systemen’ bijvoorbeeld bekend van telefonische informatie of de helpfuncties in software. Deze systemen hebben meestal een zeer complexe opbouw, zijn door experts moeizaam samengesteld en geoptimaliseerd terwijl de resultaten voor de gebruiker vaak onbevredigend zijn.

Kunstmatige intelligentie

Informatici dromen al vanaf de geboorte van de kunstmatige intelligentie in de zestiger jaren van zelfstandige spraakvaardigheden van de computer en misschien zelfs wel van de ontwikkeling van een soort intelligentie. Centraal stond het idee dat een computer een berg bibliotheekboeken kon lezen en zo over een onschatbare hoeveelheid nuttige kennis kon beschikken.

Deze droom was echter niet in werkelijkheid om te zetten. Ten eerste ontbrak het aan de nodige rekencapaciteit. Ten tweede was niet eenduidig hoe het leerproces precies kon worden geïmplementeerd. Bovendien was gebrek aan geschikte digitale bestanden.

Op dit moment bevindt het onderzoek zich in een duidelijk betere uitgangspositie. De rekencapaciteit van moderne computersystemen is gigantisch en het succes bij de ontwikkeling van efficiënte statistische leerprocessen, zoals bijvoorbeeld gebruikt bij het zoeken naar informatie met Google, heeft oplossingen paraat voor veel implementatievragen. Maar hoe zit het met de digitale bestanden?

Wikipedia en Wiktionary

Online encyclopedieën als Wikipedia en het daarbij behorend woordenboek Wiktionary zijn zeer geliefd bij internetbezoekers. Deze ‘van gebruikers voor gebruiker’ programma’s hebben in korte mogelijke tijd een indrukwekkende grootte en kwaliteit bereikt. Ze zijn op diverse punten al vaak beter dan de klassieke naslagwerken.

Computers kunnen echter niet gemakkelijk gebruik maken van de online- programma’s. Ze zijn per slot van rekening gemaakt voor mensen en niet voor computers. Wetenschappers van het UKP Labs van de informaticafaculteit aan de TU Darmstadt hebben speciale software ontwikkeld die de menselijke kennis in Wikipedia en Wiktionary voor computerprogramma’s analyseert, opschoont en bewerkt.

Voor Wikipedia bestaat inmiddels een aantal verschillende toegangsmogelijkheden, de software voor Wiktionary (Nederlandse versie: WikiWoordenboek) is volledig nieuw. Deze vormt het online programma om in een voor computer bruikbaar multi-linguïstisch netwerk, dat woorden uit verschillende talen aan elkaar knoopt en bovendien extra informatie onder de drukknop klaarzet. De mogelijkheid om van de wetenschap van het internet te profiteren met behulp van deze software kan bij de productie van de gebruikelijke woordenboeken een revolutie betekenen voor uitgevers. Niet alleen kostenbesparing, ook de veel grotere actualiteit en themabreedte zijn belangrijke factoren in de kennismaatschappij.

Beschikbaarheid van de software

De informatici bij de TU Darmstadt stellen de resultaten van hun werk wereldwijd beschikbaar voor onderzoekers. Zowel de analysesoftware voor zowel Wikipedia als Wiktionary is vrij beschikbaar voor niet commerciële onderzoeksdoelen. De onderzoekers vinden het aan de ene kant belangrijk het academisch onderzoek in het vakgebied spraakbegrip te bevorderen en synergie effecten te creëren. Aan de andere kant willen ze de TU Darmstadt wereldwijd profileren op het gebied van semantische spraakverwerking.

De software van Darmstadt voor Wikipedia is beschikbaar voor alle talen waarvoor specifieke edities zijn. Voor Wiktionary zijn de wetenschappers begonnen met de Engelse en Duitse taalversie. Het grote voordeel van de online programma’s is namelijk de koppeling tussen de Wikipedia-artikelen en de Wiktionary-data waarbij de specifieke spraakedities zodanig worden gebruikt dat automatisch vertalen mogelijk is. Een programma voor het zoeken naar informatie in een bepaalde taal, terwijl de omvang van het online programma nog gering is, kan zo profiteren van de kennis van Engelstalige Wikepedia-gemeenschap die veel groter is. Op deze manier kan de software van het UKP Lab een veelvoud aan beschikbare kennis bruikbaar maken.

De onderzoekers zijn ervan overtuigd, dat de software van kennisverzameling voor een kwalitatieve sprong zal zorgen op het gebied van automatische spraakherkenning. Ze hebben de automatisch verworven kennis gedeeltelijk ingezet bij eigen experimenten voor het zoeken naar informatie, de herkenning van meningen in vrije teksten en de beantwoording van vragen in de eigen taal en ze hebben overtuigende verbeteringen vastgesteld. Nadat ze de basismechanismen voor de kennisverzameling hebben gerealiseerd, zullen zich richten op het uitbouwen en beoordelen van de potenties bij het lopende onderzoek en transferprojecten bij UKP Labs.

x
Mis niet langer het laatste nieuws

Schrijf u nu in voor onze nieuwsbrief.

Inschrijven