Taaldatabanken op het gebied van het Fries

Eric Hoekstra

Instrumenten voor onderzoek

De Fryske Akademy werkt aan verscheidene taaldatabankprojecten. Deze projecten zijn niet allemaal even ver gevorderd. Sommige taaldatabanken bestaan alleen nog als plan (Oudfries), andere zijn klaar (Middelfries). De taaldatabanken fungeren in de eerste plaats als instrumenten die een verdieping en internationalisering van het onderzoek van het Fries mogelijk moeten maken.

Bij alle taaldatabanken worden de volgende gebruikersgroepen naar hun specifieke behoeften onderscheiden. Taalkundigen hebben een instrument nodig om met maximale efficiëntie een woordenboek, grammatica of vergelijkbaar werk te kunnen schrijven. Onderzoekers (taalkundig, literair, cultureel, historisch) hebben behoefte aan een gebruikersvriendelijke interface met complexe zoekfuncties ten aanzien van informatie in en over de manuscripten, teksten of transcripties. Geïnteresseerden zijn meer gebaat bij een gebruikersvriendelijke interface met eenvoudige zoekfuncties. Het doel van de taaldatabankprojecten is om al deze verschillende gebruikers te bedienen.

Wanneer we het Fries vergelijken met een meerderheidstaal als het Nederlands, dan blijkt dat het Fries vele verworvenheden ontbeert. In vorige afleveringen van de rubriek DigiTaal zijn immers verscheidene grote databanken op het terrein van het Nederlands besproken, zoals het Corpus Gesproken Nederlands (Oostdijk 2000), of de collecties van het Meertens Instituut (Van den Berg 2000). Alvorens er grote onderzoeksprojecten met betrekking tot het Fries gedefinieerd kunnen worden, zullen er eerst instrumenten voor onderzoek in de vorm van taaldatabanken gecreëerd moeten worden (zie Vogl 2001). Zolang deze consequentie zich nog niet afdoende in het wetenschapsbeleid ten aanzien van het Fries vertaalt, kan er alleen met beperkte middelen aan de taaldatabanken gewerkt worden - een situatie die ook elders op veel plekken kan worden aangetroffen.
De reden voor deze stand van zaken is eenvoudig: voor een politiek erkende minderheidstaal als het Fries is het veel moeilijker middelen te verwerven dan voor een standaardtaal. En voor een dialect is het weer moeilijker dan voor een erkende minderheidstaal. Deze stand van zaken heeft in laatste instantie te maken met de verdeling van macht in de wereld. Niettemin is er op de Fryske Akademy ook een behoorlijke hoeveelheid materiaal over Friese dialecten aanwezig; contactpersoon daarvoor is Arjen Versloot.

Ondanks de beperkte middelen zijn er op het terrein van de digitalisering van het Fries interessante resultaten geboekt. Hieronder volgt een overzicht van de verschillende taaldatabanken, waarbij we tevens de gebruikersgroepen onderscheiden. Vervolgens gaan we apart in op het project Corpus Gesproken Fries, een heel klein broertje van het project Corpus Gesproken Nederlands.

Taaldatabank Oudfries

Deze taaldatabank, die in samenwerking met het Fries Instituut te Groningen tot stand zal komen, zal alle Oudfriese teksten bevatten. De Oudfriese periode loopt tot 1550; het taalgebruik in de bronnen tot medio zestiende eeuw is erg archaïsch. De Oudfriese teksten zijn voornamelijk wetsteksten, die interessant zijn vanwege de speciale rol van het lichaam in het strafrecht en vanwege het kijkje in de middeleeuwse Friese maatschappij dat de lezer via de wetsteksten krijgt. Vertalingen van de Oudfriese teksten in het Duits of Engels zullen eveneens beschikbaar komen, zodat het Oudfries voor de internationale gemeenschap van taalkundigen toegankelijk wordt gemaakt.

De Oudfriese manuscripten bevatten iets meer dan een miljoen woorden, meerdere versies van dezelfde tekst niet meegeteld hoewel daar doorgaans kleine tekstuele verschillen optreden. Deze teksten zullen worden getagd en gelemmatiseerd en aldus voor taalkundig onderzoek ontsloten.
De meeste digitale teksten zijn al verzameld. Er zijn mensen aangesteld om van ontbrekende teksten verantwoorde tekstuitgaven te maken en een aanvang te maken met de taaldatabank. Over de technische implementatie zijn nog geen beslissingen genomen.

Taaldatabank Middelfries

De Taaldatabank Middelfries, waarbij net als bij de Taaldatabank Oudfries samenwerking met het Fries Instituut te Groningen plaatsvindt, bevat alle Middelfriese teksten, bij elkaar iets meer dan een miljoen woorden. De meeste teksten hebben een literair karakter. Het grootste tekstaandeel Middelfries komt van de zeventiende-eeuwse Friese literator Gysbert Japicx (de Middelfriese periode loopt van 1550 tot 1800).
Deze taaldatabank is klaar en op internet gepubliceerd. Alle Middelfriese teksten zijn volgens een uitgebreid protocol handmatig op woordsoort getagd en gelemmatiseerd. Van alle vormen worden de grammaticale kenmerken aangegeven: bij werkwoorden persoon, getal en tempus; bij naamwoorden geslacht en getal; bij bijvoeglijke naamwoorden de trap van vergelijking en de adjectivale verbuiging. Ook wordt er informatie over het gebruik van werkwoorden meegegeven: zijn ze transitief of intransitief gebruikt, worden ze in het perfectum vervoegd met hebben of zijn, enzovoorts. Tenslotte is ook het al dan niet geclitiseerd zijn van persoonlijke voornaamwoorden aangegeven.
Bevraging vindt plaats met Nieuwfriese steekwoorden, waarop alle vindplaatsen, onafhankelijk van hoe het woord gespeld is, worden gegenereerd. Men verkrijgt dan het woord in de zin met bibliografische verwijzing of een grotere context zo men wil. In 2003 gaat er op de Fryske Akademy een woordenboekproject Middelfries van start. De taaldatabank zit in een Oracle-database die met SQL bevraagd wordt vanuit een JAVA-omgeving. De taaldatabank is te vinden op het volgende adres: http://www.fa.knaw.nl/midf/.

Taaldatabank Negentiende-Eeuws Fries

Deze taaldatabank bevat een selectie van negentiende-eeuwse werken. De selectie heeft zowel op chronologische als thematische gronden plaatsgevonden. Qua chronologie is (of wordt er nog) materiaal opgenomen uit elke decade van de negentiende eeuw. Qua thematiek is er naar gestreefd alle in de negentiende eeuw bestaande tekstsoorten te representeren: almanakartikelen, gedichten, toneelstukken, korte verhalen en romans, waaronder ook vertalingen van onder andere Molière. De woorden komen in het materiaal voor in allerlei spellingen, die we semi-automatisch hopen te kunnen terugvinden vanuit een Modern Friese interface.
Het materiaal zal tevens benut worden voor het project Friese Grammatica, dat beoogt een soort ANS (Algemene Nederlandse Spraakkunst) voor het Fries te produceren. Daarnaast zullen sommige negentiende-eeuwse werken vermoedelijk opnieuw worden uitgegeven.
Er is al meer dan een miljoen woorden aan teksten overgetypt en gecorrigeerd; scannen was vanwege de slechte kwaliteit van het drukwerk doorgaans niet mogelijk. Momenteel wordt gewerkt aan de verrijking van de teksten met XML- (TEI-)codering. Aan de bouw van de taaldatabank is pas in de tweede helft van 2002 begonnen. We hopen eind 2003 een beta-versie klaar te hebben. De taaldatabank zal de vorm van een XML-database krijgen die bevraagd wordt vanuit JAVA.

Taaldatabank Nieuwfries

De taaldatabank Nieuwfries bevat zo'n 25 miljoen woorden aan teksten. Die teksten behoren tot verschillende genres: poëzie, literair proza, berichten uit kranten, vakliteratuur, raadsverslagen. Op deze teksten is het auteursrecht van toepassing, maar van nog niet alle teksten hebben we het adres van de rechthebbende kunnen benaderen. De taaldatabank bevat eenvoudige zoekfuncties en bronvermelding, maar geen tagging of lemmatisering of voorziening voor verschillende spellingen. Het gebruik van wildcards is wel mogelijk.

De taaldatabank kan voor verschillende soorten onderzoek gebruikt worden. Hier volgen twee voorbeelden, eerst van een taalkundig onderzoek. Ik heb de taaldatabank zelf gebruikt voor een morfologisch onderzoek naar de condities die het voorkomen van het suffix -ens bepalen. Dat suffix concurreert namelijk met het suffix -heid. Beide suffixen hebben gemeen dat ze naamwoorden van adjectieven maken. Met de wildcardvraag '*ens' kon ik alle woorden die op -ens eindigen opvragen. Handmatig heb ik allerlei non-voorbeelden verwijderd, dus woorden die toevallig op -ens uitgaan. Na analyse ontdekte ik dat het suffix -ens een tendens heeft om bij specifiek Friese woorden gebruikt te worden, dus woorden die geen directe tegenhanger in het Nederlands hebben. -heid daarentegen kwam makkelijker voor bij Friese woorden die een voorspelbare of identieke tegenhanger in het Nederlands hebben. Andere onderwerpen die met behulp van de Taaldatabank Nieuwfries zijn onderzocht: de tussen -n- in samenstellingen, het gebruik van de voorvoegselcombinatie ûnbe- ('onbe-'), het gebruik van folle ('veel') bij negatieve constituenten, het gebruik van het voorvoegsel ûnt- ('ont-'), parasitaire participia in clusters met drie of meer werkwoorden, enzovoorts (zie de Friestalige rubriek op: http://members.chello.nl/e.hoekstra8/FD-Argyf.htm).
Het tweede voorbeeld betreft een niet-taalkundig onderwerp. Een jurist deed een promotieonderzoek naar de beeldvorming rond notarissen. In de taaldatabank vond hij veel voorbeelden uit de literatuur, die hij in zijn studie kon verwerken.

De taaldatabank functioneert alleen op het intranet totdat de rechten geregeld zijn. Zij wordt gebruikt voor het project WFT (Wurdboek fan de Fryske Taal), het Friese WNT, en voor taalkundig en literair onderzoek. De taaldatabank functioneert goed op het intranet en kan op verzoek voor wetenschappelijke doeleinden geraadpleegd worden. Zodra er wat financiële middelen worden vrijgemaakt, kan zij binnen drie maanden op internet worden gezet. De taaldatabank heeft de vorm van een Oracle-database met SQL en JAVA.

Corpus Gesproken Fries

Het Corpus Gesproken Fries (Korpus Sprutsen Frysk ofwel KSF) heeft tot doel een corpus van tien miljoen woorden samen te stellen dat een plausibele doorsnee vormt van het hedendaags Fries zoals dat wordt gesproken in de provincie Friesland (de officiële naam van de provincie is tegenwoordig trouwens Fryslân). Twee miljoen woorden worden orthografisch getranscribeerd. Het ligt in de bedoeling meer geavanceerde transcripties en annotaties beschikbaar te maken voor een deel van het corpus. Het KSF maakt intensief gebruik van het ontwerp van het Corpus Gesproken Nederlands. Niettemin zijn er enkele belangrijke verschillen tussen de twee projecten.

Het KSF probeert zoveel mogelijk taalvariatie aan het licht te brengen en heeft er daarom opzettelijk voor gekozen dialectfries en 'incorrect' Fries te verzamelen terwijl de Nederlandse tegenhanger zich daarentegen concentreert op de standaardtaal; hiermee sluit de term 'Nederlands' dialectische en sterk regionale varianten uit.
Een tweede verschil is dat het KSF ook ouder materiaal zal opnemen, waardoor historische variatie bestudeerd kan worden.
Een derde verschil doet zich voor op financieel gebied. Het budget van het KSF bedraagt minder dan een tiende van het bedrag dat de Nederlandse tegenhanger tot zijn beschikking heeft.

Het KSF wil zich daarom concentreren op het verzamelen van data, de digitalisering en de orthografische beschrijving, terwijl de Nederlandse tegenhanger experimenteert met verschillende types linguïstische annotatie voor delen van het materiaal (prosodisch, syntactisch, fonetisch).

Het KSF dient een wetenschappelijk en een praktisch doel. Een praktisch doel is de ontwikkeling van de spraaktechnologie, zoals het herkennen van gesproken taal, wat de beschikbaarheid vereist van een groot corpus orthografisch getranscribeerde opgenomen taal. Om niet achter te blijven bij de ontwikkelingen op het gebied van spraaktechnologie is het voor het Fries als minderheidstaal van essentieel belang dat een dergelijk corpus wordt opgezet. Het contact houden met spraaktechnologie vergemakkelijkt het creëren van instrumenten (zoals een spraakherkenner) die de instandhouding en verspreiding van de Friese standaardtaal ondersteunen. Ook vergemakkelijkt het de verwerving van Europese subsidies voor minderheidstalen. Het wetenschappelijk doel van het KSF is het verkrijgen van inzicht in verschillende tot nog toe slecht onderzochte aspecten van gesproken taal en de bevordering van het onderzoek op de verschillende terreinen van grammatica, sociolinguïstiek, taalsociologie, dialectologie en discoursetheorie.

Voor het op Internet zetten van geluidsmateriaal is toestemming vereist van de sprekers en alle partijen die enig recht hebben op het opgenomen materiaal. We zullen leveranciers van audio-materiaal en de sprekers van het audio-materiaal vragen om toestemming; er zullen echter geen persoons- of adresgegevens op Internetb komen te staan. Het corpus zal inclusief spraakbestanden aan onderzoekers ter beschikking worden gesteld, in XML-format. XML is de opvolger van HTML. XML functioneert conceptueel als een database. Dat wil zeggen dat het gemakkelijk is om in XML-tekst, lees transcriptie, te annoteren met metagegevens zoals sprekergegevens.

In de opbouw van het corpus wordt de sociaal-situationele setting waarin taal wordt gebruikt als voornaamste parameter genomen. Voorbeelden van dergelijke settings zijn zakelijke gesprekken, radio interviews en wetenschappelijke lezingen. De specificatie van de settings wordt gegeven in termen van tijdsduur, totaal aantal sprekers, relatie tussen spreker(s) en toehoorder(s), karakteristieken van de sprekers (geslacht, leeftijd, geografische regio, sociaal-economische klasse); niet alle karakteristieken worden gebruikt als sampling criteria. Op Internet zal op de volgende sprekergegevens gezocht kunnen worden: geslacht, geboortedatum, dialect (zelf gerapporteerd dialect ofwel dialect waarvoor de spreker als representatief geregistreerd is), opleiding (hoogste genoten opleiding, ook indien niet afgemaakt), beroep. Deze gegevens worden bij de digitalisering van de opnames aan diezelfde opnames meegegeven.
Bij oudere opnames is het niet altijd mogelijk kieskeurig te zijn; in dat geval staan we toe dat opleiding en beroep niet gespecificeerd zijn. Van alle opnames in het corpus wordt aangegeven wat de sprekergegevens zijn (bereik is de hele opname), wat de corpusopbouwgegevens zijn, of ze getranscribeerd en aan audio gekoppeld zijn of niet. Voor de aan audio gekoppelde getranscribeerde opnames geldt dat er op woorden kan worden gezocht. Men kan dan het gezochte woord uit de mond van de verschillende sprekers beluisteren. Of men kan de zin of de hele geluidsfile beluisteren waarin het opgegeven zoekwoord voorkomt. Maar men kan ook zoeken naar een dialoog waarbij bijvoorbeeld een vrouwelijke spreker van boven de dertig betrokken is. En natuurlijk is het mogelijk te zoeken naar een combinatie van gegevens: bijvoorbeeld alle zinnen waar het zoekwoord in voorkomt uitgesproken door vrouwen van boven de dertig.

De opnames worden gemaakt door mensen die werken voor het project of, in het geval van bijvoorbeeld spontaan gesproken dialogen, door vrijwilligers die welwillend overeen hebben gestemd conversaties op te nemen die zich thuis voordoen. Opnames worden ook verkregen door samenwerking met andere projecten, bedrijven, organisaties en instituties; in ons geval zal dat vooral Omrop Fryslân zijn, de regionale omroep die overwegend in het Fries uitzendt. Alle opnames zijn gedigitaliseerd. Met uitzondering van de telefoonconversaties is al het materiaal opgeslagen in een ongecompliceerd 16 bit, 16 kHz wav formaat. Informatie over de opnamevoorwaarden, de gebruikte apparatuur, enz. is beschikbaar als deel van de meta-data.

Toekomstperspectieven

Een van de doelen van het KSF is dat er een begin wordt gemaakt met taaltechnologie voor het Fries. Het mooiste zou zijn als er als een elementaire spraakherkenner voor het Fries was. Dan zou er met de spraakherkenner getranscribeerd kunnen worden. Voorlopig is dat echter toekomstmuziek. Aan de onderzoekskant zal met behulp van het KSF onderzocht worden in hoeverre het gesproken Fries door interferentie van het Nederlands wordt 'aangetast' en hoe dat proces verloopt. Uiteindelijk werpt het corpus dan licht op de problematiek rond tweetaligheid en taalverandering door tweetaligheid.

Het Nieuwfries is al vrij goed onderzocht. De Taaldatabank Nieuwfries zal een verdieping van het bestaande onderzoek mogelijk maken, die neergelegd gaat worden in de Friese ANS. Voor het negentiende eeuwse Fries, het Middelfries en het Oudfries geldt echter dat de grammatica vele witte plekken bevat. Het onderzoek tot nu toe is immers in hoofdzaak etymologisch gericht geweest. De desbetreffende taaldatabanken hebben tot doel daar de eerste hoofdlijnen aan te brengen. Uiteindelijk moeten er grammatica's van het Middelfries en het Oudfries verschijnen.

Eric Hoekstra
Fryske Akademy, Ljouwert/Leeuwarden
ehoekstra@fa.knaw.nl

Bibliografie

Berg, Boudewijn van den (2000). Meertens Instituut: variatielinguïstiek on-line. Nederlandse Taalkunde 5 (2), 181-186.

Oostdijk, Nelleke (2000). Het Corpus Gesproken Nederlands. Nederlandse Taalkunde 5 (3), 280-284.

Vogl, Ulrike (2001). De rol van Internet voor minderheidstalen. Nederlandse Taalkunde 6 (4), 306-311.