tekst bij een gelijknamige lezing op het congres
Online Conferentie Nederland 2000, 4 april 2000 te Rotterdam

Retrieval op nieuwe paden

Eric Sieverts, Onno Mastenbroek, Natalia Grygierczyk

UniversiteitsBibliotheek Utrecht

Inhoud:
Inleiding
Functionele eisen
De probabilistische zoektechniek
Gebruikers en het nieuwe zoeken
Functionaliteitsproblemen en de gebruiker
Automatische attendering
Slotopmerkingen
Referenties

Inleiding

Steeds meer informatie is digitaal beschikbaar. Grote bibliotheken beschikken daardoor over een steeds onoverzichtelijker aanbod van informatiebronnen, deels in eigen beheer, deels toegankelijk via netwerken, elk met eigen interfaces en zoekmogelijkheden. De eigen catalogus, bibliografische databases van individuele producenten en van brede aanbieders als SilverPlatter of Ovid, databases bij online hosts, full-text tijdschriften van uitgevers, tijdschriftagenten en andere consortia, collecties externe web-links, lokale web-pagina's. Hoewel retrieval intussen een standaard overal aanwezige functionaliteit is geworden, tellen dergelijke systemen nog niet automatisch op tot één geheel waarin gebruikers eenvoudig kunnen zoeken of waarin ze zelfs maar de weg kunnen vinden in al die informatie. Om de toegang tot deze digitaal beschikbare informatie te verbeteren, wordt daarom aan de Universiteit Utrecht een nieuw retrieval-systeem geïmplementeerd. Gericht op de eindgebruiker, zal daarin geleidelijk alle door de bibliotheek aangeboden tekstuele informatie op uniforme wijze in een enkel systeem doorzoekbaar worden gemaakt.

begin

Functionele eisen

In een eerdere publicatie (Sieverts et al., 1999) werd een functioneel model besproken dat als uitgangspunt diende voor het op te zetten systeem. Dat model vormde de basis voor beoordeling van in aanmerking komende software-pakketten. Van de potentieel interessante producten Search97 (van Verity), RetrievalWare (van ExCalibur), Muscat, AltaVista en Orion ScienceServer werd zo uiteindelijk voor Muscat gekozen. Het functioneel model stond ook aan de basis van de implementatie van de eerste delen van het systeem. Aangezien ook de gekozen software nog niet alle uit het model voortkomende functionaliteit kan bieden, dient het tevens als uitgangspunt voor een geleidelijke aanpassing en toevoeging van nog afwijkende of nog ontbrekende functionaliteit.

Enkele belangrijke uitgangspunten voor het model waren:

ongelijksoortige informatie uit allerlei bronnen moet in één uniform systeem kunnen worden aangeboden;
individuele bronnen en naar onderwerpsdomein gegroepeerde collecties bronnen moeten ook afzonderlijk doorzocht kunnen worden;
bij het zoeken moet gebruik gemaakt kunnen worden van een combinatie van natuurlijke-taaltechnieken en het gericht zoeken in gestructureerd in velden opgeslagen informatie;
al in bepaalde bronnen aanwezige gecontroleerde ontsluiting moet benut kunnen worden;
bij presentatie van zoekresultaten moeten state-of-the-art relevance ranking technieken worden toegepast;
die ranking moet ook bij gemengde resultaten uit ongelijksoortige bronnen zinvolle resultaten opleveren;
het systeem moet gebruik van multimediale informatiebronnen ondersteunen.

Uit deze uitgangspunten valt af te leiden dat is gekozen voor het inzetten van moderne retrieval-technieken, zonder daarbij de verworvenheden van beproefde klassieke ontsluitingssystemen op te offeren. Dat de eindgebruiker een centrale positie inneemt in deze uitgangspunten is af te leiden uit het feit dat bij voorbaat rekening wordt gehouden met allerlei soorten gebruikers. Enerzijds de onvoorbereide gebruiker die (nog) niet weet in welke bronnen de voor hem interessante informatie te vinden zal zijn en dus voorlopig alles wil doorzoeken en de breed geïnteresseerde gebruiker die zich bewust niet tot één of enkele bronnen wenst te beperken. Anderzijds de specialist die door ervaring precies weet welke bron zijn belangrijkste informatie bevat en niet wenst te worden afgeleid door bij voorbaat als irrelevant beschouwde gegevens uit naburige vakgebieden. En ergens daartussenin de gebruiker die alleen domein-inperkingen behoeft, om zijn zeer gespecificeerde maar in een te brede context wellicht toch nog dubbelzinnige vraag te kunnen disambigueren. Hiermee is duidelijk een ander uitgangspunt gekozen dan bijvoorbeeld in PICA's PICARTA aanpak.

begin

De probabilistische zoektechniek

De basis voor de gebruikte Muscat software wordt gevormd door een probabilistische retrieval-techniek. Eenvoudig gezegd komt dat er op neer dat de software voor elk van de bij een gestelde zoekvraag gevonden documenten de kans probeert te bepalen dat dat document aan die vraag voldoet. Voor berekening van die kansen worden in het systeem vastgelegde rekenregels toegepast. Uitgangspunt daarbij zijn uiteraard de door de gebruiker als zoekvraag ingetikte woorden. In die kansberekening spelen in eerste instantie de volgende factoren mee:

hoeveel van de door de gebruiker ingetikte woorden in een document voorkomen,
hoe belangrijk elk van die woorden voor de zoekvraag is, hetgeen in eerste benadering wordt afgeleid uit de zeldzaamheid van die woorden in de hele database (zeldzame woorden zijn belangrijker, omdat ze meer onderscheidend zijn dan veel voorkomende),
de onderlinge nabijheid en volgorde van de gevraagde woorden in de gevonden documenten.

Ook zonder dat een echte syntactische of semantische analyse van een gebruikersvraag wordt uitgevoerd, biedt deze methode toch al de mogelijkheid zoekvragen in natuurlijke taal in te tikken - dus zonder gebruik van bijvoorbeeld Booleaanse operatoren. Een morfologische bewerking, het reduceren van woorden tot hun woordstam, wordt hierbij overigens wel al toegepast. De op grond van bovenstaande factoren berekende kansen leveren meteen de basis voor een relevantievolgorde van de te presenteren zoekresultaten. Daarmee is - weliswaar nog op basaal niveau - al voldaan aan een aantal uitgangspunten voor het functioneel model.

Specifiek voor probabilistische systemen is echter dat de berekende kansen dat iets relevant is, kunnen worden bijgesteld op grond van verkregen kennis van de gebruiker. Bijvoorbeeld via diens oordeel over de gevonden resultaten. Daartoe bestaan verschillende mogelijkheden. In de eerste plaats kan het systeem een lijstje genereren van termen waarmee de zoekvraag zou kunnen worden uitgebreid. Deze termen kunnen via statistische methoden worden afgeleid uit de inhoud van de door het systeem als meest relevant gepresenteerde documenten. Door uit dat lijstje bepaalde termen te selecteren, geeft de gebruiker aan wat voor hem belangrijk is en kan de zoekactie en bijbehorende kansberekening worden herhaald.

In de tweede plaats kan de gebruiker in het eerste zoekresultaat individuele documenten markeren die hij relevant acht voor zijn zoekvraag. Voor het genereren van een lijstje potentiële aanvullende zoektermen kan het systeem zich nu beperken tot een analyse van uitsluitend deze gemarkeerde documenten. Op grond daarvan kan echter ook terugkoppeling plaatsvinden naar het in de kansberekening verwerkte "belang" van elk van de oorspronkelijke zoektermen. Zolang het systeem het oordeel van de gebruiker nog niet kende, ging het er in eerste benadering van uit dat de zeldzaamheid van zoektermen een redelijke maat was voor hun belang in de zoekvraag. Nadat de gebruiker bepaalde documenten gemarkeerd heeft, kan dat verder genuanceerd worden: de zoektermen die in de relevante documenten voorkomen zijn kennelijk wat belangrijker dan aanvankelijk gedacht, die welke daar niet in voorkomen wat minder belangrijk. Bij een herhaling van de zoekvraag kan daar rekening mee worden gehouden en zal de relevantievolgorde dus anders uitvallen. Door deze iteratieve terugkoppeling kan het systeem als zelf-lerend worden gekarakteriseerd.

Al deze technieken kunnen in de in Utrecht gebruikte Muscat software worden toegepast. Welke daarvan ook werkelijk voor de gebruiker zichtbaar worden, kan bij het configureren van elke database en zelfs van elk zoekinterface afzonderlijk worden ingesteld. In afwachting van de reacties van de gebruikers is vooralsnog gekozen voor enige terughoudendheid bij het aanbieden van al deze functionaliteit. Dat daar enige reden voor is moge blijken uit de in de volgende paragraaf gerapporteerde ervaringen.

begin

Gebruikers en het nieuwe zoeken

Als eerste zijn de wetenschappelijke tijdschriften van Elsevier met behulp van de Muscat software doorzoekbaar gemaakt. Hoewel Muscat filters bevat voor het full-text indexeren van PDF-bestanden en Elsevier naast PDF-bestanden ook SGML (dus ASCII) versies van de volledige teksten van de artikelen aanlevert, is bij de eerste opzet van het zoeksysteem de indexering beperkt tot alleen de bibliografische gegevens en de abstracts.

Een gebruikersonderzoek moest eerst uitsluitsel geven over de acceptatie van de geboden zoektechniek door de gebruikers. Door studenten van de faculteit Psychologie van de Universiteit van Maastricht, onder leiding van Jettie Hoonhout, werd daartoe een testgroep van gebruikers, aan de hand van opgegeven zoekopdrachten, geobserveerd en achteraf ondervraagd. Dit onderzoek leverde interessante observaties op met betrekking tot, deels ook door ons zelf al gesignaleerde, onvolkomenheden aan het ontwerp en de ergonomie van het zoekscherm. Een opmerkelijke uitkomst van dit onderzoek betrof echter het cognitieve model voor zoeksystemen waarvan het merendeel van de gebruikers nog steeds stilzwijgend bleek uit te gaan.

Enerzijds plegen retrieval-specialisten bijna automatisch aan te nemen dat Booleaanse zoekmethoden door gebruikers slecht worden begrepen. Daarnaast lijkt de verwachting gerechtvaardigd dat de meeste gebruikers, door opgedane ervaring met zoekmachines op het web, al voldoende vertrouwd zijn met probabilistische en best-match zoekmethoden en met relevance ranking. In de praktijk werd dit echter gelogenstraft. Een belangrijk deel van de gebruikers bleek onbewust een nog tamelijk deterministisch, op Booleaanse AND-relaties gebaseerd beeld te koesteren. Zo verwacht men dat nadere precisering van een zoekvraag door het toevoegen van extra zoektermen zal leiden tot een kleiner aantal gevonden documenten en raakt men in verwarring door het feit dat het vermelde totale aantal hits daardoor juist blijkt toe te nemen. Vaak wordt niet herkend dat de eerst getoonde documenten meer van de gevraagde termen bevatten en dus zeer waarschijnlijk relevanter zijn dan de eerste resultaten die waren gevonden voordat die extra termen werden toegevoegd. Dit ondanks het feit dat bij elk gevonden document in de resultatenlijst de daarin aanwezige termen vermeld staan.

Deze bevindingen suggereren een aanpak op meer fronten. In de eerste plaats moet de gebruiker via helpschermen en gebruikersinstructie kennelijk nog heel duidelijk worden geïnstrueerd in de toepassing van moderne retrieval-technieken, ook al denken we dat die veel intuïtiever en gebruikersvriendelijker zijn dan onze oude systemen. Ergonomische aspecten als grafische vormgeving en schermopbouw spelen hierin ook een belangrijke rol. Daarnaast moet de gebruiker misschien ook een beetje voor de gek worden gehouden. Door niet meer zo prominent te vermelden hoeveel hits gevonden zijn, kan de verwarring over onverwachte groei van zoekresultaten bij het toevoegen van zoektermen enigszins worden voorkomen. Toch zullen veel gebruikers nog altijd willen weten hoeveel ze gevonden hebben. Vaak lijken die aantallen veeleer als een maat voor het succes van een zoekactie te worden gezien, dan de relevantie van de gevonden resultaten. Voor deze gebruikers dient het aantal gevonden hits wel ergens getoond te worden, maar dan wellicht beperkt tot alleen die waarvan de relevantiescore boven een bepaalde drempelwaarde uitkomt. Dat aantal zal namelijk wel kleiner worden wanneer een zoekvraag met aanvullende termen wordt gepreciseerd.

Daarnaast lijkt ook wel degelijk behoefte te bestaan klassiek Booleaans te kunnen zoeken. Niet alleen omdat dat beter met het cognitieve model van sommige gebruikers overeenkomt, maar ook omdat de verwachting bestaat dat in sommige vakgebieden meer deterministisch geformuleerde zoekvragen wel eens tot betere resultaten kunnen leiden. Aanvullend onderzoek hiernaar lijkt zeker nog zinvol.

begin

Functionaliteitsproblemen en de gebruiker

In de paragraaf over functionele eisen werd al een opmerking gemaakt over aanpassing van afwijkende functionaliteit. Inderdaad zal niet alle functionaliteit altijd precies werken op die wijze, waar in het functioneel model (soms stilzwijgend) van werd uitgegaan. Vaak blijkt dat pas wanneer verschillende van de aangeboden functionaliteiten in combinatie met elkaar worden toegepast. Een voorbeeld hiervan is de wijze waarop getrunkeerd en fuzzy-zoeken in het systeem zijn geïmplementeerd. Hoewel in de nieuwe software-versie Muscat-Empower, de werking van het fuzzy-zoeken sterk is verbeterd, blijkt de combinatie met de probabilistische zoekmethode toch nog altijd ongewenste effecten te hebben.

Als een zoekvraag een getrunkeerde of een fuzzy term bevat, tellen alle in de index voorkomende termen die aan de truncatie of de fuzzy-match voldoen, als individuele termen in de probabilistische zoekactie mee. Alleen een document dat al die termvarianten tegelijk bevat, krijgt dan een 100% relevantiescore, en dat komt natuurlijk niet voor. Enigszins afhankelijk van de gevraagde termen, blijkt de hoogst verkregen relevantiescore in dergelijke gevallen zelden boven de 15% uit te komen. Bovendien krijgt hierdoor een document met vier fuzzy- of truncatie-varianten van slechts één van de zoektermen een hogere relevantiescore dan een document dat bijvoorbeeld drie echt verschillende termen uit de zoekvraag bevat, maar slechts één variant van elk. Dit leidt tot een presentatievolgorde die weinig relatie meer heeft met de werkelijk ervaren mate van relevantie van de gevonden documenten.

Hoewel deze ongewenste effecten van de combinatie van probabilistisch zoeken met truncatie- en fuzzy-zoeken door een informatiespecialist met enige moeite nog wel begrepen en geaccepteerd kunnen worden, is dit niet iets dat zonder meer aan de echte gebruikers van een dergelijk systeem kan worden aangeboden. Alleen in combinatie met een klassieke Booleaanse zoekmethode zal truncatie- en fuzzy-zoeken in de ogen van die gebruikers tot betrouwbare resultaten leiden. Zolang de leverancier deze zoekfuncties nog niet beter aan het probabilistische model heeft aangepast, past dus enige terughoudendheid bij het aanbieden daarvan in het standaard zoekinterface.

Een ander voorbeeld van een functionaliteit die niet onder alle omstandigheden tot volle tevredenheid bleek te werken, was "word-stemming", de automatische reductie van indexwoorden en zoektermen tot hun woordstammen. Bij een zoekactie in alle velden heeft de gebruiker keurig keuze om hetzij ge-"stemd", hetzij op exacte termen te zoeken. Als het zoekscherm echter ook zoekregels bevat voor het zoeken in specifieke velden, dan blijken deze zoekmogelijkheden daarin niet zo te werken als je zou verwachten. Het standaard indexeerscript voor dergelijke specifieke indexen blijkt wat afwijkend te zijn. Ook hier zijn dus eerst nog aanpassingen nodig, voordat deze functionaliteit standaard kan worden aangeboden.

begin

Automatische attendering

Voor automatische attendering van gebruikers op nieuw toegevoegde documenten en bronnen biedt Muscat ook "agent" technologie. Een persoonlijke "agent" is dan gewoon een zoekvraag die in het systeem is opgeslagen en die bij elke bijwerking van een index automatisch opnieuw wordt uitgevoerd, met een inperking op alleen de nieuw toegevoegde of gewijzigde documenten. Gebruikers kunnen die zoekvragen, onder bescherming met een wachtwoord, zelf in het systeem inbrengen.

Juist bij een attenderingsfunctie is een terugkoppelmechanisme, waarbij de gebruiker kan aangeven wat wel en wat niet relevant is, van groot belang. Omdat hetzelfde profiel telkens wordt herhaald, is de mogelijkheid tot bijstelling extra zinvol, zeker als dat min of meer automatisch kan gebeuren. Bovendien is zo'n profiel al aan een bepaalde gebruiker gekoppeld, zodat ook bij die persoon behorende gegevens over het gewicht van zoektermen, zoals die in een probabilistisch systeem worden gebruikt, makkelijk bij het profiel bewaard kunnen worden. De eerder beschreven terugkoppelingsmechanismen voor de gewone zoekfunctie zijn dan ook eveneens in de "agents" geïmplementeerd.

Op dit moment wordt een gebruikersproef met het attenderingssysteem uitgevoerd. Daarvoor wordt gebruik gemaakt van de index op Elsevier full-text tijdschriften. Gezien het aanbod aan tijdschriften daarin, bestaat de testgroep grotendeels uit medewerkers van de faculteit Farmacie. Om de proef niet eenzijdig alleen op een beta-gerichte doelgroep los te laten, zullen in een later stadium ook deelnemers uit de Rechten-faculteit worden toegevoegd. Deze gebruikersproef die een half jaar zal lopen, dient een antwoord te geven op een aantal uiteenlopende vragen, zoals:

kan hiervoor met een eenvoudig interface met een enkele zoekregel worden volstaan?
begrijpen de gebruikers de mogelijkheden van de geboden terugkoppelmechanismen?
werkt de probabilistische zoekmethode ook goed voor attendering op nogal analytisch conceptueel opgebouwde zoekvragen, zoals vaak gebruikelijk voor farmaceutische onderwerpen?
voldoet het terugkoppelmechanisme aan de verwachting dat het recall en precisie verbetert?
voorziet deze wijze van attendering al in een voldoende groot deel van de informatiebehoefte van de gebruikers?

begin

Licenties

Een van de belangrijkste uitgangspunten van het Utrechtse retrieval-systeem is dat daarin zo veel mogelijk bronnen worden ondergebracht. De technische aspecten daarvan zijn lang niet altijd de meest problematische. Licentieregelingen blijken in de praktijk veel vaker een slechts met moeite - en soms zelfs helemaal niet - te nemen barrière te vormen. Die regelingen blijken namelijk meestal niet expliciet te voorzien in het toestaan van indexeeractiviteiten op afstand. In de praktijk moeten daarom vaak formele, aanvullende regelingen worden getroffen, op grond waarvan de benodigde gegevens, bijvoorbeeld met FTP, kunnen worden opgehaald. De gegenereerde indexen moeten dan wel naar de oorspronkelijke lokaties (URL's) op de web-site van de externe aanbieder blijven verwijzen.

Of de nu ook lokaal aanwezige volledige gegevens vervolgens kunnen worden weggegooid - afgezien van wat daarover formeel is afgesproken - moet nog worden onderzocht. In principe hoeven ze na het indexeerproces niet te worden bewaard. Maar als voorzien wordt dat een index nog herbouwd moet worden of dat proeven met alternatieve indexeerstrategieën nodig zijn, verdient het aanbeveling de gegevens tenminste tijdelijk te bewaren, om te voorkomen dat ze opnieuw moeten worden overgehaald (ervan uitgaande dat ze in dezelfde vorm beschikbaar blijven).

In de praktijk blijkt dat licenties voor gebruik van elektronische data vaak nog onduidelijk geregeld zijn. Het kost veel moeite tijdschriftagenten en uitgevers uit te leggen wat de wensen van de gebruiker zijn met betrekking tot het raadplegen van een veelheid aan gefragmenteerde systemen en hoe de bibliotheek met die wensen omgaat. Vaak weet men niet goed wat men met een dergelijk verzoek aan moet, waardoor antwoorden lang op zich laten wachten. Als er een positieve reactie is, duurt het vervolgens erg lang voordat de data in het juiste formaat geleverd (kunnen) worden. Dat betekent tijdverlies bij het aanbieden van elektronische bronnen, om nog maar te zwijgen over de ergernissen over en weer. Het is dus van belang regelingen over indexeringstoegang tot de gestructureerde data meteen al op te nemen bij het afsluiten van licenties voor tijdschriften.

Is het maken van goede licentieafspraken voor full-text elektronische tijdschriften moeizaam, voor op CD-ROM of anderszins geleverde databases lijkt het vrijwel onmogelijk. De universiteitsbibliotheek biedt ruim 110 van dergelijke databases aan binnen de campus van de Universiteit (Hackenitz, 1998) en zou de gegevens uit al deze bestanden graag overbrengen naar het Muscat-systeem. Het blijkt echter dat dit niet wordt toegestaan door de bestandsproducenten, die het loskoppelen van data van de bijgeleverde zoeksoftware niet toestaan of daar onevenredig hoge bedragen voor vragen. Naar oplossingen voor dit soort problemen moet nog verder worden gezocht.

begin

Slotopmerkingen

Uit de tot nu toe opgedane ervaringen met het nieuwe retrieval-systeem is al een aantal conclusies te trekken. Omdat veel gebruikers minder ervaren blijken te zijn in gebruik van nieuwe zoektechnieken dan vaak wordt verondersteld, blijft gebruikersondersteuning noodzakelijk. Zowel expliciet via hulpschermen en training, als impliciet door ergonomisch verantwoord ontworpen zoekschermen. Daarnaast is de verwachting gerechtvaardigd dat meer verschillende zoekinterfaces op dezelfde gegevens moeten worden aangeboden. Probabilistisch naast Booleaans, beperkte naast zeer uitgebreide functionaliteit en misschien zelfs aparte zoekschermen voor bepaalde onderwerpsgebieden of doelgroepen. Voorts blijven details van de implementatie van de diverse functies van het systeem om zorgvuldige aandacht vragen. Elke functie dient eerst nauwkeurig te worden uitgetest, voordat hij aan gebruikers ter beschikking wordt gesteld. Zo'n test is niet alleen technisch van aard maar omvat ook proeven door de eindgebruikers zelf.

Gezien de zeer specifieke wensen die voortkomen uit het tevoren opgestelde functioneel model, kan vaak niet worden volstaan met implementatie op basis van een door de leverancier standaard ingestelde configuratie. Dat betekent dat, voor het configureren van de eigen specifieke wensen, in de eigen organisatie voldoende automatiseringsondersteuning aanwezig moet zijn. Dat betreft zowel algemene vaardigheden, met bijvoorbeeld ervaring in het gebruik van de programmeertaal PERL, als geleidelijk opgedane specifieke kennis van de Muscat-software. Wanneer het merendeel van de aanpassingen via directe online systeemtoegang door specialisten bij de leverancier in Engeland had moeten worden aangebracht, aangevuld met helpdesk-support, zou het vaak niet mogelijk geweest zijn om tijdig precies de gewenste resultaten te realiseren.

Tot slot moeten we vooralsnog concluderen dat het vaak geen technische hinderpalen zijn die een snelle realisatie van alle ambitieuze plannen voor het nieuwe systeem vertragen. In de eerste plaats zijn dat problemen aan de kant van de informatieleveranciers, vooral voortkomend uit onduidelijkheden op het terrein van licenties. Niettemin geven de tot dusver behaalde voortgang en de positieve reacties van de gebruikers vertrouwen dat een groot deel van onze plannen voorspoedig gerealiseerd zal worden.

begin

Referenties:

Eric Sieverts, Onno Mastenbroek, Natalia Grygierczyk (1999), Een uniform retrieval-systeem voor de Universiteit Utrecht - Informatie Professional, 3 (10) blz. 34-40

Edu Hackenitz (1998), CD-ROMs op weg naar het einde - Informatie Professional, 2 (7/8) blz. 24-26

commentaar naar: e.sieverts@library.uu.nl

tekst bij een bijdrage aan het congres
Online Conferentie Nederland 2000, 4 april 2000