Artikel verschenen in
Informatie Professional
april 2002 (blz. 26-31)
terug

Hoe zoeken de nieuwe zoeksystemen

Eric Sieverts,

UniversiteitsBibliotheek Utrecht - afd. IT
& Instituut voor Media- en Informatie Management (Hogeschool van Amsterdam)

 

Zoeken en retrieval zijn standaard aanwezige faciliteiten geworden in vrijwel elk geautomatiseerd systeem. Of dat nu het hele web is dat met zoekmachines doorzoekbaar gemaakt is, of een intranet met een lokale zoekmachine, of slechts de schijf van een enkele PC waarvoor de zoekfunctie in het besturingssysteem verwerkt zit. Je zou dus kunnen denken dat het nauwelijks meer interessant is daar nog aandacht aan te besteden. De vraag OF je retrieval- functionaliteit zult inzetten kan inderdaad worden overgeslagen, de vraag HOE echter niet. De algemene toepassing van retrieval-technieken heeft namelijk de ontwikkeling van allerlei nieuwe functionaliteit op gang gebracht. Het is daarom interessant om die nieuwe functionaliteit en de toepasbaarheid daarvan in verschillende situaties eens wat nauwkeuriger te bekijken.



Het web en de rest

Het web is een van de belangrijkste drijvende krachten geweest achter de recente ontwikkelingen op retrieval-gebied. Door de vrijwel onuitputtelijke hoeveelheid gratis beschikbare informatie - intussen al meer dan 3 miljard webpagina's - was en is het een uitstekende proeftuin voor het uittesten van nieuwe technieken. De laatste vijf jaar heeft dan ook meer praktische ontwikkelingen op retrieval-gebied te zien gegeven dan de twintig jaar daarvoor. Dat betekent overigens niet dat we alleen maar de allernieuwste ontwikkelingen te zien krijgen. Soms zijn het al twintig jaar geleden bedachte technieken die pas nu in de praktijk gebracht kunnen worden. Door de enorme hoeveelheid beschikbare informatie op het web, door de grote veelsoortigheid ervan en doordat het een volstrekt ongeorganiseerd geheel is, worden wel heel extreme eisen gesteld aan de bruikbaarheid van zoeksystemen. Hoe interessant dat ook is, toch zijn die eisen vanuit een wereldwijde web-omgeving niet noodzakelijkerwijs dezelfde als die voor een lokaal zoeksysteem voor bijvoorbeeld een intranet.

Enigszins simplificerend kun je stellen dat het er op het web vooral om gaat om uit die geweldig grote hoeveelheid informatie zo precies mogelijk de belangrijkste en meest relevante documenten te selecteren. En dat dient zelfs te gebeuren als zeer onvolledige en onprofessionele zoekvragen worden gesteld. Nog altijd is het zo dat de meeste aan zoekmachines gestelde vragen uit nauwelijks meer dan één enkel zoekwoord bestaan. Anderzijds is het in die omgeving vrijwel nooit van belang dat "alles" over een onderwerp wordt gevonden, omdat er toch altijd al te veel is. Op een intranet is dat meestal andersom. Daar moeten vaak juist wel alle documenten - en vooral ook "dat ene" - zo probleemloos mogelijk gevonden kunnen worden. Precisie is ook daar natuurlijk wel van belang, maar selectie uit 30.000 documenten stelt nu eenmaal veel minder extreme eisen aan technieken voor relevantie-ordening, dan wanneer uit 3 miljard documenten de tien beste voor een bepaalde vraag geselecteerd moeten worden.

Anderzijds is ook niet elke techniek vanuit het ene medium zonder meer op het andere toe te passen. Zo is de in de praktijk erg goed werkende relevantie-ordening van de Google zoekmachine voor een belangrijk deel gebaseerd op linking patronen op het web. Webpagina's waarnaar veel vanuit andere webpagina's via hyperlinks wordt verwezen, zijn belangrijker en dus relevanter dan pagina's waar niemand naar linkt. Op een intranet waar de wetten van de grote aantallen veel minder opgaan, en waar misschien zelfs helemaal haast niet gelinkt wordt, zal dat nauwelijks werken.


Zoeken of browsen

Het centrale thema van dit artikel zijn zoekmachines en zoeksoftware. Niet onder alle omstandigheden geven gebruikers echter de voorkeur aan zoeksystemen waarbij je zelf- bedachte (combinaties van) zoektermen moet intikken. Sommige mensen vinden het plezieriger door een systematische onderwerpsboom te browsen, op zoek naar de gewenste onderwerpen. Ook wat niet actief benoemd kan worden, kan daarin misschien wel passief worden herkend. Bekende omvangrijke voorbeelden op het web zijn Yahoo en Open Directory. Ook in lokale systemen op intranetten worden dergelijke classificaties gebruikt, tegenwoordig vaak aangeduid met de wat modieuzer term "taxonomieën". Systemen zoals hier beschreven in de paragraaf "Toepassing van kennisregels" kunnen ook worden ingezet voor het indelen van documenten in de klassen van zo'n taxonomie. De algemene problematiek van het opzetten en toepassen van dergelijke systematieken is zo specifiek en andersoortig, dat dit artikel daar niet nader op ingaat.



Algemene zoekproblemen

Problemen met zoeken kunnen bijna altijd worden herleid tot problemen van recall en van precisie; het missen van relevante informatie en het vinden van te veel niet-relevante informatie. Bij systemen die relevantie-ordening op zoekresultaten toepassen kan dat laatste probleem ook geformuleerd worden als een te lage relevantie van de eerste documenten uit een lijst met resultaten.

Er is een aantal notoire recall-killers, enerzijds voortkomend uit fouten of onwetendheid van gebruikers, anderzijds uit de problematiek die inherent is aan het gebrek aan eenduidigheid in de menselijke taal. De vijf belangrijkste:

  • spellingsfouten in gebruikte zoektermen,
  • gebruik van verkeerde woorden om het gewenste onderwerp te omschrijven,
  • variatie in de mogelijke vormen waarin een woord in documenten kan voorkomen,
  • de hoeveelheid synoniemen en quasi-synoniemen waarmee een begrip in een tekst kan worden aangeduid,
  • het overpreciseren van een onderwerp met een combinatie van te veel zoekelementen.

Zo ook is er een aantal precisie- of relevantie-killers. Sommige daarvan zijn juist het tegendeel van een van de eerdere recall-killers:

  • onvoldoende precisering van het onderwerp door combineren van te weinig vraagelementen,
  • gevraagde woorden die wel samen in hetzelfde document voorkomen, maar niet het gewenste of zelfs helemaal geen inhoudelijk (syntactisch) verband met elkaar hebben,
  • zoekwoorden die meer betekenissen kunnen hebben (zeer sterk bij acroniemen),
  • gebruik van onvoldoende specifieke zoektermen,
  • het feit dat de doorzoekbare volledige teksten van documenten zeer veel voor de inhoud daarvan betekenisloze woorden bevatten.

Voor het web komt daar nog bij dat getracht moet worden uit een ruim aanbod de beste of belangrijkste resultaten het eerst te tonen, hetgeen een soort van automatische kwaliteitsbeoordeling vereist, zoals het al eerder genoemde voorbeeld van Google illustreerde. Moderne retrieval-technieken zullen dus proberen oplossingen te bieden voor sommige van deze problemen. Een aantal van die - deels taaltechnologische - oplossingsrichtingen komen hier aan de orde.


Relevance ranking

Hoewel een computer natuurlijk nooit echt inhoudelijk kan bepalen of een gevonden document relevant is voor een gestelde zoekvraag, kan wel een aantal factoren bedacht worden die daar een waarschijnlijke relatie mee hebben. Het moeten bovendien factoren zijn waarmee een computer op een bepaalde manier kan rekenen, zodat er relatieve relevantiepercentages uitkomen, die voor sortering van het zoekresultaat gebruikt kunnen worden. In de praktijk toegepaste factoren - in deels willekeurige volgorde - zijn:

  • een document is relevanter naarmate daarin meer van de als zoekvraag (zonder Booleaanse operatoren ertussen) ingetikte woorden voorkomen (voor betere precisering),
  • een document is relevanter als gevraagde termen in de titel, het begin of de tussenkoppen van een document voorkomen (tegen betekenisloze woorden),
  • een document is relevanter als de gevraagde termen daarin frequent herhaald voorkomen (ook tegen betekenisloze woorden)
  • een document is relevanter als de gevraagde termen daarin dicht bij elkaar staan en liefst in dezelfde volgorde als in de vraag (tegen ongewenste/ontbrekende syntactische verbanden),
  • in het informatiesysteem weinig voorkomende termen krijgen een zwaarder gewicht dan heel algemene,
  • documenten (webpagina's) waarheen veel hyperlinks vanuit andere documenten verwijzen zijn relevanter (eigenlijk: belangrijker),
  • documenten (webpagina's) die veel en langer door gebruikers worden bezocht zijn relevanter (eigenlijk: belangrijker).

In de meeste van de huidige zoekmachines op het web en ook in steeds meer retrieval-software voor lokale zoeksystemen worden deze (en andere geheim gehouden) factoren gebruikt. De mate waarin ze meespelen kan onderling sterk variëren. Ook dat behoort bij het bedrijfsgeheim. Gericht op verbetering van de relevantie-volgorde moeten ze - in klassieke termen - dus zorgen voor een betere precisie van de zoekresultaten.


Semantische kennis

Een aantal van de recall- en precisie-problemen zijn een gevolg van het ontbreken van kennis omtrent de betekenis van woorden, zowel die in zoekvragen als die in de te vinden documenten. Toevoegen van enige semantische kennis aan zoeksystemen kan daarom van belang zijn. Een manier om dit te doen, is door gebruik te maken van een zogenaamd semantisch netwerk. Dat is een netwerk van woorden waartussen relaties zijn gelegd. Dat doet enigszins denken aan het idee van een thesaurus, maar er zijn veel meer mogelijke relaties en in principe gaat het hierbij om alle woorden uit een taal en niet alleen om een voorkeurs-vocabulair. Bij een meertalig semantisch netwerk zijn bovendien relaties tussen woorden in verschillende talen gelegd.

Enerzijds is uit zo'n semantisch netwerk dus informatie te halen over synonieme en nauw verwante begrippen. Hoe dichter twee termen bij elkaar liggen in zo'n netwerk, dus met hoe minder tussenstappen je van het ene bij het ander kunt komen, hoe dichter hun betekenissen ook bij elkaar liggen. Dat biedt dus mogelijkheden een zoekvraag - al dan niet automatisch - te expanderen met extra "synonieme" begrippen. Door aan te geven hoe ver mee te nemen termen maximaal van de ingetikte zoekterm vandaan mogen liggen, kan ook de mate van expansie van de zoekvraag worden ingesteld. Dit aspect van gebruik van een semantisch netwerk zal recall-verbeterend werken.

Daarnaast is ook een precisie-verbeterende toepassing mogelijk. In een semantisch netwerk worden verschillende betekenissen van een woord namelijk onderscheiden. Dat gebeurt enerzijds al impliciet, doordat verschillende betekenissen van een woord verschillende "omgevingen" van verwante woorden hebben. Denk maar aan het woord "bank" in de betekenis van financiële instelling, waar heel andere verwante termen bijhoren dan bij de betekenis van zitmeubel. Anderzijds kan dat ook expliciet doordat die betekenissen formeel worden omschreven. De gebruiker kan dan bij het stellen van een zoekvraag een keuze worden voorgelegd tussen mogelijke gewenste betekenissen. In de te vinden documenten kan de meest waarschijnlijke betekenis vervolgens worden afgeleid uit mogelijke overeenkomsten tussen de woorden die in het document in de omgeving van de zoekterm voorkomen en die in het semantisch netwerk.

RetrievalWare van ExCalibur, was een van de eerste zoeksystemen waarin zo'n semantisch netwerk was ingebouwd. Tegenwoordig zijn er meer systemen waarin ze desgewenst geïntegreerd kunnen worden. Zelfs bij de eenvoudige desktop-versie van het indexeringsprogramma dtSearch wordt al een semantisch netwerk van het Engels meegeleverd, waaruit suggesties voor aanvullende zoektermen geselecteerd kunnen worden. Probleem van semantische netwerken is wel dat de vrij beschikbare zich beperken tot de gewone taal, zonder het speciale jargon van specialistische vakgebieden. Daarvoor kunnen wel deel-netwerken worden geconstrueerd, maar het maken en onderhouden daarvan is een dure aangelegenheid, vergelijkbaar met het bouwen en onderhouden van thesauri.




Voorbeeld van een semantisch netwerk

Een voorbeeld van een semantisch netwerk van het Engels is het in het publieke domein beschikbare Wordnet. Dat is op het web te raadplegen (en desgewenst te downloaden) op: http://www.cogsci.princeton.edu/~wn/
Een visualisatie van dit netwerk (waarin woordbetekenissen en soorten relaties niet worden onderscheiden) is te vinden op: http://www.plumbdesign.com/thesaurus/index.html









Toepassing van kennisregels

Precisie van een zoekresultaat kan ook door een soort nabewerkingsstap worden verbeterd, waarbij een zoekresultaat wordt opgedeeld in een aantal clusters die corresponderen met verschillende onderwerpsgebieden of contexten. Deze automatische classificatie van de documenten in het zoekresultaat kan onder meer gebaseerd zijn op kennisregels. Een voorbeeld hiervan is de zoekmachine NorthernLight. Het totaalresultaat van een zoekvraag wordt hier opgedeeld in een aantal custom search folders. De onderwerpscategorieën daaronder vormen een door informatieprofessionals opgezet classificatiesysteem. Toen NorthernLight nog een gewone web-zoekmachine was, werd elke opgenomen webpagina bij het indexeren ook meteen aan een aantal van die categorieën toegekend, zodat zoekresultaten later heel snel in folders (en daarbinnen eventuele subfolders) kunnen worden opgedeeld. Een zoekactie op BSE leverde dan inderdaad een folder "Bovine diseases & disorders" naast een folder "Stock markets" omdat BSE ook de afkorting is voor de Boston, Bombay of Beirut Stock Exchange. Op dit moment bevat NorthernLight vrijwel alleen nog zijn zogenaamde special collection met vooral zakelijk interessante informatie, waarop deze techniek nog steeds wordt toegepast.

Een vergelijkbaar effect kan worden bereikt door gebruik van topics, een soort bomen met gewogen combinaties van zoektermen, in de software van Verity. Bij het Nederlandse produkt Adjust worden taalkundige zinsontledings-technieken in combinatie met statistiek toegepast. Op basis van trainings-sets van een beperkt aantal door mensen - in een bestaande thesaurus, taxonomie of classificatie - ingedeelde documenten kan vervolgens een grote bulk aan documenten automatisch geclassificeerd worden.


Statistiek

Puur statistische methoden die hun werk doen zonder dat tevoren door mensen over categorieën is nagedacht, worden ook al enkele jaren toegepast. Op het web was AltaVista de eerste met een goed werkend systeem. Een zoekresultaat kon op grond van een statistische analyse worden "verfijnd". Dat hield in dat het systeem analyseerde welke clusters van kenmerkende termen in de gevonden documenten vaak samen voorkwamen. Deze per zoekvraag dynamisch gevormde clusters van termen definieerden dan verschillende contexten van de vraag. Bij het eerder al gebruikte voorbeeld "BSE" werd uit het zoekresultaat bijvoorbeeld een groep min of meer wetenschappelijke termen met betrekking tot gekke koeienziekte geëxtraheerd, daarnaast een aantal termen die vooral met vee te maken hadden, een aantal termen die te maken hadden met prionen, de veroorzakers van BSE, een aantal Duitstalige termen, een aantal termen die met borstkanker te maken hadden vanwege de betekenis "breast self examination", een aantal termen over India vanwege de "Bombay stock exchange" enzovoort. Elk van die groepjes termen - ook in een grafische presentatie op te vragen - kon vervolgens worden gemarkeerd als verplicht aanwezige of juist uit te sluiten zoektermen, waarmee de zoekvraag nader gespecificeerd kon worden.

Deze vaak prima werkende methode om de precisie van een zoekactie achteraf te verhogen, is drie jaar geleden helaas al weer van het web verdwenen. Het is nooit duidelijk geworden of er door de gemiddelde niet-professionele zoeker onvoldoende gebruik van gemaakt werd of dat de AltaVista computer onvoldoende capaciteit had om deze technisch gezien tamelijk complexe functionaliteit met de toenemende grootte van het web te kunnen blijven ondersteunen. Gelukkig zijn er sinds een half jaar drie nieuwe zoekmachine, Teoma, Wisenut en Fast-AllTheWeb, die een enigszins vergelijkbare methode gebruiken om een zoekresultaat op grond van statistiek op te delen. Hoewel bij één daarvan (Teoma) soms ook wel groepjes termen worden gegenereerd, kan het zoekresultaat telkens maar met een enkele term of een enkel samengesteld begrip worden ingeperkt. Dat is duidelijk wat minder flexibel dan de vroegere methode van AltaVista. Enkele ervaringen met deze zoekmachines werden al in de WWW-rubriek in een vorig nummer van dit blad gerapporteerd.








Terugkoppeling

Zoekresultaten kunnen ook worden verbeterd door de gebruiker mogelijkheden tot terugkoppeling te bieden. En dan uiteraard meer dan alleen de mogelijkheid een zoekvraag op eigen kracht opnieuw te laten formuleren, als het resultaat tegenvalt. In de eerste plaats kan ook weer een statistische methode worden toegepast, waarbij een reeks kenmerkende termen uit de gevonden resultaten wordt afgeleid. Uit zo'n op het scherm gepresenteerd lijstje kan de gebruiker vervolgens voor het onderwerp in aanmerking komende termen selecteren en automatisch met een muisklik aan zijn zoekvraag toevoegen.

In sommige systemen, zoals de Muscat-Discovery software, levert dit enerzijds meer resultaten op, omdat standaard met een OR-relatie (ofwel "any of the terms") wordt gezocht. Dat werkt dus in principe recall-verhogend. Anderzijds kan het ook precisie-verhogend werken. De eerste hits in de relevantie-volgorde worden namelijk ook relevanter, omdat dat degene zijn die waarschijnlijk meer verschillende termen uit de uitgebreider zoekvraag bevatten en dus preciezer bij het zoekonderwerp aansluiten. Bij de gewone web-zoekmachines is er op dit moment geen enkele meer die een optie biedt die op deze manier werkt.

In andere systemen worden deze extra termen automatisch in een AND-relatie opgenomen, zodat alleen de precisie verbetert. Een voorbeeld daarvan is de zoekmachine van het Scirus-systeem van Elsevier Science. Daarmee kan - op het web - worden gezocht in de inhoud van de 1200 wetenschappelijke tijdschriften van Elsevier, aangevuld met wetenschappelijk geachte webpagina's. Naast elke resultaatlijst verschijnt daar een rijtje uit het resultaat afgeleide begrippen, waarmee de zoekvraag kan worden ingeperkt. Hoewel voor Scirus de Fast-software wordt gebruikt die ook wordt ingezet voor de al in de vorige paragraaf genoemde AllTheWeb zoekmachine, lijkt de toepassing bij Scirus in de praktijk toch een beetje anders te werken. Bij Scirus lijkt het meer gebaseerd op termen, bij AllTheWeb meer op clusters documenten.




Bij een tweede methode van terugkoppeling kan de gebruiker aangeven welke van de zoekresultaten hij relevant acht (en welke juist niet), bijvoorbeeld door de mogelijkheid relevante hits aan te vinken. Enerzijds zal de hierboven besproken afleiding van aanvullende zoektermen zich nu kunnen beperken tot alleen een analyse van die relevante documenten. Anderzijds kunnen de termen die in de relevant geachte documenten voorkomen - voor de toekomst - een hoger gewicht krijgen en die welke alleen in de niet-geselecteerde documenten voorkomen een lager. In volgende zoekacties, desgewenst ook in de verdere toekomst of bij automatische attenderingsfuncties, zal het systeem daar dan rekening mee houden, resulterend in een wat andere relevantieordening, die beter overeenkomt met de belangstelling van de gebruiker. Ook deze methode wordt door de eerder genoemde Muscat-Discovery software toegepast. Daarnaast is een dergelijke methode ook ingebouwd in de nogal dure software van Autonomy die vooral voor bedrijfsinformatie- en -kennissystemen wordt toegepast.




Een nog weer andere manier van terugkoppeling aan de hand van relevante hits uit het zoekresultaat, is de "more-like-this"-methode. Ook deze methode is in principe gericht op verbetering van de precisie. In zoeksystemen die deze functie aanbieden, is naast elke hit een link of knop aanwezig, waarmee documenten kunnen worden opgevraagd die op één of andere manier gelijkenis vertonen met dat uitgangsdocument. In feite wordt daarmee een heel nieuwe zoekactie gestart. Waarop de gelijkenis is gebaseerd, kan per systeem sterk verschillen. Het lijkt het meest gebruikelijk dat daarvoor de woorden worden gebruikt die in het relevante document voorkomen. Dat kunnen alle woorden uit het document zijn, zoals bij retrieval-software die op het zogenaamde vectormodel gebaseerd is, of een - bijvoorbeeld statistisch bepaalde - selectie van alleen maar kenmerkend geachte woorden. Die uitgebreide reeks woorden vormt dan dus de nieuwe zoekvraag. Het lijkt dat onder meer AltaVista deze methode toepast. Enkele systemen, zoals Autonomy, beweren dat de door hen gebruikte gelijkenis niet is gebaseerd op overeenkomstige woorden, maar - op een lager niveau - op bitpatronen in de documenten, wat we ons daar ook bij mogen voorstellen. Een nog heel andere gelijkenis is die welke Google toepast. Daar zijn het de patronen van hyperlinks van en naar de documenten die bepalend geacht worden voor hun gelijkenis. Welke methode de beste is, valt moeilijk te zeggen. Bij elk van deze methodes heb je situaties waar het redelijk lijkt te werken en andere waar het onzinnige resultaten oplevert.


Is dit alles wat er is

In dit artikel zijn zeker niet alle technieken beschreven die ter verbetering van de zoekresultaten in moderne retrieval-software worden ingebouwd. Het zijn echter wel een paar van de meest in het oog springende. Ook methoden die taaltechnologie toepassen voor bijvoorbeeld word-stemming, zinsontleding of het herkennen van samengestelde begrippen, vinden steeds meer ingang. Die methoden zitten echter vaak wat meer verscholen "onder de motorkap". Al deze technieken samen helpen ons echter stapje voor stapje om steeds wat betere zoekresultaten te krijgen, ook in systemen waarin - om welke reden dan ook - geen gecontroleerde woordsystemen kunnen worden ingezet voor de verbetering van recall en precisie.


URL's van genoemde zoekmachines, zoekdiensten en produkten
AllTheWeb (Fast) http://www.alltheweb.com
AltaVista http://www.altavista.com
Autonomy http://www.autonomy.com
dtSearch http://www.textinfo.nl
http://www.dtsearch.com
Google http://www.google.com
Muscat http://www.smartlogik.com/TechSolutions/
NorthernLight http://www.northernlight.com
RetrievalWare http://www.convera.com/Products/products_rw.asp
Scirus http://www.scirus.com
Teoma http://www.teoma.com
Verity http://www.verity.com
Wisenut http://www.wisenut.com


 

© Informatie Professional (Otto Cramwinckel Uitgever, Amsterdam) en Eric Sieverts

Voor een abonnement op Informatie Professional:
bel: 020 - 627 6609

Zie ook IP Online