Artikel verschenen in Informatie Professional april 2002 (blz. 26-31) terug |
Hoe zoeken de nieuwe zoeksystemen Eric Sieverts, UniversiteitsBibliotheek Utrecht - afd. IT |
Het web en de rest Het web is een van de belangrijkste drijvende krachten geweest achter de recente ontwikkelingen op retrieval-gebied. Door de vrijwel onuitputtelijke hoeveelheid gratis beschikbare informatie - intussen al meer dan 3 miljard webpagina's - was en is het een uitstekende proeftuin voor het uittesten van nieuwe technieken. De laatste vijf jaar heeft dan ook meer praktische ontwikkelingen op retrieval-gebied te zien gegeven dan de twintig jaar daarvoor. Dat betekent overigens niet dat we alleen maar de allernieuwste ontwikkelingen te zien krijgen. Soms zijn het al twintig jaar geleden bedachte technieken die pas nu in de praktijk gebracht kunnen worden. Door de enorme hoeveelheid beschikbare informatie op het web, door de grote veelsoortigheid ervan en doordat het een volstrekt ongeorganiseerd geheel is, worden wel heel extreme eisen gesteld aan de bruikbaarheid van zoeksystemen. Hoe interessant dat ook is, toch zijn die eisen vanuit een wereldwijde web-omgeving niet noodzakelijkerwijs dezelfde als die voor een lokaal zoeksysteem voor bijvoorbeeld een intranet. Enigszins simplificerend kun je stellen dat het er op het web vooral om gaat om uit die geweldig grote hoeveelheid informatie zo precies mogelijk de belangrijkste en meest relevante documenten te selecteren. En dat dient zelfs te gebeuren als zeer onvolledige en onprofessionele zoekvragen worden gesteld. Nog altijd is het zo dat de meeste aan zoekmachines gestelde vragen uit nauwelijks meer dan één enkel zoekwoord bestaan. Anderzijds is het in die omgeving vrijwel nooit van belang dat "alles" over een onderwerp wordt gevonden, omdat er toch altijd al te veel is. Op een intranet is dat meestal andersom. Daar moeten vaak juist wel alle documenten - en vooral ook "dat ene" - zo probleemloos mogelijk gevonden kunnen worden. Precisie is ook daar natuurlijk wel van belang, maar selectie uit 30.000 documenten stelt nu eenmaal veel minder extreme eisen aan technieken voor relevantie-ordening, dan wanneer uit 3 miljard documenten de tien beste voor een bepaalde vraag geselecteerd moeten worden. Anderzijds is ook niet elke techniek vanuit het ene medium zonder meer op het andere toe te passen. Zo is de in de praktijk erg goed werkende relevantie-ordening van de Google zoekmachine voor een belangrijk deel gebaseerd op linking patronen op het web. Webpagina's waarnaar veel vanuit andere webpagina's via hyperlinks wordt verwezen, zijn belangrijker en dus relevanter dan pagina's waar niemand naar linkt. Op een intranet waar de wetten van de grote aantallen veel minder opgaan, en waar misschien zelfs helemaal haast niet gelinkt wordt, zal dat nauwelijks werken.
Algemene zoekproblemen Problemen met zoeken kunnen bijna altijd worden herleid tot problemen van recall en van precisie; het missen van relevante informatie en het vinden van te veel niet-relevante informatie. Bij systemen die relevantie-ordening op zoekresultaten toepassen kan dat laatste probleem ook geformuleerd worden als een te lage relevantie van de eerste documenten uit een lijst met resultaten. Er is een aantal notoire recall-killers, enerzijds voortkomend uit fouten of onwetendheid van gebruikers, anderzijds uit de problematiek die inherent is aan het gebrek aan eenduidigheid in de menselijke taal. De vijf belangrijkste:
Zo ook is er een aantal precisie- of relevantie-killers. Sommige daarvan zijn juist het tegendeel van een van de eerdere recall-killers:
Voor het web komt daar nog bij dat getracht moet worden uit een ruim aanbod de beste of belangrijkste resultaten het eerst te tonen, hetgeen een soort van automatische kwaliteitsbeoordeling vereist, zoals het al eerder genoemde voorbeeld van Google illustreerde. Moderne retrieval-technieken zullen dus proberen oplossingen te bieden voor sommige van deze problemen. Een aantal van die - deels taaltechnologische - oplossingsrichtingen komen hier aan de orde.
Relevance ranking Hoewel een computer natuurlijk nooit echt inhoudelijk kan bepalen of een gevonden document relevant is voor een gestelde zoekvraag, kan wel een aantal factoren bedacht worden die daar een waarschijnlijke relatie mee hebben. Het moeten bovendien factoren zijn waarmee een computer op een bepaalde manier kan rekenen, zodat er relatieve relevantiepercentages uitkomen, die voor sortering van het zoekresultaat gebruikt kunnen worden. In de praktijk toegepaste factoren - in deels willekeurige volgorde - zijn:
In de meeste van de huidige zoekmachines op het web en ook in steeds meer retrieval-software voor lokale zoeksystemen worden deze (en andere geheim gehouden) factoren gebruikt. De mate waarin ze meespelen kan onderling sterk variëren. Ook dat behoort bij het bedrijfsgeheim. Gericht op verbetering van de relevantie-volgorde moeten ze - in klassieke termen - dus zorgen voor een betere precisie van de zoekresultaten. Semantische kennis Een aantal van de recall- en precisie-problemen zijn een gevolg van het ontbreken van kennis omtrent de betekenis van woorden, zowel die in zoekvragen als die in de te vinden documenten. Toevoegen van enige semantische kennis aan zoeksystemen kan daarom van belang zijn. Een manier om dit te doen, is door gebruik te maken van een zogenaamd semantisch netwerk. Dat is een netwerk van woorden waartussen relaties zijn gelegd. Dat doet enigszins denken aan het idee van een thesaurus, maar er zijn veel meer mogelijke relaties en in principe gaat het hierbij om alle woorden uit een taal en niet alleen om een voorkeurs-vocabulair. Bij een meertalig semantisch netwerk zijn bovendien relaties tussen woorden in verschillende talen gelegd. Enerzijds is uit zo'n semantisch netwerk dus informatie te halen over synonieme en nauw verwante begrippen. Hoe dichter twee termen bij elkaar liggen in zo'n netwerk, dus met hoe minder tussenstappen je van het ene bij het ander kunt komen, hoe dichter hun betekenissen ook bij elkaar liggen. Dat biedt dus mogelijkheden een zoekvraag - al dan niet automatisch - te expanderen met extra "synonieme" begrippen. Door aan te geven hoe ver mee te nemen termen maximaal van de ingetikte zoekterm vandaan mogen liggen, kan ook de mate van expansie van de zoekvraag worden ingesteld. Dit aspect van gebruik van een semantisch netwerk zal recall-verbeterend werken. Daarnaast is ook een precisie-verbeterende toepassing mogelijk. In een semantisch netwerk worden verschillende betekenissen van een woord namelijk onderscheiden. Dat gebeurt enerzijds al impliciet, doordat verschillende betekenissen van een woord verschillende "omgevingen" van verwante woorden hebben. Denk maar aan het woord "bank" in de betekenis van financiële instelling, waar heel andere verwante termen bijhoren dan bij de betekenis van zitmeubel. Anderzijds kan dat ook expliciet doordat die betekenissen formeel worden omschreven. De gebruiker kan dan bij het stellen van een zoekvraag een keuze worden voorgelegd tussen mogelijke gewenste betekenissen. In de te vinden documenten kan de meest waarschijnlijke betekenis vervolgens worden afgeleid uit mogelijke overeenkomsten tussen de woorden die in het document in de omgeving van de zoekterm voorkomen en die in het semantisch netwerk. RetrievalWare van ExCalibur, was een van de eerste zoeksystemen waarin zo'n semantisch netwerk was ingebouwd. Tegenwoordig zijn er meer systemen waarin ze desgewenst geïntegreerd kunnen worden. Zelfs bij de eenvoudige desktop-versie van het indexeringsprogramma dtSearch wordt al een semantisch netwerk van het Engels meegeleverd, waaruit suggesties voor aanvullende zoektermen geselecteerd kunnen worden. Probleem van semantische netwerken is wel dat de vrij beschikbare zich beperken tot de gewone taal, zonder het speciale jargon van specialistische vakgebieden. Daarvoor kunnen wel deel-netwerken worden geconstrueerd, maar het maken en onderhouden daarvan is een dure aangelegenheid, vergelijkbaar met het bouwen en onderhouden van thesauri.
Precisie van een zoekresultaat kan ook door een soort nabewerkingsstap worden verbeterd, waarbij een zoekresultaat wordt opgedeeld in een aantal clusters die corresponderen met verschillende onderwerpsgebieden of contexten. Deze automatische classificatie van de documenten in het zoekresultaat kan onder meer gebaseerd zijn op kennisregels. Een voorbeeld hiervan is de zoekmachine NorthernLight. Het totaalresultaat van een zoekvraag wordt hier opgedeeld in een aantal custom search folders. De onderwerpscategorieën daaronder vormen een door informatieprofessionals opgezet classificatiesysteem. Toen NorthernLight nog een gewone web-zoekmachine was, werd elke opgenomen webpagina bij het indexeren ook meteen aan een aantal van die categorieën toegekend, zodat zoekresultaten later heel snel in folders (en daarbinnen eventuele subfolders) kunnen worden opgedeeld. Een zoekactie op BSE leverde dan inderdaad een folder "Bovine diseases & disorders" naast een folder "Stock markets" omdat BSE ook de afkorting is voor de Boston, Bombay of Beirut Stock Exchange. Op dit moment bevat NorthernLight vrijwel alleen nog zijn zogenaamde special collection met vooral zakelijk interessante informatie, waarop deze techniek nog steeds wordt toegepast. Een vergelijkbaar effect kan worden bereikt door gebruik van topics, een soort bomen met gewogen combinaties van zoektermen, in de software van Verity. Bij het Nederlandse produkt Adjust worden taalkundige zinsontledings-technieken in combinatie met statistiek toegepast. Op basis van trainings-sets van een beperkt aantal door mensen - in een bestaande thesaurus, taxonomie of classificatie - ingedeelde documenten kan vervolgens een grote bulk aan documenten automatisch geclassificeerd worden. Statistiek Puur statistische methoden die hun werk doen zonder dat tevoren door mensen over categorieën is nagedacht, worden ook al enkele jaren toegepast. Op het web was AltaVista de eerste met een goed werkend systeem. Een zoekresultaat kon op grond van een statistische analyse worden "verfijnd". Dat hield in dat het systeem analyseerde welke clusters van kenmerkende termen in de gevonden documenten vaak samen voorkwamen. Deze per zoekvraag dynamisch gevormde clusters van termen definieerden dan verschillende contexten van de vraag. Bij het eerder al gebruikte voorbeeld "BSE" werd uit het zoekresultaat bijvoorbeeld een groep min of meer wetenschappelijke termen met betrekking tot gekke koeienziekte geëxtraheerd, daarnaast een aantal termen die vooral met vee te maken hadden, een aantal termen die te maken hadden met prionen, de veroorzakers van BSE, een aantal Duitstalige termen, een aantal termen die met borstkanker te maken hadden vanwege de betekenis "breast self examination", een aantal termen over India vanwege de "Bombay stock exchange" enzovoort. Elk van die groepjes termen - ook in een grafische presentatie op te vragen - kon vervolgens worden gemarkeerd als verplicht aanwezige of juist uit te sluiten zoektermen, waarmee de zoekvraag nader gespecificeerd kon worden. Deze vaak prima werkende methode om de precisie van een zoekactie achteraf te verhogen, is drie jaar geleden helaas al weer van het web verdwenen. Het is nooit duidelijk geworden of er door de gemiddelde niet-professionele zoeker onvoldoende gebruik van gemaakt werd of dat de AltaVista computer onvoldoende capaciteit had om deze technisch gezien tamelijk complexe functionaliteit met de toenemende grootte van het web te kunnen blijven ondersteunen. Gelukkig zijn er sinds een half jaar drie nieuwe zoekmachine, Teoma, Wisenut en Fast-AllTheWeb, die een enigszins vergelijkbare methode gebruiken om een zoekresultaat op grond van statistiek op te delen. Hoewel bij één daarvan (Teoma) soms ook wel groepjes termen worden gegenereerd, kan het zoekresultaat telkens maar met een enkele term of een enkel samengesteld begrip worden ingeperkt. Dat is duidelijk wat minder flexibel dan de vroegere methode van AltaVista. Enkele ervaringen met deze zoekmachines werden al in de WWW-rubriek in een vorig nummer van dit blad gerapporteerd. Terugkoppeling Zoekresultaten kunnen ook worden verbeterd door de gebruiker mogelijkheden tot terugkoppeling te bieden. En dan uiteraard meer dan alleen de mogelijkheid een zoekvraag op eigen kracht opnieuw te laten formuleren, als het resultaat tegenvalt. In de eerste plaats kan ook weer een statistische methode worden toegepast, waarbij een reeks kenmerkende termen uit de gevonden resultaten wordt afgeleid. Uit zo'n op het scherm gepresenteerd lijstje kan de gebruiker vervolgens voor het onderwerp in aanmerking komende termen selecteren en automatisch met een muisklik aan zijn zoekvraag toevoegen. In sommige systemen, zoals de Muscat-Discovery software, levert dit enerzijds meer resultaten op, omdat standaard met een OR-relatie (ofwel "any of the terms") wordt gezocht. Dat werkt dus in principe recall-verhogend. Anderzijds kan het ook precisie-verhogend werken. De eerste hits in de relevantie-volgorde worden namelijk ook relevanter, omdat dat degene zijn die waarschijnlijk meer verschillende termen uit de uitgebreider zoekvraag bevatten en dus preciezer bij het zoekonderwerp aansluiten. Bij de gewone web-zoekmachines is er op dit moment geen enkele meer die een optie biedt die op deze manier werkt. In andere systemen worden deze extra termen automatisch in een AND-relatie opgenomen, zodat alleen de precisie verbetert. Een voorbeeld daarvan is de zoekmachine van het Scirus-systeem van Elsevier Science. Daarmee kan - op het web - worden gezocht in de inhoud van de 1200 wetenschappelijke tijdschriften van Elsevier, aangevuld met wetenschappelijk geachte webpagina's. Naast elke resultaatlijst verschijnt daar een rijtje uit het resultaat afgeleide begrippen, waarmee de zoekvraag kan worden ingeperkt. Hoewel voor Scirus de Fast-software wordt gebruikt die ook wordt ingezet voor de al in de vorige paragraaf genoemde AllTheWeb zoekmachine, lijkt de toepassing bij Scirus in de praktijk toch een beetje anders te werken. Bij Scirus lijkt het meer gebaseerd op termen, bij AllTheWeb meer op clusters documenten. Bij een tweede methode van terugkoppeling kan de gebruiker aangeven welke van de zoekresultaten hij relevant acht (en welke juist niet), bijvoorbeeld door de mogelijkheid relevante hits aan te vinken. Enerzijds zal de hierboven besproken afleiding van aanvullende zoektermen zich nu kunnen beperken tot alleen een analyse van die relevante documenten. Anderzijds kunnen de termen die in de relevant geachte documenten voorkomen - voor de toekomst - een hoger gewicht krijgen en die welke alleen in de niet-geselecteerde documenten voorkomen een lager. In volgende zoekacties, desgewenst ook in de verdere toekomst of bij automatische attenderingsfuncties, zal het systeem daar dan rekening mee houden, resulterend in een wat andere relevantieordening, die beter overeenkomt met de belangstelling van de gebruiker. Ook deze methode wordt door de eerder genoemde Muscat-Discovery software toegepast. Daarnaast is een dergelijke methode ook ingebouwd in de nogal dure software van Autonomy die vooral voor bedrijfsinformatie- en -kennissystemen wordt toegepast. Een nog weer andere manier van terugkoppeling aan de hand van relevante hits uit het zoekresultaat, is de "more-like-this"-methode. Ook deze methode is in principe gericht op verbetering van de precisie. In zoeksystemen die deze functie aanbieden, is naast elke hit een link of knop aanwezig, waarmee documenten kunnen worden opgevraagd die op één of andere manier gelijkenis vertonen met dat uitgangsdocument. In feite wordt daarmee een heel nieuwe zoekactie gestart. Waarop de gelijkenis is gebaseerd, kan per systeem sterk verschillen. Het lijkt het meest gebruikelijk dat daarvoor de woorden worden gebruikt die in het relevante document voorkomen. Dat kunnen alle woorden uit het document zijn, zoals bij retrieval-software die op het zogenaamde vectormodel gebaseerd is, of een - bijvoorbeeld statistisch bepaalde - selectie van alleen maar kenmerkend geachte woorden. Die uitgebreide reeks woorden vormt dan dus de nieuwe zoekvraag. Het lijkt dat onder meer AltaVista deze methode toepast. Enkele systemen, zoals Autonomy, beweren dat de door hen gebruikte gelijkenis niet is gebaseerd op overeenkomstige woorden, maar - op een lager niveau - op bitpatronen in de documenten, wat we ons daar ook bij mogen voorstellen. Een nog heel andere gelijkenis is die welke Google toepast. Daar zijn het de patronen van hyperlinks van en naar de documenten die bepalend geacht worden voor hun gelijkenis. Welke methode de beste is, valt moeilijk te zeggen. Bij elk van deze methodes heb je situaties waar het redelijk lijkt te werken en andere waar het onzinnige resultaten oplevert. Is dit alles wat er is In dit artikel zijn zeker niet alle technieken beschreven die ter verbetering van de zoekresultaten in moderne retrieval-software worden ingebouwd. Het zijn echter wel een paar van de meest in het oog springende. Ook methoden die taaltechnologie toepassen voor bijvoorbeeld word-stemming, zinsontleding of het herkennen van samengestelde begrippen, vinden steeds meer ingang. Die methoden zitten echter vaak wat meer verscholen "onder de motorkap". Al deze technieken samen helpen ons echter stapje voor stapje om steeds wat betere zoekresultaten te krijgen, ook in systemen waarin - om welke reden dan ook - geen gecontroleerde woordsystemen kunnen worden ingezet voor de verbetering van recall en precisie.
|
|
|||
© |
Informatie Professional (Otto Cramwinckel Uitgever, Amsterdam)
en Eric Sieverts
Voor een abonnement op Informatie Professional:
|