Eric SievertsZoeken met www-zoekmachines lijkt makkelijk, maar goed zoeken is dat zeker niet. Ieder die een woord weet in te tikken, vindt wel iets, maar lang niet altijd wat ie zoekt. Het enorme aantal pagina's dat een simpele zoekvraag soms oplevert, schrikt bovendien menig zoeker af. Daarom worden hulpmiddelen ontwikkeld, om de gebruiker te helpen betere zoekvragen te stellen of onoverzichtelijk grote resultaten inhoudelijk te ordenen. Enkele van die hulpmiddelen komen hier aan de orde. |
||
|
De beste "match" De meeste zoekmachines gebruiken standaard geen Booleaanse combinaties, maar passen best-match zoektechnieken toe. Tik zo veel termen in als je voor je onderwerp kunt bedenken en de zoekmachine berekent een ordening van het resultaat die voor relevantie-volgorde moet doorgaan. Belangrijkste factoren in die berekening zijn meestal:
Die methode werkt eigenlijk alleen goed als de gebruiker veel termen intikt. Toch schort het daar vaak aan. Het verhaal gaat dat log-files van AltaVista uitwijzen dat gebruikers gemiddeld maar 1,1 zoekterm per vraag intikken. (En dan nog verbaasd dat het antwoord tegenvalt). Genoeg aanleiding dus om zoekers tot gebruik van meer termen aan te sporen. |
Meer van het zelfde Bij één methode merkt de gebruiker niet bewust dat hij meer termen gebruikt. (Ergonomen schijnen dat te prefereren, maar voor een informatie-professional past zulk onkundig gedrag natuurlijk niet, die hoort heel precies te weten wat hij doet). Zowel ExCite als WebCrawler bieden gebruikers de mogelijkheid bij een relevant gevonden pagina aan te geven meer van hetzelfde te willen, door op "More-like-this" te klikken. Dat woordgebruik wekt bij argeloze gebruikers de indruk dat te voren voor elk onderwerp al is uitgezocht of er meer over te vinden is. Dat is natuurlijk niet het geval. In werkelijkheid worden (in principe alle) woorden die in die relevante pagina voorkomen, in een nieuwe zoekvraag gebruikt. Men spreekt dan ook van query-by-example. Zo worden dus inderdaad heel wat termen gebruikt. Of het ook zinnige resultaten oplevert, blijkt sterk van je onderwerp af te hangen en wellicht nog sterker van de precieze aard van de web-pagina die als voorbeeld dient. Het blijft dus spannend. |
|
|
|
||
|
Suggesties voor termen EuroFerret vraagt eigen initiatief van de gebruiker. Deze zoekmachine op basis van MusCat retrieval-software is nog niet zo bekend. Ondanks de beperking dat hij alleen Europese sites indexeert, zijn al 20 miljoen pagina's verzameld. Op het zoekscherm roept EuroFerret al expliciet op zoveel mogelijk termen in te tikken. Als de zoekactie is gedaan, verschijnt bovendien, nog voor de resultaten zelf, een rijtje termen op het scherm, waarvan EuroFerret "denkt" dat ze iets met ons onderwerp te maken hebben en dus als uitbreiding van onze zoekvraag gebruikt zouden kunnen worden. Hoe komt EuroFerret's MusCat software daaraan? Het zijn woorden (op grond van Engelse taalregels tot woordstammen gereduceerd) die statistisch gezien kenmerkend zijn voor de aanvankelijk gevonden web-pagina's. Woorden die daarin veel vaker voorkomen dan in een gemiddelde pagina. Aanvinken van een term voegt die automatisch aan de zoekregel toe. In het afgebeelde Multatuli-Max-Havelaar-voorbeeld is dat gedaan met de door MusCat gegenereerde termen "eduard", "douw(es)", "dekker" en "lebak". Weer op de zoek-knop drukken maakt dat de zoekactie nu met zeven zoektermen wordt herhaald. Naast aardige suggesties levert deze methode meestal ook wel wat onzinnige op. Zeker als je vraag veel pagina's in een andere taal dan Engels oplevert, suggereert EuroFerret ook in die taal algemene woorden zoals hulpwerkwoorden en voorzetsels, omdat die in de gevonden pagina's ook veel vaker dan gemiddeld voorkomen. Het is dus maar goed dat je zelf kunt bepalen welke termen je aan je zoekvraag toevoegt. |
Termgewichten In de resultaatlijst van EuroFerret kun je ook bij elke web-pagina een hokje aanvinken als je hem relevant vindt. Op het eerste gezicht lijkt dat op de "more-like-this" optie, maar in de praktijk werkt het heel anders. MusCat blijft namelijk alleen de woorden gebruiken waarop je toch al had gezocht, maar hun ten behoeve van de relevantie-bepaling gebruikte "gewichten" worden aangepast. Dat gewicht is de "mate van kenmerkendheid" die één van de relevantiefactoren van de best-match methode is. Die wordt aanvankelijk, zolang je nog geen voorkeur hebt laten merken, alleen door de zeldzaamheid van de term in de index bepaald. Van zoektermen die in de als relevant aangevinkte pagina's voorkomen, wordt dat gewicht echter dynamisch opgekrikt. Door de (zelfde) zoekactie te herhalen, krijgen pagina's die (ook) die termen bevatten, automatisch een hogere score in de relevantielijst. De gebruiker hoeft dus niet zelf te bedenken welke termen voor zijn vraag het meest kenmerkend (dus het zwaarst) zijn; MusCat leidt dat automatisch af uit de door de gebruiker als relevant aangemerkte pagina's. Als je goed over dit mechanisme nadenkt, voel je wel aan dat dit alleen merkbare invloed op de relevantie-volgorde heeft, als je zoekvraag al voldoende termen bevat. |
|
|
|
||
|
Groeperen van termen Het suggereren van nieuwe termen kan ook heel anders, zoals AltaVista (alleen op de Amerikaanse site) laat zien. Wanneer een zoekvraag is ingetikt, kun je behalve op de zoek-knop ook op "refine" klikken. Ook dan wordt een statistische analyse gemaakt van in de gevonden web-pagina's voorkomende termen. AltaVista gaat daarbij een stapje verder. De veel voorkomende termen worden namelijk gesorteerd in groepen woorden die ook onderling vaak samen voorkomen. Woorden uit verschillende groepen komen juist weinig of helemaal niet samen voor. Dat geeft twee toepassingsmogelijkheden. Je kunt gewenste clusters van termen als "required" aanklikken, waardoor je zoekvraag wordt ingeperkt op een door die termen gekarakteriseerde context. Ook kunnen er clusters zijn die je juist wilt uitsluiten ("exclude"), omdat ze met een ongewenste betekenis of context van een zoekterm samenhangen. In het getoonde BSE-voorbeeld zijn dat een borstkanker-cluster (BSE=Breast Self Examination), een India-cluster (BSE=Bombay Stock Exchange) en een (ruimte)schepen-cluster (BSE=Beyond the Stellar Empire, een op Internet gespeeld SF-spel). |
In een door een Java-programma gegenereerde
grafische presentatie van de clusters wordt ook visueel geïllustreerd dat bepaalde
clusters helemaal geen relatie met de rest hebben.
Dit werkt dus heel dynamisch: als er nieuwe pagina's over BSE bijkomen, kan de clustering van termen volgende week al anders zijn. Wel verschilt deze methode principieel van die van EuroFerret. Daar wordt de best-match zoekvraag uitgebreid met meer termen, waardoor je tot een vollediger resultaat (met meer documenten) komt, maar vooral de relevantieordening beter moet worden, zodat de eerste documenten echt de beste zijn. Bij AltaVista wordt het zoekresultaat op bijna klassiek Booleaanse wijze ingeperkt, door de verplichting dat naast de eigen zoekvraag ook nog minstens één woord uit een als "required" aangeklikte groep moet voorkomen (en/of dat dat juist niet het geval mag zijn). |
|
|
|
||
|
Het resultaat geordend Een andere manier om context aan te geven, is kort geleden al door Hans van der Laan besproken, toen hij in deze serie Northern Light belichtte. Daar worden geen nieuwe zoektermen of woordgroepen gegenereerd, maar wordt het resultaat van een zoekactie automatisch in categorieën ingedeeld. Dat heten mappen en, afhankelijk van de grootte van het zoekresultaat, kan Northern Light daarbinnen weer sub-mappen vormen, enzovoort. |
Dat gebeurt, net als bij EuroFerret en AltaVista, onder meer op statistische gronden. Sommige mappen berusten namelijk ook hier op de termen die in de te groeperen web-pagina's voorkomen, andere daarentegen op formelere kenmerken zoals het IP-adres of het domein van web-sites waar groepen pagina's zich bevinden. In het opera-voorbeeld van Hans van der Laan bleek dit aardig goed te werken. Bij mijn eigen BSE-voorbeeld viel het minder goed uit. In elk geval veel minder goed dan de door AltaVista geïdentificeerde groepen termen. | |
|
|
||
|
Genoemde zoekmachines en hun URL's: | |
| AltaVista | http://www.altavista.com |
| Euroferret | http://www.euroferret.com |
| ExCite | http://www.excite.com |
| Northern Light | http://www.nlsearch.com |
| WebCrawler | http://webcrawler.com |
|
|
|||
| © |
Informatie Professional (Otto Cramwinckel Uitgever, Amsterdam)
en Eric Sieverts
Voor een abonnement op Informatie Professional:
|
||