Informatie Professional
2 (1998) nr. 5 (mei) blz. 13

Yahoo! won

terug

COLUMN
vorige | volgende | nieuwste

Eric Sieverts

Yahoo won! Met die uitroep begon één van de lezingen op een congres over retrieval software enkele weken geleden in Boston. Alsof het ging om een wedstrijd tussen de Boston Red Socks en de Chicago Bulls. De spreker bedoelde daarmee echter dat YAHOO! volgens sommige onderzoeken onder Internet-gebruikers een populairder zoekhulpmiddel is dan "echte" zoekmachines als AltaVista of HotBot. Hoewel op die ongenuanceerde uitspraak wel wat valt af te dingen, viel een soortgelijke teneur ook in andere lezingen te beluisteren. Dat had dan niet specifiek betrekking op YAHOO en zelfs niet op de ontsluiting van het Internet, maar op de toepassing van retrieval-technieken in het algemeen.

De euforie van de mooie full-text zoekmogelijkheden, zelfs van de huidige niet-Booleaans methoden met vectormodellen, fuzzy-searching, probabilistische methoden, relevance ranking, natuurlijke taal-technieken en wat dies meer zij, begint wat weg te ebben. Ondanks de geleidelijk betere prestaties van retrieval software bij de jaarlijkse TREC-competitie. Bij deze wedstrijd tussen full-text retrieval-programma's worden centraal opgegeven zoekvragen op een zelfde corpus van vele gigabytes aan veelsoortige full-text data losgelaten. De laatste zes jaar is de behaalde precisie (bij vaste recall) gemiddeld bijna twee keer zo goed geworden (al is die nog altijd niet echt geweldig). Maar het feit dat de zoekacties door de makers van de programma's worden uitgevoerd en niet door toevallige gebruikers, maakt dat die resultaten eigenlijk weinig relatie met de dagelijkse zoekpraktijk hebben.

Mede daardoor lijkt men weer meer oog te krijgen voor het toepassen van klassieke bibliotheek-achtige technieken. En daarvan is YAHOO natuurlijk een aardig voorbeeld. Daar is een systematische indeling opgezet (wat wij als informatiespecialisten ook van de kwaliteit van die indeling mogen vinden). Daar worden door YAHOO's bibliothecarissen Internet-bronnen gecollectioneerd (wat wij ook van het collectiebeleid mogen vinden). En dat ook ongevraagd opgestuurd materiaal wordt opgenomen (daar: door anderen aangemelde URL's), is in de bibliotheekwereld evenmin ongewoon.

Interessant was echter te horen dat ook de echte zoekmachine NorthernLight (al eerder in dit blad besproken) van bibliotheek-vaardigheden gebruik maakt. De globale onderwerpscategorieën (bij NorthernLight "folders" genoemd) waarin een zoekresultaat automatisch wordt opgedeeld, blijken, anders dan de auteurs in dit blad destijds dachten, niet spontaan uit dat resultaat gegenereerd te worden. Bibliothecarissen hebben tevoren een hiërarchische onderwerpsclassificatie van zo'n 20.000 categorieën opgezet. Nieuw daaraan is dat vervolgens kennisregels zijn opgesteld om de computer, op het moment van opname van een nieuw document in de NorthernLight database, automatisch de in aanmerking komende categorieën daaraan te laten toekennen, zodat zoekresultaten later snel volgens die categorieën kunnen worden opgedeeld.

Met deze methode blijkt NorthernLight beslist niet uniek. Er komen allengs meer software producten waarbij wordt uitgegaan van bestaande ontsluitingssystemen, of dat nu classificaties, thesauri, ontologieën of semantische netwerken genoemd worden, en waarbij vervolgens statistiek of kennisregels worden toegepast om echte documenten automatisch daarmee in te delen. Vervolgens worden die categorieën hetzij direct gebruikt bij het zoeken, browsen en selecteren zoals bij YAHOO, hetzij achteraf om zoekresultaten van context te voorzien zoals bij NorthernLight.

Zelfs als dit soort methoden de formeel gemeten recall en precisie van zoekacties niet echt zouden verbeteren, dan nog kunnen ze de gebruiker wellicht het gevoel geven sneller iets relevants te vinden. In dit opzicht werd de soms gevoelde discrepantie tussen precisie en relevantie al het informatie-equivalent van de onzekerheidsrelatie van Heisenberg uit de quantummechanica genoemd. Maar hopelijk wordt het dan toch de zoeker die wint.



© Informatie Professional (Otto Cramwinckel Uitgever, Amsterdam) en Eric Sieverts

Voor een abonnement op Informatie Professional:
bel: 020 - 627 6609

Zie ook IP Online