Informatie Professional
terug

http://www.wie.waar.wat

6 (2002) nr. 3 (maart) blz. 32-35




Evolutiebiologie van het zoeken


Eric Sieverts

De paleontologie heeft ons geleerd dat grote overgangen in de evolutie, zoals het uitsterven van de dinosaurussen en het opkomen van de zoogdieren, meestal in plotselinge vlagen zijn verlopen, gestimuleerd door ingrijpende uitwendige verstoringen als meteorietinslagen. Veranderingen in de fauna van de web-zoekmachines lijken even plotseling schoksgewijs te verlopen. Het afgelopen jaar is er kennelijk zo'n meteorietinslag geweest, want een aantal oude bekenden is plotseling uitgestorven. Google is definitief de grootste geworden met - in anderhalf jaar tijd - een verachtvoudiging van het aantal geïndexeerde webpagina's. En er zijn een paar hele nieuwe soorten ontstaan.


Het grote uitsterven.

Eerst een afscheid van wat oude bekenden. Infoseek en Excite hebben jarenlang tot de toonaangevende zoekmachines behoord. De afwisseling van dot.com hype en dot.com crisis hebben ze echter niet overleefd. Bedrijven die kapitalen hadden geïnvesteerd in de overname van deze zoekmachines in de ongefundeerde verwachting van miljoenenwinsten, zagen die investeringen niet beloond. Daarop hebben ze hun kinderen - hoe goede producten dat technisch ook waren - rustig met het badwater laten weglopen. Excite bestaat officieel nog wel en ook links naar Infoseek voeren nog wel naar een zoekmachine - go.com - , maar in beide gevallen zul je vrijwel alleen nog webpagina's vinden, waarvoor de eigenaars betaald hebben om in zoekresultaten te worden opgenomen. Voor gewone informatiezoekers natuurlijk een gruwel.

Die betaalde content van Excite en Go.com is afkomstig van één organisatie, een organisatie die die content bovendien ook nog aan een heleboel andere zoekmachines aanbiedt. Bij zoekmachines als AltaVista en Hotbot kom je namelijk, naast een gewone lijst met niet op smeergeld gebaseerde zoekresultaten uit hun eigen index, ook een apart rijtje betaalde links tegen die aan je zoekvraag voldoen. Allemaal materiaal dat wordt geleverd door Overture. Wie iets meer wil weten over de promiscue relatiepatronen die zoekmachines onderling onderhouden - wie doet het met wie - wie bieden allemaal OpenDirectory aan - waar krijgt AskJeeves zijn informatie vandaan - moet maar eens kijken op: http://www.bruceclay.com/searchenginechart.pdf (met dank aan Marten Hofstede). De Privé en de Story zijn er niets bij.

Verder nog een paar tranen plengen voor NorthernLight. Kort geleden - nog maar amper drie jaar - was dit de grootste zoekmachine van het web. Nog belangrijker: hij had een heel bijzondere manier om zoekresultaten, op basis van bij het indexeren toegepaste kennisregels, automatisch op te delen in verschillende categorieën of contexten. Als gratis zoekmachine voor het hele web hebben ze vorige maand de strijd met Google opgegeven en concentreren ze zich alleen nog op het met de eerder ontwikkelde technologie toegankelijk maken van geselecteerde en deels commercieel ingekochte informatie voor de zakelijke markt.

Tot slot nog een zoekmachine die nooit erg bekend was geworden: Webtop. Deze was kennelijk vooral opgezet als demo voor de mogelijkheden van de Muscat zoeksoftware die gewoon wordt verkocht voor het toegankelijk maken van intranetten, websites, lokale databases en dergelijke. Kennelijk was het te veel moeite dit speeltje up-to-date te houden en een niet bijgehouden index verliest heel snel zijn belang en tevens zijn aantrekkelijkheid als showcase voor het onderliggende software-produkt. Wel jammer, want hij bood een paar stukjes functionaliteit die je bij andere zoekmachines in deze vorm niet tegenkwam.




De nieuwe species: Teoma en Wisenut

Genoeg over het verleden. Op naar Teoma en Wisenut. Zij nemen in zekere zin de fakkel van NorthernLight over. Hoewel gebaseerd op heel andere techniek bieden ook zij als extraatje dat zoekresultaten automatisch worden opgedeeld in categorieën of contexten.

Teoma heeft een beginpagina die qua eenvoud, rust en opmaak zeer sterk door Google geïnspireerd is. Intikken van een zoekvraag levert een gebruikelijke resultaatlijst op. Voor de daarbij gebruikte ranking wordt min of meer Googeliaans naar linkgedrag vanuit andere webpagina's gekeken (zie het artikel over Google in deze rubriek in het oktober-nummer van 2001). Anders dan bij Google schijnen echter niet de links vanuit alle pagina's in het systeem te worden meegeteld, maar alleen die vanuit de webpagina's die al in je zoekresultaat zitten. Er wordt vanuit gegaan dat die links nog wat representatiever zijn voor het onderwerp waarop je zocht.

Duidelijk anders dan bij Google zijn de rijtjes mappen met beschrijvingen van aan de zoekvraag gerelateerde begrippen, die boven de resultatenlijst verschijnen. De grote vraag is nu natuurlijk waar die vandaan komen, wat je ermee kunt en wat je eraan hebt.

Op grond van wat uitproberen en interpreteren, valt af te leiden dat Teoma kennelijk de eerste circa 100 hits van je zoekresultaat aan een nadere analyse onderwerpt. Op grond van statistiek van samen voorkomen van dezelfde woorden in groepen documenten, worden die honderd documenten geclusterd. Dat kan soms in maar twee of drie groepjes zijn, in andere gevallen in wel acht of tien. Elk van die - dynamisch gevormde - groepjes krijgt een omschrijving. Dat kan een vast begrip zijn dat kennelijk de rode draad vormt voor alle documenten in de betreffende cluster of het kunnen een paar losse woorden zijn die voor een bepaalde cluster samen de bindende factor vormen. Door een mapje aan te klikken dat een voor precisering van je vraag relevante omschrijving heeft, kan de gebruiker vervolgens controleren of die cluster inderdaad zinnig is, zowel wat betreft samenhang, als wat betreft inhoudelijke context.







Als je niet heel goed oplet, zal het je waarschijnlijk niet meteen opvallen dat je daarbij nog maar alleen het kleine subgroepje uit die eerste 100 van je oorspronkelijke resultaat te zien krijgt. Dat valt alleen indirect af te leiden uit het feit dat het aantal getoonde hits nooit groter dan enkele tientallen is, hoe groot zoekresultaat je aanvankelijk ook had. Een echt nieuwe zoekactie wordt pas gedaan als je vervolgens - als een soort bevestiging - nogmaals op het begrip van de gekozen cluster of op één van de losse woorden klikt.

Het volledige resultaat van de oorspronkelijke zoekactie zal dan gewoon worden ingeperkt met dat aangeklikte woord dat door Teoma met statistiek uit de inhoud van de gevonden webpagina's was gedestilleerd. Daarmee kun je dan vaak weer vele tienduizenden hits krijgen. Dat resultaat levert dan ook meteen weer nieuwe onderwerpsmappen op die kunnen helpen om dat resultaat vervolgens weer verder te preciseren en in te perken.

Mijn ervaring met de gevormde clusters en vervolgresultaten is heel wisselend. Als je al een heel goed gespecificeerde vraag gesteld hebt, blijk je meestal weinig meer aan die onderwerpsmappen te hebben. Er verschijnen dan maar heel weinig, nauwelijks relevante of nauwelijks van elementen uit je oorspronkelijke vraag verschillende woorden of begrippen. Zo leverde de vraag "cichlids AND lake malawi" (cichliden zijn een bepaalde vissen-familie) de twee weinig nuttige mappen "african cichlids" en "cichlids fishes" en de vraag "hyperfine interactions AND defects AND silicon" alleen een map gekarakteriseerd door de twee woorden "publications, list".

Anderzijds leveren wat algemenere vragen vaak veel meer en soms wel heel zinnige suggesties op. Zo gaf de zoekvraag "nicotine addiction" een hele reeks mappen, waaronder "smoking addiction", "tobacco addiction", "quit smoking" en "american lung association" en de zoekvraag "prions AND bse" onder meer de relevante mappen "mad cow disease" and "bovine spongiform encephalopathy". Mijn eigen favoriete voorbeeld bij lezingen is overigens de enkele zoekterm "stones", die meestal afzonderlijke mappen oplevert voor onder meer: "rolling stones", "kidney stones", "bladder stones", "healing stones", "stones circle", "gem stones" en "fossil, mineral, rocks".

De bij Teoma te gebruiken zoeksyntax lijkt ook sterk op die van Google. Standaard wordt altijd op alle termen (dus met AND) gezocht. Er is geen truncatie mogelijk. Aanhalingstekens geven een exacte "phrase" aan, met - (min) kun je termen uitsluiten, met + kun je toch op stopwoorden zoeken. Echt Booleaans zoeken wordt echter niet ondersteund, zodat gebruik van OR op geen enkele manier mogelijk is. Hoeveel informatie Teoma doorzoekbaar maakt, wordt niet vermeld. Op enkele schattingen daarover kom ik later nog even terug. Het beginscherm van Teoma laat zien dat het systeem - ondanks de nog altijd niet verwijderde vermelding dat het om een beta-versie gaat - intussen door AskJeeves is opgekocht. Dat geeft in elk geval vertrouwen dat Teoma - althans voorlopig - wel een blijvertje zal zijn.




Wisenut

Van Wisenut is het wat moeilijker in te schatten of hij tot de "fittest" zal behoren die gaan overleven. Wel wordt trots bovenaan het scherm een aantal van ruim 1,5 miljard webpagina's genoemd, met daarachter de woorden "and counting!". Maar dat uitroepteken moeten we zo langzamerhand van een vraagteken gaan voorzien, want dit getal is al ruim twee maanden niet meer veranderd. Dus óf men weet niet welk getal er na 1.571.413.207 komt, óf men is opgehouden met tellen omdat er gewoon niet meer wordt geïndexeerd. Verder wordt ook geen naam van een grote geldschieter of gelieerde bekende andere internetdienst genoemd.

Net als Teoma werkt ook Wisenut sterk Google-achtig. Een eenvoudig zoekscherm, op linking gebaseerde relevance ranking - maar dan echt weer zoals Google zelf - en inderdaad een heel grote index. De zoeksyntax is geheel identiek aan wat ik hiervoor al voor Teoma vermeld heb.

Pas bij de zoekresultaten komt er een klein beetje verschil. Boven de lijst met zoekresultaten bevindt zich een zwarte balk, waarin de onderwerpsclusters die uit het zoekresultaat zijn afgeleid. Elke cluster wordt door een begrip en nooit door een paar losse woorden gekarakteriseerd. Bij elk van die begrippen staat ook vermeld hoe groot de cluster van documenten was waarop die gebaseerd is.

In de praktijk blijken dat vaak maar angstwekkend kleine aantallen te zijn. In de meeste gevallen blijkt het merendeel van de 100 à 200 resultaten die voor de statistische analyses gebruikt blijken te worden, in een rubriek "others" achter te blijven. Anders dan bij Teoma kan bij Wisenut echter wel meteen in één stap een vervolgzoekactie in het hele systeem gedaan worden, via een link "search this" achter elke cluster. Sommige clusters kun je met behulp van een "windows-plusje" ook nog openklappen in deelclusters.

Ook hier een paar voorbeelden van (on)nut en (on)zin van gesuggereerde vraagpreciseringen. De zoekvraag "cichlids AND lake malawi" levert hier "lake malawi" en "malawi cichlids" op. Van even weinig nut waren de drie suggesties "attention deficit", "attention deficit hyperactivity" en "attention deficit disorder" die de al tamelijk specifieke vraag naar "attention deficit hyperactivity disorder" opleverde. Anderzijds gaf de vraag "prions AND bse" onder meer de mogelijke preciseringen "mad cow", "BSE risk", "Creutzfeldt Jacob", "BSE and CJD" en "Bovine Spongiform Encephalopathy". Evenzo verschenen bij "cetirizine AND side effects" in de zwarte balk de relevante begrippen "allergic rhinitis", "patient information", "allergy asthma", "chronic urticuria" en "hay fever".







Hoe groot is groot?

Als het door Wisenut opgegeven getal klopt zou deze zoekmachine intussen na Google de één na grootste zijn, nog voor Fast-AllTheWeb. Helaas zijn Teoma en Wisenut nog niet opgenomen in de vergelijkende staafdiagrammen op de site van Searchenginewatch. Greg Notess geeft op zijn "Search engine showdown" wel resultaten van een vergelijking aan de hand van aantallen hits voor een standaard set van zoekvragen. De meest recente gegevens dateren echter al van augustus vorig jaar. Daaruit kwam Fast nog als één na grootste met 76% van het aantal van Google; Wisenut zou toen 70% en Teoma 33% van het aantal pagina's van Google bevatten.

Op grond van een niet wetenschappelijk opgezette vergelijking met een steekproef van een aantal begin februari 2002 uitgevoerde onderwerpsvragen (zie bijgaande tabel) kom ik vooral voor Fast en Wisenut tot wat lagere getallen. Fast, Wisenut en Teoma zouden dan respectievelijk ongeveer 57%, 53% en 28% van de grootte van Google zijn. Die lagere percentages zouden kunnen komen doordat Google sinds dat onderzoek van augustus vorig jaar ook op het web aanwezige PDF-, Word-, Access-, Excel-, Powerpoint-, Postscript- en RTF-documenten doorzoekbaar gemaakt heeft.


Vergelijking van aantallen zoekresultaten voor een paar zoekvragen:


vraag Google Fast Teoma Wisenut
"natural language information retrieval" 1040 488 890 442
marnixstraat amsterdam 2050 1298 185 1066
hedychium gardnerianum 755 465 185 199
hyperfine interactions defects silicon 1110 367 251 713
zyrtec 21200 7477 3630 11960
cetirizine "side effects" 1480 850 330 986
teoma google wisenut fast 2780 1728 667 99
"search engine sizes" 726 515 229 537
dinosaurs cretaceous 39100 22991 10500 25789
volcanism canary islands 867 616 306 444
prions bse 8870 5927 2400 5996
"strategic environmental assessment" 7100 3578 1140 2944
cichlids "lake malawi" 4620 2703 1400 2817
nicotine addiction 91000 43836 22300 50620
attention deficit hyperactivity disorder 134000 77200 32100 135808
gluten allergy 21800 10306 5240 9474




Tot slot

Bij het uitvoeren van mijn vergelijking van de aantallen hits tussen Google, Fast, Teoma en Wisenut, zag ik overigens plotseling - maar helaas wat te laat - dat intussen ook Fast gebruik maakt van op statistiek gebaseerde opdeling van zoekresultaten. Voor een analyse daarvan was hier geen ruimte meer, zodat u daar zelf maar eens naar moet kijken.

Tot slot nog een gemene vraag: is wat Teoma en Wisenut (en dus ook Fast) met statistiek doen, echt wel zo nieuw? Wie mijn oude stukjes in deze serie uit zijn hoofd heeft geleerd, herinnert zich misschien nog wel dat ik bij herhaling tranen heb geplengd over het verdwijnen - nu al weer meer dan drie jaar geleden - van een mooie "refine"-optie van AltaVista. Eigenlijk deed die vrijwel hetzelfde - en nog wat mooier grafisch ondersteund. Alleen is die zoekoptie er al die tijd al NIET meer en Teoma, Wisenut en Fast zijn er WEL. Dus moet ik maar snel mijn mond houden met dergelijke zure opmerkingen.



 

© Informatie Professional (Otto Cramwinckel Uitgever, Amsterdam) en Eric Sieverts

Voor een abonnement op Informatie Professional:
bel: 020 - 627 6609

Zie ook IP Online