Informatie Professional
terug

http://www.wie.waar.wat

8 (2004) nr. 6 (juni) blz. 18-20


In de gedrukte versie van Informatie Professional is dit artikel verschenen onder de aansprekende titel "Big Bang in de zoekmachines".
In verband met snelle veranderingen in de grootte bij AllTheWeb en AltaVista sinds verschijnen van dit artikel, is op 25 september 2004 een update van het hier beschreven kwantitatieve onderzoekje uitgevoerd.



Van AllTheWeb naar LessThanAQuarterOfTheWeb

Recente aardverschuivingen aan het zoekmachinefront


Eric Sieverts

Klassieke zoeksystemen voor professionele informatiebronnen, zoals Lexis/Nexis, Dialog of STN, vormen door de jaren heen een voorbeeld van stabiliteit. Wat je vijf jaar geleden kon vinden, kun je nu ook nog vinden. Ook al wordt de geboden zoekfunctionaliteit regelmatig verbeterd, zoekmogelijkheden van vijf (en zelfs twintig) jaar geleden blijken ook nu nog altijd te werken. In de wereld van de webzoekmachines gaat het wel wat anders toe. In een nieuwsbericht in IP-flash lieten we onlangs al weten dat bij AllTheWeb en AltaVista van alles was gebeurd. Hoewel Google bij de meeste zoekers favoriet is, waren er nog altijd goede redenen om voor speciale vragen AllTheWeb en AltaVista te gebruiken. Die zijn er nu nauwelijks meer, sinds begin april een aantal van de unieke mogelijkheden van deze twee zoekmachines is verdwenen. Er blijkt echter veel meer aan de hand te zijn. En dat betreft een nog wezenlijker aspect van die zoekmachines: hun inhoud. Misschien hadden we dat wel al kunnen zien aankomen. Het zijn namelijk de wat late gevolgen van het agessieve opkoopbeleid van Yahoo!, dat het afgelopen jaar eigenaar was geworden van zowel AltaVista, als Inktomi, als AllTheWeb, en nu zelf de directe concurrent van Google is geworden.


De verdwenen functies.

Toch eerst nog even iets over de verdwenen zoekfunctionaliteit. AltaVista bood als enige grote webzoekmachine zowel rechtse als interne trunkatie. Ook al is dat bij vrijwel alle "gewone" zoeksystemen een volstrekt gebruikelijke functionaliteit, na het verdwijnen van die functie bij AltaVista, is er nu geen enkele webzoekmachine meer die dat kan. Zelfs als je tegelijk op enkel- en meervoud van een woord wilt zoeken, moet je een OR-operator gebruiken. Voor AltaVista's proximity-operator NEAR geldt hetzelfde. Ook die functie is nu nergens meer beschikbaar [noot]. Bovendien bestaat hierbij - anders dan bij het trunkeren - geen enkele mogelijkheid om via een omslachtige omweg toch nog een soortgelijk effect te bereiken. Het door zoek-guru Gary Price verspreide gerucht dat de voor super-zoekers vaak nuttige "geneste" haakjes bij het Booleaans zoeken ook niet meer zouden werken, bleek in een praktijktestje gelukkig onjuist.

Bij AllTheWeb zitten de verliezen vooral in het "advanced" zoekinterface. Zo kun je niet meer zoeken naar pagina's die geluidsfiles, flash of andere "media-types" moeten bevatten, of die een bepaalde minimum of maximum grootte moeten hebben. Ook in één keer inperken op alle Europese of alle Afrikaanse sites is niet meer mogelijk. Daarmee blijven alleen nog het soort standaard-inperkingen over die andere zoekmachines ook al bieden.

Hoe vervelend deze verliezen aan functionaliteit ook mogen zijn, ze blijken bijna in het niet te vallen bij een onaangekondigd en voor gewone gebruikers vrijwel ongemerkt verlies aan content bij een paar voorheen zeer grote zoekmachines. En dat hangt dus allemaal samen met Yahoo!.




Yahoo!

In het al wat verdere verleden was Yahoo! bij veel mensen ten onrechte vooral bekend als zoekmachine, terwijl het in eerste instantie toch vooral een onderwerpsgids was, op basis van een tamelijk ver uitgewerkte taxonomie. Dat je bij Yahoo! ook gewoon kon zoeken, kwam omdat Yahoo! zoekresultaten inkocht bij echte zoekmachines, laatstelijk bij Google. Intussen was bij veel mensen wel bekend dat Yahoo! een onderwerpsgids was, en hoeveel belang informatieprofessionals juist daaraan ook mogen hechten, Yahoo! begon nu kennelijk bang te worden onvoldoende geassocieerd te worden met DE killer-applicatie voor het grote publiek, de echte zoekmachines. Niet voor niets wordt de beursgang van Google op $ 2,7 miljard geschat. Het opkopen van Inktomi en (indirect via Overture) van AltaVista en AllTheWeb was dus vooral bedoeld om zelf voldoende know-how op het terrein van zoekmachines in huis te halen.

Daarna is het een hele tijd stil geweest. Yahoo! bleef zoekresultaten van Google gebruiken. De opgekochte zoekmachines bleven gewoon doen wat ze gedaan hadden. Totdat Yahoo! kennelijk klaar was met zijn eigen zoekmachine. De Google-zoek-resultaten werden vervangen door de resultaten van de eigen zoekmachine. Een zoekmachine die in veel opzichten dezelfde functionaliteit biedt als Google en die ook ongeveer even groot blijkt te zijn. Kennelijk waren ook de door Inktomi en AllTheWeb al geïnventariseerde 3 à 4 miljard URL's meteen gebruikt. Dat Yahoo! ook nog altijd een onderwerpsgids is, lijken ze zelf nu wat te verloochenen.

Wat Yahoo! uiteraard niet expliciet gemeld heeft, was het vrijwel gelijktijdig verlies aan kwaliteit en content, dat de opgekochte zoekmachines onder eigen naam nog boden. Dat moest door zoekspecialisten worden ontdekt.




De content vergeleken

Om een indruk te krijgen wat er nu precies gebeurd is, heb ik een twintigtal nogal ongelijksoortige zoekvragen afgevuurd op elk van de volgende zeven zoekmachines: Google, Yahoo!, Teoma, AllTheWeb, AltaVista, HotBot en MSN. Aan de resultaten valt onmiddellijk op dat de vier laatsgenoemde zoekmachines op elke vraag vrijwel gelijke aantallen hits geven, althans binnen de grenzen van op het web gebruikelijke fluctuaties in aantallen gevonden hits. Een kleine steekproef wees bovendien uit dat bij de eerst gepresenteerde hits bij die vier ook heel vaak dezelfde voorkwamen. Wat kunnen we daaruit afleiden? In het verleden waren de zoekresultaten van Hotbot en MSN altijd al gebaseerd op dezelfde zoekmachine van Inktomi. Kennelijk wordt nu echter ook voor AllTheWeb en AltaVista niet langer gebruik gemaakt van de oorspronkelijke zoekmachine/database van die systemen, maar zit achter hun schijnbaar ongewijzigde zoekschermen nu ook diezelfde Inktomi-database. Opmerkelijk is dat in de fraaie search-engine relationship-chart van BruceClay deze nieuwe afhankelijkheden (op 1 mei) nog niet waren bijgewerkt.

Dat betekent dat de aparte eigen inhoud van AllTheWeb en van AltaVista onder die eigen namen is verdwenen. Vooral voor AllTheWeb maakt dat nogal verschil.

Tot het moment van deze "big bang" was dit namelijk de runner-up, met nauwelijks minder geïndexeerde webpagina's dan de ruim 4 miljard van Google. De naam luidde niet voor niets "ALLtheweb". Nu blijkt daarvan echter minder dan een kwart te zijn overgebleven. Datzelfde geldt echter ook voor Inktomi zelf, ook die is niet meer de oude. Tot kort geleden was die - via Hotbot en MSN - namelijk ook maar weinig kleiner dan Google en AllTheWeb. Al die oorspronkelijke content is dus kennelijk overgeheveld naar de nieuwe Yahoo!-zoekmachine. Waardoor bepaald wordt wat nog wel in de database voor de vier andere zit, is voorlopig zeer raadselachtig.

De resultaten van mijn zoekacties laten duidelijk zien dat Teoma wel nog zijn onafhankelijkheid heeft bewaard. Soms scoort die wat lager, maar meestal hoger en in elk geval bij de meeste vragen heel verschillend van de vier gelijkgeschakelde zoekmachines. Voor een nog wat kwantitatiever vergelijking heb ik per zoekvraag gekeken hoeveel meer (of minder) uit Google, Yahoo! en Teoma komt, vergeleken met die vier gefuseerde zoekmachines. Die factoren heb ik over de twintig zoekvragen gemiddeld, waarbij een vraag met 10 hits dus even zwaar meetelt als eentje met 10.000 hits. Alleen het bij Google wel erg uitspringende resultaat voor "omega search" heb ik daarbij weggelaten. Uit dat rekensommetje blijkt dat Google gemiddeld 4,5 keer zo veel oplevert als de (nu) "kleine" vier, Yahoo! 4,1 keer zo veel en Teoma 1,5 keer zoveel.



Resultaten van dezelfde zoekvragen bij zeven grote zoekmachines
(zoekacties uitgevoerd op 1 mei 2004).
[zie ook update van deze cijfers d.d. 25 september 2004]

zoekvraag Google Yahoo! Teoma   ATW AltaVista HotBot   MSN
informatieprofessional 1570 840 158 118 124 125 123
"latent semantic indexing" 12200 16400 4810 2933 2985 2956 2957
"xml topic maps" 12200 12300 4450 2214 2228 2128 2060
"alan gilchrist" taxonomies 169 173 60 70 68 70 65
"electron nuclear double resonance" 4350 2680 2100 780 781 789 755
"federico fellini" "dolce vita" 15700 24500 7630 4906 5229 5159 5300
"michiel adriaanszoon de ruyter" 972 364 114 146 158 158 154
staartmees 2110 1610 395 697 692 703 696
"aegithalos caudatus" 8110 10500 1740 2449 2511 2295 2255
"carolina chickadee" 12500 19500 7000 4358 4441 4490 4503
"paarse dovenetel" 477 792 143 150 153 152 155
"hedychium gardnerianum" 1580 1070 829 478 517 494 480
bellardie 215 113 108 39 41 40 36
syngonanthus 613 399 275 124 128 121 121
esqueixada 1970 1480 297 734 778 803 813
recept doornhaai 38 12 5 5 5 5 6
"hogeschool van amsterdam" 26600 30300 5300 5740 6666 6879 6942
"universiteitsbibliotheek utrecht" 2150 1830 737 459 498 557 561
"omega search" ? 10900 1770 840 171 189 185 177
marnixstraat 9340 13800 2630 2703 3095 2931 2954




Welke zoekmachine te gebruiken

Al is op de toegepaste onderzoeksmethodiek ongetwijfeld kritiek mogelijk, toch kunnen aan deze resultaten wel een paar praktische conclusies worden verbonden. Conclusies die eigenlijk onmiddellijk van invloed zouden moeten zijn op ons aller zoekgedrag. In de eerste plaats blijken de twee grootste van dit moment, Google en Yahoo!, elkaar gemiddeld maar weinig te ontlopen. Per individuele zoekvraag kunnen de verschillen echter aanmerkelijk zijn. Er zijn vragen waar Google bijna twee keer zoveel oplevert als Yahoo!, maar het omgekeerde komt ook voor. Het is dus altijd de moeite waard om niet alleen in Google, maar ook in Yahoo! te zoeken als je een zo volledig mogelijk overzicht wilt hebben over een heel specifiek onderwerp. Daarnaast maken verschillen in toegepaste ranking-techniek het sowieso interessant om naast de eerste 20 hits van de ene zoekmachine ook nog de 20 eerste van de andere te bekijken.

De andere zoekmachines die tot dusverre vaak voor aanvulling werden gebruikt - en in het bijzonder AllTheWeb - komen daar nauwelijks meer voor in aanmerking, omdat daar wel erg veel minder in zit. Doordat AllTheWeb, AltaVista, Hotbot en MSN kennelijk van dezelfde database gebruik maken, is er ook weinig aanleiding om een zoekactie in meer dan één van deze zoekmachines uit te proberen. De enige reden daarvoor zou eventueel kunnen zijn, dat ook daartussen nog wel kleine verschillen in ranking-techniek lijken te bestaan, zodat de eerste tien van AllTheWeb toch wel eens twee of drie andere resultaten kunnen bevatten dan de eerste tien van Hotbot.

Interessanter lijkt op dit moment om lastige zoekacties behalve in Google en Yahoo! ook nog eens in Teoma uit te voeren. In de eerste plaats omdat die nu de derde in grootte blijkt te zijn. Verder vanwege de duidelijk andere ranking-techniek. En daarnaast ook om wat extra functionaliteit. Een automatische analyse van verkregen zoekresultaten levert (rechtsboven) een lijstje met mogelijke begrippen om de zoekvraag op een bepaalde context in te perken. Bij niet al te specialistische zoekvragen verschijnt bovendien (rechtsonder) een apart lijstje van "resource guides" (link collections from experts and enthusiasts) die aan de zoekvraag voldoen.

Een vraag die in dit kader erg voor de hand ligt: waarom is een grote speler als Microsoft met zijn MSN-zoekmachine nog altijd van anderen afhankelijk? Terwijl daardoor - zoals we zagen - nu plotseling veel minder resultaat geboden kan worden. Als de voortekenen niet bedriegen, zal dat inderdaad niet al te lang meer duren. Er gaan al lang geruchten dat Microsoft druk bezig is met een echt eigen zoekmachine. Experts op dit terrein hebben ze intussen al genoeg in huis. En zoals Microsoft betaamt, zien ze ook mogelijkheden deze zoekfunctionaliteit meteen onlosmakelijk met nieuwe versies van het Windows besturingssysteem te integreren.

Nog even wachten en dan zullen er dus toch weer drie echt grote zoekmachines zijn. Tot zolang moeten we ons naast Google dus nog even tevreden stellen met alleen Yahoo!, ook al biedt die zeker nog geen alternatief voor de verdwenen functionaliteit van AltaVista en AllTheWeb.




Noot:
Kort voor het ter perse gaan van dit nummer wees een oplettende lezer ons erop, dat via een zogenaamde Google-API op dit moment wel een ruwe vorm van nabijheidszoeken mogelijk is. Via http://www.staggernation.com/cgi-bin/gaps.cgi kan in de Google-database gezocht worden op de combinatie van twee woorden binnen naar keuze 1, 2 of 3 woorden afstand van elkaar. Zeker de moeite waard om eens te proberen.



 

© Informatie Professional (Otto Cramwinckel Uitgever, Amsterdam) en Eric Sieverts

Voor een abonnement op Informatie Professional:
bel: 020 - 627 6609

Zie ook IP Online