Informatie Professional
terug

Nieuws

8 (2004) nr. 11 (november) blz. ##




Big Bang Revisited


Eric Sieverts

In het juni-nummer van dit blad werd onder de aansprekende kop "big bang" de implosie van een aantal tot dan toonaangevende webzoekmachines gerapporteerd. Op het web veranderen situaties echter razendsnel. Een paar onverwacht groot uitgevallen zoekresultaten uit AltaVista brachten me er eind september toe om mijn zoekvragen uit begin mei nog eens opnieuw te stellen. Verrassenderwijs bleken AltaVista en AllTheWeb nu weer veel meer op te leveren dan amper vijf maanden geleden.


De zeer sterk overeenkomende aantallen hits op alle 20 verschillende zoekvragen suggereerden in mei dat AltaVista, AllTheWeb, HotBot en MSN op dezelfde content gebaseerd waren. De opbrengsten van diezelfde 20 vragen op 25 september wijzen uit dat de inhoud van AltaVista en AllTheWeb nu weer is losgekoppeld van die twee andere. Naar schatting zit in beide al weer bijna 3 keer zoveel als in mei (en als nu nog altijd in HotBot en MSN lijkt te zitten). Of AltaVista en AllTheWeb ook onderling weer zijn losgekoppeld, is uit de zoekresultaten niet echt af te leiden, want de aantallen hits per individuele vraag lopen voor beide niet erg uiteen.

Op grond van de resultaten van mijn 20 zoekvragen heb ik op dezelfde wijze als in juni een onderlinge score geschat. Als ik de resultaten van Google vergelijk met die van mei, blijken mijn zoekvragen gemiddeld ook al weer ruim 10% meer op te leveren dan in mei. Toch blijft Google op zijn site beweren dat het nog steeds 4,3 miljard webpagina's doorzoekt, net zo veel als in mei.

Dat geloof ik dus niet meer. Als ik er, om toch een ijkpunt te hebben, gemakshalve van uitga dat die 4,3 miljard in mei wel juist waren, dan zou Google nu op 4,8 miljard staan.

Hoewel de zo berekende getallen in bijgaande tabel beslist niet als bikkelhard beschouwd mogen worden, geven ze wel een redelijke indruk van de verschillen tussen de zoekmachines en vooral ook van de ontwikkeling van de zoekmachines zelf sinds mei. Merkwaardigerwijze leek Yahoo weer wat gekrompen. De meeste van mijn vragen leverden daar minder op dan in mei. Voor de volledigheid heb ik de vragen dit keer ook nog op Wisenut losgelaten. Ook die blijkt inderdaad tot de subtop te behoren. Mijn conclusie van 5 maanden geleden dat AltaVista en AllTheWeb niet interessant meer waren als aanvulling op Google en Yahoo, moet ik dus duidelijk herroepen. Die herroeping heeft echter alleen betrekking op de hoeveelheid doorzoekbare informatie. De daar verdwenen zoekfunctionaliteit is helaas niet teruggekeerd.


Omvang van zoekmachines in miljarden pagina's,
geschat op basis van 20 identieke zoekvragen
(voor de zoekvragen en resultaten per vraag,
zie de tabel hieronder)

op 1 mei 2004 op 25 sept 2004
Google 4,3 miljard 4,8 miljard
Yahoo 3,9 miljard 3,2 miljard
Teoma 1,4 miljard 1,4 miljard
AltaVista 0,9 miljard 2,6 miljard
AllTheWeb 0,9 miljard 2,5 miljard
Hotbot
MSN
0,9 miljard 0,8 miljard
Wisenut - 1,0 miljard




Resultaten d.d. 25 september 2004 van dezelfde 20 zoekvragen
als bij een eerder onderzoek d.d. 1 mei 2004

zoekvraag Google Yahoo! Teoma   ATW AltaVista HotBot   MSN Wisenut
informatieprofessional 3140 797 151 622 630 147 129 436
"latent semantic indexing" 13500 14800 4090 14400 14800 2748 2595 3065
"xml topic maps" 13900 11700 4220 11400 11600 2144 2121 2992
"alan gilchrist" taxonomies 216 146 77 123 125 61 60 62
"electron nuclear double resonance" 4610 1860 2180 1290 1300 622 565 588
"federico fellini" "dolce vita" 20900 35400 9340 32100 35400 6226 6060 4689
"michiel adriaanszoon de ruyter" 984 431 142 317 334 146 138 91
staartmees 2090 1460 358 1060 1130 666 665 577
"aegithalos caudatus" 7630 10300 2090 9650 10300 2177 20091 653
"carolina chickadee" 12700 19800 7870 18000 19500 4077 3992 1538
"paarse dovenetel" 553 447 123 312 327 131 123 195
"hedychium gardnerianum" 1600 1050 824 694 753 476 458 138
bellardie 335 107 109 72 80 43 33 58
syngonanthus 965 415 259 274 297 105 96 134
esqueixada 1560 1570 329 907 1020 680 675 604
recept doornhaai 30 17 6 13 13 9 9 6
"hogeschool van amsterdam" 32900 28100 4470 27400 28100 5748 5685 11701
"universiteitsbibliotheek utrecht" 2660 1120 672 764 771 289 295 478
"omega search" 2560 1900 1390 815 925 302 344 1511
marnixstraat 11000 15200 3060 13600 14200 2695 2620 3621


 

© Informatie Professional (Otto Cramwinckel Uitgever, Amsterdam) en Eric Sieverts

Voor een abonnement op Informatie Professional:
bel: 020 - 627 6609

Zie ook IP Online