Informatie Professional
terug

http://www.wie.waar.wat

4 (2000) nr. 12 (dec.) blz. 33-35


Het diepe web;
in de diepte zit 500 maal zo veel informatie als aan het oppervlak

Eric Sieverts

Veel mensen denken dat ze alles, maar dan ook echt alles op Internet kunnen vinden. Dat is intussen beslist geen onzinnige gedachte meer. Veel mensen denken ook dat alles op Internet met gewone zoekmachine te vinden is, als je maar een goede grote neemt. Dat is wel een grote misvatting. Het verreweg grootste deel van de echt waardevolle informatie zit verborgen in meer dan honderdduizend databases, achter zoekschermen waar de grote externe zoekmachines nooit omheen kunnen kijken.


Het diepe web.

Al vele malen eerder werd in dit blad benadrukt dat het web weliswaar groot is, maar dat het aantal rechtstreeks toegankelijke web-pagina's toch nog altijd aanzienlijk achterblijft bij de hoeveelheid geordende, geselecteerde, gerubriceerde en gestructureerde informatie bij grote online hosts als Lexis/Nexis en Dialog. Hoewel het aantal web-pagina's intussen schijnt te zijn aangegroeid tot minstens anderhalf miljard, is die uitspraak nog altijd waar. Grote aanbieders als Dialog en Lexis/Nexis zitten zelf ook wel op het web, maar hun informatie staat niet zo maar op web-pagina's voor je klaar. Die is alleen bereikbaar als je er via hun eigen zoekschermen met hun eigen zoeksoftware gerichte zoekacties op loslaat - en bovendien natuurlijk alleen tegen betaling. De grote zoekmachines kunnen daar nooit bij komen.

Drie jaar geleden schreef ik al eens iets over een interessant initiatief om dergelijke informatiebronnen via een soort meta-niveau toch wereldwijd doorzoekbaar te maken. Het was afkomstig van de makers van de Personal Librarian retrieval-software, die het daarbij over het "Invisible Web" hadden. Hun AT1-systeem moest automatisch een soort meta-indexen genereren uit de indexen van al die databases die tot het onzichtbare web behoorden en aan hun initiatief wilden meedoen. Helaas is Personal Librarian kort daarna in zijn geheel opgekocht door America On Line, om de daar al gebruikte PL retrieval-software - en de ontwikkelcapaciteit van de makers - voortaan alleen nog exclusief te kunnen inzetten voor de doorzoekbaarheid van de AOL-systemen, andere klanten wereldwijd met lege handen achterlatend. Ook van AT1 is daarna nooit meer iets vernomen.

Met wat meer fanfare, is nu ook het grote publiek geattendeerd op het feit dat de grootste hoeveelheden interessante informatie op het web verborgen zitten in voor zoekmachines onbereikbare databases.

De makers van een dik rapport, wisten hun conclusies middels een 8-regelig berichtje via persbureaus in vrijwel alle grote kranten te krijgen: het "diepe web" - zij noemden het niet onzichtbaar maar alleen wat "dieper" weggestopt - bevat 500 keer zoveel informatie als het gewone web dat iedereen al zo groot vindt! Van dergelijke getallen smult een krant natuurlijk.

In het echte rapport staat veel meer.
( www.completeplanet.com/Tutorials/DeepWeb/index.asp)
Het bevat hun berekening dat het gewone web ongeveer 19 TeraByte (19 miljoen MB) aan informatie bevat en het diepe web maar liefst 7500 TeraByte, met 1 miljard versus 550 miljard documenten. Er staat een mooi overzicht in van de - qua omvang - 60 belangrijkste aanbieders van informatie die ze hebben meegeteld, opgedeeld in gratis databases en systemen waarvoor je moet betalen. De verreweg grootste blijken - op het eerste gezicht wellicht verwonderlijk - tot de gratis categorie te behoren. Toch is dat minder gek dan het lijkt, want daarbij gaat het onder meer om gigantische hoeveelheden gratis toegankelijke meteorologische gegevens. Satellietbeelden en eindeloze reeksen temperaturen, windrichtingen, neerslaggegevens van al even eindeloze rijen - vooral Amerikaanse - plaatsen. Al zou ik dit zelf eerder gegevens dan informatie noemen, je komt zo natuurlijk wel aan een bestand van meer dan 360 TeraByte. Bij de alleen tegen betaling toegankelijke databases gooien Lexis/Nexis en Dialog hoge ogen, met elk ongeveer 12 TeraByte.

De schatting dat er naast die 60 grootste ook nog zeker 100.000 sites van kleinere aanbieders van databases zijn en dat al die databases bij elkaar nog eens 10 keer zoveel informatie bevatten als die 60 grote, valt niet zo makkelijk op zijn betrouwbaarheid te onderzoeken. Hoeveel doublures en duplicaten daarbij zijn wil ik hier ook maar even in het midden laten. Een interessant getal uit het rapport dat ik wel nog wil noemen, is dat "deep web" sites - met hun 500-voudige informatie-inhoud - gemiddeld maar anderhalf à twee keer zo veel verkeer trekken als een gewone "oppervlakte" site. Dat wijst er in elk geval op dat er nog allerminst optimaal gebruik van wordt gemaakt.






De Lexibot

Het BrightStation rapport is niet alleen bedoeld als een droog rapport dat ons nog weer eens - voor veel mensen overigens beslist niet ten overvloede - onder de neus wrijft dat er zo ontzettend veel meer is dan het gewone web alleen. Nee, er wordt ook een product op de markt gebracht, Lexibot, een soort meta-zoekmachine die informatie uit het diepe web doorzoekbaar moet maken. Op http://www.lexibot.com/download/index.asp is een testversie van dat programma te downloaden. Dat moet je als een zoek-client op je eigen PC installeren. Na een keuze tussen modem of vaste verbinding is het programma meteen klaar voor gebruik.

Als meta-zoekmachine - zelf noemt het programma zich een "search agent" - kan Lexibot een ingetikte zoekvraag via de internet-aansluiting van je PC aan een heleboel verschillende zoeksystemen doorsturen. Gezien het voorafgaande, zijn dat bij Lexibot dus niet alleen de bekende gewone zoekmachines - al zitten AltaVista, Google en andere er wel bij - maar ook een reeks databases die door BrightStation tot het diepe web gerekend worden. Op dit moment zijn dat uiteraard alleen maar gratis toegankelijke - en om eerlijk te zijn ook nog niet erg veel van de echt interessante. In totaal is Lexibot al geconfigureerd voor de toegang tot bijna 600 zoekpagina's. Meer zullen in de loop der tijd worden toegevoegd.

Voor je een zoekactie gaat doen, moet je uiteraard kiezen waarin dat moet gebeuren, want in alle bijna 600 bronnen tegelijk is natuurlijk wat veel van het goede.

Daartoe is het totale aanbod al in een zestigtal categorieën onderverdeeld, variërend van "Agriculture" tot "Women resources". Ook zijn er aparte categorieën voor onder meer alle lokale Yahoo-sites en alle afzonderlijke Ziff-Davis computertijdschriften. Een zelfde zoeksysteem is vaak ook in meer categorieën ingedeeld. Bij de 23 bronnen in de categorie "Health & Medicine" komen we onder andere ook PubMed, PsychCrawler en HealthFinder tegen. Voor het doen van een zoekactie kan een hele categorie worden gekozen, ook eventueel meer categorieën, maar ook individuele bronnen die uit meer verschillende categorieën geselecteerd kunnen worden. Uitgaande van dergelijke eigen selecties kun je zelf ook nieuwe categorieën aanmaken of kun je bestaande categorieën aanpassen.

Een zoekactie kan zowel uit een rijtje zoektermen bestaan - zoals je bij veel gewone zoekmachines gewend bent - als uit een volledige Booleaanse zoekzin. Voor dat laatste moet je soms wel even controleren hoe die door Lexibot wordt geïnterpreteerd - bij keuze voor "advanced tools" is daar een aparte knop voor - want dat blijkt soms een tikkeltje anders te zijn dan je als ervaren online zoeker verwacht zou hebben. Voordat je de zoekactie echt start, kun je desgewenst ook nog bepaalde filters inzetten, waarmee antwoorden van bepaalde soorten sites worden uitgesloten. Dat kunnen bijvoorbeeld commerciële of government sites zijn, sites uit een bepaald land of zelfs sites uit bijvoorbeeld alle Chinees-sprekende internet-domeinen. Dergelijke inperkingen zijn natuurlijk alleen van toepassing op resultaten die van het hele web afkomstig kunnen zijn, dus antwoorden afkomstig van gewone "oppervlakte"-zoekmachines, en niet op resultaten van echte databases.






Meer dan zomaar een meta-search

Als de bij een zoeksysteem gevonden zoekresultaten zelf ook weer web-pagina's zijn, dan worden die allemaal individueel opgehaald. Aan het aantal daarvan per zoeksysteem kan gelukkig wel een bovengrens worden opgegeven. Van een echte database als PubMed worden alleen lijsten met korte presentaties van zoekresultaten opgevraagd, en niet apart elk volledig Medline record dat is gevonden. Niettemin zal Lexibot uiteindelijk, als antwoord op je zoekvraag, vaak vele honderden web-pagina's naar je PC opvragen. Daarbij wordt op het scherm bijgehouden hoeveel van die pagina's nog in de wachtrij staan, hoeveel er al binnen zijn en hoeveel ervan om enigerlei reden zijn afgekeurd - vanwege overschrijding van een ingestelde tijdslimiet, een ondervonden toegangsbeperking, gebleken afwezigheid van de gevraagde zoekterm(en), herkenning als duplicaat of iets dergelijks.

Zelfs als je Lexibot op hoge kwaliteit en lage snelheid hebt afgesteld, zodat de op te vragen URL's meer keren en langer geprobeerd worden, blijkt vrijwel altijd veel meer dan de helft uiteindelijk te worden afgekeurd. Waar dat aan ligt valt zonder uitgebreid onderzoek slecht te achterhalen. Het valt dus niet makkelijk na te gaan of het wat ongemakkelijke gevoel dat een serieuze zoeker aan zoiets overhoudt, wel terecht is. Voor een zo massale web-activiteit als ik zojuist beschreef, is het natuurlijk een voordeel als je gebruik kunt maken van een vaste breedbandige Internet-aansluiting. Toch blijken de verwerkingstijden van veel zoekvragen ook bij gebruik van een modem nog wel acceptabel te zijn.

Als alle informatie eindelijk binnen is, moet je nog even wachten. Lexibot is namelijk nog niet meteen klaar, omdat het nog veel meer doet met de opgevraagde gegevens. Die worden ook meteen allemaal full-text op je eigen PC geïndexeerd.

In eerste instantie wordt dat gedaan om de vermoedelijke relevantie van de resultaten uit al die verschillende bronnen te bepalen en dus te kunnen vergelijken. Daarvoor worden een paar verschillende rekenschema's gebruikt en wordt zelfs een volledige vector-index opgebouwd. De gebruiker kan uiteindelijk zelf bepalen volgens welk model hij de resultaten op relevantie geordend wil krijgen.

De index van alle in de gevonden documenten voorkomende termen kan ook worden opgevraagd, zowel de index voor het hele zoekresultaat als een deelindex van alleen een aantal gemarkeerde resultaten, en bovendien naar keuze gesorteerd op de frequentie van voorkomen van de termen of gewoon alfabetisch. Zo kun je op ideeën komen hoe je de zoekactie verder kunt verfijnen en dankzij die index kun je binnen de gevonden resultaten ook meteen verder zoeken, zonder daarvoor opnieuw op het web te moeten zoeken. Ook kun je besluiten de gevonden zoekresultaten (en dus ook de index daarop) te bewaren, zodat je er later nog eens rustig in verder kunt zoeken, ook weer zonder online te gaan.

Dankzij al deze extra functies - en die bieden nog veel meer mogelijkheden dan ik hier even snel kan behandelen - is een programma als Lexibot een mooie aanvulling op het instrumentarium van een regelmatige webzoeker. De waarschuwing dat de testversie na installatie maar 30 dagen actief blijft en dat je hem na die testperiode niet opnieuw kunt installeren, maar het product echt moet kopen of per e-mail nog 15 dagen respijt moet aanvragen, bleek geen loos dreigement. Ook na een officiële Windows verwijderprocedure, het opnieuw downloaden van een testversie (onder een andere gebruikersnaam) of het veranderen van de systeemdatum had het installatieprogramma door dat ik vals speelde. Voor continuering van het gebruik na de eerste 30 dan wel 45 dagen, moet je braaf $90 betalen, een voor zulke complexe software zeker niet uitzinnig bedrag.






Trend

Lexibot is een voorbeeld van een trend dat steeds meer mega-super-searching wordt aangeboden. Enerzijds zijn er meer pakketten als Lexibot, die vanaf je eigen PC grote aantallen gelijktijdige meta-searches kunnen uitvoeren. Of die allemaal soortgelijke functionaliteit bieden als Lexibot en of die ook het diepe web in hun zoekacties betrekken, moet in komende afleveringen van deze rubriek nog maar eens aan de orde komen.

Anderzijds zijn er ook bedrijven die werkzaam zijn in heel andere markten, die enigszins hiermee vergelijkbare systemen ontwikkelen. Zo biedt een leverancier van bibliotheeksoftware, ExLibris uit Israel, sinds kort ook een product dat allerlei verschillende bronnen tegelijk kan doorzoeken. Niet dat dit in de bibliotheekwereld iets heel nieuws is.

Door gebruikmaking van het Z39.50 protocol konden al lang meer bibliotheek-catalogi gelijktijdig vanaf je eigen PC worden doorzocht. Het speciale van de MetaLib software van ExLibris, is dat zij dit onder één interface combineren met andere technieken, waardoor bijvoorbeeld ook via het http-protocol te benaderen web-bronnen - waaronder die uit het diepe web - in bibliografische zoekacties kunnen worden betrokken.

Naast dit zelfde algemene uitgangspunt, zijn de verdere werking en de extra functionaliteit van MetaLib overigens wel heel anders dan wat ik zojuist over Lexibot heb geschreven. Daardoor en door het feit dat dit pakket op een zware centrale server moet draaien, valt de prijs van een dergelijk systeem - bijna het 1000-voudige van wat Lexibot vraagt - natuurlijk wel in een volstrekt andere klasse. Een exponent van dezelfde mega-searsch trend is het echter wel degelijk.





  Eerdere artikelen:
  • Eric Sieverts - Keep your mind from numbing - Informatie Professional 1 (1997) 7/8 (juli/augustus) blz. 20-21
  • Marten Hofstede - Speciale zoekmachines op Internet - Informatie Professional 2 (1998) 12 (december) blz. 32-35
 


 

© Informatie Professional (Otto Cramwinckel Uitgever, Amsterdam) en Eric Sieverts

Voor een abonnement op Informatie Professional:
bel: 020 - 627 6609

Zie ook IP Online