Informatie Professional
3 (1999) nr. 10 (okt.) blz. 10

De wetten van Garfield

terug

COLUMN
vorige | volgende | nieuwste


Eric Sieverts

Even een testje: "wat is je eerste associatie bij het horen van de naam Garfield?
Kat, strip, comic, ...   of   ISI, citatieindex, Eugene, Journal Citation Reports, ...
Ik voorzie dat de antwoorden in twee groepen van dit soort uiteen zullen vallen. Daaruit kun je meteen afleiden wie jeugdige informatieprofessionals zijn en wie al in het vak zijn vergrijsd. Die laatsten plachten te smullen van de stukjes van Eugene Garfield, oprichter van ISI, voorin de (nog papieren) Current Contents, en hebben hem misschien nog wel zelf met zijn Einstein-haardos en zijn sjofele aktetasje op de eerste On Line congressen zien rondlopen.

Gebeurt er nog wel iets met zijn oorspronkelijke ideeën over citatiegedrag, anders dan misbruik door boekhouders voor verdeling van onderzoeksgeld? In wetenschappelijke artikelen opgenomen literatuurreferenties laten dienen als gratis extra inhoudelijke ontsluiting voor retrieval van echt relevante publikaties. Meten wat toonaangevende tijdschriften zijn door middel van datzelfde citatiegedrag. Het inzicht dat wetenschappelijk publiceren dankzij opgenomen literatuurreferenties een zelf-organiserend systeem is. Statistische analyse door de computer wie wie citeert en welke artikelen vaak samen in literatuurlijstjes voorkomen, levert een dynamisch beeld hoe de wetenschap in disciplines en deelgebiedjes is opgedeeld, hoe die in de tijd evolueren en welke dwarsverbanden er bestaan.

Die "wetten" van Eugene Garfield lijken herontdekt te worden op het web. Dat je hyperlinks als een variant op literatuurreferenties kunt beschouwen en je met bepaalde zoekmachines dus ook kunt citatiezoeken op het web, kwam in onze WWW-rubriek al eens aan de orde. Maar ook van collectiever citeergedrag wordt gebruik gemaakt. Zo beschouwt Google het aantal keren dat via hyperlinks naar een web-pagina wordt verwezen, als maat voor kwaliteit en daarmee voor relevantie.

In het juni-nummer van Scientific American was een heel artikel gewijd aan het gebruik van dergelijke citatierelaties als mogelijke oplossing voor retrieval-problemen op het web. Het web groeit zo snel dat zoekmachines die groei niet meer kunnen bijhouden. Uit een jaarlijks onderzoek van de NEC-corporation kwam als schatting dat afgelopen voorjaar het aantal web-pagina's tot ruim 800 miljoen was gegroeid. Zelfs de volledigste zoekmachine - volgens datzelfde onderzoek nu Northern Light - had daarvan maar 16% geïndexeerd (Nature, 8 juli 1999, p.107)! De beste van vorig jaar, HotBot, had toen nog een dekking van 34% van de berekende 320 miljoen pagina's. Als we anderzijds bedenken hoeveel wel geïndexeerde pagina's trivialiteiten, geleuter, leugens en verdubbelingen bevatten, wordt duidelijk dat er behoefte is aan andere retrieval-methoden die meer op kwaliteit dan op kwantiteit zijn gericht.

De auteurs van het stuk in Scientific American, onderzoekers bij IBM, doen dat door twee soorten belangrijke web-pagina's te onderscheiden: authorities en hubs. Authorities zijn pagina's met belangrijke primaire informatie. Dat ze belangrijk en primair zijn, wordt afgeleid uit het feit dat er vanuit veel andere pagina's naar wordt verwezen. Hubs zijn belangrijke verwijspagina's. Dat ze belangrijk zijn en vooral een verwijsfunctie hebben, wordt afgeleid uit het feit dat ze naar veel authorities verwijzen. Een authority kun je dus ook definiëren als een pagina waar veel hubs naar verwijzen. Hoewel dat een cirkelredenering lijkt, blijk je door iteratieve rekenprocessen toch tot kwaliteitsoordelen over zowel authorities als hubs te kunnen komen. Bij elke zoekactie kan de computer uitrekenen wat de beste hubs en authorities zijn die aan je vraag voldoen, zodat die als relevantste het eerst getoond kunnen worden. Dat dat nu nog wat veel rekentijd vergt, is ongetwijfeld een voorbijgaand probleem.

Dus opnieuw betere retrieval-resultaten op basis van citatiegedrag. Lang leve Garfield - en dan bedoel ik dus Eugene!




© Informatie Professional (Otto Cramwinckel Uitgever, Amsterdam) en Eric Sieverts

Voor een abonnement op Informatie Professional:
bel: 020 - 627 6609

Zie ook IP Online