Informatie Professional
terug

Google Scholar

9 (2005) nr. 1 (januari) blz. 18-26




Wetenschappelijk Googelen eenvoudiger en beter dan ooit?


Jeroen Bosman, Eric Sieverts

November 2004 mag in ons vak de boeken in als een heel bijzondere maand. De zoekwereld werd stevig opgeschud: Elsevier kwam met Scopus, een directe concurrent van ISI's Web of Science en Microsoft bracht een vernieuwde en sterk vergrote versie van MSNsearch uit als voorloper van een totaal nieuwe webzoekmachine. Google ging daar overheen met een verdubbeling van zijn index tot 8 miljard webpagina's. Elsevier en universiteitsbibliotheken kwamen niet tot overeenstemming over afname van het gehele Elsevier-pakket en toen de rust leek weergekeerd sloeg de zwaarste bom in: Google Scholar. Deze geheel nieuwe zoekmachine voor de wetenschap dringt gevestigde en nieuwe spelers op de markt voor wetenschappelijke zoeksystemen in de verdediging. Terwijl er nog stevige naschokken gevoeld worden, maken Jeroen Bosman en Eric Sieverts een voorlopige balans op van Google Scholar.


Tot nu toe was het nooit geheel volmaakt

De afgelopen twintig jaar is de wetenschappelijke output verveelvoudigd. Om in al deze informatie te vinden wat je zoekt, zijn er gelukkig ook nieuwe en steeds betere zoeksystemen bijgekomen. Helaas wil dat niet zeggen dat het zoeken van wetenschappelijke publicaties makkelijker is geworden. Voor veel vakgebieden geldt namelijk dat, wie niet al te veel wil missen, al snel in drie, vier, vijf of zes databases moet zoeken en de resultaten zelf bijeen moet voegen. De zoeksystemen overlappen elkaar allemaal, maar helaas nooit helemaal. Met het ene zoek je alleen in toptijdschriften, met het andere in tijdschriften van een specifieke uitgever, met weer een andere in tijdschriften die grote Nederlandse bibliotheken gedrukt in abonnement hebben, met weer andere alleen in gratis tijdschriften op het vrije web. Gespecialiseerde vakbibliografieën schieten soms te kort door toenemende interdisciplinariteit en doordat wetenschappers steeds vaker publiceren in een vorm en op platforms die door die hulpmiddelen niet worden gedekt. Deze halfoverlappende ingangen hebben allemaal hun eigen interface met allerhande eigenaardigheden.

Goed zoeken vraagt daardoor om een mindset die bij de nieuwe generaties studenten steeds minder aanwezig is. Die studenten snappen niet waarom zoeken naar al die juist zo mooi gestructureerde artikelen moeilijker moet zijn dan zoeken op het in zijn aard veel chaotischer web.

Het bedrijf dat in een dergelijke situatie met een zoekmachine komt, die belooft wetenschappelijke publicaties zo mogelijk full-text te indexeren, ongeacht vakgebied, ongeacht uitgever, ongeacht format, met razendsnelle responsetijden, en met een ordening van de zoekresultaten op basis van voorkomen van zoektermen én op basis van gewogen citaties, en tenslotte ook nog met links naar een preferente plek waar men toegang kan krijgen tot de gehele tekst, dat bedrijf heeft voorwaar een grote troef in handen. Google heeft met Google Scholar zo'n troef, het belooft al dit moois en het maakt het nu al voor een deel waar. Maar wat is Google Scholar eigenlijk?




I. Geen webzoekmachine!

Google Scholar is geen reguliere webzoekmachine zoals de gewone Google, Yahoo of Teoma. Google Scholar is door Google speciaal opgezet voor het hoger onderwijs en de wetenschap met het doel wetenschappelijke publicaties te ontsluiten, teksten dus. Het is niet zo dat Google een speciaal mechanisme heeft ontwikkeld om alles op het web, waarvan het denkt dat het wetenschap is, eruit te filteren, zoals Gary Price daags na de lancering van Google Scholar op zijn weblog Resourceshelf ten onrechte beweerde. En het is ook niet zo dat Google zich vooral beperkt tot gratis bronnen, free content, zoals Elsevier topman Crispin Davis op 3 december in het Financieele Dagblad zei.

 

Wat Google Scholar wel doet: bij geselecteerde hosts en op websites van universiteiten gegevens van publicaties (metadata en indien mogelijk full-text) indexeren. Wij hebben de indruk dat de selectie van hosts (uitgevers en de zogenaamde abstracting & indexing services) handmatig geschiedt, terwijl publicaties op pagina's van onderzoeksinstellingen, faculteiten en individuele onderzoekers automatisch worden herkend. Dat laatste suggereert ook Anurag Acharya, de ontwikkelaar van Google Scholar, tegenover Nature (Butler 2004). Het herkennen van de wetenschappelijke publicaties op al de verspreide universitaire sites gebeurt op basis van hun vaste format (titel - auteurs - abstract - keywords - inleiding - tekst - conclusie - literatuurlijst). Daarnaast kan echter ook het harvesting protocol van het Open Archive Initiative (OAI) worden toegepast.




II. Dekking: waar zoek je eigenlijk in met Google Scholar?

Een van de belangrijkste punten bij Google Scholar, zoals natuurlijk bij alle databases, is te weten waarin je eigenlijk zoekt. Pas als je dat weet, kun je inschatten of het zinnig is een zoekactie te doen en kun je de recall op waarde schatten. Helaas zegt Google daar zelf erg weinig over. Het zou getuigen van een professionele houding als dat wel gaat gebeuren, zoals ook Péter Jacso zegt in zijn lange en venijnige kritiek op Google Scholar (Jacso 2004).

Uit eigen tests blijkt dat de belangrijkste bulkleveranciers van de index van Google Scholar (tabel 1) uitgevers, pre-print servers en bibliografische databases zijn. Voor een deel van deze uitgevers, namelijk 25 van de 650 die samenwerken in CrossRef, had Google eerder al content geïndexeerd voor hun 'Crossref Search Pilot'. Daarnaast heeft Google Scholar dankbaar gebruik gemaakt van de grote geïntegreerde catalogus OCLC-Worldcat, die sinds kort in een voor spiders doorzoekbare versie beschikbaar is. Die heeft metadata van zo'n 57 miljoen publicaties, voornamelijk boeken, met daarbij de vindplaats in duizenden bibliotheken.

De lijst van de grotere databases en uitgevers waarvan Google de gegevens heeft geoogst, is wel wat scheef: Google heeft tot nu toe vooral de inhoud van Engels-Amerikaanse databases in z'n index opgenomen, met daarbij meer aandacht voor biomedische en exacte wetenschappen dan voor sociale wetenschap en humaniora. De gegevens van bijvoorbeeld Muse en JSTOR zijn vooralsnog niet overgenomen, maar Google heeft deze wel op z'n verlanglijstje staan. Een zeer belangrijke afwezige is natuurlijk Elsevier, dat uit concurrentieoverwegingen Google niet heeft toegestaan de full-text van zijn artikelen te indexeren. Indirect, bijvoorbeeld via Pubmed, de grootste bibliografie voor geneeskunde, zitten van redelijk wat artikelen uit Elsevier-tijdschriften toch wel bibliografische gegevens in de database van Google Scholar.

Overigens is met Pubmed iets vreemds aan de hand. Zoekend op het domein van Pubmed, ncbi.nlm.nih.gov, vindt men in Google Scholar 'slechts' 2 van de 15 miljoen records. Maar vreemd genoeg levert een allinurl:pubmed zoekactie wel 15 miljoen records op, terwijl het woord Pubmed niet eens in de betreffende URL's zelf voorkomt. Het is te hopen dat dergelijke inconsistenties zullen verdwijnen voor de zoekmachine de bèta-fase uitgaat. Ook bij sommige uitgevers is niet duidelijk waarom allinurl-zoekacties maar een deel van hun artikelen opleveren. Zo meldt Blackwell 442.000 artikelen van z'n tijdschriften in de Synergy database te hebben, maar Google vindt er 'slechts' 209.000. Ook bij andere leveranciers is de dekking van Google zelden 100%, maar doorgaans tussen de 30% en 80%.



Tabel 1.
Aantallen records uit de 26 waarschijnlijk grootste herkomstdatabases van Google Scholar (7/12/2004).
naam aantal records Gevonden op basis van zoekactie "allinurl:..." aard van records
Pubmed 2.110.000 ncbi.nlm.nih.gov bibliogr
Ingenta 1.040.000 ingenta bibliogr/fulltext
Harvard Astrophysical Data System 667.000 adsabs.harvard bibliogr
American Physical Society 493.000 aps.org fulltext
Institute of Electrical and Electronics Engineers (IEEE) 304.000 ieee.org fulltext
arXiv: Cornell E-print archive 278.000 arxiv.org fulltext
Association for Computing Machinery 295.000 acm.org fulltext
Nature 215.000 www.nature.com fulltext
Blackwell Synergy 209.000 blackwell.synergy fulltext
Wiley Interscience 200.000 interscience.wiley fulltext
Research Papers in Economics (Repec) 194.000 repec.org fulltext
OUP Journals (niet oup.co.uk) 155.000 oupjournals.org fulltext
American Institute of Physics 151.000 aip.org fulltext
Springer Link 150.000 springerlink fulltext
American Society for Microbiology 130.000 asm.org fulltext
Kluwer Online 129.000 kluweronline fulltext
Taylor and Francis 127.000 taylorandfrancis.metapress fulltext
American Geophysical Union 99.300 agu.org fulltext
Cambridge Journals 85.400 journals.cambridge.org fulltext
Institute of Physics Journals 75.300 iop.org fulltext
Social Science Research Council (SSRN) 73.100 papers.ssrn fulltext
British Medical Journal (BMJ) Journals 65.400 bmjjournals fulltext
Annual Reviews 39.900 annualreviews.org fulltext
Science 37.600 sciencemag.org fulltext
Royal Society of Chemistry 35.000 rsc.org fulltext
International Union of Crystallography 31.500 iucr.org fulltext
bron: onderzoek Bosman/Sieverts


Totale omvang

De totale omvang van Google Scholar op basis van deze grote herkomstdatabases komt op zo'n 10 miljoen records. Hier komen nog vele miljoenen publicaties bij, die afkomstig zijn van websites van universiteiten (alleen al bij de Universiteit Utrecht, uu.nl, zo'n 4.000, terwijl het .edu-domein van het hoger onderwijs in de VS zo al 15 miljoen PDF-documenten bevat, waarvan een aanzienlijk deel wetenschappelijke publicaties zal zijn). We schatten dat het aantal van dit soort publicaties in Google Scholar rond 5 miljoen zal liggen. Vervolgens zijn nog eens vele miljoenen citaties alleen in Google Scholar terechtgekomen, omdat Google de bij het indexeren van full-text artikelen aangetroffen literatuurreferenties weer als aparte records heeft opgenomen. Er van uitgaande dat Google van de 15 miljoen primair geïndexeerde publicaties de helft in full-text heeft kunnen indexeren en daar dus ook citaties van heeft kunnen opnemen, komen we bij gemiddeld 10 unieke citaties op 15 + 7,5X10 = 90 miljoen records in Google Scholar.

Aan de andere kant zal er sprake zijn van dubbeltellingen: records van verschillende herkomst die dezelfde publicatie betreffen, maar door Google ten gevolge van verschillen niet als dezelfde worden herkend. Onze schatting is daarmee veel lager dan die van Nature, dat de totale omvang van Google Scholar op een half miljard records schatte, echter zonder daarbij argumenten of berekeningen aan te voeren (Butler 2004).

Een andere manier om de totale omvang te schatten is zoekresultaten te vergelijken met die van databases waarvan de totale omvang bekend is (tabel 2). Ook daarmee komen we tot een veel lagere schatting dan Nature: 50-70 miljoen. Hiervoor is de verhouding tussen de resultaten van Google Scholar en de twee andere databases voor 10 zoekacties gemiddeld. De resulterende factor is vermenigvuldigd met de totale bekende omvang van de twee vergelijkingsdatabases. De zo geschatte totale omvang van 50-70 miljoen betreft unieke titels, waarvoor Google Scholar vaak meer dan één bron kent. Er is dan nog wel één probleem: als Google Scholar inderdaad alle 57 miljoen records uit OCLC-Worldcat zou bevatten, komt onze schatting wel erg laag uit. Tests wijzen echter uit dat veel titels uit Worldcat niet te vinden zijn in Google Scholar. Het lijkt er op dat voor Google Scholar alleen records uit Worldcat zijn overgenomen als er naar de betreffende titel wordt verwezen in een publicatie uit andere bronnen. Het vermoeden is dus dat Worldcat niet als primaire bron is gebruikt. Opmerkelijk genoeg heeft Google dat wel gedaan voor de reguliere Google webzoeker. Zo ontbreken waarschijnlijk miljoenen (wetenschappelijke) boektitels in Google Scholar.



Tabel 2.
Vergelijking van Google Scholar met databases met bekende totaalomvang op basis van zoekacties in de titels, met weinig-vakspecifieke termen
  Omega 1 Web of Science 2 Google Scholar GS / Omega GS / WoS
totaal 9,5 miljoen 22,4 miljoen      
strength AND new 215 533 825 3,8 1,5
gender AND qualitative 10 19 50 5,0 2,6
concentration AND analysis 359 969 1990 5,5 2,1
activity AND effects 2647 11086 33800 12,8 3,0
negative AND pressure 153 949 1700 11,1 1,8
treatment AND failure 722 4247 11000 15,2 2,6
weight AND early 114 548 1050 9,2 1,9
rapid AND international 26 33 87 3,3 2,6
consequences AND policy 130 194 604 4,6 3,1
story AND words 25 24 42 1,7 1,8
gemiddelde factor       7,2 2,3
schatting GS totaal       69 miljoen 52 miljoen
(1) Omega is een eigen artikeldatabase van de Universiteitsbibliotheek Utrecht
(2) Betreft versie van het Web of Science met dekking 1988-2004


Typen bronnen en dekkingsperiode

Niet alleen de artikelen uit tijdschriften zijn geïndexeerd voor Google Scholar, maar in een deel van de bronnen ook overige inhoud, zoals book reviews, discussie en 'letters to the editor'. Wat betreft de dekkingsperiode wijzen steekproeven uit dat op het moment van schrijven voor veel bronnen geldt dat indexering van het materiaal 2-3 maanden achterloopt. Wel heeft Google in elk geval bij een deel van de bestanden ook toegang gekregen tot backfiles. Vooral bij sommige beta-bronnen gaat de dekking daardoor redelijk ver terug in de tijd.

Dare

Google Scholar haalt ook documenten uit universitaire repositories die via het Open Archives protocol te bevragen zijn. Naar verluidt, kan Google toegang verkrijgen tot die systemen, wanneer daar gebruik wordt gemaakt van de speciaal voor dergelijke OAI-repositories ontwikkelde DSpace-software. Dat dat in sommige gevallen een beperking inhoudt, blijkt uit het feit dat uit het overkoepelende Nederlandse DARE-repository een heleboel documenten niet in Google Scholar blijken te zitten. Bij DARE wordt ook inderdaad geen gebruik gemaakt van DSpace, maar van iTor-software. Een paar steekproeven met voldoende kleine aantallen resultaten uit DARE om ze individueel in Google Scholar te kunnen opzoeken, leverde op dat ruim 75% daarvan NIET in Google Scholar te vinden was. Van wat wel te vinden was, bleek bovendien een deel alleen als [citation] aanwezig te zijn. Eigenlijk zat dus niet meer dan ca. 15% uit die DARE-steekproeven echt full-text in Google Scholar. Of die publicaties door Google Scholar rechtstreeks verzameld waren vanuit hun individuele, wel met DSpace werkende, universitaire repositories of op andere wijze was niet makkelijk te achterhalen.




Grote multidisciplinaire artikelbestanden: de concurrentie

Hoewel het genereren van goede informatie over waar je met Google eigenlijk in zoekt lastig is, valt met wat zoekacties wel een vrij exacte indruk te krijgen van de omvang en dekking van Google Scholar ten opzichte van andere grote artikeldatabases. Het resultaat van 9 van dat soort zoekacties in 9 geselecteerde grote artikeldatabases aangevuld met 1 vakbibliografie ( tabel 3) moet tot de conclusie leiden dat Google Scholar gemiddeld genomen erg veel resultaat geeft. Wel is er zeer waarschijnlijk sprake van inflatie van de aantallen van Google door dubbelteling: waar Google records over hetzelfde artikel van verschillende leveranciers verkrijgt, is het belangrijk dat deze als hetzelfde record worden herkend. Gebeurt dat om een of andere reden niet, dan krijg je dubbeltellingen. Dat kan behoorlijk oplopen als er of bij de leveranciers of door Google OCR is toegepast. Het is ondoenlijk een betrouwbare inschatting van dergelijke dubbeltellingen te maken. We hebben alleen getest met Engelstalige termen. Van deze databases scoren alleen Picarta en OAIster (relatief) goed op Nederlandse termen. Om de vergelijking zuiver te houden hebben we alleen in titels van documenten gezocht en niet in abstracts of full-text, aangezien niet alle databases die zoekmogelijkheid ondersteunen.

Ingenta, Picarta, Scirus, Scopus en het Web of Science scoren zelden hoger dan 70% van het aantal resultaten bij Google Scholar. Hetzelfde geldt voor vakbibliografieën, al kunnen er natuurlijk heel goede redenen zijn om die toch te gebruiken, zoals de beschikbaarheid van gecontroleerd vocabulair waarmee vollediger en preciezer zoekresultaten behaald kunnen worden. JSTOR, Find Articles en OAIster scoren zelden meer dan 10% van het Google Scholar-resultaat. In een paar gevallen komen de databases wel boven deze grenzen uit. Dat heeft dan vermoedelijk te maken met 'interne scheefheid' wat betreft Google Scholar en de andere databases: niet alle vakgebieden zijn in gelijke mate gedekt. Bovendien zitten in Picarta en Findarticles ook niet-wetenschappelijke bronnen en heeft Picarta ook veel boektitels. Web of Science scoort, ook vergeleken met Scopus en Scirus, goed op zoektermen uit de humaniora door incorporatie van de Arts & Humanities Citation Index. Andere verschillen tussen de databases zijn te verklaren uit de periode van dekking. Waar Findarticles en vooral OAIster vooral recent materiaal ontsluiten, gaan Web of Science, Picarta en vooral JSTOR veel verder terug. De cijfers van Scopus lijden in deze test onder het feit dat in de testversie die wij mochten bekijken de gegevens van de periode 1960-1995 ontbraken. De volledige Scopus versie zal op veel zoekacties dus aanzienlijk grotere resultaten geven!



Tabel 3.
Omvang van artikeldatabases op basis van enkele concrete zoekacties op 'exact phrase' in het titelveld, absoluut en geïndexeerd, met Google Scholar=100.
  GS FA IG-el. IG-pr. Jstor OAI-ster PI SCI SCO WoS vak-bibliografie
speech recognition 15700 787 253 1741 9 1520 1826 697 3390 1172 INS  5045
human genome 3130 293 323 1612 111 308 2207 2092 2233 2082 PM:  1876
competitive advantage 2120 406 316 1110 66 84 1778 284 634 652 EL:  231
Alexander disease 124 1 13 69 0 0 62 62 50 59 PM:  46
educational achievement 411 11 41 121 30 15 333 81 119 123 ERIC:  285
william shakespeare 193 75 8 75 90 110 1647 14 12 224 MLA:   166
stoic 153 17 32 145 120 5 555 21 48 274 PHI:   214
index: GS=100                      
speech recognition 100 5 2 11 0 10 12 4 22 7 32
human genome 100 9 10 52 4 10 71 67 71 67 60
competitive advantage 100 19 15 52 3 4 84 13 30 31 11
Alexander disease 100 1 10 56 0 0 50 50 40 48 37
educational achievement 100 3 10 29 7 4 81 20 29 30 69
william shakespeare 100 39 4 39 47 57 853 7 6 116 86
stoic 100 11 21 95 78 3 363 14 31 179 140
bron: onderzoek Bosman/Sieverts
verklaring van de afkortingen:
FA=Find Articles; IG-el.=Ingenta electronic; IG-pr.=Ingenta fax/ariel; PI=Picarta; SCI=Scirus, alleen tijdschriften; SCO=-Scopus, alleen tijdschriften; WoS=Web of Science; INS=Inspec; EL=Econlit; PM=PubMed; ERIC=Education Resources Information Center; MLA=Modern Language Association Bibliography; PHI=Philosophers Index.


Recall

Wie resultaten van één zoekactie in de diepte vergelijkt, kan nog meer conclusies trekken over dekking en recall. Wij hebben dit gedaan voor een zoekactie op de term "alexander disease" (tabel 4). Daarbij is gezocht op dit exacte begrip, voorkomend in de titel van publicaties. Een niet onaanzienlijk aantal publicaties met "alexander's disease" in de titel, die zonder verdere actie automatisch herkend worden door Picarta en vooral Google Scholar, hebben we dus terzijde geschoven. Ook alle resultaten van voor 1995, waarvan wederom Google Scholar er vele heeft, zijn niet in de telling meegenomen, aangezien onze testversie van Scopus geen materiaal van voor dat jaar bevatte.

De totale recall, hier geoperationaliseerd als het totale aantal unieke publicaties gevonden door alle betrokken zoeksystemen tezamen, bedraagt 57. Niet één database komt veel verder dan tweederde van deze totale oogst. De verschillen zijn echter niet erg groot. Google Scholar doet hier voor een bèta-product heel goed mee. Niettemin is het verschil tussen Scopus en Web of Science groot genoeg om die systemen in een ander bestek eens verder te vergelijken. Ondanks de wat tegenvallende totaalscore van Web of Science is dit wel het bestand met het grootste aantal unieke titels en met het grootste aantal recente titels. Google moet duidelijk extra aandacht gaan besteden aan het snel indexeren van nieuw materiaal. Niettemin kunnen we op basis van deze vergelijking voorzichtig concluderen dat we Google Scholar wat betreft recall niet zomaar terzijde kunnen schuiven. Peter Jacso's kwalificaties als "small fraction" en "large gaps" met betrekking tot de dekking van Google Scholar (Jacso 2004) lijken op basis van deze vergelijking voorlopig ontkracht.



Tabel 4.
Recall van enkele artikeldatabases op het begrip "alexander disease" in de titel, vanaf 1995.
  totaal aandeel (%) uniek 2004
totaal 57 100 0 9
Scopus 39 68 1 5
Pubmed 38 67 0 6
Picarta 35 61 4 3
Google Scholar 33 58 1 3
Web of Science 30 53 9 7
bron: onderzoek Bosman/Sieverts



III. Indexering: wat wordt er van een publicatie gespiderd?

Doordat Google Scholar zoveel veelsoortige informatie uit zo veel verschillende bronnen doorzoekbaar maakt, is het goed eens te kijken wat er nu precies wordt doorzocht. Bij full-text documenten lijkt die vraag eenvoudig te beantwoorden. Full-text is immers full-text. Toch is er - overigens net als bij de gewone web-Google - wel een ingebouwde beperking. Gewone artikelen van 15 of 20 bladzijden worden nog wel helemaal geïndexeerd, maar als de teksten wat langer worden, blijkt er een bepaalde bovengrens te zijn. Een proef met een full-text proefschrift in PDF van onze eigen Theo Huibers wees uit dat vanaf halverwege bladzijde 53 (eigenlijk na 43 bladzijden echte tekst), de inhoud niet verder geïndexeerd was. Dat was na bijna 120.000 letters echte tekst, oftewel na ongeveer 20.000 woorden.

Opmerkelijk genoeg bleek Google Scholar wel te weten welke literatuur in dit proefschrift werd geciteerd, ondanks dat de literatuurlijst pas op bladzijde 181 begon. Om het citatiezoeken betrouwbaar te houden, blijkt daarvoor dus wel t ot het einde van de documenten gekeken te worden. Een andere opmerkelijke uitkomst van nader onderzoek was dat wat oudere artikelen die op de site van de uitgever alleen beschikbaar zijn in zogenaamde TIFF-PDF, dus in feite als images in plaats van als tekst, toch full-text doorzoekbaar bleken. Figuur 1 laat zien dat een zinnetje uit het dankwoord aan het eind van zo'n artikel ook letterlijk zo in Google's KWIC-presentatie verschijnt, waarbij zelfs afbrekingen van woorden meekomen. Dat suggereert dat waarschijnlijk OCR is gebruikt om een digitale versie van de tekst te verkrijgen. Dat het betreffende artikel bij de uitgever zelf niet full-text doorzoekbaar bleek, suggereert bovendien dat dat kennelijk door Google Scholar zelf wordt gedaan.





Figuur 1. Google Scholar indexeert tekst uit TIFF-PDF images: OCR?


Tabel 1 toont dat, naast een heleboel full-text beschikbare artikelen, ook heel veel artikelen in Google Scholar zitten, waartoe Google alleen via Pubmed toegang heeft gekregen. Daarvan heeft het geen volledige teksten kunnen indexeren, zodat alleen de tekst doorzoekbaar is, voorzover die aanwezig is in die bibliografische beschrijvingen uit Pubmed: behalve de titel meestal een 20-tal regels samenvatting, aangevuld met tien à twintig trefwoorden. Gezien het grote verschil tussen 20 regels of 20 bladzijden tekst, zullen de alleen via Pubmed doorzoekbare artikelen altijd sterk ondervertegenwoordigd zijn in de zoekresultaten. Daarbij moet natuurlijk wel worden bedacht dat in een langere tekst ook meer herhalingen van dezelfde woorden voorkomen, zodat vindkansen niet direct evenredig zijn met die hoeveelheden tekst.

Een nog veel sterkere ondervertegenwoordiging geldt de documenten die alleen via OCLC's WorldCat bibliotheekcatalogus in Google Scholar terecht gekomen zijn. Die zijn in zoekresultaten gekarakteriseerd als [book]. Via Google Scholar zijn die alleen terug te vinden op de paar woorden uit de titels, een paar toegekende trefwoorden en de auteursnamen. Onderwerpsvragen, zeker als die goed gespecificeerd zijn met meer zoektermen, zullen daardoor altijd relatief weinig van de aanwezige WorldCat records opleveren. (Eerder beargumenteerden we al dat waarschijnlijk ook niet alle 57 miljoen records aanwezig zijn). Voor de [citations] in Google-resultaten geldt het bovenstaande minstens zo sterk. Dit zijn namelijk artikelen en boeken waarvan Google Scholar helemaal geen rechtstreekse gegevens bevat, maar alleen die gegevens die uit de literatuurlijsten van andere, wel opgenomen documenten te halen waren.




IV. Zoekfunctionaliteit: hoe kun je gericht zoeken?

De beta-versie van Google Scholar biedt nog geen "advanced search" en ook geen uitgebreide online hulp. Niettemin konden we, op basis van de mogelijkheden van de gewone Google, wel redelijk uitvinden wat er voor speciale zoekmogelijkheden zijn. Er kan gebruik gemaakt worden van de OR-operator om synoniemen en woordvormen te combineren. Truncatie is niet mogelijk. Met aanhalingstekens kan op exacte woord-reeksen worden gezocht. Met + en - kan worden aangegeven welke termen verplicht wel of niet moeten voorkomen. Anders dan bij de gewone Google, wordt geen optie geboden om een al verkregen zoekresultaat verder in te perken middels "search within results".

Van de specifieke zoekvelden die we van de gewone Google kennen is een aantal beschikbaar. Bovendien is voor dit specifieke materiaal een veld "author" toegevoegd. Tabel 5 geeft een overzicht van deze velden. Het lijkt dat er niet gericht via velden gezocht kan worden op specifieke tijdschrifttitels of literatuurreferenties. [noot]  Stukjes daarvan kunnen natuurlijk wel in gewone zoekvragen worden verwerkt. Citatiezoeken wordt bovendien al op een andere manier bewerkstelligd.

De namen van de auteurs van publicaties blijken door Google Scholar op automatische wijze herkend te worden. Dat dat niet altijd foutloos gebeurt, blijkt uit artikelen die geschreven zouden zijn door de auteurs "S. Roselaar, U. Utrecht en F. der Letteren" of door "R. Swan, F. Conclusions, O. References en B. Appendix".



Tabel 5
Zoekvelden van Google Scholar
allintitle:  * alle woorden die hier achter staan moeten in de titel van de te vinden documenten voorkomen
author: zoeken op auteursnamen. Bij voornamen alleen de initialen gebruiken; bij meer voorletters geen spaties daartussen. De veldaanduiding slaat ook maar op één zoekterm, zodat naar de auteurs van dit artikel gezocht zou moeten worden met:
      author:bosman author:sieverts author:eg
Omdat zoeken op exacte strings niet werkt, kan niet gegarandeerd worden dat initialen ook echt bij een achternaam horen. Namen met meer voorletters worden ook op alleen de eerste voorletter gevonden.
filetype: zoekvragen die hiermee worden ingeperkt op de documenttypes PDF, PS en XML leveren resultaat op; inperking op DOC, PPT, RTF en XLS bleken niets op te leveren.
allinurl:  * hiermee wordt gezocht in de URL's van alleen de door Google Scholar als primaire bron aangemerkte versie van de betreffende publicatie; er kan zowel op losse elementen van URL's als op volledige URL's worden gezocht; in het zoekresultaat zijn de URL's waarop die gevonden zijn niet gemarkeerd; overigens kunnen elementen van URL's ook zonder veldaanduiding aan gewone zoekvragen worden toegevoegd.
site: hiermee zou ook op URL's gezocht moeten worden. Dit veld geeft echter altijd aanzienlijk kleinere aantallen dan "allinurl". Op dit veld baseerde Péter Jacso zijn - daarom wat overdreven - negatieve oordeel over Google Scholar's dekking (Jacso 2004)
allinanchor: Google Scholar herkent dit veld, maar het is onduidelijk waarop daarmee in de praktijk wordt gezocht.
*     De twee veldinperkingen allintitle en allinurl leveren onbetrouwbare aantallen bij zeer grote zoekresultaten. De vermelde aantallen zijn dan dezelfde als die zonder veldinperkingen.


V. Ranking

Zoals in de gewone Google de "pagerank", een gewogen maat voor het aantal links naar een website, een belangrijke factor vormt in de ranking van de zoekresultaten, zo is dat bij Google Scholar de citatie-score van de gevonden publicaties. Wanneer op één zoekterm is gezocht, volgt de ranking min of meer de volgorde van de bij de gevonden publicaties vermelde "cited by" aantallen. Dat de volgorde van de resultaten niet helemaal de lijn van afnemende citaties volgt, komt doordat de herkomst van de citaten het gewicht hiervan mede bepaalt. Net als in de gewone Google webzoeker legt een citatie vanuit een artikel dat zelf veel geciteerd wordt meer gewicht in de schaal dan eentje vanuit een publicatie die zelf weinig wordt aangehaald. Ook is misschien, net als bij de Google Pagerank, een citatie meer waard naarmate hij uit een kortere literatuurlijst afkomstig is. De precieze parameters van het algoritme kennen we niet.

Andere kleine afwijkingen van deze regelmaat treden op door de aard van de gevonden documenten, doordat full-text enige voorkeur lijkt te krijgen boven [book] of [citation], en misschien ook wel door het belang van de plaats waar de zoektermen in de gevonden documenten voorkomen. Bij wat complexere zoekvragen met veel zoektermen is de regelmaat vaak nog wat minder, omdat dan ook de onderlinge positie en volgorde van voorkomen van de zoektermen binnen de gevonden publicaties een rol lijkt te spelen. Een artikel dat slechts "cited by 83" is, komt dan soms terecht boven eentje dat "cited by 411" is. Globaal blijven de aantallen keren dat een publicatie geciteerd is echter wel afnemen, naarmate je verder bladert.





VI. Diversiteit van zoekresultaten

In de resultatenlijst uit een Google Scholar zoekactie kunnen verschillende soorten resultaten voorkomen. Daarbij kan het ook heel verschillend zijn of en hoe de primaire informatie uiteindelijk online verkregen kan worden. In de meeste zoekresultaten zullen altijd wel direct PDF-versies van artikelen aanwezig zijn. Aanklikken van zo'n resultaat heeft echter niet altijd tot gevolg dat je als gebruiker ook meteen dat PDF-document in je browser geopend krijgt. Daar kunnen verschillende redenen voor zijn. Soms komt de gebruiker eerst nog op een webpagina terecht waar hij kan kiezen of de voorkeur uitgaat naar een html- of een pdf-versie. Soms ook wordt door het aanklikken van de link een gezipte versie van het pdf-document gedownload. Er zijn echter ook heel wat PDF's van uitgevers die alleen gebruikers toelaten die, via wat voor soort licentie dan ook, een abonnement hebben. Als de gebruiker dan niet automatisch wordt herkend als iemand die recht heeft op dat document, zal meestal eerst een scherm verschijnen, waarop ingelogd kan worden of waar eventueel voor het bekijken van het artikel betaald kan worden. Het probleem van de links vanuit bibliografische databases naar niet bereikbare full-text artikelen, dat bij steeds meer grote wetenschappelijke bibliotheken via het SFX linking mechanisme is opgelost, bestaat hier dus nog in volle glorie.

Een aardige oplossing voor dit toegangsprobleem en het 'appropriate copy problem' is al ontwikkeld door de bibliotheek van de University of Alberta in Canada. Zij laten de button van hun eigen SFX-linkresolver met behulp van een extensie voor de Mozilla Firefox-browser invoegen in zoekresultaten uit Google Scholar (figuur 2). Een goed voorbeeld van snel inspelen op nieuwe mogelijkheden. Men geeft wel toe dat het nog niet ideaal is: de links leiden naar de betreffende jaargang van een tijdschrift en nog niet naar het precieze artikel (Binkley 2004).

Voor de - overigens niet zeer frequente - gevallen waarin een Postscript-versie wordt aangeboden in plaats van PDF, geldt in principe hetzelfde als hierboven, al zal het hier vrijwel altijd om gratis te verkrijgen teksten gaan. Wel zal de gebruiker in dat geval het document meestal moeten downloaden, omdat maar weinig mensen een Postscript plugin voor hun browser geïnstalleerd zullen hebben. In een eveneens vrij klein aantal gevallen is er voor een artikel een link naar alleen een HTML-versie van de volledige tekst.

Van artikelen uit tijdschriften waarvan Google Scholar niet de volledige teksten ter beschikking heeft gekregen, zoals de bijna 2000 tijdschriften van de verreweg grootste wetenschappelijke uitgever Reed-Elsevier, zijn soms wel de bibliografische gegevens beschikbaar. Dat betreft bijvoorbeeld de artikelen die in Pubmed zijn opgenomen. Dergelijke, alleen op basis van hun bibliografische gegevens (inclusief abstract) gevonden artikelen, bevatten wel een link naar het corresponderende record in Pubmed. Daar is vervolgens meestal wel weer een link naar de full-text bij de uitgever aanwezig. Of de gebruiker er langs die weg bij mag, hangt dan natuurlijk ook weer af van de bij diens organisatie beschikbare licenties en abonnementen. De ook vrij frequente verwijzingen naar records uit een abstract-database bij Harvard-university, leveren echter helemaal geen linking naar full-text op. Bij de nog wat frequentere verwijzingen naar bibliografische records van Ingenta, wordt meestal aangeboden het betreffende artikel à raison van $30 à $50 aan te schaffen.

Soms kent Google Scholar ook meer versies van hetzelfde artikel. Als er meer dan vier versies zijn, gebeurt dat zelfs via een tussenscherm waarop ze allemaal onder elkaar vermeld worden. Zestien versies van hetzelfde artikel is tot nu toe het maximum dat we zijn tegengekomen. In zulke gevallen zijn er meestal wel een paar die direct de (zelfde) full-text geven, ook buiten een universitair IP-domein, terwijl bij een paar andere links voor hetzelfde artikel toch eerst nog een inlog-code of betaling wordt gevraagd. Daarnaast zijn er bij dergelijke aantallen meestal ook nog een paar bibliografische en zelfs een paar dode links.





Figuur 2. Link resolver voor Google Scholar van University of Alberta


Bij [book] zoekresultaten uit de WorldCat catalogus-database van OCLC wordt via de "Library Search"-link de mogelijkheid geboden het betreffende boek ook echt te vinden. In de Nederlandse situatie is dat van erg weinig nut, omdat WorldCat geen collectie-informatie van Nederlandse bibliotheken bevat - dit ondanks de tussen OCLC en PICA bestaande zakelijke relatie. De ook aangeboden "Web Search" is een zoekactie in de gewone Google, waarbij automatisch op de achternaam van de eerste auteur + de eerste vier woorden uit de titel van het boek wordt gezocht. Voor dat laatste wordt een "exacte string" gebruikt, waarbij eventuele stopwoorden met een * gemaskeerd worden. Een dergelijke zoekactie brengt je in de meeste gevallen overigens niet veel verder dan een reclamepagina van de uitgever of de mogelijkheid het boek bij Amazon te bestellen. Zo'n Amazon-resultaat heeft natuurlijk w el als voordeel dat vaak een inhoudsopgave van het boek en soms zelfs de "search inside"-optie beschikbaar zijn.

Verder kunnen bij de zoekresultaten ook [citations] zitten. Dat zijn artikelen waarvan Google Scholar noch de volledige tekst, noch een bibliografisch record ter beschikking gekregen heeft. Uit de literatuurverwijzingen van wel aanwezige publicaties, heeft Google Scholar echter afgeleid dat dit artikel bestaat, wie de auteurs zijn, soms - maar niet altijd - wat de titel is, en in welk jaar het in welk tijdschrift is verschenen. Voor deze documenten staat alleen een "web search" ter beschikking om meer te weten te komen dan bovengenoemde twee of drie regels die in het zoekresultaat staan. Op dezelfde wijze als bij de boeken, wordt dan in de gewone Google gezocht op de achternaam van de eerste auteur + de eerste vier woorden uit de titel van het artikel. Van dat artikel zelf zul je hier ook zelden meer vinden dan nogmaals die zelfde literatuurverwijzing als onderdeel van iemands persoonlijke webpagina of in de literatuurlijst van een ander artikel. Aan de ook aanwezige citatie-links heb je dan uiteraard wel wat.




VII. Citaties: Google daagt Elsevier en ISI uit

Google Scholar is niet alleen een heel grote, deels full-text doorzoekbare, bak met wetenschappelijke publicaties, het is tevens een citatie-index. Van elke opgenomen publicatie wordt namelijk bijgehouden hoe vaak die als literatuurverwijzing voorkomt in de andere opgenomen publicaties. Daarbij lijkt men er ook redelijk in te slagen automatisch te herkennen welke variaties in de individuele verwijzingen toch betrekking hebben op hetzelfde artikel of boek, iets dat gebruikers van ISI's citatie-indexen vaak zelf moeten doen middels bladeren door de alfabetische index van het "Cited Reference" veld. Doordat elke geciteerde publicatie ook als record in de Google-database is opgenomen, is citatiezoeken betrekkelijk makkelijk als maar enige gegevens van die publicatie bekend zijn. In elk geval de auteur(s) plus een jaartal of een deel van de tijdschrifttitel. Titelwoorden zijn niet altijd van nut, omdat het in sommige vakgebieden (zoals natuurkunde) niet gebruikelijk is om in een literatuurverwijzing ook de titel van de betreffende publicatie te vermelden. Als het artikel niet al via een andere weg in Google Scholar zit, kent het systeem die titel uiteraard ook niet.

Met deze citatie-index is Google Scholar niet alleen een geduchte concurrent geworden voor citatie-indexen en Web of Science van ISI, maar ook voor Scopus, het spiksplinternieuwe product van Elsevier. Ook dat is onlangs op de markt gezet als multidisciplinaire bibliografische database, met een grotere dekking dan de bestanden van ISI en met eveneens de mogelijkheid tot citatiezoeken. Daarom was het aardig deze drie systemen, Google Scholar, Web of Science en Scopus, eens te vergelijken om te zien wat zoeken naar citaties voor dezelfde publicaties opleverde. De weinige tijd tussen het uitkomen van Google Scholar en het drukklaar maken van dit artikel liet helaas geen gelegenheid om dit degelijker dan steekproefsgewijze te doen. Toch geven ook die steekproeven al een aardige indruk.

Als uitgangspublicaties werden circa dertig artikelen en boeken genomen, op een verscheidenheid aan vakgebieden, met zeer uiteenlopende publicatiejaren - tussen 1970 en 2002 - waar redelijk frequent naar verwezen werd. Vergeleken met de aantallen keren dat deze publicaties volgens Web of Sciences (WoS) geciteerd werden, scoorde Google Scholar gemiddeld 30% lager. Er waren individuele uitschieters waarvoor Google niets vond, tegen WoS 50 citerende artikelen, of waar Google juist twee keer zo veel vond als WoS. Het aantal van dergelijke uitschieters bleef echter zeer beperkt. Verder bleken de variaties in de verschillen tussen Google Scholar en WoS nauwelijks enige correlatie te vertonen met specifieke vakgebieden en evenmin met de ouderdom van de geciteerde artikelen. Bij een heel beperkte steekproef van twee artikelen waarvan de gevonden citerende artikelen individueel zijn vergeleken, bleek wel enig verschil. De 16 met Google Scholar gevonden artikelen die verwezen naar een bepaald natuurkundig artikel, waren ook allemaal aanwezig bij de 35 artikelen die WoS opleverde. Bij een sociaalwetenschappelijk artikel echter, vertoonden de 15 citerende artikelen uit Google Scholar en de 16 uit WoS een overlap van niet meer dan vier artikelen. Op basis van deze steekproef kunnen uiteraard geen conclusies getrokken worden. Toch moet er wel rekening mee gehouden worden dat Google Scholar vaak heel andere citerende publicaties kan vinden dan WoS, zeker op het terrein van sociale wetenschappen en humaniora, waar betrekkelijk weinig van de voor Nederlandse onderzoekers belangrijke tijdschriften in WoS zijn opgenomen.

Op dezelfde manier gemeten, vonden we in Scopus aantallen die ongeveer 60% lager uitkwamen dan bij WoS (en dus ongeveer 40% lager dan bij Google Scholar). Daarbij moet er evenwel rekening mee worden gehouden dat de gebruikte testversie van Scopus nog geen artikelen bevatte van voor 1995, terwijl Google Scholar en WoS wel veel verder in de tijd terug gaan. Bij de meer recente uitgangspublicaties bleek Scopus dan ook beter te scoren. Bij twee biomedische artikelen uit 2001 en 2002 was het aantal gevonden citaties zelfs gelijk of iets groter dan bij WoS.




VIII. More to come:

Google Scholar is nu nog geen volwaardig product. We hebben het ook nog niet als zodanig beoordeeld. Het is te wel hopen dat Google Scholar in deze bèta-fase ingrijpend wordt verbeterd op een aantal punten. Dit is nodig:

  • Snellere en continue indexering. Voor veel vakgebieden is 2-3 maanden achterstand te lang, zeker als je het vergelijkt met de snelheid van bijvoorbeeld Pubmed en het Web of Science.
  • Een goede gids bij het gebruik van Google Scholar, inclusief een uitgebreide lijst van bronnen die gespiderd worden.
  • Het sterk verbeteren van het auteursveld. Nu zijn vaak allerhande termen onterecht als auteursnaam herkend.
  • Het doorzoekbaar maken van nieuwe veldspecifieke indexen: naast titel en auteur ook abstract, full-text, tijdschrifttitel.
  • De database SFX-compliant maken of anderszins meewerken aan acties van bibliotheken om vanuit de resultatenlijst met een eenvoudige link bij de beste lokaal toegankelijke versie van een publicatie te komen.
  • Een geavanceerde zoekinterface met 'limits' en filters op uitgevers, documenttype, jaar, domein.
  • Indexering van de tijdschriften van Elsevier en een aantal andere belangrijke bronnen zoals JSTOR, Muse en meer databases met een alpha of gamma signatuur.
  • Een mogelijkheid om records van publicaties die voor 99,99% gelijk zijn aan te duiden als duplicaten, om het aantal dubbeltellingen terug te dringen.

Als dat goed wordt aangepakt, kan de zoekmachine echt serieus genomen gaan worden en kunnen bibliotheken hun abonnementen op een aantal andere artikeldatabases misschien gaan heroverwegen. Voor wie bij zoekacties een zo volledig mogelijke dekking nastreeft, is intussen Scirus heel fraai complementair aan Google Scholar. De Elsevier-tijdschriften die in Google Scholar nog ontbreken, vormen juist - full-text doorzoekbaar - het artikelen-deel van Scirus, terwijl het web-gedeelte van Scirus juist al die gewone web-pagina's van wetenschappelijke instellingen bevat die niet in Google Scholar zitten.

Conclusie: studenten blij, docenten blij, onderzoekers blij?

Een goed werkende Google Scholar belooft ingrijpende consequenties te hebben voor de manier waarop studenten materiaal verzamelen, onderzoekers publiceren en docenten literatuureisen stellen aan studenten. Google Scholar sluit aan bij de preferente werkwijze van studenten: eenvoudig interface, materiaal van alle bronnen geïntegreerd doorzoekbaar in één systeem en een rangordening mede op basis van citaties (zodat bij relatief slordige zoekacties toch veel relevante bronnen worden gevonden). Docenten kunnen dan uiteindelijk accepteren dat studenten de professionele klassieke literatuurdatabases links laten liggen, mits Google Scholar vrij selectief blijft spideren. Onderzoekers tenslotte gaan door de grote zichtbaarheid en vindbaarheid in Google Scholar wellicht het publiceren in Open Access bronnen omarmen. Tot zover iedereen blij. Voor de leveranciers van Web of Science en Scopus is de toekomst met Google Scholar echter een stuk minder rooskleurig geworden. Maar als Google Scholar blijft zoals het nu is, zal niets van dit alles gebeuren.




Noot:
  • Sinds 18 december biedt Google Scholar ook een "advanced search" waarmee ondermeer op publicatiejaren en tijdschrifttitels gezocht kan worden.

Literatuur:


 

© Informatie Professional (Otto Cramwinckel Uitgever, Amsterdam), Jeroen Bosman en Eric Sieverts

Voor een abonnement op Informatie Professional:
bel: 020 - 627 6609

Zie ook IP Online