Informatie Professional
terug
Reactie op eerder verschenen artikel over de Gemeenschappelijke Onderwerpsontsluiting:
Toekomst van de inhoudelijke ontsluiting in Nederland / Léonne van der Weegen, Informatie Professional 15 (5) 12-16

De mythe van de GOO

15 (2011) nr. 6 (juni) blz. 19




Eric Sieverts

Dat verrijken van boektitels met trefwoorden nuttig is om betere zoekresultaten te behalen behoeft nauwelijks betoog. Dat de manier waarop dat met de GOO is gebeurd meer dan marginaal effect heeft gehad, lijkt me echter onwaarschijnlijk. Er is wel onderzoek gedaan naar de verbetering van vangst en precisie ten opzichte van het zoeken met alleen titelwoorden, maar er is nauwelijks onderzocht hoe slecht de vangst dan nog altijd is en hoeveel beter die zou kunnen zijn als uitgebreider verrijking van titels zou plaatsvinden (en dat zonder de door Léonne van der Weegen gevreesde slechte precisie).
Bij zoeken naar tamelijk algemene en weinig complexe onderwerpen, zoals vaak worden gebruikt bij dit soort onderzoek, valt dat niet zo op. Maar zodra naar een complex of specialistisch onderwerp wordt gezocht, speelt dat wel degelijk. En dat hoeft niet te komen doordat in de GOO geen trefwoorden voor die onderwerpen bestaan. De oorzaak is vooral dat die trefwoorden niet worden toegekend aan veel daarvoor relevant materiaal, omdat globale indexering en geen diepte-indexering wordt toegepast. Op de IP-site illustreerde ik dat twee jaar geleden al eens aan een voorbeeld.

"Introduction to Information Retrieval" is een boek van 480 bladzijden met 21 hoofdstukken, elk daarvan onderverdeeld in paragrafen, waarvan het boek er in totaal 117 telt. Elk van die hoofdstukken en paragrafen heeft een titel die vrij expliciet verwoordt welk onderwerp daarin aan de orde komt. Maar wie specifiek naar één van deze onderwerpen zoekt zal nooit dit boek vinden, want het is beschreven met ÉÉN NBC code (06.64: Information Storage en Retrieval) en met ÉÉN GOO trefwoord dat bovendien identiek is aan de NBC omschrijving (en ook bijna aan de titel).
Weliswaar zou een gebruiker kunnen bedenken dat in een boek over "Information Storage en Retrieval" iets over zijn specialistische onderwerp te vinden zou kunnen zijn. Maar met zulke summiere metadatarecords kun je absoluut niet zien in welk van die vele gevonden algemene boeken op dit terrein, dat het geval zal zijn. Daarvoor moet je elk van die boeken van de plank halen, uit een gesloten magazijn laten ophalen (of in Google-Books opzoeken) om het door te bladeren om te zien of het gewenste onderwerp voorkomt. Dat is trouwens pas echt slecht voor de precisie. En op combinaties van zoektermen zullen zo globaal geïndexeerde boeken al helemaal niet gevonden worden.

Is dit een uitzonderlijk voorbeeld waarin het ontbreken van diepte-indexering in de GOO ons parten speelt? Dat verwacht ik niet. Zo blijkt de helft van de wetenschappelijke e-books waarop de UB Utrecht recent abonnementen heeft genomen, te bestaan uit verzamelbundels waarin bijdragen over individuele onderwerpen zijn samengevoegd onder een titel die alleen het algemene onderwerpsthema dekt. De in de GOO gebruikelijke globale indexering laat ook al deze bijdragen - vaak meer artikelen dan boekhoofdstukken - onvindbaar.
Overigens blijkt verrijking met inhoudsopgaven in de huidige praktijk nog geen panacee, want sommige uitgevers blijken in de metadata van hun e-books nog helemaal geen inhoudsopgaven mee te leveren. Als die verrijking met inhoudsopgaven er wel komt, zal dat zeker geen precisieproblemen geven, omdat mensen dankzij Google wel al weten hoe ze op combinaties van zoekwoorden moeten zoeken. Ze zullen dus zeker niet in de val lopen van verslechterde precisie bij het zoeken op een enkel zoekwoord, zoals door Léonne van der Weegen met een nogal onwaarschijnlijk voorbeeld werd geschetst. Onze gebruikers zijn dan trouwens al lang uitgeweken naar de grote GOOgle om het materiaal te vinden dat met de GOO onvindbaar blijft.

 




© Informatie Professional (Otto Cramwinckel Uitgever, Amsterdam) en Eric Sieverts

Voor een abonnement op Informatie Professional:
bel: 020 - 627 6609

Zie ook IP Online