Informatie Professional
11 (2007) nr. 5 (mei) blz. 13

De catalogus kan het wel alleen

terug

COLUMN
vorige | volgende | nieuwste

 

Eric Sieverts

"Zoekmachines kunnen het wel alleen" was de uitdagende titel die Theo Huibers had gegeven aan zijn bijdrage aan een studiedag over onderwerpsontsluiting begin april. Enigszins demagogisch suggereerde hij de verzamelde medewerkers van Wetenschappelijke Bibliotheken dat handmatig ontsluiten van informatie in toenemende mate overbodig wordt, dankzij moderne technieken van information retrieval. Wat Mike Lynch, directeur van Autonomy, enkele maanden geleden in een vraaggesprek met IP te berde bracht, had eigenlijk ongeveer dezelfde strekking. Goede zoekmachines (maar dan slimmere dan Google) waren volgens hem heel wat efficiënter in het produceren van goede zoekresultaten, dan systemen waarvoor hele ontologieën en thesauri moeten worden opgezet, de aanpak waarvan de bouwers van het Semantisch Web hun heil verwachten.

Een slecht verstaander zou hieruit kunnen concluderen dat we dus helemaal kunnen ophouden met het genereren van metadata voor onze catalogi. En dus eigenlijk onze catalogi kunnen opdoeken. Voor dat laatste zijn misschien best argumenten aan te voeren, maar dan niet vanwege de uitdagende uitspraken van Huibers en Lynch. Er is namelijk helemaal niet zo'n grote tegenstelling als die uitspraken lijken te suggereren. Voor redelijk gestructureerde catalogi blijven metadata en bepaalde vormen van autorisatie wel degelijk nodig. Maar computerprogramma's kunnen dergelijke metadata steeds beter zelf genereren. Daarvoor kunnen namelijk veel van dezelfde mooie technieken worden gebruikt, die achter de schermen zorgen dat de zoekmachines van Theo Huibers "het wel alleen kunnen".

Maar die mooie technieken, of ze voor de "geweldige" retrieval zelf zijn bedoeld, of voor het genereren van metadata, hebben veel meer digitale gegevens nodig dan nu in onze catalogi zitten. Ook Google wordt alleen maar steeds beter omdat het over zulke gigantische hoeveelheden data beschikt. Het is niet voor niets dat Google recent aankondigde in Amerika een telefonische "411"-inlichtingendienst te gaan aanbieden. Daarmee kan het grote hoeveelheden spraak oogsten, waarmee persoonsonafhankelijke spraakherkenning kan worden verbeterd, zodat ze ook een spraakgestuurde zoekmachine kunnen aanbieden. Grotere hoeveelheden digitaal beschikbare tekst - inhoudsopgaven van boeken, samenvattingen en flapteksten, zo mogelijk zelfs de hele inhoud - hebben we bovendien toch al nodig om catalogi te laten overleven. Want daarmee worden ook de extra diensten mogelijk, of we die nu Library-2.0 of Web-2.0 noemen, waarmee we nieuwe generaties gebruikers nog enigszins voor onze catalogi hopen te interesseren. Anders kunnen we die inderdaad wel opdoeken.

Na het verhaal van Huibers lijkt het opmerkelijk dat FRBR de laatste tijd - ook in IP - in de belangstelling staat. FRBR vormt namelijk de ultieme toepassing van zeer gestructureerde, onderling gerelateerde metadata beschrijvingen. Vooralsnog vraagt dat uiterst zorgvuldige menselijke inbreng. Maar wie weet, als daar wereldwijd maar genoeg in geïnvesteerd is, en ook genoeg digitale gegevens beschikbaar zijn, zullen zelfs zulke complexe catalogi "het" op den duur misschien wel alleen kunnen.




© Informatie Professional (Otto Cramwinckel Uitgever, Amsterdam) en Eric Sieverts

Voor een abonnement op Informatie Professional:
bel: 020 - 627 6609

Zie ook IP Online