UXI Workshop Information Architecture: Enkele notities
Information Architecture (Chiara Fox)
De workshop Information Architecture (IA) is gericht op de organisatie en structuur van websites en intranetten met veel inhoud ('content'). Met haar achtergrond in de bibliotheekwetenschappen gaat Chiara Fox in op principes, richtlijnen en methoden om grote hoeveelheden informatie toegankelijk en vindbaar te maken.
Wat is informatie-architectuur?
Volgens de grondleggers van het vakgebied (Louis Rosenfeld en Peter Morville) is IA "de kunst en kunde informatie te structureren, organiseren en labellen om mensen te helpen informatie te vinden en beheren."
Chiara onderkent drie perspectieven op de informatie-architectuur van een site: de content, de context en de gebruiker. De workshop besteedt voornamelijk aandacht aan de eerste dimensie. Context en gebruiker zijn in de workshops Design Strategy en Design Research aan de orde geweest.
A - Contentanalyse en -modellering
Contentanalyse is het proces om de aard van de inhoud van een site te bepalen. Het gaat in dit proces vooral om bepaalde patronen te herkennen.
Een gedegen inhoudelijke analyse is de basis van elk project. Zonder grondige analyse weet je niet waar je het over hebt. Maar welke inhoud analyseren we? De inhoud (hier: 'content') van sites is zeer verschillend en komt in vormen als woorden, beelden, video, hulpmiddelen, applicaties, diensten of aanwijzingen. En daarnaast zijn er ook relaties tussen al deze inhoudsvormen. Een relatie is een onzichtbaar begrip dat twee of meer inhoudelijke zaken verbindt. Klassiek voorbeeld is de familierelatie.
Je voert een contentanalyse uit, omdat je eerst moet weten wat je hebt voordat je er iets mee kunt beginnen. Meestal doen we analyse aan het begin van het project en dan vooral bij een migratie van het ene naar het andere platform of systeem voor contentmanagement.
Chiara introduceert vier analysetechnieken om te bepalen wat de delen en gehelen zijn en hun relaties: contentinventarisatie, content audit, de content map en contentmodellen.
Contentinventarisatie
Een contentinventarisatie is een gedetailleerde, nauwkeurige clustering van alle inhoudelijke elementen in een site. Chiara toont een voorbeeld van een contentinventarisatie: een uitgebreide en helder vormgegeven spreadsheet. Een spreadsheet is ongeschikt bij hele grote websites. Ze adviseert dan databaseschema's en 'spiders' en 'crawlers' van zoekmachines te gebruiken. Voor de documentatie ervan is een database meer geschikt dan een spreadsheet.
Doelen van een contentinventarisatie zijn een hulpmiddel tijdens het migratieproces ontwikkelen om de benodigde tijd en rollen te kunnen schatten en elk stukje content tijdens het proces te kunnen monitoren.
De content audit
Doelen van een content audit zijn een steekproef of 'monster' uit een site te nemen en bepalen wat voor een reorganisatie van de content nodig is. In veel gevallen hoef je geen volledige audit uit te voeren.
Met een analyse op een representatieve steekproef van enkele procenten van de inhoud weet je al wat er zoal op de site is te vinden. De resultaten van zo'n steekproef zijn ook met een spreadsheet te documenteren. Chiara adviseert bij elk object een URL op te nemen, zodat de analyse kan worden herleid.
De content map
Een content map is een soort cartografische verbeelding van de content. Wat is er in zo'n kaart te vinden? Begin met je spreadsheet, maar besteed geen aandacht aan formaten, zoals (X)HTML of PDF. Generaliseer de pagina's door alle voorkomende inhoudelijke typen/soorten, objecten en genres vast te stellen. Zoek daarna naar de interessante of betekenisvolle verschillen.
Bij documenten vraag je je af hoe deze worden gebruikt. Wat is hun doel? Met welke verwachtingen komen mensen er naar toe? Wat kan iemand er mee doen? We zoeken naar 'documenttypen'. We moeten de 'genres' expliciet vaststellen omdat er geen fysieke eigenschappen zijn, zoals de kwaliteit van het papier, de omvang, vorm en bindwijze. Met genres weten we wat mensen kunnen verwachten.
Doelen van een content map zijn een overzicht van alle genres krijgen, communicatie met management en projectleden ondersteunen en inzicht in alle grafische representaties van de inhoud verwerven.
Welke kwalificaties heeft iemand die een analyse uitvoert? Zo'n kernlid van het projectteam heeft grote aandacht voor detail, een sterk abstractievermogen, een uitstekend begrip van en ervaring met het Web, inzicht in het project en hoe de content audit wordt gebruikt.
Contentmodellering
Modellering van content is een proces van gemeenschappelijke elementen identificeren. Meestal gebeurt dit proces voor de invoering van een systeem voor contentmanagement. Het plaatst structuur rondom je content en besteedt aandacht aan generieke contentdelen. Contentmodellering is niet gericht op redactionele behoeften. Nota bene: Contentmodellering is GEEN databasemodellering!
Structuur aanbrengen. Deel de inhoud op in de kleinste, toepasselijke eenheden van betekenis. Maar wat is toepasselijk? Dat hangt af van de 'business requirements' en de mogelijkheden van het systeem voor contentmanagement. Denk vooral vanuit hergebruik van content.
Waarom modelleren we eigenlijk content? Er zijn een paar redenen. We willen content in een systeem voor contentmanagement stoppen. De noodzaak bestaat ongestructureerde informatie te structureren. We willen onafhankelijk van platform, technologie en apparaat zijn. En we willen content kunnen hergebruiken.
Tijdens het modelleren richt je je zowel op de gemeenschappelijke als op de onderscheidende kenmerkende eigenschappen van de content. Stel jezelf doorlopend de vraag of de overeenkomsten en verschillen uit de presentatie op een pagina of uit de feitelijke informatie voortkomen.
Hoe modelleren we content? We onderzoeken representatieve voorbeelden van een object of genre. Welke herhalen zich in meerdere types en genres en welke zijn uniek?
Kenmerken of aspecten van content 'items' zijn bijvoorbeeld naam, korte omschrijving, verplicht/optioneel, enkel- of meervoudig voorkomen, gegevenstype, omvang of mogelijke waarden, standaardwaarde en bepaalde regels bij het aspect.
Een belangrijk begrip in dit kader is 'cardinaliteit'. Cardinaliteit betekent hoe vaak (minimaal en maximaal) een item aan een ander is gerelateerd: 1:1 (bijv. echtgenoot en echtgenote), 1:n (bijv. ouder en kind of kinderen) of n:n (bijv. neven en nichten).
Andere overwegingen tijdens het modelleren die een rol kunnen spelen zijn wat er nog meer op de pagina is te vinden, zoals navigatiecomponenten, promoties of gerelateerde verwijzingen.
Het Content Object Model (COM) en het Content Genere model (CGM) zijn twee op te leveren standaardmodellen. Beide modellen bevatten gedetailleerde informatie over de contentobjecten of -genres. Ze tonen de samenhang tussen objecten en genres. We zoeken contentsoorten met overeenkomstige eigenschappen om bij de samenstelling van de markup en de interface voor het CMS te kunnen gebruiken.
Je modelleert alleen waardevolle content. Praktijk is dat veel content buiten de formele modellen kan en zal blijven.
B - Metadata
Metadata is toepasbaar op documenten maar ook op fysieke objecten. Denk maar eens aan een catalogus van een hobbyverzameling. Metadata bestaat uit zogeheten paren van 'type(waarde)', bijvoorbeeld 'geslacht(vrouw)'.
Er zijn drie typen metadata: intrinsieke, administratieve, en beschrijvende.
Bij zoeken, bladeren, personalisatie en syndicatie speelt metadata een belangrijke rol. We kunnen metadata aan content toekennen met full-text, ongecontroleerde trefwoorden of 'tags', gecontroleerde woordenlijsten of door een geautomatiseerd of handmatig proces. Standaarden voor metadata zijn bijvoorbeeld het Dublin Core Metadata Initiative, de Metadata Encoding & Transmission Standard, de Directory Interchange Format, de Content Model Standard en RDF. Deze laatste is technisch gesproken eerder een raamwerk dan een standaard.
De waarde van metadata moet worden afgewogen tegen de kosten. Oftewel, de waarde voor gebruikers die informatie zoeken tegen de ontwikkel- en onderhoudskosten voor bijvoorbeeld een thesaurus en index.
Controlled vocabularies & tagging
Metadata werkt niet zonder toezicht of autoriteit. Metadata moet gelijksoortig zijn en op zijn minst aan elkaar gerelateerd. Een gecontroleerde woordenlijst ('controlled vocabulary' of CV) bestaat uit een bepaalde woordenverzameling voor de beschrijving van content.
Een CV is in feite een lijst van voorkeurstermen met varianten. Het is een deelverzameling van de natuurlijke taal. De functie van een CV is dat een gebruiker niet over de juiste woorden of terminologie hoeft na te denken. Een CV vervult een brugfunctie tussen het vocabulaire van gebruikers en die in documenten en applicaties. Op veel sites hebben gebruikers zoek- en vindproblemen. De woorden waarmee zij informatie zoeken en proberen te vinden komen vaak niet overeen met de termen en begrippen die in de site of applicatie voorkomen.
Bij het bepalen van metadata zijn controleniveaus van laag tot hoog te onderscheiden. Voorbeelden zijn synoniemen, zogehten 'autoriteitsbestanden', classificatieschema's en thesauri. Deze voorbeelden zijn eenvoudig of complex. Ze beschouwen relaties tussen termen als gelijkwaardig, hiërarchisch of associatief.
Een thesaurus is de meest complexe variant. Chiara onderscheidt vier soorten thesauri die elk verschillen op de assen 'gebruik tijdens zoeken' en 'gebruik tijdens indexering': natuurlijke taal, zoekthesaurus, indexing thesaurus en de klassieke thesaurus. De eenvoudigste is de synoniemenrij. Voorbeeld: David Bowie, David Robert Jones, Ziggy Stardust en The Thin White Duke.
Een thesaurus bij Information Retrieval (IR) is een gecontroleerde woordenlijst met relaties. Deze wordt als controlelijst tijdens indexering of voor referentie tijdens zoeken gebruikt. In een thesaurus wordt een specifieke terminologie gehanteerd, zoals voor voorkeurstermen (zoals scope notes, verbrede en vernauwde term en gerelateerde termen) en bijbehorende varianten.
Welke velden voor metadata zijn in een CV nodig? Bepaal welke termen moeten worden gecontroleerd en of gebruikers ze als zoektermen gebruiken en met welke content ze samenhangen. Een voorbeeld van een uitgebreide thesaurus: Education Resource Information Center.
Hoe merken we woordenlijsten in een conventionele omgeving en in een webomgeving. In een conventionele bibliotheekomgeving speelt een CV een rol bij indexers en informatiezoekers via natuurlijke taal. In een webomgeving daarentegen is het niveau te kiezen. Zo kunnen gebruikers via associatie er een terminologie mee leren.
Om een gecontroleerde woordenlijst te maken moet je de inhoud doorgronden en begrijpen, evenals de 'business requirements'. Je moeten begrijpen wat gebruikers zoeken. Je moet bepalen hoe je metadata in de organisatie wordt gebruikt.
Precisie en 'recall'
Bij informatie of documenten zoeken en vinden zijn twee begrippen belangrijk: precisie en 'recall'. Beide begrippen zijn ratio's om een IR-proces te evalueren. Zo'n proces kan door metadata worden beïnvloed. Precisie is het deel van de opgehaalde en relevante informatie of documenten gerelateerd aan alle opgehaalde informatie of documenten. Het begrip 'recall' slaat op de verhouding tussen de opgehaalde ('gevonden') relevante informatie of documenten gerelateerd aan alle relevante informatie of documenten in een verzameling.
Het is lastig beide begrippen in een specifieke context te meten. Het is makkelijker naar de feedback van gebruikers te luisteren dan de ratio's te berekenen. Een uitspraak als 'Ik krijg veel te veel zoekresultaten' duidt op een te hoge 'recall' met teveel irrelevante resultaten. Een uitspraak als 'Ik weet dat het er is, maar ik kan het niet vinden' duidt op een te hoge precisie om relevante resultaten te kunnen filteren.
Een nadere specificatie van een term verbetert de precisie zonder de recall te schaden. Bijvoorbeeld: Nederland in woordenlijst A versus Amsterdam, Noordholland en Nederland in woordenlijst B.
Let bij de keuze voor een bepaalde terminologie op:
- Granulariteit: de mate van detail in een term, bijvoorbeeld 'kat' versus 'zoogdier'. Indexeer een term op het juiste niveau.
- Grammatica en schrijfwijze: gebruik zelfstandige naamwoorden (tekening of autogarage); druk activiteiten als zelfstandige naamwoorden uit (literauur in plaats van 'om te lezen'); vermijd preposities waar mogelijk (kinderziekenhuis in plaats van ziekenhuis voor kinderen) en gebruik behalve bij namen alleen kleine letters (architectuur in plaats van Architectuur).
Tagging, folksonomies en facetten
Tags zijn een soort metadata. Technologische ontwikkelingen hebben het proces van tags toekennen ('tagging') eenvoudiger gemaakt, maar het is niet nieuw. Labels die op specifieke content worden toegepast worden door mensen zelf bepaald. Tags zijn erg geschikt voor ongebreideld bladeren, zoals op Flickr. Ze lossen niet alle IR-problemen op.
De populariteit van tagging heeft de volgende oorzaken. De interfaces zijn makkelijk te gebruiken. Tags zijn altijd aan te passen en worden in de taal van gebruikers gesteld. DE implementatie van een taggingfunctie is goedkoop.
Maar er zijn ook problemen met tags. Zo is er geen controle of toezicht op de woordenlijst. Tags kunnen geen gestructureerde metadata aan. Ze zijn in feite onbetrouwbaar en inconsistent. En ze worden niet toegepast met IR in gedachten.
Thesaurus versus taxonomie
Een thesaurus is een gecontroleerde woordenlijst om dingen te beschrijven. Een taxonomie is een gecontroleerde woordenlijst om dingen te organiseren.
Taxonomieën organiseren informatie. De termen in een taxonomie lijken op termen in een thesaurus. Ze worden in een taxonomie gebruikt als een container om content in te stoppen en vaak vormen ze ook de basis voor de sitehiërarchie.
Volgens wikipedia is een 'folksonomie' "een door gebruikers gemaakte taxonomie om webpagina's, foto's, links en andere content te categoriseren en op te halen met vrije labels, 'tags' geheten."
| Folksonomie | Taxonomie |
| Gebruiker bepaalt | Centraal bepaald |
| Gebaseerd op tags | Gebaseerd op CV |
| Alternatieve navigatie | Globale navigatie |
|
Snelle veranderingen |
Trage veranderingen |
Classificaties
Er bestaan drie classificatiesoorten: opsommende ('enumeratieve'), hiërarchische en facetclassificatie. Voorbeeld van een enumeratieve classificatie van een rode voetbalbal. Binnensporten > speelgoed > rubberen bal. Voorbeeld van een hiërarchische classificatie: spel > speelgoed > bal > voetbal.
Facetclassificatie werd uitgevonden door S.R. Ranganathan (1930). Het is gebaseerd op telkens een enkel onderscheidend indelingsprincipe gebruiken. Fundamentele facetten zijn persoonlijkheid, materie, energie, ruimte en tijd. Dagelijkse facetten zijn onderwerp ('t gaat over...), geografie (waar), auteur (wie), etc. Voorbeeld van een facetclassificatie van de rode voetbalbal: kleur (rood), vorm (rond), materiaal (rubber), omvang (55 cm.), prijs (€ 25,00), fabrikant (Adidas) en type (Teamgeist Match).
Afsluiting
Chiara sluit af met voorbeelden van organisatieprincipes in sites. Haar voorbeelden zijn in te delen volgens twee benaderingen: topdown en bottom-up. Daarnaast valt iets te zeggen over de gebruikers, inhoud en context van de site. Zo is in een topdownbenadering de site voor gebruikers vaak taakgericht, de inhoud in onderwerpen of zijn thema's opgedeeld en is de context vooral afdelings- of merkgestuurd. Een bottom-upbenadering van contentorganisatie in sites is daarentegen voor gebruikers met tags en folksonomies mogelijk, de inhoud wordt door metadata gedreven en de context door wordt subsites bepaald.
Samenvatting
- Weet wat je hebt.
- Zoek uit wat nodig is om het te beschrijven.
- Zoek de beste en juiste woorden binnen je beperkingen.
- Schaaf net zo lang tot je in de behoeften van gebruikers voorziet.
Voor meer informatie over de workshop: UXI Amsterdam Information Architecture (Adaptive Path)