Bestandsformaten check

Beschrijf hoe jullie organisatie gaat vaststellen welke bestandsformaten instromen in het digitaal archief en wat daarbij de rol kan zijn van het vaststellen van voorkeursformaten. 

Wat verstaan we onder een bestandsformatencheck?

Op het moment dat je als archief digitaal materiaal ontvangt, is het niet altijd duidelijk uit welke bestandsformaten het bestaat. Om de authenticiteit te kunnen garanderen en behoud van digitale objecten voor de lange termijn veilig te stellen, is het noodzakelijk om:

  • De kenmerken van bestandsformaten vast te stellen;
  • Deze te valideren tijdens opname in het digitaal archief;
  • Deze te valideren voor migratie;
  • Deze te valideren na migratie.

De metadata die tijdens deze processen wordt gegenereerd, moeten worden vastgelegd zodat de checks steeds herleidbaar zijn.

Niveaus van bestandsformaatidentificatie

Het laagste niveau van het bepalen van het bestandsformaat is op basis van de extensie, maar dit is geen betrouwbare techniek. Identificatie kan worden uitgebreid met karakterisering en validatie van de bestandsformaten. Hiertoe ontwikkelde The National Archives DROID (Digital Record Object IDentification). DROID is een zogeheten file format indentification tool. JHOVE is een tool voor bestandsvalidatie, ontwikkeld door de Open Preservation Foundation.

Digitale duurzaamheid ‘by design’: voorkeursformaten

Vaak hebben erfgoedinstellingen voorkeursformaten waarin zij digitale objecten op willen slaan. Dat zijn bestandsformaten die een hoge kans hebben om vele jaren bruikbaar te blijven. Door producenten/depotgevers te informeren over deze voorkeursformaten vergroot een digitaal archief de kans dat zij ingestroomde digitale objecten duurzaam toegankelijk kan houden.

Kijk voor meer informatie over voorkeursformaten en het vaststellen en bepalen daarvan op de Wegwijzer Voorkeursformaten.

Wat is het belang van bestandsformaatidentificatie? 

Een gebrek aan kennis over de ingestroomde bestandsformaten brengt het risico met zich mee dat het digitaal archief onvoldoende informatie heeft over de inhoud en de conditie van haar digitale collectie. Dat maakt preserveringskeuzes vrijwel onmogelijk. De organisatie is dan niet in staat om te garanderen dat bepaalde digitale objecten na verloop van tijd nog toegankelijk zullen zijn met toepassingen die de doelgroep gebruikt.

Welke vragen kunnen wij onszelf stellen?

  • Hoe bepalen en valideren wij de bestandsformaten van ingestroomde digitale objecten? 
  • Heeft onze organisatie vastgelegd welke preserveringsacties moeten worden uitgevoerd bij de opname van digitaal erfgoed?
  • Welke metadata verzamelt onze organisatie bij opname en preservering en hoe leggen wij deze vast?
  • Heeft onze organisatie een lijst met voorkeursformaten opgesteld? Is deze lijst beschikbaar en bekend bij producenten/leveranciers?
hoe verwoorden andere instellingen 'Bestandsformaten check'

Er is een lijst gemaakt met de filespecificaties van de preferred formats (voorkeursbestandsformaten) waarop gevalideerd kan worden.

he current version of the KB’s digital repository system (e-Depot) doesn’t include any tools for automated file format identification yet. Our previous OIAS system didn’t have identification functionality either. As a result, information on file formats in digital our collections is largely based on publisher metadata and file extensions. Neither are necessarily correct. Moreover, previous analyses revealed a number of prevalent file extensions that could not be easily linked to a specific format. One result of this situation was that we couldn’t even reliably tell to what extent patrons were able to view e-Depot content on the PCs in our reading rooms (the obviously common formats aside).

To get a better view of the formats in our collection, we did an analysis of the “top 50” most prevalent file extensions in our e-Depot: what are the corresponding formats, can these formats be automatically identified, and can we render them in our reading rooms? This blog post summarises the main findings of this work.

Karakterisatie

Karakterisatie is een verzamelnaam voor deze vijf handelingen:

  • Identificeren van het bestandsformaat
    Het bestandsformaat wordt geïdentificeerd en middels een in de metadata opgeslagen unieke verwijzer aan de Technical Registry gekoppeld.
  • Valideren
    Gekeken wordt of het bestandsformaat is opgebouwd volgens de technische specificaties.
  • ‘Meten’
    We onderzoeken of er technische eigenschappen zijn die duurzaam beheer in de weg zouden kunnen staan. Denk aan encryptie, compressie, enzovoort. Ook dit wordt opgeslagen in de metadata, met een PUID.
  • Identificeren van embedded objecten
    Bijvoorbeeld afbeeldingen of grafieken in een Word-bestand. Of van objecten in containerbestanden, bijvoorbeeld e-mails met bijlagen, webpagina’s van een website. Bestandsformaten van deze objecten worden opgeslagen in de metadata, met een PUID.
  • Identificeren van bestandseigenschappen (properties).
    Properties zijn bijvoorbeeld de hoogte en breedte van een afbeelding. Of het aantal bladzijden en woorden van een tekstdocument. De waarden van deze properties worden geëxtraheerd en opgeslagen in de metadata, met een PUID.

 

Duurzaam formaat?

Wij maken een risico-inschatting bij de gebruikte formaten: hoe duurzaam is het formaat? Op basis daarvan volgt wellicht al een omzetting van bepaalde formaten naar een duurzamer formaat. Beide formaten worden – met de metadata – ge-ingest.

Voorkeursformaten

Het Nationaal Archief heeft een lijst van voorkeursformaten gepubliceerd die preservation en daarmee duurzame toegankelijkheid van informatie makkelijker maakt.