π

WTWN: Ablaufdatum für alle Daten

Show Sidebar

Wir alle sammeln Daten. Eine mehr, die andere weniger. Allerdings löschen wir die Daten nicht mehr. Oder nicht so oft, als neue Daten dazukommen.

Dadurch, dass Festplattenkapazität immer billiger und verfügbarer wird, ist man auch nicht mehr gezwungen, seine Daten ab und zu auszumisten. Hat man einen großen Haufen mit sehr vielen Daten, tut man sich auch sehr schwer beim Ausmisten. Wer hat da noch die Übersicht?

Nicht nur auf der Festplatte sammeln sich alte Daten. Auch am Mailserver und in Datenbanken. Viele speichern Daten ab, wenn nur die kleinste Chance besteht, dass sie noch mal benötigt werden.

Daraus resultiert ein Chaos, das immer mehr wächst. Die wirklich wichtigen Daten gehen innerhalb des Datenmülls daneben unter. Selbst mit Mechanismen wie Desktop Suchmaschinen wird das eigentliche Problem nur verschoben, nicht überwunden.

Wo kann man ansetzen?

Ich vermute sehr stark, dass auf die meisten Daten nur innerhalb eines Jahres zugegriffen wird. Erfolgt kein Zugriff im ersten Jahr, so ist diese Information höchstwahrscheinlich nicht mehr so wichtig.

http://www.karl-voit.at/temp/suderei/20081226_Ringmappe.jpg"

Weiters vermute ich, dass für viele Daten gleich beim Ablegen voraussehbar ist, ob sie in eine der drei Kategorien fallen sollen:

  1. Automatisches Löschen nach einem Jahr ohne Zugriff
  2. (Automatisches) Verschieben in ein Archiv und anschließendes Löschen
  3. Dauerhaftes Speichern (ohne automatisiertem Löschvorgang)

Wie kann man das jetzt umsetzen?

Derzeit muss sich eine Computerbenutzerin mit einem Workaround helfen: für Verzeichnisse der Kategorie eins und zwei kann sie sich Scripte basteln, die die Funktion bereitstellen.

In UNIX-artigen Systemen (wie zum Beispiel auch GNU/Linux) sucht man wie folgt nach Daten, deren letzter Zugriff vor einem Jahr liegt:

find . -type f -atime +365

Mit den üblichen Mitteln kann man diesen find-Befehl mit einer Archivierungsroutine oder einem Löschbefehl verknüpfen.

http://images.stockxpert.com/pic/s/k/kj/kjpargeter/211893_59126547.jpg"

Hinter diesem Link steckt ein Shellscript, das als Parameter ein Verzeichnis und eine Zahl entgegennimmt und automatisch alle Dateien (auch in Unterverzeichnissen) löscht, die älter sind als die Anzahl an Tagen, die der Zahl entsprechen. Vorsicht: es löscht entsprechende Dateien ohne Rückfrage!

Mittels cron kann sich eine Benutzerin einen Aufruf zum Beispiel jeden ersten Tag im Monat automatisch realisieren.

Bei Emails, die in Form von Dateien auf einer Festplatte liegen (wie zum Beispiel bei Maildir), greifen die gleichen Mechanismen wie oben beschrieben. Bei anderen Ablageformaten muss man sich gesondert umsehen.

In Datenbanken ist es ein Leichtes, bei der Definition der Tabellenstruktur auch gleich Felder für ein Ablaufdatum der jeweiligen Datensätze mitzuberücksichtigen. Im Nachhinein geht es ebenso, aber mit deutlich mehr Aufwand. Entsprechende Löschroutinen sind einfach zu implementieren.

Wie kann man das besser umsetzen?

http://images.stockxpert.com/pic/s/d/dn/dngood/28238171_10094857.jpg"

In Anlehnung an meinen Vorschlag Stichwörter zu Dateien im Dateisystem mit abzuspeichern, um dann das Ablegen und Suchen zu erleichtern, finde ich, dass es gut wäre, wenn jede Datei ein Ablaufdatum direkt im Dateisystem zur Verfügung hätte.

So ein Ablaufdatum sollte dann Verzeichnis-weise mit Standardwerten von unendlich bis wenige Sekunden versehen werden können.

Somit kann man dann mittels einfacher Interfaces festlegen, dass zum Beispiel im Verzeichnis, wo alle heruntergeladenen Dateien aus dem Web-Browser landen, keine Datei länger als drei Monate verbleibt.

Das Dateisystem stellt dann eine Löschfunktion insofern bereit, dass es alle Dateien mit überfälligem Ablaufdatum einfach "vergißt" - wie auch beim normalen Löschen.

Weitere Aspekte

Ich hab mir mal selber die Arbeit angetan und habe meine Dateiablage umgestellt. Einige Verzeichnisse werden bei mir mit einem cron-Job und obigem Script automatisch gesäubert. Welche positiven Dinge sind mir noch aufgefallen?

Weniger Stress

Ich muss mir weniger Stress machen, wo ich denn etliche Sachen ablege. Dateien, die ich vom Internet erhalte (WWW oder Email) landen in einem temporären Ordner, der ein Ablaufdatum von einem Monat bekommt. Wichtige Dinge verschiebe ich von dort vorher an seine endgültige Destination. Die unwichtigen werden automatisch entsorgt.

Meine Emails landen hauptsächlich in zwei Ordnern: tmp und archive. Der letzte dient als Dauerablage. Die meisten Emails, als auch alle meine ausgehenden Emails, landen im tmp-Ordner. Dieser hält seine Emails ein Jahr lang vorrätig. Lange genug, um Emails wiederzufinden, die ich benötige. Kurz genug, um keinen Müll anzuhäufen.

Bewußtseinsbildend im Datenschutz

Dieser Punkt ist eher für Firmen wichtig. Doch schon beim Einzelnen sollte das Bewußtsein für Datenschutz und den Umgang mit Daten geschult werden.

http://images.stockxpert.com/pic/s/a/al/alxm/197344_57982282.jpg"

Kurz mal ein Exkurz ins österreichische Datenschutzgesetz, Paragraph sechs, Abschnitt eins:

"Daten dürfen nur [...] solange in personenbezogener Form aufbewahrt werden, als dies für die Erreichung der Zwecke, für die sie ermittelt wurden, erforderlich ist; eine längere Aufbewahrungsdauer kann sich aus besonderen gesetzlichen, insbesondere archivrechtlichen Vorschriften ergeben."

Das bedeutet, dass gesammelte Daten über den Zeitraum, wo sie benötigt werden, nicht vorrätig gehalten werden dürfen. Das hier vorgestellte Prinzip kann hier auch helfen, gesetzliche Bestimmungen einzuhalten.

Übersichtlichkeit

Durch das Herausfiltern von altem Datenbestand kommen wichtige (da näher zurückliegende) Daten besser zur Geltung. Ich lasse die Kontaktdaten meiner Emails indizieren. Dadurch, dass die alten Emails aussortiert werden, landen auch weniger veraltete Emailadressen in meinen Suchergebnissen.

Also?

Selber ausprobieren und Erfahrungen als Kommentar unten hinzufügen :-)

Note: this blog entry was originally authored using Serendipity and converted to Org-mode format for publicvoit via a dumb script. This may result in bad format or even lost content. Please write a comment if you want to get in touch with me so that I can try to fix things.

Comment via email or via Disqus comments below: