Die Logfiles, die Squid anlegt, sind natürlich der Schrecken jedes Datenschützers, für forensische Zwecke hingegen interessant. Der Nutzen wird allerdings begrenzt vom Haltbarkeitsdatum der aufgerufenen Seiten: Sie könnten längst verändert worden sein oder dynamisch generiert werden. Oder sie sind nur mit Passwort zugänglich.
Daher kann man sich den Offline-Modus von Squid zu nutze machen. Er aktualisiert Seiten im Cache nicht, sondern liefert die alte Version. Noch besser ist es aber, die zwischengespeicherten Inhalte direkt aus dem Cache zu rekonstruieren. Wie zu erwarten, ist die recht einfach. Sherri schreibt:
Finally, each of those eight-character files contains- yes! - the pages actually cached by Squid. (...) When you surf to a web page, Squid will add some metadata to the top, which includes the full URI and its MD5sum. Squid then stores this, along with the full HTTP reply (headers and body) as a file in one of these subdirectories. If the page is requested later, it can look it up in swap.state and fetch it.
Und extrahiert dann als Beispiel ein "verdächtiges" Bild: edited.jpg.
Übrigens: Sicherheitsexperte Bruce Schneier schreibt Freitags immer etwas mehr oder weniger spannendes über zehnarmige Tintenfische (engl. Squids). Zuletzt habe ich dort gelernt, dass man Tentakeln nicht einfach füllen darf, da sie sich beim Braten zusammenziehen und die Füllung im Raum verspritzen.
Update 2009-04-25: Ich hatte Mr. Schneier gemailt, er hat den Artikel im Friday Squid Blogging erwähnt. Das dürfte für ordentlich Aufmerksamkeit sorgen.