Ich blogge hoffentlich ausreichend selten übers Bloggen, aber jetzt kommen zwei Sachen zusammen. Einmal: vor einiger Zeit rauschte der Wayback Linkfixer an mir vorbei. Tool/Plugin von Archive.org, voller Name „Internet Archive Wayback Machine Link Fixer“ überprüft regelmäßig, ob externe Links im eigenen Blog noch rennen und falls nicht, ersetzt es sie durch einen Archivlink zur Wayback-Machine. Es erinnerte mich an einen Blogbeitrag, den ich nun natürlich nicht mehr wiederfinde. Dort wurde ein mich sehr beeindruckendes Konzept vorgestellt, wie man das eigene Blog aktuell hält, es für die Eigenrecherche persönlicher Netzvergangenheit nachhaltig nutzbar macht etc. etc., mit über das „tote Links automatisch via archive.org ersetzen“ hinausgehende Maßnahmen. Die Linkfixerei wurde mir indessen nun auf dem Silbertablett serviert, also, rein mit dem Plugin. Und wenn wer weiß, welcher Blogpost gemeint sein könnte: bitte gern Bescheid! Mit Dank an Frank: ja genau! Wie Websites lernen, himmel.
Effekt? es geht die nächsten Tage alle Einträge mehrmals durch, prüft alle externen Links auf Erreichbarkeit, und beim dritten „Link tut nicht“ (ist einstellbar) tauscht es den Direktlink gegen einen Archivlink, wenn vorhanden. Weiter archivierts alles gefundene, wenn vorhanden und Archivierung erlaubt.
Nach ein paar Tagen ist das vorerst abgeschlossen, und man kann sich die Ergebnisse angucken. Unerwarteter Nebeneffekt: ich hab eben ein paar Uralt-Beiträge von längst eingestampften Blogs der Nullerjahre wieder gelesen und verdrückte eine kleine sentimentale Träne im Knopfloch. Weiter: zweistellig kaputte Links auf dem eigenen, nun doch über schon zwanzig Jahre alten Blog scheint mir ein erfreulicher Schnitt.
Nun aber die Hakeligkeiten:
Ich stoße auf durchaus nennenswert viele Links, die nun per archive-URL aufgerufen werden, aber live bestens funktionieren. Schreibe ich sie wieder auf live um, geht der Testprozess wieder los, und nach dreimal „nee, gibts nicht“, ists wieder ein Archivlink.
Ich hatte ein paar Theorien – einmal http und https, ersteres wird vom Plugin nicht per default prophylaktisch auf zweiteres geprüft. Weiter, dass die zwangsarchivierten/erreichbaren Seiten halt ggf. ein noarchive in der meta robots stehen haben?, was meine konfuse Hypothese beim zwangsarchivierten archiveofourown-Link war, aber eben bei AO3 geguckt, natürlich nichts dergleichen, nichts in den x-headern (wobei, ein clacks overhead GNU Terry Pratchett, ilike!), und wie erwartet ist die Seite auch ausführlich archiviert. Woran liegts, was tun? Crawlbot-Aussperrung bei Archivbot-Genehmigung? klingt auch wild, ich weiß es nicht, der Nutzen überwiegt trotzdem, und ich ahne auch Plugin-Updates. Nichtsdestotrotz, hier wie im Folgenden: wer mehr weiß, ich lerne gerne.
Anderes liegt an Verbrechen anderer. Wenn ich Amazon nicht eh boykottieren würde, könnt ich Amazon boykottieren, denn eine solide Webtech-Infoseite wie alexa.com aufkaufen und für die eigene Dreckshardware gebrauchen, so what, aber alle externen Links, die die alte Seite und die alten Dienste aufrufen wollten, mit 302! auf Amazon! weiterzuleiten, das ist einfach ein richtiger Arschlochmove. Ich sag sonst nichts weiter dazu, nur eben: sowas wird das Archive-Tool eben nicht als einen verschwundenen und damit zu ersetzenden Link erkennen und kann nichts dafür.
Insofern vorläufiges Fazit: Grundsätzlich feines Plugin, eine Handvoll false positives und eine Handvoll false negatives und (noch) keine Option, das dann händisch vollends glattzuziehen, aber was nicht ist, wird vielleicht noch.
Ich weiß nicht genau, ob ich in dem Zug in mein Yoast-SEO-Plugin reingeguckt hab, ich meine, ich wollte irgendwas intern bei mir da noch nachprüfen. Yoast/SEO wird man sich drüber kloppen können, an sich ists nervig mit der Premiumwerbung und der Updaterei, aber grundsätzlich machts ein paar Sachen gut bzw. besser als Vanilla-Wordpress, drüberhinaus seh ich es *sehr* weit verbreitet, aber that said:
Das hier ist eben „nur“ peinlich, weil mit llms.txt das einzig nachgewiesenermaßen vollkommen sinnfreie Tool zum vermeintlichen KI-Optimieren da prominent anteasern, naja. Die Zielgruppe wirds gewollt haben. Aber unter „Crawl-Optimierung“ mit dem Satz
„WordPress fügt eine Menge Links und Inhalte in die und HTTP-Header deiner Website ein. In der Regel kannst du diese sicher deaktivieren, was helfen kann, Bytes, Strom und Bäume einzusparen.“
einzuleiten und dann das Entfernen von Pingback-Headern bringen, ich weiß nicht. Im nächsten Absatz „Unerwünschte Inhaltsformate deaktivieren“ wird eben mal komplett RSS zur Schlachtung vorgesehen, denn es ist ja „grundsätzlich sinnvoll, die Formate zu deaktivieren, die du nicht aktiv nutzt.“
Was, und ich meine das sehr nachdrücklich, zum aktuellen Fick? Natürlich nutze ich den RSS-Feed meines Blogs wahrscheinlich seltener selbst „aktiv“, himmel, der existiert für *alle anderen*. Ich weiß, was in meinem Blog steht, ich schreib da ja rein. Andere Leute mit Feedreader wissen es nicht und wollen deshalb vielleicht was lesen, und denen soll ich den Saft abdrehen, weil *ich* den Feed nicht aktiv nutze?
Ich schmeiße grade diese beiden Beobachtungen zusammen, weil da jeweils in anderer Ausprägung offenbar Wissen darüber verloren ging (oder aktiv ignoriert wird), wie das Web eigentlich funktioniert und warum und wofür manche Protokolle, Standards, Schnittstellen, whatever entstanden. Und wenn grade vieles nicht so funktioniert, wie man es sich wünscht, oder grundsätzlich die Enshittification allenthalben den Weg der Entropie geht: manchmal denke ich, da spielt gelegentlich weniger Absicht denn schlichte Ignoranz oder unverschuldetes Unwissen eine Rolle. Bei Amazon und Yoast würde ich ersteres unterstellen, bei knöpfchendrückenden WP-Bloggenden mit nun ohne RSS anschließend eher letzteres, weil ja nun, spart Bäume. Whatever. Ich bin nicht einverstanden und tat das hiermit kund.
Ansonsten Props an archive.org und danke fürs Plugin!






