Linux und Ich

Blog über Ubuntu, Linux, Android und IT

Vollständige RSS-Feeds mit Content-Only

Vollständige RSS-Feeds mit Content-Only

| 24 Kommentare

Viele Nachrichten-Seiten oder Blogs bieten News-Feeds im RSS oder Atom-Format an, doch nicht alle liefern einen vollständigen Feed aus. Oft enthält der Feed nur einen Teaser mit den ersten paar Zeilen des Beitrages. Um den kompletten Inhalt des Beitrages zu lesen, muss man seinen News-Reader verlassen und die Seite im Webserver öffnen. Die Logik dahinter: Mehr User auf der Webseite, mehr Klicks auf die Werbung. Für Leute, die sehr viele News-Feeds lesen (müssen), sind solche verstümmelte Feeds leider meist recht nervend, da sie mehr Arbeit kosten.

Content-Only ist ein unter der GPL lizenziertes Projekt, das kastrierte Feeds vervollständigen und wieder als Feed ausliefern kann. Diesen Feed kann man dann mit einem beliebigen RSS-Aggregator wie Liferea, Google Reader und Co. abrufen. Man bedient sich dabei PHP, Readability, SimplePie und FeedWriter. Readability spielt hier den essentiellen Part, da es den Inhalt aus den verlinkten Webseiten extrahiert. Content-Only ist dabei nur ein Part des Five Filters Projekt, schaut euch ruhig mal die restlichen Projekte an.

Five Filters hostet den Dienst auf der Projektseite, dort kann man URLs zu Newsfeeds eintragen und sich auch die Feed-URLs erzeugen lassen. Allerdings enthalten die auf Five Filters generierten Feeds zur Schonung der Ressourcen nur die letzten vier Beiträge. Für Nachrichten-Seiten mit hoher Schlagzahl ist das leider zu wenig. Daher bieten die Macher gegen 10$/Monat an die Feeds auf die letzten zehn Beiträge aufzubohren.

Content-Only auf eigenem Webspace

Alternativ – und das ist die interessante Option – kann man Content-Only auf seinem eigenen Webspace hosten. Für den eigenen Gebrauch braucht Content-Only nicht viele Ressourcen. Man benötigt weniger als 1MB Webspace und PHP 5.2, eine Datenbank kommt nicht zum Einsatz. Den Quellcode bekommt Ihr via Bazaar von launchpad.net heruntergeladen. Auf einem Ubuntu-System bspw. via.

$ sudo apt-get install bzr
$ bzr branch lp:~keyvan/fivefilters/content-only

Danach muss man den Inhalt des Verzeichnisses content-only nur noch auf seinen Webspace hochladen. Optional kann man die config-sample.php noch in config.php umbenennen und an die eigenen Bedürfnisse anpassen. Im Feed-Reader sieht dann ein nachträglich komplettierter Feed etwa so aus.

Vollständiger Feed in Lifearea

Links sieht man den herkömmlichen Feed, rechts den mittels Content-Only erweiterten. Ich habe zum Spaß ein paar populäre Feeds getestet und konnte durchweg gute Ergebnisse erzielen. Ach ja, das Projekt ist auf der Suche nach Spenden, schaut also mal auf die Homepage.

Autor: Christoph

Hallo, ich bin Christoph -- Linux-User, Blogger und pragmatischer Fan freier Software. Wie Ihr ohne Zweifel bemerkt haben solltet schreibe ich hier über Linux im Allgemeinen, Ubuntu im Speziellen, sowie Android und andere Internet-Themen. Wenn du Freude an meinen Artikel gefunden haben solltest, dann kannst du mir über Facebook, Google+ oder Twitter oder natürlich dem Blog folgen.

24 Kommentare

  1. Pingback: Tweets die Vollständige RSS-Feeds mit Content-Only | Linux und Ich erwähnt -- Topsy.com

  2. Hallo Christoph,

    ich habe das Verzeichnis auf meinen Webspace geladen. Wenn ich jedoch jetzt eine Feed erstellen will bekomme ich diese Fehlermeldung: “You don’t have permission to access /content-only/makefulltextfeed.php on this server.”

    Muss ich etwas an den Rechten verändern?

    Gruß und Danke für den Beitrag

    Michael

    • Du hast einen Webserver installiert, weißt sowas aber nicht? Natürlich läuft der Server unter seinem eigenen Benutzerkontext (meistens www-data). Und dieser Benutzer muss das Verzeichnis lesen und betreten dürfen.

      Und wenn du jetzt immer noch nicht weißt was du machen musst (oder wo man das nachlesen könnte), dann solltest du vielleicht die Finger vom Server lassen.

      ~jug

      • Hallo jug,

        einen Webserver habe ich nicht und davon war in den Blogartikel auch nicht die Rede. Es heißt dort immer “Webspace”. Und den habe ich. Allerdings nur shared hosting und keine root Zugriff oder ähnliches.

  3. Hay Christop,
    Ist das Bild oben der Chromium Browser?
    Wie hast du die Knöpfe (Schleies, Minimieren…) nach Links bekommen?

    MFG & Danke tux_

  4. Eine mögliche Alternative dazu für den Google Reader ist die Vorschaufunktion des Better Greader Plugins. Dabei wird statt des Feedes im Greader die Webseite angezeigt, also dann nicht der verkürzte Beitrag, sondern der komplette Beitrag im Originaldesign.

  5. hmm, ich hab direkt mal heise ausprobiert, da tuts nicht was es soll :( ich glaub da kann ich aber auch nix dran machen ohne selbst hand an den code anzulegen oder?

  6. Hallo, ich habe diese Problematik für mich folgendermaßen gelöst: Für Feeds benutze ich Thunderbird mit der Erweiterung ThunderBrowse. Dann unter Ansicht-Feedartikel-Standardformat, und er lädt den Artikel in Thunderbird. Ganz praktisch, so kann man z.B. auf Blogartikel auch gleich antworten (so wie gerade eben ;))

  7. Wieder ein Projekt mehr, das mit dem Content anderer Leute Geld verdienen will. Als wären die ganzen Nachrichten-Aggregatoren noch nicht genug. Wieso bitte muss man die Serviceleistung einer Nachrichtenseite oder eines Blog dadurch unterlaufen, dass man etwas von der Seite saugt, was aus gutem Grund – man nennt das Geschäftsmodell – in einer bestimmten Form angeboten wird und durch einen einfachen Klick erreichbar ist?

    Nachrichtenaggregatoren und solch Kram sind genau der Grund, warum Content offline immer noch viel hochwertiger ist als online. Aber selbst da lässt sich anscheinend die Qualität noch weiter heruntersparen.

    Sorry, aber ich hab dafür echt kein Verständnis. Das hat auch mit Open Source nichts zu tun. Hier geht es einfach nur um Sabotage.

    • Wo du Recht hast, hast du Recht.

      Und dann wundern sich die ganzen Internet-Anarchisten und ewigen Weltverbesserer auf einmal, dass Zeitungen ihre qualitativen Inhalte nur noch gegen Geld anbieten, Firmen ihre Software mit DRM ausstatten und Politiker sogar die Grundrechte verbiegen wollen um gegen Raubkopien vorzugehen. Wirklich gewollt wird das zwar von niemandem, aber angesichts der völligen Ignoranz der Rechte anderer, die bei manchen Leute zu herrschen scheint, ist es irgendwie auch verständlich…

      • Euch ist aber schon klar, das die Inhalte frei zur Verfügung stehen? Wie man die liest, bleibt einem doch selbst überlassen. Es ist eben keine Zeitung, sondern über das HTTP Protokoll abrufbare und für den Menschen als Zeichen interpretierbare Bytes.
        Man will Reichweite und riskiert dafür ein ruinöses Geschäft. Würden die Unternehmen den RSS Feed einfach als vollwertigen Vertriebskanal annehmen, wären solche Verrenkungen ja gar nicht notwendig. Einfach Full-Feed mit Werbung (wie unten schon mal geschrieben) und gut ist.

        Abgesehen davon: Ist es nicht traurig, das Anbieter wie Tagesschau oder ARD solche kastrierten Feeds anbieten?
        Denk mal 1. daran wer den Content da eigentlich finanziert und 2. das es auch Menschen gibt, die sich nur schwer in normalen Webangeboten bewegen können (Barrierefreiheit und so). Gerade für die ist ein Full-Text Feed eigentlich ein muss.

        Du vergleichst darüber hinaus DRM mit impressionsbasierten Geschäftsmodellen, und das ist einfach abstrus.

        • Nein, ich vergleiche nicht „DRM mit impressionsbasierten Geschäftsmodellen“. Ich zeige die Folgen auf, die aus so einer ignoranten und egoistischen Einstellung in verschiedenen Bereichen resultieren.

          Bei Inhalten der öffentlich rechtlichen ist es etwas anderes. Diese (genauso wie manche staatliche Inhalte) haben „wir“ bezahlt und sollten uns auch vollständig frei zur Verfügung stehen – also vollständig und unter richtiger Lizenz z.B. cc by-nc-sa. Aber das sollte man dann auch an die direkt Verantwortlichen herantragen oder eben eine Petition starten.

  8. Irgendwie hat Lorag Recht.
    Eigt. schade drum. :(

  9. Du siehst das falsch, Lorag. Dadurch wird der Nachrichtenseite oder dem Blog „vergeudeter“ Traffic erspart. Denn deren Geschäftsmodell scheitert eh an meinem Werbefilter.

    Als ob es meine Aufgabe wäre, irgendwelche wackligen Geschäftsmodelle zu unterstützen… Ein hoch auf dem „minderwertigen“ Online-Content.

    (Wer Sarkasmus findet, darf ihn behalten)

  10. Lorag, Deine Aussage ist aus mehreren Gründen falsch, Garol hat schon welche genannt. Das Geschäftsmodell Werbung funktioniert im Web anders als offline, das haben aber die meisten Seiten immer noch nicht verstanden.
    Es ist doch schon ziemlich peinlich/erstaunlich, das selbst große Seiten es nicht hinbekommen Ihre RSS Feeds mit Werbung zu spicken.
    Das Geschäftsmodell wäre z.B. viel sinnvoller. Full-Content Feed aber dafür eine garantierte Zielgruppe und zudem Viewer die keinen Adblocker Plugins haben.

    Aber egal, @Christoph – den Liferea werde ich mal testen, suche schon langem nach einem guten Ersatz für Thunderbird – da mich die Feeds dort doch schon ziemlich vom Arbeiten abhalten ;)

  11. Mir gefällt, dass dein Browser so schön dunkel ist. Habe gerade mal nachgesehen – konnte das Theme nicht finden. Wo hast du es her?

    Gruß,
    Christoph

  12. Habe das auchmal bei mir auf den Server gapackt! Danke für den Super Tipp!
    Bei mir funktioniert es bei Golem.de nicht, da bekomme ich nur die Newsletter Übersicht.
    Heise.de funktioniert bei mir auch! Und alles anderen Feeds, auser eben Golem.de auch einwandfrei!
    Danke!

    Matthias

  13. Sowas ohne Datenbank zu machen ist aber auch recht blöd. Wenn ich sowas mit einem Feed mache, das ich oft aktualisieren will und gleichzeitig viele Beiträge im Feed haben will gibt das ja eine furchtbare Serverbelastung – auf beiden Seiten. (Wenn ich mir den Code angucke wundert mich aber eh gar nix mehr)

  14. anscheinend existiert der von dir angebene bazaar-branch nichtmehr, sondern wurde auf “lp:~keyvan/fivefilters/content-only” verlegt. Es wäre hilfreich wenn du das im Artikel verbessern würdest.

  15. Kleine Anmerkung:

    Laut fivefilters.org kann man den Code von http://code.fivefilters.org/full-text-rss der eigenen Website herunterladen. Der Bazar-branch ist veraltet. Der Copyless-Vermerk (oder wie man ihn bei einer GPL-Lizenz auch nennt) stammt von 2010. Aktuellen Code gibt es via git:
    git clone https://bitbucket.org/fivefilters/full-text-rss.git

    Den aktuellsten leider nur gegen Bezahlung.

    lg bebe

  16. Hallo Christoph,
    vielen Dank für Deinen informativen Blog!
    Super Tipp auch mit Five Filters. Habe es mir auf meinem Webspace installiert in der Version 3.2 – aber TTRSS kann die generierten Links nicht auswerten: keine Fehlermeldung, kein Inhalt….
    Mit einigen anderen Feedreadern geht es. Nur eben nicht mit Tiny RSS.

    Funktioniert es bei Dir noch? Gibt es einen besonderen “Kniff” ?

    lg, Dieter

Hinterlasse eine Antwort

Auf Linux und Ich darf anonym kommentiert werden. Die Felder für Name und E-Mail-Adresse dürfen beim Eintragen eures Kommentars leer bleiben. Ich freue mich aber über jeden Kommentar, zu dem der Autor mit seinem Namen steht.