Archive

Archive for the ‘Calibre’ Category

Tipps zum Konvertieren von PDF zu ePub mit Calibre

November 26, 2010 14 Kommentare

Meist macht Calibre seinen Job ziemlich gut, aber gelegentlich gibt es doch ein paar störende Dinge. Am meisten nerven mich Seitennummern mitten im Text. In meinem Artikel ‚Samsung Galaxy Tab als eBook-Reader mit Calibre‚ habe ich schon ein paar Hinweise gegeben, wie man die loswerden kann. Im nachfolgenden Text beschreibe ich die Vorgehensweise noch einmal etwas genauer. Dieser Text ist keine Anleitung für Calibre, stellt aber ein kleines rotes Fädchen dar, das dazu geeignet ist – wenn man beim entlang hangeln versucht die Seitenstränge zu erforschen – einiges über Calibre zu lernen.

Um überhaupt effektiv arbeiten zu können, ist es wichtig die Original PDF-Datei und die konvertierte ePub-Datei miteinander zu vergleichen. Dies lässt sich aus Calibre heraus leicht bewerkstelligen. Klickt man auf ein Buch, so wird dieses in der rechten Spalte von Calibre mit seinem Titelbild dargestellt. Direkt darunter findet man eine Zeile, die mit dem Wort ‚Formate‘ beginnt und dahinter zwei Verweise, mit denen man das Buch öffnen kann. ‚EPUB‘ öffnet es im Calibre eigenen Reader für das ePub-Format und ‚PDF‘ mit dem im Betriebssystem eingestellten PDF-Reader, meist dem Adobe Reader. Jetzt man kann man die beiden Reader-Fenster nebeneinander auf dem Bildschirm positionieren, so dass man die jeweiligen Inhalte leicht miteinander vergleichen kann.

Natürlich macht es keinen Sinn jetzt Seite für Seite jedes Wort miteinander zu vergleichen, da könnte man es ja ebenso gut gleich lesen. Aber auf den ersten paar Seiten sollte man schon etwas genauer hinsehen. Zum Beispiel den Zeichensatz inspizieren, sind alle Umlaute korrekt dargestellt? Sind die Absätze richtig erkannt worden? Als nächstes sollte man einen Blick auf die Seitenübergänge werfen: Folgt nach dem letzten Wort einer Seite direkt das erste Wort der nächsten Seite? Sind Kopf- und Fußzeilen und die Seitennummer entfernt worden?

So sollte man die ersten 10 Seiten überfliegen und wenn alles in Ordnung ist, kann man davon ausgehen, dass wohl auch das restliche Buch korrekt konvertiert worden ist.

Wer sich sicher ist, dass alle zu konvertierenden Bücher im PDF-Format identisch aufgebaut sind, kann anschließend diese PDF Bücher in einem Rutsch konvertieren. Andernfalls sollte man jedes Buch einzeln konvertieren und nach der Konvertierung kontrollieren.

Jetzt zur nervenden Seitennummer:

Nachdem geklärt ist, ob die Seitennummer in Kopf- oder Fußzeile ist, wählt man erneut das dritte große Icon ‚Konvertiere Bücher‘ aus der Iconleiste von Calibre aus und im erscheinenden ‚Konvertiere …‘-Fenster aus der Iconleiste am linken Rand das Icon ‚Struktur Erkennung‘. Dort setzt man einen  Haken entweder bei ‚Kopfzeile entfernen‘ oder bei ‚Fußzeile entfernen‘ und öffnet mit einem Klick auf das zugehörige Zauberstab-Icon das Auswahlfenster für die Formate. Dort muss man ‚PDF‘ auswählen!

Was man anschließend präsentiert bekommt, ist eine ins HTML-Format konvertierte PDF-Datei! Diese Datei stellt eine Zwischenstufe auf dem Weg ins ePub-Format dar und gleichzeitig eine ideale Möglichkeit, individuelle Änderungen mit Hilfe von ‚Suchen und Ersetzen‘ vorzunehmen. Da man hier reguläre Ausdrücke verwenden kann, sind weitreichende Änderungen möglich!

Das Fenster nennt sich ‚Regulärer Ausdruck Erstellung‘ und damit kennt man auch seine Aufgabe. In der oberen Zeile befindet sich schon ein Ausdruck, mit dem jeder normale Mensch absolut nichts anfangen kann. Und in dem unteren großen Feld, befindet sich der komplette Text der ursprünglichen PDF-Datei im HTML-Format. Neben der Zeile mit dem regulären Ausdruck befindet sich eine mit ‚Test‘ bezeichnete Schaltfläche. Klickt man sie an, wird der reguläre Ausdruck auf den HTML-Text angewendet und damit jeder Teil des Textes, der sich mit dem regulären Ausdruck deckt, gelb markiert. So kann man nach dem ‚Try and error‘-Prinzip versuchen den richtigen regulären Ausdruck für sein individuelles Problem zu finden.

Fast noch einfacher geht es mit der Seite Regex Tester, bei der ähnlich verfahren wird, aber es zur Anwendung des regulären Ausdrucks noch nicht einmal notwendig ist eine spezielle Schaltfläche anzuklicken. Jede Änderung am regulären Ausdruck wird direkt auf den Text angewendet. Um mit dieser Seite zu arbeiten, kopiert man am besten einen Teil des HTML-Textes in den großen Eingabebereich und beginnt anschließend mit der Entwicklung seines regulären Ausdrucks. Vielleicht das nützlichste an dieser Seite ist das rechts oben, ‚Quick Reference‘ genannte, sich automatisch bei Mausberührung öffnende Fenster, in dem einige wichtige Suchmuster für reguläre Ausdrücke mit einer Kurzerklärung aufgeführt werden. Diese haben mir bei meinen ersten Versuchen, meinen ersten regulären Ausdruck zur Seitennummerierung-Erkennung zu basteln, sehr geholfen. Es gibt vermutlich unzählige Seiten im Internet, die sich mit regulären Ausdrücken beschäftigen und es gibt auch eine Art Standardwerk in Buchform. Hier noch eine Seite, auf der ich einige nützliche RegEx-Suchmuster gefunden habe.

Aber zurück zum Fenster ‚Regulärer Ausdruck Erstellung‘.

Die Entwicklung eines regulären Ausdrucks zur Seitennummererkennung:

Zuerst suche ich im HTML-Text eine der Seitennummern. Dann sehe  ich mir an, welche Zeichen außer der Nummer selbst, noch zur Seitennummer gehören. Das sieht dann zum Beispiel so aus:

– 16 – <br>

Diesen Ausdruck kopiert man in die Regex-Zeile und ersetzt damit den Ausdruck mit den Hieroglyphen. Mit  einem Klick auf ‚Test‘ kontrolliert man sofort, ob jetzt die entsprechende Stelle im Text gelb markiert ist. Es ist klar, dass die Seitennummer in diesem Ausdruck noch durch irgendetwas ersetzt werden muss, dass nicht nur diese eine Seitennummer markiert, sondern stellvertretend für alle Seitennummern steht. Zum Beispiel mit diesem Teil eines Suchmusters: [0-9]{1,}

In der Regex-Zeile steht jetzt also:

[0-9]{1,} – <br>

In der Tat sollte man mit diesem Ausdruck schon relativ weit kommen. Wenn man jetzt noch sicher gehen will, dass die Anzahl der Leerzeichen zwischen den Bindestrichen egal ist, fügt man für die Leerzeichen noch folgendes Suchmuster ein: \40

Regex-Zeile:

-\40[0-9]{1,}\40- <br>

Dieser Ausdruck in der Regex-Zeile sollte nun alle Seitennummern entfernen, wenn man das Fenster ‚Regulärer Ausdruck Erstellung‘ mit ‚OK‘ schließt und anschließend die Konvertierung startet.

Es gibt in Calibre noch mehr Stellen, an denen man mit regulären Ausdrücken arbeiten kann. Die Möglichkeiten, in Verbindung mit regulären Ausdrücken Textmanipulationen durchzuführen, sind gigantisch und darum sei jedem Calibre-Anwender, der mehr als nur einmal ein Buch konvertieren will, das Standardwerk zu diesem Thema ans Herz gelegt. Und nebenbei könntet ihr mit einem Klick auf diesen Verweis auch mich ein wenig unterstützen. Wenn Euch das Buch nicht gefällt, so kauft anschließend halt irgendetwas anderes bei Amazon! 😉

Samsung Galaxy Tab als eBook-Reader mit Calibre

Oktober 20, 2010 6 Kommentare

Eine der interessantesten Anwendungen des Samsung Galaxy Tab ist es, ihn als eBook-Reader zu verwenden. Zugegeben, angesichts ‚läppischer‘ 139,- Euro für den Thalia Oyo, ist es möglicherweise ein bisschen Overkill. Aber er kann ja mehr: Mal schnell ein Fremdwort im Internet recherchieren? Die Wikipedia aufrufen? Auf eMails reagieren? Ein Youtube-Video zu einem bestimmten Sachverhalt sehen? Das macht den Tab zu einem weit überlegenen Gerät, welches für manchen den Mehrbetrag wert ist, was es kostet.

Eine geeignete Hardware ist aber längst nicht alles, was man zum komfortablen Lesen benötigt. Es ist immer auch eine Reader-Software nötig, die es erlaubt, die Bücher, die in einem bestimmten Format geliefert werden, in einer angenehm zu lesenden Form auf den Bildschirm zu bringen. Beim Oyo oder dem Amazon Kindle ist die Software fester Bestandteil des Geräts, als Anwender bleibt einem hier die Auswahl einer geeigneten App erspart. Aber auch beim Samsung Galaxy Tab ist standardmäßig ein eBook-Reader dabei. Im Android Market gibt es noch Aldiko, der mir ebenfalls sehr gut gefällt. Von Amazon gibt es Kindle auch als Android-Version!

Leseprogramme

Beide eBook-Reader erfüllen wesentliche Grundforderungen, die man an einen eBook-Reader stellen kann. So verwalten sie Lesezeichen, können den Text mit verschiedenen Schriften in verschiedenen Größen darstellen, gestatten das Blättern durch einfache Wisch-Gesten auf dem Touchscreen, erlauben das Dimmen der Hintergrundbeleuchtung, so dass ein eventuell im gleichen Schlafzimmer schlafender Partner nicht gestört wird und können das gebräuchliche ePub-Format importieren. Außerdem sind sie nett anzusehen und besitzen beide eine Art optisches Bücherregal, in dem die Buchcover hübsch dargestellt werden.

Das Problem mit dem PDF-Format

Lange Zeit war auf Computern das PDF-Format dass Maß der Dinge. Jegliche elektronische Publikation wurde in dieses Format gepackt, um es eventuellen Lesern zur Verfügung zu stellen. Viele Anwender haben darum im Lauf der Jahre eine beträchtliche Sammlung an PDF-Dokumenten gesammelt und würden diese jetzt gerne auf einem modernen eBook-Reader lesen. Glücklicherweise verstehen viele Reader das PDF-Format und auch der Samsung Galaxy Tab hat eine PDF-Reader App dabei.

Wo ist also das Problem? Viele PDF-Reader zeigen ein PDF-Dokument relativ starr an, eben so, wie es auch gedruckt aussehen würde. Dies ist allerdings auf den relativ kleinen Displays der Smartphones oder auch dem Tab ein Nachteil, denn entweder ist dann trotz der hohen Display-Auflösung der Text nur schwer zu lesen, da die Buchstaben extrem klein sind, oder aber man muss ständig seitlich hin und her scrollen, um eine Zeile von links nach rechts zu lesen. Ein Unding, und nur geeignet, einen eventuellen eBook Leser schnell wieder von dieser Idee abzubringen. Manche PDF-Reader besitzen auch keine Lesezeichen Funktion. Auch dies ein Ding der Unmöglichkeit, denn wer will schon erst mühsam die Stelle suchen, an der er das letzte Mal zu Lesen aufgehört hat?

Die eBook-Reader dagegen arbeiten völlig unterschiedlich, sie bevorzugen Fließtext, der – sozusagen – in das Display gegossen wird. Und das mit der Schrift und der Schriftgröße, die dem Leser am besten gefällt.

Leider verstehen die meistens kein PDF-Format!

Damit haben die Besitzer von großen PDF-Sammlungen ein ebenso großes Problem: Wie die vielen gesammelten PDF Texte mit den smarten eBook-Readern lesen?

Calibre

Und genau an dieser Stelle kommt Calibre ins Spiel.

Calibre ist allerdings erheblich mehr, als nur ein Programm um PDF nach ePub zu konvertieren. Es erlaubt bzw. bietet folgende Funktionen:

  • Bibliothek
  • eBook Konvertierung
  • Synchronisation mit eBook-Readern
  • Automatischer Download von Nachrichten und Konvertierung
  • eBook Reader
  • Online-Zugriff auf die eigene Bibliothek

Konvertierung von PDF nach ePub

In diesem Text geht es aber im wesentlichen um die PDF-Konvertierung. Ich habe lange recherchiert und sogar selbst programmiert, aber ich denke Calibre ist zur Zeit die beste Möglichkeit PDF-Dokumente in das ePub-Format zu überführen. Calibre ist dabei weniger ein Konvertierprogramm, als vielmehr eine Art Oberfläche zur Verwaltung all dieser Aufgaben. Es ruft nacheinander viele kleine Programme auf und versorgt sie mit den richtigen Parametern, damit sie die ihnen zugedachten Aufgaben ausführen können.

Um nun eine PDF-Datei zu konvertieren, downloadet und installiert man sich als erstes Calibre und ruft es anschließend auf. Nun kann man mit Hilfe eines Dateimanagers wie dem Windows-Explorer per ‚Drag and Drop‘ eine oder auch mehrere PDF-Dateien in den mittleren Bereich von Calibre ziehen. Damit sind diese mit Calibre erfasst. Sie werden übrigens tatsächlich kopiert und befinden sich anschließend unter ‚C:\Dokumente und Einstellungen\[Eigener Name]\Calibre Bibliothek‘ nach Autoren sortiert.

Nun wählt man eine oder mehrere Dateien aus der Liste aus und markiert sie. Am Anfang am besten nur eine. Mit einem Klick auf das dritte Calibre-Icon ‚Konvertiere Bücher‘ von links aus der Icon-Leiste von Calibre, ruft man den Konvertier-Dialog aus. Dort kann man sehr viele Einstellungen vornehmen. Davon sollte man sich aber nicht abschrecken lassen. Oben links wählt man das Eingangsformat, also PDF aus. Achtung: Wenn man später noch einmal eine Konvertierung mit veränderten Einstellungen vornehmen will, so sollte man darauf achten, dass dort immer noch ‚PDF‘ eingetragen ist, da Calibre ab der zweiten Konvertierung erkennt, dass schon eine Datei im ePub-Format existiert und dann dort dieses Format einträgt!

Rechts wählt man natürlich EPUB aus. Und schon kann mit einem Klick auf ‚Ok‘ die Konvertierung gestartet werden. Eine Konvertierung kann je nach der Größe des Buchs oder der Geschwindigkeit des Computers einen Moment dauern.

Es empfiehlt sich aber, vor einer Konvertierung wenigstens die Metadaten zu kontrollieren und bei Bedarf zu korrigieren, da von diesen Buchtitel und Autor für die ePub-Datei abgeleitet wird und damit auch eine ordentliche Organisation der Bücher in der Bibliothek möglich wird.

Feintuning

Mir hat die Konvertierung mit den Standardeinstellungen schon ganz gut gefallen. Allerdings hatte ich danach auch ePub-Dokumente, die für jede PDF-Seite einen lästigen Absatz und eine Seitennummer mitten im Fließtext aufwiesen. Dies hat mein Gefühl für Ästhetik beim Lesen doch sehr gestört und ich sann nach Abhilfe. Einige Stunden Recherche und des Ausprobierens später, habe ich dafür eine Lösung gefunden: Im Konvertier-Dialog gibt es an der linken Seite ebenfalls eine Icon-Leiste, deren drittes Icon von oben ‚Struktur Erkennung‘ heißt. Diese Funktion erlaubt es, in einem Zwischenschritt der Konvertierung nach bestimmten Zeichenketten zu suchen und diese zu entfernen. Allerdings muss die zu suchende Zeichenkette als regulärer Ausdruck angegeben werden. Die Definition eines regulären Ausdrucks ist allerdings eine Wissenschaft für sich. Man kann sich helfen, indem man beim Ausprobieren des Ausdrucks eine Hilfe wie die Seite Regex Tester verwendet. Dort kann man sowohl den regulären Ausdruck als auch ein Stück des zu durchsuchenden Textes eingeben. Der Regex Tester zeigt dann sofort alle Fundstellen in gelber Farbe an.

Wenn man den richtigen Ausdruck gefunden hat, gibt man ihn im Eingabefeld ‚Regulärer Ausdruck Fußzeile:‘ ein und markiert zusätzlich ‚Fußzeile entfernen‘. Bei mir sah der Ausdruck so aus:

[0-9]{1,}<br>
<hr>
<A name=[0-9]{1,}></a>

Wenn man jetzt wieder auf ‚Ok‘ klickt, wird die ePub-Datei ohne störende Seitenumbrüche generiert. Natürlich muss dieser Ausdruck individuell angepasst werden. Wenn man ihn aber einmal für eine bestimmte Art der Formatierung angepasst hat, kann man ihn für diese Formatierung immer wieder verwenden.

Ein gutes Verfahren, um einen passenden regulären Ausdruck für derartige Probleme zu finden, ist es, die zu ersetzende Stelle komplett in das Feld ‚Enter regex here.‘ zu kopieren und anschließend die höchstwahrscheinlich dynamischen Anteile (Sprich: Die Seitennummer) durch so etwas zu ersetzen: [0-9]{1,}

Viel Spaß beim Ausprobieren!

Nachtrag

Manche PDF Reader haben einen speziellen ‚Reflow‘-Mode, der die starre Formatierung aufbricht und den Text passend für die Breite des Displays umformatiert. So zum Beispiel der PDF Reader im HTC HD2, der dies aber erst kann, wenn man folgenden Registry Key auf 1 setzt und anschließend einen Softreset ausführt:

HKEY_CURRENT_USER\Software\Adobe\AdobeReaderLE.25\EnableReflow

Leider besitzt der PDF Reader im HD2 keine Lesezeichen Funktion. Aber alles kein Problem – denn die konvertierten ePub-Dateien könne auch prima mit dem HTC HD2 verwendet werden. Einfach Freda installieren! 😉

Zum Ersetzen von Seitennummern gibt es jetzt noch einen weiteren Artikel mit einer genaueren Beschreibung der Vorgehensweise.

Lesefutter

Weitere Quellen für Bücher:

Besonders Thalia hat mittlerweile ein recht umfangreiches deutschsprachiges Angebot. Bei ‚beam ebooks‘ gibt es auch viel Kostenloses zum downloaden. Auch das Projekt Gutenberg hat eine kleine Auswahl kostenloser, deutschsprachiger Bücher im Angebot.