Startseite > Calibre, Tipps und Tricks > Tipps zum Konvertieren von PDF zu ePub mit Calibre

Tipps zum Konvertieren von PDF zu ePub mit Calibre


Meist macht Calibre seinen Job ziemlich gut, aber gelegentlich gibt es doch ein paar störende Dinge. Am meisten nerven mich Seitennummern mitten im Text. In meinem Artikel ‚Samsung Galaxy Tab als eBook-Reader mit Calibre‚ habe ich schon ein paar Hinweise gegeben, wie man die loswerden kann. Im nachfolgenden Text beschreibe ich die Vorgehensweise noch einmal etwas genauer. Dieser Text ist keine Anleitung für Calibre, stellt aber ein kleines rotes Fädchen dar, das dazu geeignet ist – wenn man beim entlang hangeln versucht die Seitenstränge zu erforschen – einiges über Calibre zu lernen.

Um überhaupt effektiv arbeiten zu können, ist es wichtig die Original PDF-Datei und die konvertierte ePub-Datei miteinander zu vergleichen. Dies lässt sich aus Calibre heraus leicht bewerkstelligen. Klickt man auf ein Buch, so wird dieses in der rechten Spalte von Calibre mit seinem Titelbild dargestellt. Direkt darunter findet man eine Zeile, die mit dem Wort ‚Formate‘ beginnt und dahinter zwei Verweise, mit denen man das Buch öffnen kann. ‚EPUB‘ öffnet es im Calibre eigenen Reader für das ePub-Format und ‚PDF‘ mit dem im Betriebssystem eingestellten PDF-Reader, meist dem Adobe Reader. Jetzt man kann man die beiden Reader-Fenster nebeneinander auf dem Bildschirm positionieren, so dass man die jeweiligen Inhalte leicht miteinander vergleichen kann.

Natürlich macht es keinen Sinn jetzt Seite für Seite jedes Wort miteinander zu vergleichen, da könnte man es ja ebenso gut gleich lesen. Aber auf den ersten paar Seiten sollte man schon etwas genauer hinsehen. Zum Beispiel den Zeichensatz inspizieren, sind alle Umlaute korrekt dargestellt? Sind die Absätze richtig erkannt worden? Als nächstes sollte man einen Blick auf die Seitenübergänge werfen: Folgt nach dem letzten Wort einer Seite direkt das erste Wort der nächsten Seite? Sind Kopf- und Fußzeilen und die Seitennummer entfernt worden?

So sollte man die ersten 10 Seiten überfliegen und wenn alles in Ordnung ist, kann man davon ausgehen, dass wohl auch das restliche Buch korrekt konvertiert worden ist.

Wer sich sicher ist, dass alle zu konvertierenden Bücher im PDF-Format identisch aufgebaut sind, kann anschließend diese PDF Bücher in einem Rutsch konvertieren. Andernfalls sollte man jedes Buch einzeln konvertieren und nach der Konvertierung kontrollieren.

Jetzt zur nervenden Seitennummer:

Nachdem geklärt ist, ob die Seitennummer in Kopf- oder Fußzeile ist, wählt man erneut das dritte große Icon ‚Konvertiere Bücher‘ aus der Iconleiste von Calibre aus und im erscheinenden ‚Konvertiere …‘-Fenster aus der Iconleiste am linken Rand das Icon ‚Struktur Erkennung‘. Dort setzt man einen  Haken entweder bei ‚Kopfzeile entfernen‘ oder bei ‚Fußzeile entfernen‘ und öffnet mit einem Klick auf das zugehörige Zauberstab-Icon das Auswahlfenster für die Formate. Dort muss man ‚PDF‘ auswählen!

Was man anschließend präsentiert bekommt, ist eine ins HTML-Format konvertierte PDF-Datei! Diese Datei stellt eine Zwischenstufe auf dem Weg ins ePub-Format dar und gleichzeitig eine ideale Möglichkeit, individuelle Änderungen mit Hilfe von ‚Suchen und Ersetzen‘ vorzunehmen. Da man hier reguläre Ausdrücke verwenden kann, sind weitreichende Änderungen möglich!

Das Fenster nennt sich ‚Regulärer Ausdruck Erstellung‘ und damit kennt man auch seine Aufgabe. In der oberen Zeile befindet sich schon ein Ausdruck, mit dem jeder normale Mensch absolut nichts anfangen kann. Und in dem unteren großen Feld, befindet sich der komplette Text der ursprünglichen PDF-Datei im HTML-Format. Neben der Zeile mit dem regulären Ausdruck befindet sich eine mit ‚Test‘ bezeichnete Schaltfläche. Klickt man sie an, wird der reguläre Ausdruck auf den HTML-Text angewendet und damit jeder Teil des Textes, der sich mit dem regulären Ausdruck deckt, gelb markiert. So kann man nach dem ‚Try and error‘-Prinzip versuchen den richtigen regulären Ausdruck für sein individuelles Problem zu finden.

Fast noch einfacher geht es mit der Seite Regex Tester, bei der ähnlich verfahren wird, aber es zur Anwendung des regulären Ausdrucks noch nicht einmal notwendig ist eine spezielle Schaltfläche anzuklicken. Jede Änderung am regulären Ausdruck wird direkt auf den Text angewendet. Um mit dieser Seite zu arbeiten, kopiert man am besten einen Teil des HTML-Textes in den großen Eingabebereich und beginnt anschließend mit der Entwicklung seines regulären Ausdrucks. Vielleicht das nützlichste an dieser Seite ist das rechts oben, ‚Quick Reference‘ genannte, sich automatisch bei Mausberührung öffnende Fenster, in dem einige wichtige Suchmuster für reguläre Ausdrücke mit einer Kurzerklärung aufgeführt werden. Diese haben mir bei meinen ersten Versuchen, meinen ersten regulären Ausdruck zur Seitennummerierung-Erkennung zu basteln, sehr geholfen. Es gibt vermutlich unzählige Seiten im Internet, die sich mit regulären Ausdrücken beschäftigen und es gibt auch eine Art Standardwerk in Buchform. Hier noch eine Seite, auf der ich einige nützliche RegEx-Suchmuster gefunden habe.

Aber zurück zum Fenster ‚Regulärer Ausdruck Erstellung‘.

Die Entwicklung eines regulären Ausdrucks zur Seitennummererkennung:

Zuerst suche ich im HTML-Text eine der Seitennummern. Dann sehe  ich mir an, welche Zeichen außer der Nummer selbst, noch zur Seitennummer gehören. Das sieht dann zum Beispiel so aus:

– 16 – <br>

Diesen Ausdruck kopiert man in die Regex-Zeile und ersetzt damit den Ausdruck mit den Hieroglyphen. Mit  einem Klick auf ‚Test‘ kontrolliert man sofort, ob jetzt die entsprechende Stelle im Text gelb markiert ist. Es ist klar, dass die Seitennummer in diesem Ausdruck noch durch irgendetwas ersetzt werden muss, dass nicht nur diese eine Seitennummer markiert, sondern stellvertretend für alle Seitennummern steht. Zum Beispiel mit diesem Teil eines Suchmusters: [0-9]{1,}

In der Regex-Zeile steht jetzt also:

[0-9]{1,} – <br>

In der Tat sollte man mit diesem Ausdruck schon relativ weit kommen. Wenn man jetzt noch sicher gehen will, dass die Anzahl der Leerzeichen zwischen den Bindestrichen egal ist, fügt man für die Leerzeichen noch folgendes Suchmuster ein: \40

Regex-Zeile:

-\40[0-9]{1,}\40- <br>

Dieser Ausdruck in der Regex-Zeile sollte nun alle Seitennummern entfernen, wenn man das Fenster ‚Regulärer Ausdruck Erstellung‘ mit ‚OK‘ schließt und anschließend die Konvertierung startet.

Es gibt in Calibre noch mehr Stellen, an denen man mit regulären Ausdrücken arbeiten kann. Die Möglichkeiten, in Verbindung mit regulären Ausdrücken Textmanipulationen durchzuführen, sind gigantisch und darum sei jedem Calibre-Anwender, der mehr als nur einmal ein Buch konvertieren will, das Standardwerk zu diesem Thema ans Herz gelegt. Und nebenbei könntet ihr mit einem Klick auf diesen Verweis auch mich ein wenig unterstützen. Wenn Euch das Buch nicht gefällt, so kauft anschließend halt irgendetwas anderes bei Amazon!😉

  1. TomBehrend
    Dezember 29, 2011 um 9:16 am

    Endlich mal einer, der bei Calibre nicht nur an der Oberfläche rumkratzt. Danke für die Anleitung. Den Regex-Tester kannte ich noch nicht, wird aber bestimmt von großer Hilfe sein, nachdem ich mich zum ersten mal mit dem Thema reguläre Ausdrücke beschäftigt habe. Im http://www.calibre-handbuch.de gibt gibt es eine deutsche Einleitung, die für die ersten Schritte reicht.
    Überlege mir trotzdem, mir das von Dir empfohlene Buch anzuschaffen, obwohl ich nicht sicher bin, ob 500 Seiten dann nicht doch etwas too much sind für mich als relativen Anfänger.

  2. Silvia Leutner
    April 20, 2012 um 6:56 pm

    Habe mich mit Calibre bereits gut eingearbeitet, aber seit einiger Zeit spinnt das Programm. Wenn ich ein Buch konvertieren möchte oder ein anderes Cover haben möchte, dann ist das Programm der Meinung ich bräuchte nur die Hälfte des Buches. Ich komme einfach nicht dahinter woran es liegen könnte. Sogar auf meinen neuen iMac spinnt Calibre. Ich möchte ein Buch von fast 600 Seiten lesen und nicht nur 311. Vielen Dank im Voraus für die ev. Hilfe,

  3. April 21, 2012 um 6:30 am

    Hallo Silvia! Wenn das Programm im Grunde alles richtig macht nur halt nicht alles komplett, so ist das vermutlich eine Fehlfunktion des Programms, für die Du nicht unbedingt etwas kannst. Vielleicht reichen auch einfach die Ressourcen nicht, sprich, es ist zu wenig Arbeitsspeicher vorhanden. Du solltest Dich mit Deinem Problem an ein Forum wenden, welches sich mit Calibre beschäftigt: http://www.e-reader-forum.de/e-book-formate-software/board60-calibre/?s=003479e7a62e43823ec0dc6d5eea4b71366307b7

    Gruß

    Tinkerpete

  4. Silvia Leutner
    April 23, 2012 um 9:20 am

    Hallo Tinkerpete, vielen Dank für deinen Hinweis. Mit dem Speicherplatz hat es wohl nichts zu tun. Der Mac ist noch jungfräulich und mein Laptop habe ich gerade wieder neu eingerichtet. Trotz allem vielen Dank für die Antwort. Mal sehen ob das Forum weiter helfen kann.
    Liebe Grüße Silvia

  5. Anonymous
    Oktober 9, 2012 um 2:43 pm

    Hm, im Grundsatz verstehe ich das schon alles. Wenn ich aber pdf Dokumente konvertiere, passiert es häufig, dass sie im EPub-Format nur teilweise oder völlig zerschossen und sinnlosen Zeichen dargestellt werden. Lässt sich das beheben? hat noch jemand solche Probleme?

  6. marion
    Mai 5, 2013 um 5:14 pm

    hi, habe gelesen das mir celibre helfen koennte bei reader tidles da dieser nur ebooks von amazonas annimmt ich aber epub dateien von anderen buecher habe und wie gesagt celibre mir helfen koennte diese auch auf den tidles zu lesen weis jemand was ich tun muß

  7. Dubo
    Juni 9, 2013 um 11:27 am

    Hallo, ich habe eine frage zum konventieren. Ich mochte ein ganz normales pdf ipad fähig machen. Das bekomme ich auch hin, aber auf dem ipad ibook kann ich die schrift nicht vergrössern oder verkleinern obwohl ich eingestellt habe. Gibt es dazu eimen trick? Besten dank für die hilfe!!! Beste Grüße Dubo

  8. Dezember 4, 2016 um 3:30 pm

    Hallo Pete,

    danke für diese ausführliche Anleitung! Auf https://online-umwandeln.de biete ich ein kostenloses Tool zur Konvertierung von verschiedenen ePub-Formaten – ganz ohne Installation oder Angabe von E-Mail Adressen. Viele Voreinstellungen für gängige eBooks sind hier schon gemacht.

    Viele Grüße,
    Sören

  1. November 27, 2010 um 8:38 am
  2. Dezember 10, 2010 um 12:09 pm
  3. Dezember 10, 2010 um 12:12 pm
  4. April 8, 2011 um 9:54 am
  5. Mai 20, 2011 um 9:50 am
  6. Oktober 18, 2012 um 9:12 pm

Schreibe einen Kommentar

Trage deine Daten unten ein oder klicke ein Icon um dich einzuloggen:

WordPress.com-Logo

Du kommentierst mit Deinem WordPress.com-Konto. Abmelden / Ändern )

Twitter-Bild

Du kommentierst mit Deinem Twitter-Konto. Abmelden / Ändern )

Facebook-Foto

Du kommentierst mit Deinem Facebook-Konto. Abmelden / Ändern )

Google+ Foto

Du kommentierst mit Deinem Google+-Konto. Abmelden / Ändern )

Verbinde mit %s

%d Bloggern gefällt das: