Nach längerer Pause habe ich mich mal wieder um die Erstellung von eBooks gekümmert. Im Internet Archive gibt es Millionen von Scans als PDF, die sonst nicht als eBook verfügbar sind. Mit aktueller OCR Software lassen sich zügig formatierte eBooks im epub Format erstellen. Das sind dann erstmal nur Rohdaten, aber immerhin schon in einem brauchbaren Format und schneller/genauer als ein Cut&Paste mit einer Erkennung im PDF Viewer.
Wenn man sich ein professionelles eBook im epub Format anschaut, dann findet man eine Struktur mit Titelbild, Titelseite, Copyright, Buchinhalt, Autorenporträt und Motto/Widmung, bevor es zu den einzelnen Kapiteln geht. Allerdings gibt es da auch noch viel mehr Stylesheets, Fonts, etc., die ohne genauere CSS Kenntnisse schwer zu entziffern bzw. wiederverwendbar sind. Das liegt eventuell daran, daß professionelle eBooks z.B. mit Adobe InDesign erstellt werden, die solche Informationen handhabbar machen und ein riesiges Template beinhalten, das ggf. nur für einen Bruchteil im Buch genutzt wird.
Für die manuelle Erstellung und Bearbeitung gibt es mindestens zwei Tools. Das sind der Calibre eBook Editor und Sigil. Ersteren habe ich anfangs genutzt, um ausgehend von einem leeren Buch (ebenfalls in Calibre erzeugt) mein Template mit der oben genannten Struktur zu erstellen. Ein Inhaltsverzeichnis kann automatisch anhand der Heading Informationen generiert werden.
Wenn man die Struktur erstellt und ein hübsches Titel- und Autorenbild gefunden hat, dann kann man anfangen, den eigentlichen Inhalt aus dem gescannten epub stückweise in die eigentlichen Textabschnitte (sollten nicht größer als 200kB sein) des zukünftigen epub zu kopieren. Anhand des ersten Abschnitts kann man auch schauen, daß die Zeilen- und Paragraphenabstände hübsch aussehen und ggf. den Einzug am Paragrafen-/Kapitelanfang anpassen. Dazu kann man sich auch im Stylesheet Klassen für die unterschiedlichen Paragraphen anlegen, dann kann man das bei Bedarf an zentraler Stelle wieder ändern (Ergebnis sieht man auch sofort im zweiten Fenster).
Dann geht es nur(!) noch darum, den reinkopierten Text zu korrigieren. Trotz des guten OCR kommt man nicht umhin, jedes Wort und Satz sorgfältig zu lesen und mit dem PDF Original zu vergleichen. Ein paar Sachen kann man per Replace automatisch korrigieren, aber vieles ist nur per Hand zu machen, und ohne Korrektur macht das Lesen des ebooks wegen der vielen Fehler keinen Spaß. Hierfür ist Sigil mit dem PageEdit deutlich besser als Calibre, da man direkt im Output Korrekturen machen kann und nicht wieder in das Quell-xhtml springen muss.
Tatsächlich braucht man dafür mehr Zeit, als das Original zu lesen. Insofern wäre es sinnvoller, sich das Buch zu kaufen, als seine Zeit für die Digitalisierung zu verschwenden.
eBooks lese ich bevorzugt mit meinem (großen) Tolino epos, ich habe aber auch noch einen kleineren Kindle für Reisen, bei denen es auf Gewicht ankommt. An sich ging ich davon aus, daß das Ergebnis aus Calibre auch so auf dem Tolino aussieht. Prompt wurde ich aber eines besseren belehrt.
Der Tolino stellt standardmäßig keine Kapitälchen dar. Die sind aber zur Hervorhebung deutlich angenehmer als Fettdruck oder Unterstreichung. In Calibre, in Apple Books und nach Konvertierung auf Kindle sind die Kapitälchen (Schrifttyp small-caps) ohne weiteres sichtbar. Tolino erzeugt also aus seinen internen Schriftarten keine Kapitälchen. Wenn man ein Buch mit Kapitälchen genauso auf Tolino übertragen will, muß man eine Kapitälchen Schrift im epub integrieren und sich einen Style für Kapitälchen, der dann diesen Zeichensatz nimmt, definieren und entsprechend anwenden. Aus einem freien ebook mit Kapitälchen habe ich den entsprechenden Zeichensatz kopiert (der hatte lustigerweise ein Adobe Copyright …) und in mein ebook integriert. Das geht also, solange man nicht im Reader von Verlagsschrift auf eine interne Schrift umstellt. Das gleiche gilt übrigens auch für die Formatierung als Großbuchstaben (capital), die aber eher ungebräuchlich ist.
Das zweite Problem waren Seitenränder. Eine Lyrik hatte die Absatznummern links neben der ersten Zeile. Der erste Ansatz, den Textrand links zu verbreiten und dann beim ersten Paragraph mit negativem Einzug zu arbeiten, hat in Calibre, in Apple Books und nach Konvertierung auf Kindle funktioniert. Der Tolino hat den breiten Textrand aber ignoriert. Die Tolino interne Schmälerung der Textbreite hat nur bedingt funktioniert, die Nummer wurde trotzdem abgeschnitten. Zum Glück gab es aber im Web Anleitungen, wie man anders Einrückungen definieren kann (für Gedichte sehr nützlich), die dann auch beim Tolino funktioniert haben.
Die dritte Unschönheit betrifft das Inhaltsverzeichnis. Per Level des Heading kann man eigentlich ein einklappbares Inhaltsverzeichnis erzeugen, sodaß nicht 10 Seiten Inhaltsverzeichnis auf einmal angezeigt werden, sondern daß man Bereiche aufklappen kann und dort dann schneller hinspringt (also z.B. bei einem Buch mit 100 Kapiteln bei jedem 10. Kapitel <h3> statt <h4> benutzt). Tolino zeigt aber gnadenlos alles an. Wer also zu Kapitel 95 springen will, muß 8 mal im Inhaltsverzeichnis blättern.
Insofern war das ganze wieder eine nette Beschäftigung, wird aber wegen Sinnlosigkeit wieder eingestellt. Meine Hochachtung haben die Freiwilligen, die diese Arbeit für das Projekt Gutenberg auf sich nehmen.