I. Aufbau
Mit Scanner digitalisierte Faksimile bilden die Basis, welche mit Optical Character Recognition (OCR)
in Text umgewandelt wurden. Mit eigener Software wird ein Netzwerk aus vielseitigen Links über die Texte gelegt.
Verschiedene Wege führen zu den
Seiten und zu den Artikeln im Lexikon:
a) Mit "Suche" auf das zutreffende Stichwort oder die Seite.
b) Alle Artikel sind im detaillierten
Inhaltsverzeichnis aufgeführt, das im linken Fenster angezeigt werden kann.
c) Die Zitate (=Fundstellen)
zeigen alle jene Artikel, bei denen das betreffende Stichwort verwendet wird.
Vielfältige Links führen zu weiteren Stellen, an denen mehr zum gesuchten Artikel vorhanden ist.
Den ungefähren Inhalt und den grossen Umfang zeigen die
Liste der Artikel und die Sitemap.
Schriftprobe für die Schriftgrössen im Lexikon: Normal
Schriftprobe für die Schriftgrössen im Lexikon: klein
Schriftprobe für die Schriftgrössen im Lexikon: ganz klein
II. Struktur der Links
In diesem Lexikon können Sie Aussagen zum 19. Jahrhundert an dem damaligen Zeitgeist überprüfen.
Stichworte sind über das Inhaltsverzeichnis zu finden oder mit der Funktion "Suchen".
Diese springt auch direkt zu einer bestimmten Seite, z. B. mit 4.234 zu Band 4 Seite 234
oder mit einem Stichwort zu einem bestimmen Artikel, z. B. mit Gold. Über Links
können Sie anschliessend im Thema von einem Artikel zum nächsten verzweigen. Damit ist ein einfaches und umfassendes
Bearbeiten von Themengebieten möglich: Die Links zeigen in den Artikeln "vorwärts und rückwärts".
Über Kontext und Themen sind zwei Suchen in
"diagonaler Richtung" verfügbar: Artikel sind auffindbar, die mit dem gewählten Stichwort eine thematische
Beziehung haben, z. B. benachbarte Ortschaften oder im Bereich Landwirtschaft.
III. Tests
Die folgende Liste zeigt die Art der regelmässigen Kontrollen:
- 10: Unklare Seitennummer / Titel vertauscht?
- 11: Titelzeilen mit Text
- 12: Seite oder Titel fehlt / Fehlerhaft formatierte Seite
- 13: Reihenfolge der Seitentitel ist nicht alphabetisch
- 15: Artikel und Titel der Seite stimmen nicht überein, z. B. 1. oder letzter Artikel
- 20: Reihenfolge der Artikel ist falsch, Artikel wird verworfen
- 21: Reihenfolge der Artikel ist falsch, Artikel ist übernommen
- 22: Mehrfache Artikel-Identifikationen an verschiedenen Stellen
- 30: Wortfehler, z. B. kein Leerzeichen vor Klammern oder Wörter mit Ziffern und Buchstaben etc.
Systematisch wird überprüft, ob bei den Artikeln die alphabetische Reihenfolge stimmt und
ob der Bezug zum Seitentitel korrekt ist.
IV. Korrekturen
Das interne Korrekturverfahren richtet sich nach folgenden Leitlinien:
- Trennzeichen werden eliminiert. Die Rechtschreibung (von 1900) wird nicht verändert, z. B. Thal statt Tal.
Geringfügige Fehler werden nicht korrigiert, z. B. Platform statt Plattform.
Ebenso werden in Tabellen die Wiederholungszeichen («Gänsefüsschen») durch den sinngemässen Text ersetzt.
- Triviale Druckfehler werden ohne Hinweis korrigiert, z. B. fehlende oder falsche Abstände, Punkt statt Komma.
- Inhaltliche Fehler im Text (z. B. fehlerhafte Namen, unverständliche Bezeichnungen) werden mit ^[richtig: ...] korrigiert.
- Berichtigungen auf den ersten Seiten pro Band im Geographischen Lexikon werden mit ^[Berichtigung: ] ergänzt.
Zu streichende Texte werden
durchgestrichen.
Die Hinweise auf Fehler im Supplement (6. Band) werden im Text direkt korrigiert und mit ^[Supplement] gekennzeichnet.
- Bilder werden bei den zutreffenden Artikeln eingereiht: An der passenden Stelle, auch auf einer anderen Seite, eher am Anfang.
- Interessante Stellen, z. B. mit Prognosen für die Zukunft oder mit Bewertungen, werden mit ^[Note:], etc. markiert,
Lateinisch mit ^[Latein = ...] übersetzt.
- Die interne Textfassung wird mit Pseudo HTML formatiert, z. B. Fett = bold <b> ... </b>, kursiv = italic <i> ... </i>,
Grosse Schrift = Size 1 mit <s1> ... </s1> oder Abbildung mit <im4...jpg> etc.
- Fehlende Werte bzw. leere Zellen in Tabellen werden mit einem Punkt . aufgefüllt.
V. Konzept
Im Konzept vom eLexikon liest ein erstes Programm mit der Sprache
SAS
die Textseiten ein und speichert die Position von allen Artikeln (Stichwörtern) in einer SAS Datenbank. Ein zweiter Durchgang prüft im Text
jedes Wort, ob es mit einem der gespeicherten Artikel übereinstimmt, unter Berücksichtigung der deutschen Grammatik (Bach = Bäche etc.).
Über temporäre Tabellen und Listen ist das eLexikon schliesslich zweiseitig verknüpft: mit Links im Text
vorwärts zum erwähnten Schlagwort sowie zurück zu denjenigen Artikeln, die das aktuelle Stichwort enthalten
("wird zitiert in" = Volltextsuche). Dieses komplexe und vollständige Verfahren umfasst folgende Schritte:
- Scannen der Seiten, mit OCR in Text umwandeln, und erste Korrekturen in den Textdateien durchführen.
- Auf den eindeutig numerierten Seiten stehen auf den Zeilen 1-4 stehen Seitennummer und Titel.
- Alle Artikel werden pro Werk einzeln identifiziert gemäss dem Muster:
"Nach einer Leerzeile beginnt ein neuer Artikel". Weil dieser Schritt fehleranfällig ist,
werden für unsichere Fälle entsprechende Meldungen erzeugt. Eine Liste von Ausnahmen regelt nicht eindeutige Artikel.
- Über 20 Tabellen enthalten nach der Verarbeitung die Texte, die Artikel und Seiten in diversen Strukturen.
Die Informationen sind nach Band/Seite/Wort-Nummer organisiert. Vorbereitete Links und Bilder sind vermerkt.
- Cross-Referenz: Jedes Wort im Lexikon wird geprüft, ob es mit EINEM Schlagwort in diesen Tabellen übereinstimmt.
Wenn ja, wird beim Wort der Vermerk "Link zu Band/Seite/Wort-Nummer" eingetragen.
Das Ergebnis wird anschliessend nach Link sortiert. Daraus sind die Hinweise auf die Volltextsuche (=Zitate) abgeleitet.
- Notwendige Inhaltsverzeichnisse und Indizes werden als Tabellen in der Datenbank erstellt.
- Der Text des Lexikons wird in einem optimierten Format HTML5 ausgegeben.
- Artikel, Bilder, Datum, Duden, Kontext, Quellen, Seite, Zitate und Zwischentitel
werden in einer Online Datenbank gespeichert.
- Die eigentlichen Texte sind als Files organisiert. Für Markierungen und Hilfetexte werden sie kurz vor der Ausgabe auf dem Server
zum letzenmal verarbeitet.
- Je nach Option erfolgt die Ausgabe als Text, als PDF oder als Durckdatei.
- Zur Optimierung im Web könnten fertige HTML Seiten auf dem Server als "cache" gespeichert werden.
- Das Layout der Texte erfolgt mit CSS3 im Browser der Anwender.
Für den Output gibt es drei Arten von Dateien: Die in HTML übertragenen Textseiten vom Lexikon, die Einträge in
Tabellen der internen Datenbank sowie die Steuerprogramme (z. B. Fehlerlisten, Startseite,
Legende, graphischen Symbolen etc). Alle gescannten Faksimile werden in Originalgrösse mit maximal 600 dpi gespeichert,
dazu kommen Auszüge und kleine Vorschauen (=Thumbnails).
VI. Parameter
Die Benutzer können je nach dem zwischen verschiedenen Optionen wählen. Diese gehören zu den 21 dynamischen
Einstellungen, welche Navigation und Darstellung auf den Kontext der Lesenden ausrichten. Weiter existieren interne Parameter im Rohtext:
Regeln zur Formatierung im Text
===============================
Status der Seiten
-----------------
u = unkorrigiert
n = normal
t = tagged mit XML-Auszeichnung
Formatierungen mit Pseudo HTML
------------------------------
Fett = bold <b> ... </b>
Zentriert = center <c> ... </c>
Hochgestellt = <sup> ^{ ... }
Tiefgestellt = <sub> _{ ... }
Gesperrt = w e i t <g> ... </g>
Kursiv = italic <i> ... </i>
Kapitälchen = <k> ... </k>
Löschen = Durchgestrichen <l> ... </l>
Rechtsbündig = rechts <r> ... </r>
Grosse Schrift = Size 1 <s1> ... </s1>
Sehr gross = Size 2 <s2> ... </s2>
Tag Geographie = Typ Artikel <t/>
Unterstrichen = <u> ... </u>
Dashed unterstrichen = <ud> ... </ud>
Abbildung = <im>=<im41_0xxx-1.jpg>
Karten, Pläne = ^[Karte: x° 0’ O; 4x° 0’ N; 1:x000]
Tabellen, Struktur und Codes
----------------------------
a) 1 Blank am Zeilenanfang = Zwischentitel, in jedem Fall.
b) 2 Blank am Zeilenende = Dies ist kein Zwischentitel, sondern nur ein kurzer Absatz.
c) Ein Tabulator trennt zwei Zellen in der Tabelle.
d) 3 und mehr Blanks = 1 Tabulator.
e) 4 und mehr Punkte = 1 Tabulator.
f) ^[Liste] = Es folgt eine Tabelle ohne Titelzeilen.
g) Einzelner Tabulator = die vorangehende Zelle wird mit der folgenden
zu einer mehrfachen Zelle verbunden.
h) Tabulator und Blank = einzelne, leere Zelle.
i) Ein Doppelpunkt (:) = Die Zeile ist eine Summenzeile mit ausgezogenen Strich am oberen Rand.
Der Text ist rechstbündig.
j) Zusammen, Total = Dieses beiden Stichworte markieren ebenfalls eine Summenzeile.
Wie folgt mutiert und eindeutig ist eine letzte Regel zu den Tabellen:
k) 1 Blank am Zeilenende nach einem Tabulator
= Die letzte Spalte wird mit der vorangehenden verbunden.
Formeln und Gedichte:
l) Den Anfang mit ^[Liste] markieren und jeweils drei Leerschläge bzw. 1 Tabulator am Zeilenende.
Siehe auch: http://www.retrobibliothek.de/retrobib/korrektur_hilfe.html
======================================================