[Tustep-Liste] Sonderzeichen « » finden & ersetzen

Peter Stahl peter.stahl at uni-wuerzburg.de
Tue Jun 21 15:30:38 CEST 2016


Lieber Herr Neumann,

> das Problem: Durch OCR erkannte Texte, die über #umwandle usw. in die
> Arbeitsdatei gekommen sind, enthalten "Datenmüll", also nicht gewünschte
> Zeichen wie z. B. "«" oder "»", die als Wortbestandteile nach der OCR
> auftauchen: z. B. "ei»"
> Diese könnten zwar im vorherigen Schritt in einem externen Editor ersetzt
> werden - wurden sie aber nicht und liegen jetzt in hunderten Seiten in
> den Tustep-Dateien.

So wie ich die Sache sehe, können Sie eine Nacharbeit des
OCR-Ergebnisses nicht umgehen. Die Sonderzeichen, die sich
in Ihrer Datei befinden, dürften in erster Linie
   #.: und #.;
   #.< und #.>
sowie
   #[xx]
sein.

Ich würde mir zunächst einen Überblick über die Sonderzeichen
verschaffen und diese dann mit einem geeigneten Austauschen
entschärfen.

Mit besten Grüßen,
P.Stahl




-- 
Dr. Peter Stahl
Julius-Maximilians-Universität Würzburg
Deutsche Sprachwissenschaft
Am Hubland
D-97074 Würzburg

Tel.: +49 931 31 85 627
Fax:  +49 931 31 81 114
E-Mail: stahl at germanistik.uni-wuerzburg.de
Raum: 4.E.4

Sekretariat: Elisabeth Schönig (4.E.12)
Tel.: +49 931 31 85 630


More information about the Tustep-Liste mailing list