[Tustep-Liste] Geschachtelte Tags auflösen

stahl at germanistik.uni-wuerzburg.de stahl at germanistik.uni-wuerzburg.de
Sun Dec 12 15:42:41 CET 2010


Liebe Listen-Leserinnen und -Leser,

bei der Aufbereitung von XML-Dateien stoße ich immer wieder auf das  
Problem, geschachtelte gleichnamige Tags auflösen zu müssen. Das sieht  
in den Quelldaten beispielsweise so aus:

   xx <add> aa <add> bb> <add> cc </add> bb </add> aa </add> xx

Wie kann ich herausfinden, welche Anfang- und Ende-Tags  
zusammengehören? Wenn es gelänge, mit einem klassichen #KOPIERE daraus

   xx <add1> aa <add2> bb <add3> cc </add3> bb </add2> aa </add1> xx

zu machen, könnte ich die Tags zuverlässig auflösen.

Ganz so einfach, wie oben dargestellt, sind die Quelldaten freilich  
nicht: Die add-Tags können unterschiedliche Attribute haben und der  
sonstige Text ist mit einer Vielzahl an Tags zersetzt.

Für Hinweise wäre ich Ihnen sehr dankbar.

Mit besten Grüßen
P.Stahl


More information about the Tustep-Liste mailing list