Modelar con XML

La superposición de jerarquías

Uno de los inconvenientes de modelar con XML es que XML no permite la superposición de estructuras jerárquicas. Esta cuestión ya fue mencionada en la presentación del modelo OHCO (en la sección ¿Qué se entiende, realmente, por texto?). Básicamente, el problema está en que XML es un modelo de datos jerárquico, de forma que todos los elementos necesitan estar anidados dentro de otros elementos, lo que significa que un elemento XML no puede quedar abierto en un elemento y cerrarse en otro distinto. El uso correcto del anidamiento de elementos se presentó en un ejemplo previo:

1
2
<l>texto texto texto</l>
<l>texto texto <metaphor> texto texto</metaphor></l>

En el ejemplo anterior, el primer elemento línea <l> se abre y se cierra sin ningún otro elemento interno, sólo texto. El segundo elemento línea <l> se abre y dentro de éste se anida la etiqueta <metafora> de apertura y cierre, cerrándose antes del cierre de la línea <l>. Este anidamiento es correcto en XML. En el siguiente ejemplo, sin embargo, vemos un uso incorrecto del anidamiento de elementos en XML cuando la etiqueta metáfora deja de estar anidada porque se abre dentro del primer elemento <l> y se cierra, en vez de en esa línea, en el segundo elemento línea <l>:

1
2
 <l>texto texto <metaphor> texto texto</l>
 <l>texto texto </metaphor></l>.

Sin embargo, el segundo ejemplo es correcto desde el punto de vista de representación del contenido. Una metáfora en un poema puede extenderse más allá de una línea y ocupar dos o más líneas (marcadas con la etiqueta <l>).  Realmente el requisito de XML de cerrar un elemento antes de que se abra otro es un mero requisito técnico.

Los creadores de la teoría OHCO reconocen que esta cuestión puede ser algo más espinosa que un mero problema técnico en lo que se refiere a la codificación de textos como proceso intelectual. Y es que la codificación textual, como rama dentro de la crítica textual,  no se encuentra exenta de interpretación teórica. Los textos, y especialmente los textos literarios, se pueden representar con múltiples jerarquías según los diferentes acercamientos posibles al texto. Por ejemplo, el tipo de jerarquía que SGML (y, por  tanto, XML) refleja en mayor medida es aquella que llamaríamos la editorial o bibliográfica; esto es, representar el texto en relación a la codificación lineal y organizada de frases, párrafos, capítulos, prólogos y epílogos, etc. Esta aproximación puede explicarse por los orígenes de SGML pensado como un metalenguaje orientado a la publicación documental con metainformación descriptiva sobre la estructura editorial del texto en formato digital. Desde esta perspectiva, la estructura documental es la única estructura posible.

Sin embargo, existen muchas características de los textos que pueden no ajustarse a esta jerarquía editorial. Así, como mencionamos anteriormente, las metáforas en un poema pueden abarcar varias líneas, estanzas o versos. Los acontecimientos narrativos también pueden extenderse a lo largo de varios párrafos o pueden, incluso, solaparse. El texto dramático contiene versos de diálogo (parlamentos), versos y oraciones. Pero puede ocurrir que estas oraciones y versos se superpongan en el caso de los encabalgamientos o cuando un personaje comienza a hablar y es interrumpido por otro (Renear 119–21). Todas estas diferentes jerarquías deberían tener la opción de ser representadas. Existe una solución a este problema y es el uso de elementos vacíos de la forma que se explicará en la siguiente sección.


Bibliografía complementaria

Text Encoding Initiative, Non-hierarchical Structures, <http://www.tei-c.org/release/doc/tei-p5-doc/en/html/NH.html>

Renear, Allen, Text Encoding, A Companion to Digital Humanities, ed. Susan Schreibman, Ray Siemens, John Unsworth. Oxford: Blackwell, 2004, <http://www.digitalhumanities.org/companion/>