TEI a gyakorlatban

A TEI Header

TEI alapok

Egy TEI dokumentum két fő részből áll: <teiHeader> és <text>. Ez a két elem a <TEI> gyökérelem gyermekei. Amíg a <text> elem a dokumentum szövegét tartalmazza (a kódolt verset, levelet, vagy más szöveges tartalmat), a <teiHeader> az adott objektum metaadatait biztosítja, mind az eredeti analóg objektumnak (ha szükséges), mind a kódolt változatnak. Az alábbi 1. ábrán az alapszerkezet vázlata látható:

1
2
3
4
5
6
7
8
<TEI xmlns="http://www.tei-c.org/ns/1.0">
     <teiHeader>
            <!-- metaadat -->
     </teiHeader>
     <text>
             <!-- szöveg átirata -->
     </text>
</TEI>

1. ábra: a TEI alapszerkezetének vázlata

A TEI Header szerkezete

A <teiHeader> fő funkciója, hogy bibliográfiai rekordot biztosítson az elektromos dokumentumról. Négy fő részből (vagy gyermekelemből) áll, amelyek közül nem mind szükséges a megfelelő TEI-hez:

  • <fileDesc>; az elektronikus szöveg bibliográfiai rekordja és az eredeti szöveg forrása;
  • <encodingDesc>: az elektronikus szöveg címkézésére használt kódolási és szerkesztési elvek dokumentációja;
  • <profileDesc>: indexeléshez, kereséshez és visszakereséshez használt kifejezések;
  • <revisionDesc>: az elektronikus dokumentumban végrehajtott módosítások rekordja.

A 2. ábrán az elemek sorrendje látható abban az esetben, ha mindegyiket használják. Ugyanakkor az egyetlen kötelező gyermekelem a <fileDesc>.

1
2
3
4
5
6
<teiHeader>
    <fileDesc></fileDesc>
    <encodingDesc></encodingDesc>
    <profileDesc></profileDesc>
    <revisionDesc></revisionDesc>
</teiHeader>
2. ábra: a <teiHeader> gyermekelemei és azok sorrendje

A <fileDesc>-ről részletesebben

A <fileDesc> a <teiHeader> egyetlen gyermekeleme, amely minden TEI dokumentumban kötelező. Magának a <fileDesc> elemnek azonban három gyermekelemet kell tartalmaznia, hogy megfelelő legyen: <titleStmt>, <publicationStmt> és <sourceDesc>.

  • A <titleStmt> olyan gyermekelemeket tartalmaz, amelyek a dokumentum alapvető metaadatait biztosítják, beleértve a forrásának címét, a szerző és/vagy szerkesztő nevét, valamint az elektronikus dokumentum létrehozásához hozzájáruló személyek nevét és szerepét;
  • A <publicationStmt> azokat a gyermekelemeket tartalmazza, amelyek az elektronikus szöveg kiadásának információit hordozzák, beleértve a kiadó nevét, címét, szerzői jogi információkat és a közzétételi dátumot;
  • A <sourceDesc>-ben lévő gyermekelemek leírják az eredeti szöveget, amelyből az elektronikus szöveget létrehozták. Tartalmazhatja például egy kézirat  vagy könyv részletes leírását.

A 3. ábra egy általános TEI Header szerkezetet mutat be, az összes kötelező elem sorrendjével:

1
2
3
4
5
6
7
8
9
10
11
12
13
<teiHeader>
    <fileDesc>
        <titleStmt>
             <title>Cím</title>
        </titleStmt>
        <publicationStmt>
             <p>A mű kiadásának információi</p>
        </publicationStmt>
        <sourceDesc>
            <p>A forrásról szóló információk</p>
        </sourceDesc>
    </fileDesc>
</teiHeader>

3. ábra: kötelező TEI elemek.

A fent említett <fileDesc> három kötelező gyermekeleme mellett további négy, opcionális elem is létezik, amelyek sorrendjét az Útmutató írja elő:

  • <editionStmt>: csoportosítja a szöveg egyik kiadásával kapcsolatos információkat;
  • <extent>: leírja egy adott hordozóeszközön, vagy más, digitális/nem digitális objektumon tárolt szöveg megközelítő méretét egy adott mértékegységben;
  • <seriesStmt>: csoportosítja annak a sorozatnak az információit, amelyhez a kiadvány tartozik (ha létezik ilyen);
  • <noteStmt>: összegyűjti azokat a szöveghez kapcsolódó feljegyzéseket, amelyek a bibliográfiai leírás egyéb részeiben nem szerepelnek.

A TEI Header kódolásának lehetőségei

Ahogy feljebb írtuk, a <teiHeader> számos eleme tartalmaz olyan gyermekelemeket, amelyek a tartalom további strukturálását biztosítják. Ezen elemek segítségével egy szerkesztő választhat egy egyszerű prózai leírást, vagy további gyermekelemek felhasználásával részletesebben strukturálhatja a tartalmat.

Vegyük példának az <encodingDesc> esetét. Az egyik lehetőség, hogy egy egyszerű <p> címkét használunk egy prózai leíráshoz, mint a 4. ábrán:

1
2
3
<encodingDesc>
    <p>A szöveg megőrzi az eredeti helyesírást és tipográfiát, de a ligatúrák nincsenek kódolva.</p>
</encodingDesc>
4. ábra: Az <encodingDesc> egyszerű prózai leírása

Azonban az <encodingDesc> kódolható úgy is, hogy sokkal több szerkezetet biztosítson a gyermekelemeken keresztül, mint az 5. ábrán:

1
2
3
4
5
6
<encodingDesc>
   <projectDesc>leírja az projekt célját és folyamatát</projectDesc>
   <samplingDecl>korpusz vagy kollekció készítésénél leírja a mintavételi eljárást, milyen típusú szövegek kerültek be vagy maradtak ki</samplingDecl>
   <editorialDecl>elmagyarázza a szövegek kódolásának vagy átírásának szerkesztési elveit</editorialDecl>
   <charDecl>információt nyújt a szöveg speciális karaktereiről</charDecl>
</encodingDesc>
5. ábra: az <encodingDesc> részletes kódolása

A kódolás mindkét típusa abszolút helyes. Hogy melyiket használjuk, az a projekt, és a kódolt szövegek céljától függ. Például, ha fontos, hogy a felhasználók képesek legyenek megkeresni a speciális karakterek kezelését a kódolásban, akkor a második példa megfelelőbb lenne, mivel a <charDecl> használata lehetővé teszi, hogy ezt az elemet felhasználjuk keresési célokra.

A TEI Útmutató második fejezete a <teiHeader>-t tárgyalja és minden használható gyermekelemét. Ebben a részben a feladatok is részletesen tárgyalják ezt a témát.


További olvasnivaló

The TEI header. The TEI Guidelines. <http://www.tei-c.org/release/doc/tei-p5-doc/en/html/HD.html>

Module 2: The TEI header, TEI by Example. <http://teibyexample.org/modules/TBED02v00.htm>