TEI a gyakorlatban
A TEI Header
TEI alapok
Egy TEI dokumentum két fő részből áll: <teiHeader> és <text>. Ez a két elem a <TEI> gyökérelem gyermekei. Amíg a <text> elem a dokumentum szövegét tartalmazza (a kódolt verset, levelet, vagy más szöveges tartalmat), a <teiHeader> az adott objektum metaadatait biztosítja, mind az eredeti analóg objektumnak (ha szükséges), mind a kódolt változatnak. Az alábbi 1. ábrán az alapszerkezet vázlata látható:
1 2 3 4 5 6 7 8 |
<TEI xmlns="http://www.tei-c.org/ns/1.0"> <teiHeader> <!-- metaadat --> </teiHeader> <text> <!-- szöveg átirata --> </text> </TEI> |
1. ábra: a TEI alapszerkezetének vázlata
A TEI Header szerkezete
A <teiHeader> fő funkciója, hogy bibliográfiai rekordot biztosítson az elektromos dokumentumról. Négy fő részből (vagy gyermekelemből) áll, amelyek közül nem mind szükséges a megfelelő TEI-hez:
- <fileDesc>; az elektronikus szöveg bibliográfiai rekordja és az eredeti szöveg forrása;
- <encodingDesc>: az elektronikus szöveg címkézésére használt kódolási és szerkesztési elvek dokumentációja;
- <profileDesc>: indexeléshez, kereséshez és visszakereséshez használt kifejezések;
- <revisionDesc>: az elektronikus dokumentumban végrehajtott módosítások rekordja.
A 2. ábrán az elemek sorrendje látható abban az esetben, ha mindegyiket használják. Ugyanakkor az egyetlen kötelező gyermekelem a <fileDesc>.
1 2 3 4 5 6 |
<teiHeader> <fileDesc></fileDesc> <encodingDesc></encodingDesc> <profileDesc></profileDesc> <revisionDesc></revisionDesc> </teiHeader> |
A <fileDesc>-ről részletesebben
A <fileDesc> a <teiHeader> egyetlen gyermekeleme, amely minden TEI dokumentumban kötelező. Magának a <fileDesc> elemnek azonban három gyermekelemet kell tartalmaznia, hogy megfelelő legyen: <titleStmt>, <publicationStmt> és <sourceDesc>.
- A <titleStmt> olyan gyermekelemeket tartalmaz, amelyek a dokumentum alapvető metaadatait biztosítják, beleértve a forrásának címét, a szerző és/vagy szerkesztő nevét, valamint az elektronikus dokumentum létrehozásához hozzájáruló személyek nevét és szerepét;
- A <publicationStmt> azokat a gyermekelemeket tartalmazza, amelyek az elektronikus szöveg kiadásának információit hordozzák, beleértve a kiadó nevét, címét, szerzői jogi információkat és a közzétételi dátumot;
- A <sourceDesc>-ben lévő gyermekelemek leírják az eredeti szöveget, amelyből az elektronikus szöveget létrehozták. Tartalmazhatja például egy kézirat vagy könyv részletes leírását.
A 3. ábra egy általános TEI Header szerkezetet mutat be, az összes kötelező elem sorrendjével:
1 2 3 4 5 6 7 8 9 10 11 12 13 |
<teiHeader> <fileDesc> <titleStmt> <title>Cím</title> </titleStmt> <publicationStmt> <p>A mű kiadásának információi</p> </publicationStmt> <sourceDesc> <p>A forrásról szóló információk</p> </sourceDesc> </fileDesc> </teiHeader> |
3. ábra: kötelező TEI elemek.
A fent említett <fileDesc> három kötelező gyermekeleme mellett további négy, opcionális elem is létezik, amelyek sorrendjét az Útmutató írja elő:
- <editionStmt>: csoportosítja a szöveg egyik kiadásával kapcsolatos információkat;
- <extent>: leírja egy adott hordozóeszközön, vagy más, digitális/nem digitális objektumon tárolt szöveg megközelítő méretét egy adott mértékegységben;
- <seriesStmt>: csoportosítja annak a sorozatnak az információit, amelyhez a kiadvány tartozik (ha létezik ilyen);
- <noteStmt>: összegyűjti azokat a szöveghez kapcsolódó feljegyzéseket, amelyek a bibliográfiai leírás egyéb részeiben nem szerepelnek.
A TEI Header kódolásának lehetőségei
Ahogy feljebb írtuk, a <teiHeader> számos eleme tartalmaz olyan gyermekelemeket, amelyek a tartalom további strukturálását biztosítják. Ezen elemek segítségével egy szerkesztő választhat egy egyszerű prózai leírást, vagy további gyermekelemek felhasználásával részletesebben strukturálhatja a tartalmat.
Vegyük példának az <encodingDesc> esetét. Az egyik lehetőség, hogy egy egyszerű <p> címkét használunk egy prózai leíráshoz, mint a 4. ábrán:
1 2 3 |
<encodingDesc> <p>A szöveg megőrzi az eredeti helyesírást és tipográfiát, de a ligatúrák nincsenek kódolva.</p> </encodingDesc> |
Azonban az <encodingDesc> kódolható úgy is, hogy sokkal több szerkezetet biztosítson a gyermekelemeken keresztül, mint az 5. ábrán:
1 2 3 4 5 6 |
<encodingDesc> <projectDesc>leírja az projekt célját és folyamatát</projectDesc> <samplingDecl>korpusz vagy kollekció készítésénél leírja a mintavételi eljárást, milyen típusú szövegek kerültek be vagy maradtak ki</samplingDecl> <editorialDecl>elmagyarázza a szövegek kódolásának vagy átírásának szerkesztési elveit</editorialDecl> <charDecl>információt nyújt a szöveg speciális karaktereiről</charDecl> </encodingDesc> |
A kódolás mindkét típusa abszolút helyes. Hogy melyiket használjuk, az a projekt, és a kódolt szövegek céljától függ. Például, ha fontos, hogy a felhasználók képesek legyenek megkeresni a speciális karakterek kezelését a kódolásban, akkor a második példa megfelelőbb lenne, mivel a <charDecl> használata lehetővé teszi, hogy ezt az elemet felhasználjuk keresési célokra.
A TEI Útmutató második fejezete a <teiHeader>-t tárgyalja és minden használható gyermekelemét. Ebben a részben a feladatok is részletesen tárgyalják ezt a témát.
További olvasnivaló
The TEI header. The TEI Guidelines. <http://www.tei-c.org/release/doc/tei-p5-doc/en/html/HD.html>
Module 2: The TEI header, TEI by Example. <http://teibyexample.org/modules/TBED02v00.htm>