]> English some examples of SGML use Введение в TEI Lite Лу Бернард (Lou Burnard) С.М. Шперберг–Мак-Куин (C.M. Sperberg-McQueen) июнь 1995

В этом документе приведены общие сведения об использовании системы кодирования текстов (TEI), дано описание управляемой пользователем части системы кодирования TEI. С помощью описанных здесь процедур можно получить разнообразные эффекты, обычно применяемые при оформлении текстов, причем так, чтобы электронные копии были максимально удобны и просты для использования, и чтобы обеспечить возможность использования этих копий в различных компьютерных системах. Описанная схема полностью совместима с полной системой TEI, как определено документом TEI P3, <foreign lang='en'>Guidelines for Electronic Text Encoding and Interchange</foreign> (Принципы кодирования и обмена электронными текстами), который был опубликован в Чикаго и Оксфорде в мае 1994 г. Текущую версию этого документа можно найти через World Wide Web по адресами http://www-tei.uic.edu/orgs/tei/intros/teiu5.tei и ftp://info.ox.ac.uk/pub/ota/TEI/doc/teiu5.tei, а также на других сайтах—зеркалах указанных. Этот документ доступен также в форме HTML по адресу http://www-tei.uic.edu/orgs/tei/intros/teiu5.html и http://info.oxac.uk/archive/teilite/teiu5.html, Образцы формальных определений типов документов SGML для описанного здесь набора тегов можно найти там же, в файле teilite.dtd: ftp://www-tei.uic.edu/orgs/tei/p3/dtd/teilite.dtd и ftp://info.ox.ac.uk/pub/ota/TEI/dtd/teilite.dtd

Система кодирования текстов (TEI) направлена на обеспечение обмена информацией, хранимой в электронной форме. Основное внимание уделяется текстовой информации, но предусмотрены средства и для других форм, например, для графических изображений и звуковой информации. Ее принципы одинаково применимы при создании новых ресурсов и обмене существующими.

Принципы обеспечивают средства, позволяющие сделать ясными определенные особенности текста, причем так, чтобы облегчить обработку этого текста компьютерными программами, работающими на разных машинах. Процедуру выявления особенностей текста мы называем разметкой или кодированием. Любое представление текста на компьютере использует ту или иную форму разметки; одной из причин разработки системы TEI является существование огромного количества взаимно несовместимых систем кодирования, а также увеличение областей использования электронных текстов.

В Принципах TEI для определения схемы кодирования использован стандартный язык обобщенной разметки (SGML). SGML является международным стандартом (ISO 8879), все шире используемым в индустрии обработки информации. SGML позволяет формально определить схему кодирования в терминах элементов и атрибутов, а также с помощью правил, управляющих их размещением в тексте. Использование SGML в TEI усложняет систему, но делает ее универсальной, поскольку нет принципиальных отличий от других схем разметки SGML, и благодаря этому любое программное обеспечение общего назначения, которое может работать с SGML, может обрабатывать TEI-совместимые тексты.

TEI поддерживают Association for Computers and the Humanities (Ассоциация по компьютерам и гуманитарным наукам), Association for Computational Linguistics (Ассоциация по вычислительной лингвистике) и Association for Literary and Linguistic Computing (Ассоциация по компьютерным технологиям в литературе и лингвистике). Финансирование осуществляют U.S. National Endowment for the Humanities (Американский Национальный фонд пожертвований на гуманитарные науки), Directorate General XIII of the Commission of the European Communities (XIII Управление комиссии Европейского сообщества), Andrew W. Mellon Foundation (Фонд Эндрю У. Меллона) и Social Science and Humanities Research Council of Canada (Совет по социальным наукам и гуманитарным исследованиям Канады). Принципы системы TEI опубликованы в мае 1994 года, после шести лет разработки, в которую были вовлечены многие сотни ученых различных специальностей из разных стран мира.

В начале разработки общие цели системы TEI были сформулированы в заключительном отчете конференции по планированию работ, проведенной в Vassar College (Колледж Вассар), Нью-Йорк, в ноябре 1987 года; по этим наброскам был затем разработан ряд проектировочных документов. Согласно этим документам, в основу TEI должны быть положены следующие принципы: возможность получать в тексте эффекты, необходимые для исследовательской работы; простота, ясность и конкретность; несложность для использования без специализированного программного обеспечения; возможность точного определения и эффективной обработки текстов; возможность расширений, определяемых пользователем; соответствие существующим и новым стандартам.

Мир гуманитарных наук велик и разнообразен. Чтобы система с данными принципами стала широко распространенной, важно гарантировать, что: общее ядро текстовых функций легко выделяется; дополнительные специальные функции можно легко добавить в текст (или удалить из него); имеется возможность нескольких параллельных кодировок одной и той же функции; богатство разметки определяется пользователем, а набор минимальных необходимых условий очень невелик; доступна соответствующая документация по текстам и их кодированию.

В настоящем документе описано только небольшое подмножество из обширного набора элементов SGML, которое называется TEI Lite, и приведены рекомендации, вытекающие из целей этой разработки.

Была предпринята попытка выделить из нескольких сотен элементов SGML, определенных полной схемой TEI, полезный стартовый набор, в который вошли бы элементы, необходимые почти каждому пользователю. Опыт работы с TEI Lite будет чрезвычайно полезен для понимания полного TEI DTD и при определении того, какие необязательные части полного DTD необходимы для работы с конкретными типами текстов.

Цели, поставленные при выборе этого подмножества элементов, можно сформулировать следующим образом: это подмножество должно содержать большую часть набора набор выбранных элементов должен обеспечивать адекватную обработку достаточно разнообразных текстов, с уровнем детальности, который задается существующей практикой (как демонстрируется, например, материалами Оксфордского Архива, Oxford Text Archive); он должен обеспечивать как создание новых документов, так и выполнение кодирования существующих; он должен быть таким, чтобы его можно было использовать с разнообразными существующими программными продуктами SGML; он должен получаться из полного TEI DTD с помощью механизмов расширения, которые описаны в Принципах TEI; он должен быть настолько мал и прост, насколько это совместимо с другими целями.

Читатель может сам судить о том, насколько удалось достичь этих целей. Во время написания уверенность разработчиков в том, что поставленные цели достигнуты хотя бы частично, подкреплялась практическим использованием результатов для кодирования реальных текстов. Оксфордский Архив использует TEI Lite, когда переводит тексты хранимых документов из их исходных разметок в SGML; Центры электронных текстов университета Вирджинии и Мичиганского университета используют TEI Lite для кодирования своих документов. И в самой системе TEI используется TEI Lite, в ее текущей технической документации включая этот документ.

Хотя этот документ писался как автономный, что обычно для учебных текстов, читатель должен понимать, что здесь приведены далеко не все подробности схемы кодирования TEI. Все элементы, описанные здесь, полностью документированы в Принципах TEI, которые следует рассматривать как авторитетный источник не только по этим элементам, но и по многим другим, не упомянутым в настоящем документе. Предполагается, что читатель имеет некоторые базисные знания SGML.

Приведем краткий пример, с помощью которого покажем, что получается, когда отрывок текста введен в компьютер без учета всех требований разметки или возможностей электронных текстов. В идеале такой текст можно создать с помощью очень точного оптического сканера. Полученный текст будет точно соответствовать печатному оригиналу, в нем сохранятся такие же строки, как в исходном тексте, будут вставлены пробелы, чтобы сохранить исходную компоновку заголовков, исходные страницы и так далее. Если были нужны символы, отсутствующие на клавиатуре (например, буква a с ударением в слове faàl, или длинное тире), предпринималась попытка имитировать их.

CHAPTER 38 READER, I married him. A quiet wedding we had: he and I, the par- son and clerk, were alone present. When we got back from church, I went into the kitchen of the manor-house, where Mary was cooking the dinner, and John cleaning the knives, and I said -- 'Mary, I have been married to Mr Rochester this morning.' The housekeeper and her husband were of that decent, phlegmatic order of people, to whom one may at any time safely communicate a remarkable piece of news without incurring the danger of having one's ears pierced by some shrill ejaculation and subsequently stunned by a torrent of wordy wonderment. Mary did look up, and she did stare at me; the ladle with which she was basting a pair of chickens roasting at the fire, did for some three minutes hang suspended in air, and for the same space of time John's knives also had rest from the polishing process; but Mary, bending again over the roast, said only -- 'Have you, miss? Well, for sure!' A short time after she pursued, 'I seed you go out with the master, but I didn't know you were gone to church to be wed'; and she basted away. John, when I turned to him, was grinning from ear to ear. 'I telled Mary how it would be,' he said: 'I knew what Mr Ed- ward' (John was an old servant, and had known his master when he was the cadet of the house, therefore he often gave him his Christian name) -- 'I knew what Mr Edward would do; and I was certain he would not wait long either: and he's done right, for aught I know. I wish you joy, miss!' and he politely pulled his forelock. 'Thank you, John. Mr Rochester told me to give you and Mary this.' I put into his hand a five-pound note. Without waiting to hear more, I left the kitchen. In passing the door of that sanctum some time after, I caught the words -- 'She'll happen do better for him nor ony o' t' grand ladies.' And again, 'If she ben't one o' th' handsomest, she's noan faa\l, and varry good-natured; and i' his een she's fair beautiful, onybody may see that.' I wrote to Moor House and to Cambridge immediately, to say what I had done: fully explaining also why I had thus acted. Diana and 474 JANE EYRE 475 Mary approved the step unreservedly. Diana announced that she would just give me time to get over the honeymoon, and then she would come and see me. 'She had better not wait till then, Jane,' said Mr Rochester, when I read her letter to him; 'if she does, she will be too late, for our honey- moon will shine our life long: its beams will only fade over your grave or mine.' How St John received the news I don't know: he never answered the letter in which I communicated it: yet six months after he wrote to me, without, however, mentioning Mr Rochester's name or allud- ing to my marriage. His letter was then calm, and though very serious, kind. He has maintained a regular, though not very frequent correspond- ence ever since: he hopes I am happy, and trusts I am not of those who live without God in the world, and only mind earthly things.

В этой записи имеется ряд недостатков: номера страниц и колонтитулы идут прямо в тексте, из-за этого программам обработки трудно различать их; нет разницы между одинарными кавычками и апострофами, поэтому трудно точно определить, какие фразы являются прямой речью; сохранение переносов, которые были в исходном тексте, означает, что простые программы поиска не смогут обнаружить слово, если оно оказалось разорванным; буква с ударением в слове faàl и длинное тире представлены придуманными на ходу группами символов, которые не соответствуют стандарту, и поэтому корректно обрабатываются только если устройство воспроизведения данных специально настроено; абзацы выделены только отступом, а знак возврата каретки, жестко задающий формат, имеется в конце каждой строки. Следовательно, если изменить размер шрифта, которым печатается текст, то переформатирование текста будет непростой задачей.

Теперь покажем, как будет выглядеть тот же самый отрывок, если использовать кодирование в соответствии с принципами TEI. Как будет видно далее, существует много способов расширить эти правила кодирования, но как минимум, подход с использованием TEI отличается следующим: Разделение на абзацы теперь выполнено явно. Апострофы отличаются от кавычек. Для буквы с ударением и длинного тире использованы объектные ссылки. Концы страниц отмечены одним пустым элементом Чтобы упростить поиск и обработку, не сохранены такие же строки, как в оригинале, а слова, разорванные в конце строк, перенесены целиком на следующую строку без комментариев. Если бы было необходимо сохранить строки оригинала, это было бы несложно сделать, хотя в этом примере строки не сохранены. Для удобства читки корректуры перед каждым абзацем добавлена пустая строка, а отступ удален.

Reader, I married him. A quiet wedding we had: he and I, the parson and clerk, were alone present. When we got back from church, I went into the kitchen of the manor-house, where Mary was cooking the dinner, and John cleaning the knives, and I said ‐

Mary, I have been married to Mr Rochester this morning. The housekeeper and her husband were of that decent, phlegmatic order of people, to whom one may at any time safely communicate a remarkable piece of news without incurring the danger of having one's ears pierced by some shrill ejaculation and subsequently stunned by a torrent of wordy wonderment. Mary did look up, and she did stare at me; the ladle with which she was basting a pair of chickens roasting at the fire, did for some three minutes hang suspended in air, and for the same space of time John's knives also had rest from the polishing process; but Mary, bending again over the roast, said only ‐

Have you, miss? Well, for sure!

A short time after she pursued, I seed you go out with the master, but I didn't know you were gone to church to be wed; and she basted away. John, when I turned to him, was grinning from ear to ear. I telled Mary how it would be, he said: I knew what Mr Edward (John was an old servant, and had known his master when he was the cadet of the house, therefore he often gave him his Christian name) ‐ I knew what Mr Edward would do; and I was certain he would not wait long either: and he's done right, for aught I know. I wish you joy, miss! and he politely pulled his forelock.

Thank you, John. Mr Rochester told me to give you and Mary this.

I put into his hand a five-pound note. Without waiting to hear more, I left the kitchen. In passing the door of that sanctum some time after, I caught the words ‐

She'll happen do better for him nor ony o' t' grand ladies. And again, If she ben't one o' th' handsomest, she's noan faàl, and varry good-natured; and i' his een she's fair beautiful, onybody may see that.

I wrote to Moor House and to Cambridge immediately, to say what I had done: fully explaining also why I had thus acted. Diana and Mary approved the step unreservedly. Diana announced that she would just give me time to get over the honeymoon, and then she would come and see me.

She had better not wait till then, Jane, said Mr Rochester, when I read her letter to him; if she does, she will be too late, for our honeymoon will shine our life long: its beams will only fade over your grave or mine.

How St John received the news I don't know: he never answered the letter in which I communicated it: yet six months after he wrote to me, without, however, mentioning Mr Rochester's name or alluding to my marriage. His letter was then calm, and though very serious, kind. He has maintained a regular, though not very frequent correspondence ever since: he hopes I am happy, and trusts I am not of those who live without God in the world, and only mind earthly things. ]]>

Возможность концентрации внимания на самом тексте Бронте, а не на особенностях его печати в данном конкретном издании—это один из аспектов основной цели кодирования: ее избирательность. Кодирование выявляет только те особенности текста, которые интересуют кодирующего. Даже на этом коротком примере легко представить себе, как можно улучшить кодирование. Например: можно привести правильную форму диалектных выражений; можно добавить к любому отрывку сноски с толкованиями или комментариями можно добавить указатели, связывающие части этого текста с другими; различные типы имен собственных можно выделить из окружающего текста; подробная библиографическая информация о происхождении и связанных с текстом обстоятельствах может быть предпослана ему; можно обеспечить лингвистический анализ отрывка по отдельным предложениям, по частям сложных предложений, по словам и так далее, причем каждая единица связывается с соответствующими кодами категорий; текст можно разделить на сюжетные или логические единицы; в систему кодирования могут быть включены систематический анализ или интерпретация текста, с возможной сложной выверкой или связью между текстом и анализом, либо между текстом и одним или несколькими его переводами; отрывки текста можно связать с изображениями или звуками, которые хранятся на других носителях.

Рекомендации по выполнению всего этого с помощью системы TEI описаны далее в этом документе. В полной схеме TEI предусмотрено множество других возможностей, среди которых, например, такие: подробный анализ компонентов имен; подробная мета-информация, обеспечивающая информацию о тезаурусе и стиле по первоисточникам или темам текста; информация об истории печати или вариантах рукописей, представленная определенным рядом версий текста.

За подробными сведениями об этих и многих других возможностях следует обратиться к полному тексту Принципов.

Все тексты в формате TEI содержат (а) заголовок TEI (размечаемый как элемент teiHeader) и (б) собственно текст (размечаемый как элемент text).

В заголовке TEI содержится информация, аналогичная той, что находится на титульном листе печатного текста. Она может содержать до четырех частей: библиографическое описание машинно-читаемого текста, описание способа кодирования, небиблиографическое описание текста (профиль текста, text profile), и журнал исправлений. Более подробные сведения о заголовке приведены в разделе .

Текст TEI может быть монолитным (отдельное произведение) или объединенным (набор отдельных произведений, как, например, в антологии). В любом случае текст может иметь необязательные вводную часть и закрывающую часть. Между ними располагается основная часть текста, которая, в случае объединенного текста, может состоять из групп, а они, в свою очередь, из других групп или текстов.

В результате кодирования монолитного текста получается структура, подобная приведенной ниже:

[ Информация заголовка TEI ] [ вводная часть ...] [ основная часть ... ] [ закрывающая часть ... ]
]]>

Объединенный текст также имеет необязательные вводную и закрывающую части. Между ними располагается одна или несколько групп текстов, каждая из которых тоже может иметь свои собственные вводные и завершающие части. Таким образом, в результате кодирования объединенного текста получается структура, подобная приведенной ниже:

[ информация заголовка объединенного текста ] [ вводная часть объединенного текста ] [ вводная часть первого текста ] [ тело первого текста ] [ заключительная часть первого текста ] [ вводная часть второго текста ] [ тело второго текста ] [ заключительная часть второго текста ] [ другие группы или тексты ] [ заключительная часть объединенного текста ] ]]>

Можно также определить композицию текстов TEI, каждый из них со своим собственным заголовком. Такой набор называется совокупностью текстов TEI (TEI corpus) и может иметь свой заголовок:

[заголовок совокупности] [заголовок первого текста] [первый текст совокупности] [заголовок второго текста] [второй текст совокупности] ]]>

Однако, нельзя создать композицию из совокупностей, то есть набор из нескольких элементов teiCorpus, рассматриваемый как единый объект. Это ограничение текущей версии Принципов TEI.

В остальной части настоящего документа рассматриваются в основном простые текстовые структуры. При обсуждении каждой структуры приводится краткий список соответствующих элементов TEI и их описания, а затем определения всех атрибутов, специфичных для данного элемента. В большинстве случаев приводятся короткие примеры.

Как было указано выше, простой документ TEI на текстовом уровне состоит из следующих элементов:

Если необходимы структурные разделы более мелкие, чем div1, то элемент div1 можно разделить на элементы div2, а элементы div2 на еще меньшие элементы div3 и т.д., до уровня div7. Если в структуре имеется более семи уровней, следует либо изменить набор тегов TEI, чтобы воспринимались элементы div8 и т.д., либо использовать ненумерованный элемент div, поскольку его можно разделять на более мелкие элементы div без ограничений на количество уровней.

У всех этих элементов разделов существуют следующие три атрибута:

Атрибуты id и n настолько полезны на практике, что они предусмотрены для любого элемента в TEI DTD: они являются глобальными атрибутами. Другие глобальные атрибуты, определенные в схеме TEI Lite, рассмотрены в разделе .

Значение каждого атрибута id должно быть уникальным в пределах одного документа. Один из простых способов обеспечить это заключается в том, что атрибуту id присваиваются значения, отражающие иерархическую структуру документа. Например, Богатство государств Смита в первом издании состояло из пяти книг, каждая из которых разделялась на главы, а некоторые из глав были дополнительно разбиты на разделы. Для такой структуры можно определить значения атрибута id следующим образом:

... ... ... ... ... ... .... ... ]]>

Для атрибутов id и n можно использовать и другую схему нумерации; это часто полезно там, где использована каноническая схема ссылок, которая не соответствует структуре произведения. Например, пусть роман разделен на книги, каждая из которых состоит из глав, причем главы пронумерованы последовательно во всем произведении, а не в пределах каждой книги. В этом случае можно воспользоваться следующей схемой:

... ...
... ... ]]>

В этом примере произведение состоит из двух томов, каждый из которых содержит две главы. Главы пронумерованы как обычно принято, от 1 до 4, но структура указанных значений id такова, что можно получить дополнительную информацию о месте главы в произведении, как если бы главы были пронумерованы 1.1, 1.2, 2.1, 2.2.

Каждый элемент div, div1, div2 и т.д. может иметь название или заголовок вначале и (реже) заключение, например, Конец главы 1. Чтобы определить заголовки и заключения, можно воспользоваться следующими элементами:

Некоторые другие элементы, которые могут потребоваться в начале или в конце раздела текста, описаны ниже, в разделе .

Включать ли заголовки и заключения в транскрипцию - самостоятельно решает специалист, кодирующий текст. Там, где заголовки полностью регулярны (например, Глава 1) или могут быть выражены как значение атрибута (например, Под деревом зеленым можно оформить следующим образом:

Mellstock-Lane

To dwellers in a wood almost every species of tree ... ]]> Как отмечено выше, абзацы, составляющие отдельные части текста, следует отмечать тегом

I fully appreciate Gen. Pope's splendid achievements with their invaluable results; but you must know that Major Generalships in the Regular Army, are not as plenty as blackberries.

]]>

Предусмотрен ряд различных тегов для кодирования структурных компонентов стихов или текста ролей (пьесы, сценарии фильмов и т.п.):

Вот, например, начало стихотворения, в котором тегами отмечены стихотворные строки и строфы:

I Sing the progresse of a deathlesse soule, Whom Fate, with God made, but doth not controule, Plac'd in most shapes; all times before the law Yoak'd us, and when, and since, in this I sing. And the great world to his aged evening; From infant morne, through manly noone I draw. What the gold Chaldee, of silver Persian saw, Greeke brass, or Roman iron, is in this one; A worke t'out weare Seths pillars, bricke and stone, And (holy writs excepted) made to yeeld to none, ]]>

Следует отметить, что элемент l отмечает стихотворные, а не типографские строки; из-за этого исходное разбиение на строки в приведенных выше нескольких первых строчках не является очевидным при данном кодировании и может быть потеряно. Если необходимо разметить типографские строки, можно воспользоваться элементом lb, который описан в разделе .

Иногда, особенно в пьесах, стихотворные строки разделены на реплики нескольких персонажей. Самый простой способ кодирования в таких случаях - использование атрибута part; это позволяет определить, что строки, разбитые на указанные фрагменты, являются неполными, как в следующем примере:

ACT I SCENE I Enter Barnardo and Francisco, two Sentinels, at several doors BarnWho's there? FranNay, answer me. Stand and unfold yourself. BarnLong live the King! FranBarnardo? BarnHe. FranYou come most carefully upon your hour. ]]>

Тем же способом можно воспользоваться, если строфы разделены на реплики двух персонажей:

First voice But why drives on that ship so fast Withouten wave or wind? Second Voice The air is cut away before. And closes from behind. ]]>

Этот пример показывает, как представить диалог из прозаического произведения в виде отрывка из пьесы. Из этого примера также видно, как использовать атрибут who для того, чтобы указать, кто произносит данные реплики в диалоге.

The reverend Doctor Opimiam

I do not think I have named a single unpresentable fish. Mr Gryll

Bream, Doctor: there is not much to be said for bream. The Reverend Doctor Opimiam

On the contrary, sir, I think there is much to be said for him. In the first place....

Fish, Miss Gryll -- I could discourse to you on fish by the hour: but for the present I will forbear... ]]> Конец строки и страницы можно отметить следующими пустыми элементами.

Эти элементы отмечают отдельное место в тексте, а не отрывок текста. Чтобы вставить номер страницы или строки, в теге следует воспользоваться глобальным атрибутом n. Кроме того, эти два элемента могут иметь следующий атрибут:

При работе с разбитым на страницы оригиналом часто бывает полезно зафиксировать это разбиение, хотя бы только для того, чтобы облегчить чтение корректуры. Фиксирование концов строк полезно по той же причине; однако, если в печатном оригинале имеются переносы в конце строк, необходимо отдельно рассмотреть вопрос о том, следует ли фиксировать такие строки.

Если имеется несколько изданий, каждое со своей нумерацией страниц и т.д., укажите издание, о котором идет речь, с помощью атрибута ed и вставьте необходимое количество тегов. Например, в приведенном ниже отрывке указано, где находится конец страницы в двух различных изданиях (ED1 и ED2):

I wrote to Moor House and to Cambridge immediately, to say what I had done: fully explaining also why I had thus acted. Diana and Mary approved the step unreservedly. Diana announced that she would just give me time to get over the honeymoon, and then she would come and see me. ]]>

Элементы pb и lb являются частными случаями общего класса элементов закладка(milestone), которые отмечают ориентиры в тексте. В TEI Lite имеется общий элемент milestone, который не ограничен какими-либо специальными случаями, а может отмечать любой вид ориентира; например, конец колонки, начало нового типа раздела, не отмеченного другими способами и т.д. Этот элемент имеет следующее описание и атрибуты:

Названия (имена) типов единиц текста и изданий, которые используются в атрибутах ed и unit, можно выбирать любые, но эти имена необходимо документировать в заголовке.

Элемент milestone можно использовать вместо других, можно использовать набор специализированных элементов; однако, не следует их произвольно смешивать.

Выделенными словами или фразами называются те, которые визуально отличаются от остального текста (чаще всего другим типом шрифта, почерком, цветом чернил) с целью привлечь внимание читателя.

Глобальный атрибут rend может быть приписан любому элементу и использоваться там, где необходимо задать подробности выделения, используемого для данного элемента. Например, заголовок, выделенный полужирным шрифтом, можно отметить следующим образом: head rend=Bold, а заголовок, выделенный курсивом, обозначить как head rend=Italic.

Не всегда возможно указать какие-либо структурные признаки текста, из-за которых он подлежит выделению (как это сделано в приведенном выше примере, где выделен заголовок). В подобных случаях используется элемент hi, с помощью которого можно указать подлежащий выделению фрагмент текста, не указывая при этом причину выделения.

В приведенном ниже примере шрифтами выделены подзаголовок и встречающееся в тексте имя собственное, причем эти изменения зафиксированы, но не объясняются:

And this Indenture further witnesseth that the said Walter Shandy, merchant, in consideration of the said intended marriage ... ]]>

С другой стороны, для случаев, когда причина выделения ясна, предусмотрен ряд других, более специализированных элементов.

Некоторые из характерные особенности (особенно цитаты и глоссарии) можно найти в тексте отмеченными либо выделением, либо кавычками. В любом случае необходимы элементы q и gloss (их использование обсуждается в следующем разделе). Если выделение должно быть зафиксировано, следует воспользоваться глобальным атрибутом rend.

В качестве примера использования описанных выше элементов рассмотрим следующее предложение: On the one hand the Nibelungenlied is associated with the new rise of romance of twelfth-century France, the romans d'antiquité, the romances of Chrétien de Troyes, and the German adaptations of these works by Heinrich van Veldeke, Hartmann von Aue, and Wolfram von Eschenbach.С одной стороны, Песнь о Нибелунгах связана с новым подъемом во Франции двенадцатого века рыцарского романа, romans dantiquite, романами Кретьена де Тройе и немецкими переложениями этих произведений Генриха ван Вельдека, Гартмана фон Эйе и Вольфрама фон Эшенбаха— прим. переводчика.

Если указывать причину выделения слов, предложение будет выглядеть следующим образом: Nibelungenlied is associated with the new rise of romance of twelfth-century France, the romans d'antiquité, the romances of Chrétien de Troyes, ... ]]>

Если же необходимо просто сохранить внешность оригинала, этот пример может выглядеть так:

Nibelungenlied is associated with the new rise of romance of twelfth-century France, the romans d'antiquité, the romances of Chrétien de Troyes, ... ]]> Кавычки, как и изменение шрифта, принято использовать для обозначения некоторых составляющих текста, чаще всего, цитат. Рекомендуется по возможности отмечать выделяемый кавычками текст с помощью тегов, а не просто вводить кавычки в тексте. Для этого используются следующие элементы:

Ниже приведен простой пример цитаты:

a harmless drudge. ]]>

Чтобы зафиксировать способ, которым напечатана цитата (например, строковая (rend. Кроме того, таким путем можно указать и тип кавычек, в которые заключена цитата.

Чтобы представить прямую речь, прерываемую словами рассказчика, можно просто закончить одну цитату и, после слов автора, начать следующую, как в приведенном ниже примере: Who-e debel you? — he at last said — you no speak-e, damme, I kill-e. And so saying, the lighted tomahawk began flourishing about me in the dark. ]]>

Если важно подчеркнуть то, что два элемента q вместе воспроизводят одну речь, можно воспользоваться атрибутами связывания next и prev, которые описаны в разделе .

Цитаты могут сопровождаться ссылкой на источник или на автора высказывания, для этого используется атрибут who, независимо от того, упоминается ли этот источник в тексте, как это имеет место в следующем примере:

Spaulding, he came down into the office just this day eight weeks with this very paper in his hand, and he says:—I wish to the Lord, Mr. Wilson, that I was a red-headed man. ]]>

Из этого примера также видно, как можно поместить внутри цитаты другую цитату: один персонаж (Wilson) в своей речи цитирует другого (Spauling).

При создании электронного текста необходимо решить, заменить ли кавычки тегами или, добавив теги, все-таки сохранить кавычки. Если кавычек в тексте не будет, можно использовать атрибут rend, чтобы зафиксировать, где они находились в исходном тексте.

Как и при выделении текста, не всегда возможно и не всегда желательно интерпретировать функции кавычек в тексте. В таких случаях можно воспользоваться тегом hi rend=quoted, чтобы обозначить цитируемый текст, не указывая статус этого текста.

Для обозначения слов и фраз, приведенных на языке, отличном от языка основного текста, можно разметить двумя способами. Если иностранное слово или фраза по какой-либо причине уже отмечены тегами, этот элемент должен включать в себя значение глобального атрибута lang, которое и указывает, на каком языке написано данное выражение. Если же иностранные выражения не отмечены тегами, можно воспользоваться элементом foreign, в котором также используется атрибут lang. Например:

savoir-faire. ]]>Die Dreigroschenoper? ]]>Savoir-faire is French for know-how. ]]>mandamus. ]]>

Как ясно из приведенных выше примеров, элемент foreign следует использовать для обозначения иностранных слов, если не применяются более специальные элементы, например, title, mentioned или term. Глобальный атрибут lang можно ввести в любой элемент, чтобы показать, что в нем использован не тот язык, что в остальном тексте.

Любые примечания, которые печатаются в виде сносок, примечаний в конце текста, маргиналий (примечаний на полях) или как-либо по-иному, следует обозначать с помощью одного и того же элемента:

Если возможно, текст примечания следует вставлять в основной текст там, где в первый раз появляется идентификатор или метка этого примечания. Это может оказаться невозможным, например, для маргиналий, которые нельзя жестко связать с каким-либо конкретным местом текста. Для простоты можно размещать примечания-маргиналии перед соответствующим абзацем или другим элементом. Примечания можно также поместить в отдельном разделе текста (как в книгах печатают примечания после основного текста) и связать их с соответствующим отрывком с помощью атрибута target.

Если необходимо снабдить примечание номером или идентификатором, можно воспользоваться атрибутом n. Атрибут resp необходимо использовать постоянно, чтобы различать авторские и редакторские примечания, если в произведении имеются примечания обоих типов; в противном случае в заголовке TEI должно быть указано, к какому типу относятся примечания в данном произведении.

Примеры: We explain below why we use the uncommon term collection instead of the expected set. Our usage corresponds to the aggregate of many mathematical writings and to the sense of class found in older logical writings. The elements ... ]]> The curse is finally expiated And now this spell was snapt: once more I viewed the ocean green, And looked far forth, yet little saw Of what had else been seen ‐ ]]>

Явные перекрестные ссылки или связи между двумя различными точками текста в одном и том же документе SGML можно закодировать с помощью элементов, описанных в разделе . Ссылки или связи с элементами некоторых других документов SGML или с частями документов не-SGML можно закодировать с помощью расширенных указателей TEI, которые описаны в разделе . Неявные связи (например, связь между двумя параллельными текстами или между текстом и его интерпретацией) можно закодировать, воспользовавшись атрибутами связывания, которые обсуждаются в разделе .

Перекрестную ссылку из одной точки отдельного документа на другую можно закодировать с помощью любого из следующих элементов:

Эти элементы могут содержать следующие атрибуты:

Разница между этими двумя элементами заключается в том, что элемент ptr—это пустой элемент, просто отмечающий точку, связанную с другой точкой, тогда как элемент ref может содержать также некоторый текст, обычно текст собственно перекрестной ссылки. Элементом ptr можно воспользоваться для создания перекрестной ссылки, которая должна быть обозначена какими-либо невербальными способами (например, символом, значком или, в электронных текстах, кнопкой). Этот элемент полезен также в системах создания документов, где верстальщик может корректно создать перекрестную ссылку и в вербальной форме.

Следующие две формы, например, логически эквивалентны (при условии, что точная вербальная форма перекрестной ссылки, представленная в элементе ptr, задокументирована где-либо):

раздел 12, стр. 34. ]]>. ]]>

Значение атрибута target должно являться идентификатором SGML в текущем документе SGML. Это означает, что отрывок или фраза, на которую ссылаются, должна иметь идентификатор, а следовательно, должна быть отмечена тегом как элемент некоторого типа. В приведенном ниже примере имеется перекрестная ссылка на элемент div1: . ... Concerning Identifiers... ... ]]>

Поскольку атрибут id является глобальным, его можно использовать, чтобы сослаться на любой элемент в документе. В следующем примере идентификатором снабжен абзац, на который поэтому можно сослаться таким образом:

the paragraph on links ...

Links may be made to any kind of element ... ]]>

Атрибут targType можно использовать для указания того, что ссылаются на элемент определенного типа, как это сделано в приведенном ниже примере:

the section on links ]]>

Эта ссылка окажется ошибочной, если элемент с идентификатором dspec не является элементом div1 или div2. Однако, следует отметить, что нельзя проверить это просто с помощью синтаксического анализатора SGML, поскольку программа синтаксического анализа в SGML указывает только, что элемент dspec существует.

Атрибут type используется для того, чтобы определить тип связи, представляемой указателем, по любой принятой классификации. Также можно воспользоваться атрибутами resp и crDate, чтобы указать лицо или организацию, которые создали данную связь, и дату ее создания, как это сделано в следующем примере:

the section on links ]]>

Эти атрибуты наиболее часто используются в гипертекстовых системах, которые содержат очень много различных указателей, предназначенных для самых разных целей и созданных разнообразными способами.

Иногда цель перекрестной ссылки невозможно определить как некоторую конкретную особенность текста и, следовательно, нельзя обозначить как элемент определенного типа. Если целью является просто некоторая точка текущего документа, проще всего обозначить такое назначение с помощью элемента anchor, который располагается в соответствующем месте. Если цель представляет собой набор слов, не отмеченный никакими другими тегами, можно обозначить этот отрывок с помощью элемента seg. Свойства этих двух элементов таковы:

В следующем (искусственном) примере элементы ref использованы для обозначения точек в приведенном тексте, которые необходимо связать каким-либо способом с другими его частями; в первом случае с точкой, а во втором с отрывком (набором слов): the point where I dozed off, I noticed that three words had been circled in red by a previous reader ]]>

При этом способе кодирования необходимо, чтобы элементы с указанными идентификаторами (ABCD и EFGH в примере выше) встречались еще и в другом месте этого документа. В случае, если предполагается, что в тексте больше не окажется элементов с такими идентификаторами, можно воспользоваться элементами anchor и seg:

.... .... ... ... ]]>

Атрибутом type следует воспользоваться (как это сделано выше), чтобы указать, с какой именно целью эти элементы общего назначения (а они могут применяться в различных случаях) используются в данном месте данного текста. Другие случаи использования этих элементов обсуждаются далее в разделе .

Элементы ptr и ref можно использовать только для перекрестных ссылок или связей, источник и цель которых находятся в пределах одного и того же документа SGML. Кроме того, с помощью этих элементов можно сослаться только на элементы SGML. В этом разделе описаны элементы, не ограниченные такими признаками.

Кроме атрибутов указателей, уже описанных выше в разделе , эти элементы могут иметь дополнительные атрибуты, которые используются для определения цели перекрестной ссылки или связи вместо атрибута target:

Полное описание языка, который используется для обозначения целей расширенных указателей TEI, не входит в задачу данного документа; здесь перечислены только некоторые из наиболее часто используемых функций. Подробности можно найти в полном тексте Принципов.

Элемент xptr (или xref) может указывать на какой-либо другой документ в целом, для этого нужно просто указать название нужного объекта в качестве значения атрибута doc, как это сделано в следующем примере: The TEI Guidelines, passim ]]>

В этом примере подразумевается, что ранее описана некоторая система или общедоступный объект с именем P3. Это описание может находиться в файле расширения litemods.ent или может быть сделано другим способом, присущим тому конкретному авторскому программному обеспечению SGML, которое используется в данном случае (эти вопросы рассмотрены в разделе ).

Атрибут from используется для того, чтобы определить конкретное место в документе, который указан в атрибуте doc. В таких спецификациях используется специальный язык, который называется языком расширенных указателей TEI (TEI extended pointer syntax); здесь приводятся только некоторые сведения о нем. С помощью этого языка местонахождение в документе определяется как ряд шагов (steps), каждый из которых идентифицирует определенную часть документа, часто в терминах местонахождений, определенных предыдущим шагом. Например, чтобы указать на третье предложение во втором абзаце главы 2, следует выбрать вторую главу в первом шаге, второй абзац во втором, и третье предложение в последнем шаге. Шаг можно определить в терминах понятий SGML (таких как parent, descendent, preceding и т.д.) или, более свободно, в терминах структуры текста, позиций слов или символов. Можно также использовать иную (не-SGML) систему обозначений или указать место в графическом объекте с помощью связанной с ним системы координат.

Атрибуты from и to используют одну и ту же систему обозначений. Каждый указывает на некоторый отрывок в целевом документе; расширенный указатель как целое указывает на раздел, который начинается с отрывка, указанного в атрибуте from и заканчивается текстом, указанным в атрибуте to.

Первый шаг в пути к месту назначения часто будет состоять в указании идентификатора некоторого элемента в целевом документе, как показано в следующем примере:

]]>

Таким образом, в объекте P3 выбирается любой элемент с идентификатором SA. Если необходимо более подробно определить цель, можно ввести следующие шаги. Можно воспользоваться следующими ключевыми словами для выбора других элементов, причем эти элементы определяются по их соотношению с упомянутым:

Каждое из этих ключевых слов обозначает определенный набор элементов (набор порожденных элементов, набор элементов-предков, набор предшествующих элементов одного уровня и т.д.); чтобы определить указание на какой-либо конкретный элемент подобного множества, можно дополнить ключевое слово заключенным в скобки списком, содержащим: положительное или отрицательное число, означающее, на какой из обнаруженных нескольких элементов направлен указатель (+1 обозначает первый обнаруженный элемент, начиная с текущего места, а -1 обозначает последний элемент), либо ключевое слово all, которое означает, что указатель направлен на все элементы из обнаруженного множества; идентификатор, указывающий тип искомого элемента, или звездочку, которая означает, что элемент может быть любого типа; набор имен и значений атрибутов, означающий, что выбранный элемент должен иметь атрибуты с указанными именами и значениями, если они приведены.

Возвращаясь к приведенному выше примеру, видим, что в следующей ссылке будет выбран третий элемент p, непосредственно содержащийся в любом элементе с идентификатором SA: ]]>

Аналогично, если предположить, что объект P3 в действительности является SGML-формой Принципов TEI, то в приведенной ниже ссылке выбран раздел 14.2.2 этой публикации, в котором, кстати, дано формальное определение синтаксиса расширенных указателей:

TEI Extended pointer syntax definition ]]>

Обычно позиция перекрестной ссылки точно определяется атрибутом from. Для некоторых документов, однако, может оказаться более удобным определить и начальную, и конечную позицию. Как отмечалось выше, для этой цели служит атрибут to. Например, выражение ]]> представляет собой расширенный указатель, цель которого это последовательность, начало которой совпадает с началом в документе P1 элемента любого типа с идентификатором XYZ, а конец с окончанием (в том же документе) любого элемента с идентификатором ABC. Все элементы между этими двумя также включаются, независимо от структуры; указатель окажется ошибочным, если конец элемента ABC предшествует началу элемента XYZ.

Используя этот синтаксис, легко построить очень сложные спецификации. Например, по следующей ссылке будет выбран самый последний элемент head, у которого атрибут lang имеет значение LAT, и который находится перед началом элемента с идентификатором SA:

]]>

Если для атрибута doc не определено значение, это означает текущий документ. Таким образом, следующие ссылки семантически одинаковы. Они обе указывают на элемент с идентификатором X1, находящийся в текущем документе:

]]>
Следующие атрибуты связывания определены для каждого элемента в TEI Lite DTD:

Атрибут ana (анализ) следует использовать в тех случаях, когда где-либо в пределах одного документа определено множество абстрактных анализов или интерпретаций, эти вопросы обсуждаются далее в разделе . Например, лингвистический анализ предложения John loves Nancy (Джон любит Нэнси) можно закодировать следующим образом:

John loves Nancy ]]>

Такое кодирование подразумевает, что где-либо в документе существуют элементы с идентификаторами SVO, NP1 и VV1, в которых объясняется значение этих конкретных кодов. Следует обратить внимание на использование элемента seg для обозначения отдельных компонентов анализа, различаемых с помощью атрибута type.

Атрибут corresp (соответствие) обеспечивает простой способ представления некоторых форм соответствия между двумя элементами в тексте. Например, в многоязычном тексте (т.е. в тексте, приведенном на нескольких языках) можно воспользоваться этим атрибутом, чтобы связать эквиваленты перевода, как это сделано в следующем примере:

Jean aime Nancy John loves Nancy ]]>

Этот механизм можно использовать для различных целей. Так, в следующем примере он использован для представления анафорных соответствий между the show и Shirley и между NBC и the network:

Shirley, which made its Friday night debut only a month ago, was not listed on NBC's new schedule, although the network says the show still is being considered. ]]>

Использование атрибутов next и prev—это простой способ связать друг с другом компоненты прерывающегося элемента; ниже приведен пример такого применения этих атрибутов:

Who-e debel you? &mdash he at last said &mdash you no speak-e, damme, I kill-e. And so saying, the lighted tomahawk began flourishing about me in the dark. ]]>
Процесс кодирования электронного текста имеет много общего с процессом редактирования рукописи или другого текста для печатной публикации. В обоих случаях добросовестный редактор желает зафиксировать и исходное состояние источника, и всю редакторскую правку или другие изменения, внесенные в текст. В этом и в следующем разделах описаны элементы, которые обеспечивают некоторые средства для решения таких задач.

Следующую пару элементов можно использовать для обозначения исправлений, т.е. изменений, внесенных редактором в тех местах, где по его мнению, в оригинале имеется ошибка:

Описанной ниже парой элементов можно воспользоваться, чтобы отметить нормализацию, т.е. редакторскую правку, которая внесена с целью сделать текст более логичным или современным:

Например, прочтение ... for his nose was as sharp as a pen and a' table of green feelds рассматривается редактором Гиффордом (Gifford) как требующее следующих примечаний: (1) ошибочное использование слова table вместо babbled и (2) нестандартное написание a' и feelds вместо he и fields. Замечания Гиффорда об исправлении текста можно закодировать следующим образом:

he babbl'd of green fields ]]>
Кроме исправления или нормализации слов и фраз, редакторы и публикаторы могут предложить вставить пропущенные материалы, не публиковать некоторые материалы или ввести материалы, вычеркнутые из оригинала. Кроме того, некоторые материалы могут оказаться исключительно сложными для транскрипции, поскольку их непросто разместить на странице. Справиться со всеми перечисленными задачами позволяют следующие элементы:

Эти элементы могут использоваться для регистрации изменений, внесенных редактором, публикатором или (для рукописных материалов) автором или переписчиком. Например, если оригинал электронного текста читается как The following elements are provided for for simple editorial interventions. то может оказаться необходимым не только исправить очевидную ошибку, но в то же время зарегистрировать удаление лишнего второго for, т.е. закодировать текст следующим образом:

for simple editorial interventions. ]]>

Значение LB атрибута hand указывает, что исполнитель LB удалил дублирующийся предлог for. Если оригинал читался как The following elements provided for for simple editorial interventions. (т.е. если случайно оказался также пропущен глагол), исправленный текст может выглядеть следующим образом: are provided for for simple editorial interventions. ]]>

Значение LB атрибута hand указывает, что исполнитель LB добавил пропущенный глагол и удалил дублирующийся предлог for.

Использование этих элементов не ограничено только редакторской правкой; с их помощью можно также зафиксировать авторскую правку в рукописях. Если автор сначала написал в рукописи How it galls me, what a galling shadow (Как это раздражает меня, что за раздражающий полумрак), а затем вычеркнул слово galls (раздражает) и вместо него вставил dogs (преследует), это можно закодировать следующим образом: galls dogs me, what a galling shadow ]]>

Аналогично, элементы unclear и gap можно использовать в сочетании, чтобы указать пропуск невнятных материалов; в приведенном примере также показано, как использовать элемент add для предположительного исправления:

& instantly, would aid me signally in? an enterprise against Wilmington. ]]>

Элементом del отмечаются материалы, которые включены в электронный текст, несмотря на то, что они отмечены как удаленные, в то время как элемент gap отмечает местонахождение материалов, которые опускаются в электронном тексте, независимо от того, разборчивы они или нет. Например, в совокупности текстов на каком-либо одном языке можно опустить длинные цитаты на иностранных языках:

... An example of a list appearing in a fief ledger of Koldinghus 1611/12 is given below. It shows cash income from a sale of honey.

A description of the overall structure of the account is once again ...

]]>

В других совокупностях (особенно в тех, что были созданы до начала широкого применения сканеров) систематически опускаются рисунки и формулы:

At the bottom of your screen below the mode line is the minibuffer. This is the area where Emacs echoes the commands you enter and where you specify filenames for Emacs to find, values for search and replace, and so on.

]]>
В системе TEI определены элементы для большого числа подобных данным сведений, которые могут появляться почти в любом месте текстов практически всех типов. Эти сведения могут представлять особый интерес для целого ряда дисциплин; они все связаны с объектами, внешними по отношению к собственно тексту. Ими могут быть имена людей, названия местностей, числа, даты. Они также создают определенные проблемы для многих приложений естественно-языковой обработки (NLP-приложений), поскольку существует множество способов представления подобных объектов в тексте. Описанные здесь элементы делают эти сведения явными и, таким образом, уменьшают сложность обработки содержащих их текстов.

Называющая строка это фраза, представляющая собой ссылку на определенное лицо, место, объект и т.п. Для обозначения таких строк предусмотрено два элемента:

Атрибут type используется для различения, например, имен людей, названий местностей и названий организаций, там, где это возможно:

My dear Mr. Bennet, said his lady to him one day, have you heard that Netherfield Park is let at last? ]]> Circumlocution Office never, on any account whatsoever, to give a straightforward answer, Mr Barnacle said, Possibly. ]]>

Как показано в следующем примере, элемент rs можно использовать для любой ссылки на лицо, место и т.д., причем не обязательно, чтобы в этой ссылке было имя собственное.

My dear Mr. Bennet, said his lady to him one day... ]]>

Элемент name, напротив, предназначен только для определенного типа называющих строк, которые содержат только имена собственные; этот элемент можно использовать синонимично с элементом rs, или вставить его в элемент rs, если называющая строка содержит и имена собственные, и другие существительные.

Просто обозначить тегом что-либо как имя обычно недостаточно для автоматического перевода личных имен в канонические формы, что обычно требуется для справочных целей. Имя, как оно появляется в тексте, может быть неверно написанным, неполным или неправильным. Более того, префиксы перед именами, такие как van или de la могут входить или не входить в принятую для ссылок форму имен, что зависит от языка и страны происхождения носителя данного имени.

Для преодоления таких трудностей в этих и подобных им элементах можно воспользоваться следующими атрибутами:

Атрибут key полезен в качестве средства, позволяющего собрать вместе все ссылки на данное лицо или место, разбросанные по всему документу:

My dear Mr. Bennet, said his lady to him one day, have you heard that Netherfield Park is let at last? ]]>

Этот способ применения следует отличать от использования атрибута reg (нормализация), который позволяет обозначить стандартную форму называющей строки, как показано в приведенном ниже примере:

Walter de la Mare was born at Charlton, in Kent, in 1873. ]]>

Более детальная разметка имен, т.е. присвоение тегов компонентам имен собственных, также возможна, для этого используется дополнительный набор тегов для имен и дат.

Теги для более детального кодирования времени и даты включают в себя следующее:

Атрибут value определяет нормализованную форму для даты или времени, используя какой либо признанный формат, например, ISO 8601. Неполные даты или время (например, 1990, сентябрь 1990, около двенадцати) обычно можно выразить, просто опустив часть полного значения; с другой стороны, неточные даты или время (например, в начале августа, где-то между десятью и двенадцатью) можно выразить через диапазон дат или интервал времени. Если одна из границ такого диапазона известна точно (например, еще до 1230 года, спустя несколько дней после Хэллоуина), можно воспользоваться атрибутом exact, чтобы отметить этот факт.

Примеры:

21 Feb 1980 1990 September 1990 ]]> Twelfth Day of June in the Year of Our Lord One Thousand Nine Hundred and Seventy-seven of the Republic the Two Hundredth and first and of the University the Eighty-Sixth. ]]> specially when it's nine below zero and ]]>
Числа могут быть записаны как буквами, так и цифрами (двадцать один, xxi, 5th, тогда как по-гречески 5.; число, в английском тексте представленное как 123,456.78, во французском будет выглядеть как 123.456,78). При естественно-языковой обработке и в приложениях машинного перевода часто бывает полезным установить различие между числами и более лексическими частями текста. В других приложениях важно записать значение числа в стандартной системе. Элемент num обеспечивает эту возможность:

Например:

xxxiii twenty-one ten percent 10% 5th ]]>
Подобно именам, датам и числам, сокращения можно записывать как в собственно сокращенной, так и в полной форме; их можно оставить не обозначенными или закодировать с помощью следующего элемента:

Элемент abbr также полезен в качестве средства для обозначения полу-лексических единиц, например, акронимов или жаргонизмов:

CC is defined by that calibration of values which motivates the elements of its GSP; ]]> 3GL or 4GL languages is currently nailing on OOP extensions ]]>

Атрибут type можно использовать для выделения типов сокращений по их функции, а атрибут expan используется для определения полной формы сокращений:

Dr. M. Deegan is the Director of the CTI Centre for Textual Studies. ]]>

Этот элемент особенно полезен при работе с рукописными материалами, в которых сокращения используются очень часто.

Элемент address используется для обозначения почтовых адресов всех видов. Он содержит один или несколько элементов addrLine, по одному для каждой строки адреса.

Вот простой пример:

Computer Center (M/C 135) 1940 W. Taylor, Room 124 Chicago, IL 60612-7352 U.S.A. ]]>

Можно выделить в адресе еще более мелкие части, воспользовавшись элементом name, который описан выше (раздел ).

Computer Center (M/C 135) 1940 W. Taylor, Room 124 Chicago, IL 60612-7352 =country>USA ]]> Элемент list используется для обозначения списков любого типа. Список представляет собой последовательность текстовых единиц, которая может быть упорядоченной, неупорядоченной или глоссарием. Перед каждой единицей может располагаться ее метка (в случае глоссария такой меткой является определяемый термин):

Отдельные пункты списка отмечаются с помощью тега item. Перед первым из элементов item можно (но не обязательно) разместить элемент head, в котором содержится заголовок списка. Нумерация в списке может быть опущена (если предполагается, что список будет перестраиваться), определена с помощью атрибута n, который в этом случае указывается в каждом пункте списка, или (редко) отмечена тегом как содержание с помощью элемента label. Таким образом, следующие три примера эквивалентны:

A short list First item in list. Second item in list. Third item in list. A short list First item in list. Second item in list. Third item in list. A short list First item in list. Second item in list. Third item in list. ]]>

В одном и том же списке нельзя использовать разные стили одновременно.

Простая таблица из двух столбцов может рассматриваться как глоссарий, отмеченный тегом list type='gloss'. Здесь каждый пункт списка состоит из термина и толкования, которые обозначены, соответственно, элементами label и item. Эти элементы соответствуют элементам term и gloss, которые могут располагаться в любом месте написанного прозой текста.

Vocabulary now loudly blooms meadow wood ewe lows bounds, frisks pedit merrily cease never ]]>

В случае, если пункт списка имеет более сложную внутреннюю структуру, предпочтительнее рассматривать список как таблицу, поскольку для разметки таблиц определены специальные теги в дополнительном наборе тегов TEI.

Списки любого типа могут иметь как угодно глубоко вложенную структуру. Так, в приведенном ниже примере глоссарий состоит из двух пунктов, каждый из которых представляет собой простой список:

I am cast upon a horrible desolate island, void of all hope of recovery. I am singled out and separated as it were from all the world to be miserable. I am divided from mankind &mdash a solitaire; one banished from human society. But I am alive; and not drowned, as all my ship's company were. But I am singled out, too, from all the ship's crew, to be spared from death... But I am not starved, and perishing on a barren place, affording no sustenances.... ]]>

Список совершенно необязательно выводить на экран в формате списка. Например:

those that belong to the Emperor, embalmed ones, those that are trained, suckling pigs, mermaids, fabulous ones, stray dogs, those that are included in this classification, those that tremble as if they were mad, innumerable ones, those drawn with a very fine camel's-hair brush, others, those that have just broken a flower vase, those that resemble flies from a distance. ]]>

Списки литературы (библиография) должны размечаться при помощи элемента listBibl. Этот элемент описан в следующем разделе.

Если в тексте встречаются библиографические ссылки, полезно выделить их в явной форме хотя бы для того, чтобы при печати текста они были отформатированы надлежащим образом, а также для исследовательских целей. Для этого предназначен элемент bibl:

При выделении компонентов библиографической ссылки следует пользоваться перечисленными ниже элементами. В большинстве случаев полезно отметить по крайней мере те фрагменты (например, названия статей, книг и журналов), для которых необходимо специальное форматирование. Для случаев, когда таким подробностям уделяется особое внимание, предусмотрены дополнительные элементы.

Например, следующее примечание редактора: He was a member of Parliament for Warwickshire in 1445, and died March 14, 1470 (according to Kittredge, Harvard Studies 5. 88ff)Он был членом Парламента от графства Варвикшир в 1445 г. и умер 24 марта 1470 г. (см. Киттредж, Гарвардские Записки, 5. 88ff)— прим. переводчика. записывается в форме: Kittredge, Harvard Studies 5. 88ff). ]]>

Списки библиографических ссылок (библиографии) определяются элементом listBibl, который может содержать несколько элементов bibl. Пример такого списка приведен в разделе . Работа с таблицами является сложной задачей для любой системы обработки текстов, но хотя бы простые таблицы необходимы в таком множестве текстов, что даже в представленном здесь упрощенном наборе тегов TEI имеются средства для разметки таблиц. Для этой цели служат следующие элементы:

Например, Дефо следующим образом воспользовался таблицами смертности в Дневнике года чумы (<foreign lang='en'>Journal of the Plague Year</foreign>), чтобы показать подъем и спад эпидемии: It was indeed coming on amain, for the burials that same week were in the next adjoining parishes thus:— St. Leonard's, Shoreditch 64 84 119St. Botolph's, Bishopsgate 65 105 116 St. Giles's, Cripplegate 213 421 554

This shutting up of houses was at first counted a very cruel and unchristian method, and the poor people so confined made bitter lamentations. ...

]]>
Не все компоненты документа обязательно являются текстовыми. Самые простые тексты часто содержат диаграммы или иллюстрации, не говоря уже о документах, в которых изображение и текст переплетены так, что их невозможно отделить друг от друга, или об электронных ресурсах, в которых эти составляющие взаимно дополняют друг друга.

Кодировщик может легко зафиксировать наличие графики в тексте, возможно, даже с кратким ее описанием, воспользовавшись элементами, описанными в данном разделе. Этими же элементами можно воспользоваться для введения цифровых версий графики в электронный документ.

Любую текстовую информацию, сопровождающую графическое изображение, например, заголовок и/или пояснительные надписи, можно включить в сам элемент figure, в элемент head, либо в один или в несколько элементов p; это относится и к любым текстам, входящим в состав собственно графического изображения. Настоятельно рекомендуется вводить в элемент figDesc текстовое описание изображения, такое описание можно будет использовать в приложениях, не воспроизводящих графику, а также для того, чтобы представить документы в форме, доступной для читателей с ослабленным зрением. (Подобный текст обычно не рассматривается как часть документа в узком смысле слова.)

В простейшем случае эти элементы отмечают положение графической информации, как показано в следующем примере:

]]>

(Следует отметить, что нельзя опускать закрывающий тег, даже если элемент ничего не содержит.) Более обычны случаи, когда графический объект имеет хотя бы идентифицирующее его название, которое следует закодировать с помощью элемента head. Кроме того, в большинстве случаев удобно закодировать и краткое описание изображения, как это сделано в следующем примере: Mr Fezziwig's Ball A Cruikshank engraving showing Mr Fezziwig leading a group of revellers. ]]>

Если существует цифровая версия нужной графической информации, предпочтительнее, очевидно, вставлять именно ее в надлежащее место документа. Графические элементы, например, рисунки, обычно хранятся в объектах (файлах), отличных от файлов, содержащих текст документа, и используют другое представление (формат хранения). TEI Lite DTD поддерживает графику стандартов CGM, TIFF или JPEG, в системе обозначений SGML они называются, соответственно, cgm, tiff и jpeg

Можно использовать, однако, и другие представления, при условии, что в DTD добавлено соответствующее объявление NOTATION; см. главу о таблицах, формулах и графике элементы в TEI P3 или любой справочник по SGML, где приведены подробности об объявлении NOTATION в SGML.

Какой бы формат ни использовался для кодирования изображения, он вводится в документ совершенно одинаково. Первый шаг это объявление объекта SGML конкретного типа, которое задает название объекта, его внешний идентификатор (например, имя файла) и используемое представление (формат). Например, предположим, что цифровое изображение мяча мистера Феццвига (Mr. Fezziwigs ball) хранится в формате TIFF в файле fezzi.tff. Тогда необходимо объявить следующий объект:

]]>

Все подобные объявления должны обрабатываться раньше самого документа SGML; в TEI Lite DTD можно достичь этого, включив их в файл litedecls.ent или в любой файл с общим идентификатором -//TEI U5-1995//DTD TEI Lite 1.0 Extensions//EN.

Если сделано упомянутое выше объявление, для вставки цифрового изображения в выбранное место документа остается только указать значение для атрибута entity элемента figure:

Mr Fezziwig's Ball A Cruikshank engraving showing Mr Fezziwig leading a group of revellers. ]]>

Часто можно услышать, что любая разметка—это форма интерпретации или анализа. Хотя четко разграничить объективную и субъективную информацию каким-нибудь универсальным способом действительно трудно, а может, и невозможно, справедливо также и то, что утверждения, касающиеся последней, обычно считаются более полемичными, чем утверждения, касающиеся первой. Многие школы поэтому предпочитают фиксировать такие интерпретации, только если возможно предупредить читателя о том, что они считаются более спорными (открытыми для обсуждения), чем остальная разметка. В этом разделе описаны некоторые элементы, предусмотренные в системе TEI, с помощью которых можно решить подобные задачи.

Интерпретации обычно разбросаны по всему тексту, безотносительно к другим структурным единицам. Следовательно, в качестве первого шага при интенсивном использовании интерпретаций полезно разделить текст на дискретные, идентифицируемые единицы, каждой из которых можно присвоить метку для использования в качестве канонической ссылки. Чтобы их использование было более легким, эти единицы не должны пересекаться друг с другом или быть вложенными друг в друга. Удобно представлять их с помощью следующего элемента:

Как видно из названия, элемент s в большинстве случаев используется (по крайней мере, в лингвистических приложениях) для маркировки орфографических предложений, т.е. единиц, определяемых орфографическими характеристиками, например, пунктуацией. Так, отрывок из романа Джен Эйр, ранее уже использованный в примерах, можно разделить на s-единицы следующим образом:

Reader, I married him. A quiet wedding we had: he and I, the parson and clerk, were alone present. When we got back from church, I went into the kitchen of the manor-house, where Mary was cooking the dinner, and John cleaning the knives, and I said ‐

Mary, I have been married to Mr Rochester this morning. ... ]]>

Поставленные в этом случае закрывающие теги не являются строго необходимыми, поскольку элементы s не могут вкладываться друг в друга: начало одного элемента s предполагает, что предыдущий закончен. Если s-единицы отмечены тегами как показано выше, целесообразно отметить тегами весь текст от начала до конца, так что каждое анализируемое слово будет содержаться только в одном элементе s, идентификатор которого затем можно использовать для определения уникальной ссылки на него. Если указанные идентификаторы являются уникальными в пределах данного документа, предпочтительнее применять атрибут id вместо атрибута n, который использован в приведенном выше примере.

Элемент сегментации более общего назначения seg уже упоминался в настоящем документе как средство для идентифицирования не отмеченных иным способом целей перекрестных ссылок и гипертекстовых связей (см. раздел ); он идентифицирует фрагмент текста на уровне фраз, которому кодировщик может присвоить определенный пользователем

В Принципах TEI, например, не предусмотрен элемент apostrophe для маркировки тех частей текста, где рассказчик непосредственно адресуется к читателю (или слушателю). Один из способов решения этой проблемы рассматривать такие фрагменты как случаи использования элемента q, которые отличаются от других только соответствующим значением атрибута who. Возможно, более простым и, безусловно, более общим решением, будет использование элемента seg следующим образом:

Reader, I married him. A quiet wedding we had: ...]]>

Атрибут type в элементе seg может иметь любое значение и, таким образом, может использоваться для регистрации явлений на уровне фраз, относящихся к любым типам; с практической точки зрения полезно фиксировать в заголовке используемые значения и их значимость.

Элемент seg определенного типа (в отличие от элемента s, на который он несколько похож) может находиться внутри другого элемента seg того же или другого типа. Это позволяет создавать весьма сложные структуры; некоторые примеры приведены выше, в разделе . Однако, поскольку они должны удовлетворять требованию SGML о том, что элементы могут быть вложены друг в друга, но не могут пересекать друг с друга, при этом оказывается невозможным удовлетворить общее требование о связывании интерпретации с произвольными сегментами текста, так как это положение полностью игнорирует иерархию документа. Кроме того, необходимо, чтобы сама интерпретация была представлена единым закодированным значением в атрибуте type.

От этих ограничений свободен элемент interp, который позволяет закодировать сложную интерпретирующую информацию относительно простым способом.

Эти элементы позволяют кодировщику указать и класс интерпретации, и конкретный пример класса, который интерпретируется. Таким образом, если с помощью элемента seg можно просто указать, что нечто является апострофой (обращением), то с помощью элемента interp утверждается, что это пример (апострофа) более широкого класса явлений (риторические фигуры).

Более того, interp является пустым элементом, который необходимо связать с отрывком, к которому он относится, с помощью или атрибута ana (описан выше, в разделе ), или его собственного атрибута inst. Это означает, что можно выполнить любой вид анализа, не принимая во внимание иерархию документа SGML, а также облегчить группировку случаев анализа конкретного вида. Последнее достигается с помощью элемента специального назначения interpGrp.

Например, пусть нужно отметить такие различные аспекты текста, как его тему или предмет, риторические фигуры и места, где происходят отдельные сцены повествования. Различные фрагменты используемого в качестве образца отрывка из Джен Эйр, например, можно связать с такими риторическими фигурами, как апострофа, гипербола и метафора; с такими ссылками на тему (предмет), как церкви, слуги, приготовление пищи, почта и медовый месяц; со сценами, происходящими в церкви, на кухне, в неуказанном месте (в гостиной?).

Эти интерпретации можно размещать в любом месте элемента text; однако, как показывает практика, лучше всего помещать их все в одном месте (например, в отдельном разделе вводной или заключительной части), как это сделано в следующем примере:

]]>

Очевидную избыточность этого кодирования можно значительно сократить, если воспользоваться элементом interpGrp, чтобы сгруппировать все элементы interp, у которых общие значения атрибутов. Пример такого кодирования приведен ниже:

]]>

Когда эти элементы интерпретации определены, можно двумя способами связать их с частями текста, к которым они относятся, причем можно воспользоваться как одним, так и обоими способами. Атрибутом ana можно воспользоваться в любом подходящем элементе:

Reader, I married him. ... ]]>

В этом примере следует обратить внимание на то, что, поскольку в абзаце упомянуто два места действия (в церкви и на кухне), указаны идентификаторы для обоих.

С другой стороны, элементы interp могут указывать на любые части текста, к которым они относятся, с помощью собственного атрибута inst:

]]>

Элемент interp не ограничен каким-либо конкретным типом анализа. Рассмотренный выше пример литературного анализа это только одна из возможностей, элемент interp можно также эффективно использовать для лингвистического анализа частей речи. Например, предложение, рассмотренное в разделе , предполагает лингвистический анализ, который можно представить следующим образом:

Хотя основное внимание в этом документе уделено использованию системы TEI для кодирования существующих до-электронных документов, такая же процедура может использоваться и для кодирования новых. При подготовке новых документов (таких как этот, например) настоятельно рекомендуется использование SGML: структура документов в этом случае представлена в явном виде, один и тот же электронный текст может использоваться в различных целях например, чтобы обеспечить как интерактивные гипертекстовые или просмотровые версии, так и хорошо отформатированные типографские версии документа из общего SGML-оригинала.

Для достижения этих целей в TEI Lite включено небольшое число дополнительных элементов как расширение основного списка TEI DTD; упомянутые дополнительные элементы используются для обозначения характерных особенностей технических документов вообще и связанных с SGML документов в частности.

Для обозначения характерных особенностей технических документов можно воспользоваться следующими элементами:

Приведенный ниже пример показывает, как можно использовать эти элементы для кодирования отрывка из вводного курса по программированию на языке ФОРТРАН: It is traditional to introduce a language with a program like the following: CHAR*12 GRTG GRTG = 'HELLO WORLD' PRINT *, GRTG END

This simple example first declares a variable GRTG, in the line CHAR*12 GRTG, which identifies GRTG as consisting of 12 bytes of type CHAR. To this variable, the value HELLO WORLD is then assigned. This is followed by a PRINT statement and an END statement. ]]>

Обрабатывая текст, подобный приведенному выше, с помощью форматирующего приложения, можно указать этому приложению приемы правильного форматирования (например, сохранить строки оригинала или использовать другой шрифт). Точно так же, использование таких тегов, как ident и kw, значительно облегчает построение правильного указателя.

Элемент formula используется для того, чтобы включить в текст в качестве отдельной единицы математическую или химическую формулу. Поскольку для представления формул, как правило, используется множество самых разнообразных специальных символов и функций, не встречающихся в обычном тексте, возникает необходимость представить основную часть формулы в специализированной системе записи (в специализированной нотации). Используемую нотацию следует определить с помощью атрибута notation, как это показано на следующем примере:

\(E = mc^{2}\) ]]>

Нотация Tex для TEI Lite DTD является стандартной; можно использовать и другие нотации, но их необходимо сначала определить с помощью объявления notation в DTD.

Внутри элемента formula допускается почти любая последовательность символов, если она будет обрабатываться процессором, воспринимающим SGML. Данные, не измененные программой синтаксического разбора, проходят для обработки в приложение, которое определяется заданной нотацией. Единственным исключением из этого правила является то, что программа синтаксического разбора распознает всякую последовательность символов, напоминающую окончание тега SGML, т.е. знак \(E = mc^{2} ]]>

К счастью, встретить последовательность символов в большинстве используемых на практике математических нотаций крайне маловероятно. Если же это произойдет, следует воспользоваться особыми средствами, описание которых не входит в задачу данного руководства (более подробная информация приведена в полной версии Принципов TEI).

Эта проблема более актуальна, когда темой технического документа является кодирование SGML, а сам документ кодируется в SGML. Очевидно, что в таком документе необходимо четко разграничить разметку SGML, приводимую в качестве примеров, и собственно разметку документа, причем в примерах очень вероятно появление знаков окончания тегов. Наиболее общим решением является выделение тела каждого SGML-примера как содержащего данные, поскольку программа синтаксического разбора не проверяет их соответствие разметке SGML. Это достигается путем выделения примеров в специальную конструкцию SGML, которая называется отмеченная секция CDATA. Ниже приведен пример такой конструкции:

A list should be encoded as follows: First item in the list Second item ]]> The list element consists of a series of item elements. ]]>

Использованный в примере элемент list не будет рассматриваться как составная часть самого документа, поскольку он введен в пределах отмеченной секции (которая начинается объявлением специальной разметки и заканчивается символами ]]>).

Следует отметить также использование элемента gi для выделения тегами ссылок на имена элементов SGML (или идентификаторы) в основной части текста.

Большинство современных систем обработки документов способны автоматически генерировать целые разделы, например, содержание или предметный указатель. В системе TEI Lite предусмотрен элемент для обозначения места, где следует разместить такой сгенерированный раздел.

Элемент divGen можно разместить в любом месте, где допускается появление элемента подраздела, как это показано в следующем примере: ...

Preface ...
... Appendix ... ]]>

В этом примере продемонстрировано также использование атрибута type для обозначения различных типов генерируемых разделов: в первом случае это содержание (toc), а во втором—указатель.

Если необходимо закодировать уже существующий указатель или содержание (а не сгенерировать их заново), следует воспользоваться элементом list, который описан в разделе .

В то время как автоматическое создание содержания в правильно размеченном тегами документе обычно не является проблемой, создание указателя хорошего качества зачастую требует более тщательной разметки. Может оказаться недостаточным просто составить список всех частей, отмеченных каким-либо определенным тегом, хотя выбор, например, всех случаев появления таких элементов, как term или name часто оказывается хорошей отправной точкой для формирования указателя.

В TEI DTD предусмотрен специальный тег index, которым можно воспользоваться как для обозначения частей документа, которые следует включить в указатель, так и для определения способа его формирования.

Например, второй абзац этого раздела мог бы выглядеть следующим образом: index, которым можно воспользоваться ... ]]>

Элемент index можно использовать и для того, чтобы зафиксировать некоторые формы пояснений или аналитической информации. Например, при изучении произведений Овидия с целью сравнительного стилистического анализа весьма желательно зарегистрировать ссылки поэта на различных персонажей. В приведенных ниже строках его Метаморфоз подобное исследование должно зафиксировать следующие упоминания поэтом Юпитера (как deus, se, и как подлежащее для сказуемого confiteor [во флективной форме номер 227]), на Юпитера в образе быка (как imago tauri fallacis и как подлежащее для сказуемого teneo) и т.д.Этот анализ взят с разрешения авторов из работы Вилларда Мак-Карти и Бартона Райта Аналитическая ономастика <q/Метаморфоз/ Овидия (Издание Принстонского университета, в печати). Сделаны некоторые упрощения.

iamque deus posita fallacis imagine tauri se confessus erat Dictaeaque rura tenebat ]]>

Это требование можно было бы удовлетворить с помощью элемента note, описанного в разделе , или элемента interp, рассмотренного в разделе . Здесь показано, как можно достичь поставленной цели с помощью элемента index.

Предполагается, что конечной целью является генерирование нескольких указателей: одного для имен богов (он назван dn), другого для ономастических ссылок (он назван on), третьего для местоименных ссылок (он назван pr) и т.д. Ниже приведен пример того, как можно решить эту задачу:

iamque deus posita fallacis imagine tauri se confessus erat Dictaeaque rura tenebat ]]>

Для каждого приведенного выше элемента index статья указателя будет создаваться в соответствующем указателе, причем в качестве заглавного слова используется значение атрибута level1, в качестве вторичного ключевого слова значение атрибута level2, которое содержит это слово в именительном падеже. Реальная ссылка будет взята из контекста, в котором появляется элемент index, т.е. в данном случае его содержит идентификатор элемента l.

Для тех, кто работает со стандартными формами европейских языков, рекомендации по использованию алфавитов в TEI достаточно просты. Для локального использования можно применять алфавиты, которые поддерживает компьютер и программное обеспечение. Если с помощью имеющегося программного обеспечения трудно прямо с клавиатуры ввести специальные символы, можно определить собственную кодировку символов на клавиатуре (например, представить буквы с ударениями путем ввода сразу же за буквой соответствующего знака ударения или воспользоваться специальными последовательностями символов, появление которых в обычном тексте маловероятно, в частности, вводить aE вместо ä). Для преобразования этих условных обозначений в нужные символы можно затем воспользоваться функциями глобального поиска и замены. При работе с оригиналами, в которых используется не-латинский алфавит, но существует стандартный способ транслитерации этого алфавита (например, для древнегреческого языка это бета-код Thesaurus Linguæ Græcæ), следует применить именно этот способ. Любая используемая транслитерация должна быть обратимой (это исключает удивительно много способов, широко используемых при обычном письме) и, кроме того, предпочтительно, чтобы для нее не требовались специальные лигатуры, связки или диакритические знаки (что исключает значительное число способов транслитерации, удовлетворяющих первому требованию).

Для обмена файлами между системами используются объектные ссылки SGML, чтобы заменить все символы, не попавшие в приведенный ниже список символов, почти никогда не искажаемых при обмене электронными данными: ? _ (пробел) ]]> Из этого списка исключены следующие символы, которые, к досаде неподготовленных пользователей, часто неправильно передаются через национальные границы или при пересылке по стандартным глобальным сетям. Тем не менее, при переходе от компьютера Macintosh к PC эти символы, скорее всего, не исказятся:

Чтобы гарантировать адекватную передачу по многопользовательским сетям, необходимо использовать объектные ссылки для всех букв с ударениями и символов расширенного латинского алфавита, всех не-латинских символов, а также для всех символов, которые не предусмотрены на стандартной клавиатуре компьютера.

При желании кодировщик может воспользоваться в TEI-совместимых файлах своими собственными объектными именами SGML, если для этих имен сделаны стандартные объявления объекта SGML, но стандартные имена (хотя и достаточно длинные) имеют то преимущество, что они очевидны; любой знакомый с английским языком пользователь поймет, какой символ кодируется данным объектом, часто даже не прибегая к справочным спискам. Этим качеством не обладают многие другие схемы представления символов с ударениями.

Объектные имена для символов, упомянутых выше как не сохраняемые и для символов с ударениями некоторых основных западноевропейских языков, приведены ниже. Списки наборов общедоступных объектов и их содержание имеются в любой работе по SGML, указанной в библиографии; приведенные ниже имена относятся к наборам общедоступных объектов ISO, они широко используются и поэтому рекомендуются здесь.

Если необходимый символ не входит в набор общедоступных объектов, можно сгенерировать имя, придерживаясь правил определения имен, используемых в наборе общедоступных объектов ISO, как это описано ниже: Материал, предваряющий текст, такой как титульные листы, вступительное слово и т.п., может содержать очень ценную дополнительную лингвистическую или социальную информацию, которая может оказаться полезной для множества различных целей (в особенности это касается старинных текстов). P3 дает ряд рекомендаций для выделения текстовых элементов, наиболее часто встречающихся во вступительной части, краткое описание которых приводится в данном разделе.

Начало титульного листа следует отметить элементом titlePage. Весь размещенный на нем текст следует ввести и отметить с помощью соответствующего элемента из следующего списка:

Где необходимо, следует выделить различные начертания шрифта с помощью атрибута rend, как это было описано выше. В Принципах TEI пока не предусмотрено подробное описание размещения и размеров букв, используемое в орнаментальных заглавиях. Смену языка следует обозначить с помощью атрибута lang или элемента foreign, в зависимости от того, что необходимо использовать в данном случае. Собственные имена, где бы они не встречались, следует отметить с помощью элемента name.

Ниже приведены два варианта титульного листа:

PARADISE REGAIN'D. A POEM In IV BOOKS. To which is added SAMSON AGONISTES. The Author JOHN MILTON LONDON, Printed by J.M. for John Starkey at the Mitre in Fleetstreet, near Temple-Bar. MDCLXXI ]]> Lives of the Queens of England, from the Norman Conquest; with anecdotes of their courts. Now first published from Official Records and other authentic documents private as well as public. New edition, with corrections and additions By Agnes Strickland The treasures of antiquity laid up in old historic rolls, I opened. BEAUMONT Philadelphia: Blanchard and Lea 1860. ]]>
Крупные блоки текста во вводной части следует выделять с помощью элементов div или div1. Для того, чтобы отличить друг от друга обычно встречающиеся разные типы вступительных частей текста, используются следующие значения атрибута type:

Как и любой текстовый раздел, разделы вводной части могут содержать структурные элементы низкого уровня или не-структурные элементы, как уже описывалось ранее. Обычно они начинаются с заголовка (или названия) определенного вида, который следует выделить с помощью элемента head. Вступительное слово (послание, письмо) может содержать следующие дополнительные элементы:

Послания, которые находятся в любом другом месте текста, будут, конечно, содержать те же самые элементы.

Например, посвящение в начале произведения Джона Мильтона Comus, следует разметить следующим образом:

To the Right Honourable JOHN Lord Viscount BRACLY, Son and Heir apparent to the Earl of Bridgewater, &c. MY LORD,

THis Poem, which receiv'd its first occasion of Birth from your Self, and others of your Noble Family .... and as in this representation your attendant Thyrsis, so now in all reall expression Your faithfull, and most humble servant H. LAWES. ]]> Из-за различий в издательской практике, закрывающая часть может, в сущности, содержать любой из элементов, перечисленных выше для вводной части, а если так, то и использовать следует те же самые элементы. Кроме того, закрывающая часть может содержать следующие типы сведений в элементе back. Подобно структурным разделам основного текста, их следует выделять с помощью элементов div и div1, а различаются они по следующим допустимым значениям атрибута type: Каждый текст TEI имеет заголовок, содержащий информацию, аналогичную той, что приводится на титульном листе опубликованного текста. Заголовок вводится с помощью элемента teiHeader и делится на четыре основные части:

Совокупность или набор текстов, имеющих одни и те же характеристики, может иметь один заголовок для этой совокупности и отдельные заголовки для каждого из ее компонентов. В этом случае атрибут type указывает тип заголовка.

]]> вводит заголовок для информации на уровне совокупности текстов.

Некоторые элементы заголовка содержат довольно пространные тексты, состоящие из одного или нескольких элементов p. Другие группируются следующим образом: Элементы, имена которых оканчиваются на Stmt (для сведений), обычно составляют группу элементов, фиксирующих некоторую структурированную информацию. Элементы, имена которых оканчиваются на Decl (для объявлений), содержат информацию о применении конкретного кодирования. Элементы, имена которых оканчиваются на Desc (для описаний) содержат текстовые описания. Элемент fileDesc является обязательным. Он содержит полное библиографическое описание файла, которое выполняется с помощью следующих элементов:

Минимальный заголовок имеет следующую структуру:

... ... ... ]]> Внутри элемента titleStmt можно использовать следующие элементы:

Рекомендуется, чтобы по названию можно было отличить компьютерный файл от оригинала текста, например:

[заголовок оригинала]: электронная копия

Элемент respStmt содержит следующие компоненты:

Пример:

Two stories by Edgar Allen Poe: a machine readable transcription Poe, Edgar Allen (1809-1849) compiled by James D. Benson ]]>
В элементе editionStmt сгруппирована информация об одной редакции текста (