Bibliografická a štýlovo-žánrová anotácia
Bibliografická a štýlovo-žánrová anotácia je nevyhnutnou súčasťou prvotného spracovania textov v korpuse. Informácie o identite a základnej štruktúre textu sú dôležité pri jeho archivovaní, pri citovaní používateľmi, pri štatistickom vyhodnocovaní parametrov celého korpusu či zisťovaní distribúcie jazykových prostriedkov a javov v jednotlivých druhoch textov. Zobrazuje sa v spodnej časti okna klienta Bonito po kliknutí pravým tlačidlom myši na zvolený riadok v konkordančnom zozname. Anotáciu tvorí zoznam kľúčov a im priradených hodnôt, ktoré sú buď voľné (napr. meno autora), alebo vybrané z fixnej množiny povolených hodnôt (napr. žáner). Kľúče môžu označovať štýlovo-žánrové charakteristiky textu — hlavnými kategóriami sú v tomto prípade typ textu (umelecký, publicistický, odborný text, live komunikácia), žáner (napr. báseň, román, poviedka, článok) a doména, teda vecná oblasť, ktorej sa daný text týka (napr. umelecké vedy, právo, politika, ekonómia). Tieto hlavné kategórie sa ďalej delia na podkategórie. Ostatné kľúče zaznamenávajú bibliografické údaje a iné vlastnosti textu či informácie o autorovi. Zoznam kľúčov v plnom i skrátenom názve je v nasledujúcej tabuľke. Pod príslušným názvom kľúča sa nachádza opis jeho významu a vymenúvajú sa jeho možné hodnoty (ak nie sú voľné).
Zápis dátumu
Všetky dátumy sú v ISO 8601 formáte YYYY-MM-DD, príklad 1998-05-23. Odôvodnenie: odstránenie nejednoznačnosti, ľahké triedenie podľa dátumu
Externá anotácia
Anotácia je tvorená štruktúrou kľúč-hodnota. Hodnota je vždy zapísaná ako reťazec znakov ukončený koncom riadku. Toto vylučuje viacriadkové názvy. Hodnota môže byť buď voľná (príklad: meno autora) alebo vybraná z fixnej množiny povolených hodnôt (príklad: žáner). Nepovinné flags sú tvorené množinou flagov oddelených čiarkami, z ktorých prítomnosť každého určuje konkrétnu vlastnosť hodnoty, neprítomnosť zase neprítomnosť tejto vlastnosti.Tieto hodnoty majú špeciálny význam (nie pre každý kľúč sú všetky zmysluplné):
- ... (tri bodky)
- neurčená hodnota. Túto hodnotu sme neurčovali, prípadne ju môžeme určiť neskôr, ale apriori o nej nič nevieme povedať. Pre úplnosť, nemala by sa objaviť v skutočnej anotácii.
- (prázdne miesto, prípadne iba whitespace)
- to isté ako „...“. Default hodnota pri automatickej anotácii, predpokladá sa, že sa naozaj bude vyskytovať.
- chýbajúci kľúč
- má rovnakú hodnotu ako kľúč neurčený („...“ alebo prázdny)
- XXX
- neznáma hodnota. Nevieme určiť. Príklad: meno autora v novinovom článku.
- YYY
- neurčiteľná hodnota. Z princípu sa nedá určiť alebo nemá význam. Príklad: pohlavie autora, ak ide o kolektívne dielo, pohlavie prekladateľa, ak nejde o preložené dielo.
- MIX
- mix. V prípade hodnoty vyberanej z fixnej množiny je hodnota zmes iných. Príklad: pohlavie autora, ak je autor hermafrodit.
- MSS
- iné. V prípade hodnoty vyberanej z fixnej množiny, hodnota, ktorá nie je v danej množine určená. Príklad: pohlavie autora, ak je autor eunuch.
- TTT
- neznáma hodnota, ktorú treba určiť. Značka, že k danej anotácii sa nevyhnutne treba neskôr vrátiť a hodnotu doplniť.
Anotácia banky
žiadny z týchto kľúčov nie je povinné mať presne, okrem SourceId. Zoznam kľúčov je v tvare názov (skrátený názov). Pod príslušným názvom kľúča je opísaný jeho význam a vymenované sú jeho možné hodnoty (ak nie sú voľné).
Name (Name)
- názov textu.
Origname (OrgN)
- pôvodný názov textu, ak ide o preklad.
Author (Auth)
- meno autora. Tak, ako je uvedené v zdrojoch k dokumentu podľa normy pre bibliografické zápisy.
Origauthor (OrgA)
- originálne meno autora. Nie podľa slovenských bibliografických pravidiel. Z technických/časových dôvodov zrejme zostane väčšinou prázdne. Príklad: „Mirosława Siędzikowska“, ak bolo v položke Author: chybne uvedené v dokumente „Miroslava Siędzikowska“.
Translator (Trnr)
- meno prekladateľa. YYY, ak nejde o preložené dielo.
Translation (Trnn)
- určuje, či bol text preložený.
Hodnoty:
- trn
- preklad
- org
- originálny text
- ftr
- voľne preložený, prerozprávaný text
- YYY
- zmes prekladov a originálov (napr. súbor poviedok)
ISBN (ISBN)
- isbn číslo.
ISSN (ISSN)
- issn číslo.
SourceId (ScId)
- Id dokumentu v archíve, z ktorého pochádza dokument v banke.
Id (Id)
- Jednoznačné ID banky.
Rhyme (Rhym)
- rýmovanie v texte.
Hodnoty:
- nrh
- nerýmovaný
- rhy
- rýmovaný
- MIX
- sčasti rýmovaný a sčasti nie
Type (Type)
- typ textu.
Hodnoty:
- img
- umelecký text
- inf
- publicistický (informatívny) text
- prf
- odborný text
- liv
- live komunikácia
Subtype (SubT)
- podtyp textu.
Subtype (SubT) podtyp textu — hodnoty |
|||
pre Type = img |
pre Type = inf |
pre Type = prf |
pre Type = liv |
(umelecký text) |
(publicistický, informatívny text) |
(odborný text) |
(live komunikácia) |
poe |
pub |
sci |
spk |
pro |
adv |
pop |
wri |
dra |
adm |
txb |
|
|
|
enc |
|
|
|
man |
|
Genre (Genr)
- žáner.
Genre (Genr) žáner — hodnoty |
||
pre Type = img |
pre Type = inf |
pre Type = prf |
(umelecký text) |
(publicistický, informatívny text) |
(odborný text) |
ver |
doc (dokumentárne) |
mon |
son |
ann (oznamovacie) |
hnd |
scd |
lst (heslovité) |
dis |
scf |
rpt (spravodajské) |
rig |
scr |
anl (analytické) |
dpl |
nov |
pbb (beletristické) |
std |
col |
spc |
abs |
ess |
dsc |
tcl |
dia |
|
rfl |
mem |
|
ref |
let |
|
lct |
chr |
|
crs |
sen |
|
crt |
|
|
opn |
|
|
ins |
Subgenre (SubG)
Hodnoty:
pre Genre: nov, col, ver, (ess - nie)
- crm
- detektívny, špionážny
- scf
- sci-fi, fantasy, mystery
- adn
- dobrodružný, westerny
- rms
- ženské romány, romance
- bel
- beletria
- jun
- pre deti a mládež
- trv
- cestopisy
- fac
- literatúra faktu
Domain (Domn)
- doména — tematická oblasť (činnosti alebo poznania).
Hodnoty:
- ars
- umelecké vedy
- hum
- humanitné vedy
- law
- právo
- nat
- prírodné vedy
- tec
- technika
- ecn
- ekonómia, riadenie
- blf
- viera, nadprirodzeno
- lif
- life style
- ins
- interdisciplinárne vedy
- plt
- politika
- gov
- štátna a verejná správa, samospráva
Subdomain (SubD)
- subdoména — bližšie určenie odbornej oblasti.
Subdomain (SubD) subdoména — bližšie určenie odbornej oblasti — hodnoty |
||||
pre Domain = ars |
pre Domain = hum |
pre Domain = law |
pre Domain = nat |
pre Domain = tec |
mus |
his |
bil |
agr |
tra |
cin |
psy |
jud |
med |
ene |
arc |
edu |
jur |
pha |
ind |
art |
soc |
|
zoo |
com |
the |
phi |
|
bot |
bui |
lit |
inf |
|
bio |
sta |
|
pol |
|
che |
|
|
lin |
|
mat |
|
|
eth |
|
ggr |
|
|
cul |
|
phy |
|
|
swo |
|
met |
|
|
|
|
geo |
|
|
|
|
env |
|
pre Domain = ecn |
pre Domain = blf |
pre Domain = lif |
pre Domain = ins |
pre Domain = gov |
eco |
rel |
hou |
nie je subdoména |
uso |
mng |
teo |
fsh |
|
sam |
mer |
exc |
spo |
pre Domain = plt |
tvs |
|
|
sct |
nie je subdoména |
|
|
|
amu |
|
|
|
|
min |
|
|
|
|
reg |
|
|
|
|
cnl |
|
|
|
|
clt |
|
|
Medium (Medi)
- médium.
Hodnoty:
- lib
- kniha
- ebk
- e-kniha
- nws
- noviny
- jou
- časopis
- ste
- skriptá
- net
- internet a iné (pre-internetové) siete. Sem patria špecifické internetové noviny, www stránky, e-mail, usenet príspevky, príspevky do diskusných fór, ako aj live komunikácia. Pozor, papierové noviny stiahnuté z internetu sú „nws“, podobne elektronické knihy určené primárne na papierové vydanie sú „lib“, avšak elektronické knihy, ktoré sú primárne určené na čítanie z obrazovky a iba dodatočne boli vydané aj knižne, by mali byť „net“.
- for
- formulár
- occ
- príležitostné (zborníky)
- npu
- nepublikované texty, rukopisy
- tvf
- televízia, kino
- rad
- rozhlas
Authsex (AutS)
- pohlavie autora.
Hodnoty:
- msc
- muž
- fem
- žena
Lang (Lang)
- jazyk diela, trojpísmenová skratka podľa ISO 639-2, čiže slovenčina má „slk" a je automaticky generovaná. Kompletne inojazyčný text nemá dôvod vyskytnúť sa v SNK.
Varieta (Vari)
- variant jazyka, v ktorom je dokument. Väčšinou bude spisovná slovenčina.
Hodnoty:
- std
- spisovná slovenčina
- nst
- neštandardná slovenčina
- ost
- starý štandard / pred pravopisnou reformou v roku 1953
Paragraphs (Para)
- určuje, či je text v banke segmentovaný na odseky.
Hodnoty:
- tru
- text je segmentovaný na odseky
- fls
- z nejakého dôvodu je informácia o pôvodnej segmentácii stratená
Emphasis (Emph)
- určuje, či text v banke obsahuje informácie o pôvodnom zvýraznenom texte.
Hodnoty:
- tru
- áno
- fls
- nie
Diacritics (Dcrt)
- určuje, či text v banke obsahuje správnu diakritiku.
Hodnoty:
- tru
- text má správnu diakritiku
- fls
- text má nesprávnu (alebo chýbajúcu) diakritiku
Transsex (TrnS)
- pohlavie prekladateľa, pozri Authsex.
Origlang (OrgL)
pôvodný jazyk diela podľa ISO 639-3 http://www-01.sil.org/iso639-3/codes.asp. Preklady z prekladov zapisujeme znakom „>“ U+003C LESS-THAN SIGN. Príklad: eng>ger.
Date (Date)
- dátum vydania.
Dateorig (OrgD)
- dátum prvého vydania (vzniku diela, môže byť zhodný s Date), pri prekladoch dátum prvého vydania originálu.
Conglomerate (Cong)
- identifikácia konglomerátu, ku ktorému text patrí.
Bogocong (Bogo)
- Skrátený niekoľkopísmenový zápis konglomerátu.
Comment (Comn)
- komentár. Iný ako príslušný komentár v archíve.
Corrected (Corr)
- určuje, či dokument prešiel jazykovou korektúrou.
Bibliography (Bibl)
- bibliografia dokumentu.