Vnútorná anotácia textov v projekte budovania korpusu textov študentov učiacich sa slovenčinu ako cudzí jazyk – ERRKORP

Anotačný tagset (pilotná verzia korpusu)

Pri tvorbe tagsetu vnútornej anotácie sme sa inšpirovali prácami S. Pita Cordera (1981), C. Jamesa (1998), odbornými štúdiami českých autorov K. Šebestu a S. Škodovej (2012), B. Štindlovej (2013) a anotačným tagsetom korpusu CzeSL-SGT-cs.

Pri spracúvaní jazykového materiálu sme zvyčajne uplatnili kombináciu dvoch anotačných prístupov: povrchovú typológiu chýb a funkčnú typológiu chýb.

a) V rámci povrchovej typológie chýb sa ako relevantné ukazujú tri typy chyby:

Na základe tohto delenia používame v značkách, kde je to relevantné, tri segmenty: 0, 1 a subst. Napríklad ak je v texte slovo, ktoré je redundantné (*súhlasím sa – súhlasím), použijeme na jeho označenie značku word1. Ak isté slovo chýba (*opýtal ma – opýtal sa ma), uplatníme značku word0, a ak študent v texte použil nevhodnú lexému s iným významom (*idem do lekára – idem k lekárovi), používame značku substword. Niektoré potenciálne možné prípady chýb však do tagsetu nie sú zaradené vzhľadom na nízku textovú frekvenciu – napr. máme síce značky comma0 a comma1, no už nie značku substcomma, ktorá sa pri testovacom anotovaní vôbec nevyskytla.

b) Funkčná typológia spočíva v začlenení chyby spravidla podľa funkčnolingvistickej klasifikácie:

Klasifikácia chýb

Chyby na úrovni jedného segmentu v rámci jedného slova

Značka

Vysvetlenie

Príklady

cap0

chýbajúce veľké písmeno

ministerstvo financií SR (Ministerstvo financií SR)

cap1

redundantné veľké písmeno

Minister financií (minister financií), Európska Únia (Európska únia)

caron0

chýbajúci mäkčeň

student (študent), vecera (večera)

caron1

redundantný mäkčeň

več (vec), ďesať (desať), ďieťa (dieťa), něchaj (nechaj)

comma0

chýbajúca čiarka

Ahoj Eva (Ahoj, Eva); Nebol tu tak neviem (Nebol tu, tak neviem)

comma1

redundantná čiarka

V prípade zlého počasia, pôjdeme do múzea (V prípade zlého počasia pôjdeme do múzea)

defdiacr

tri a viac chýb v diakritike (napr. „četové písanie“)

paťnast (pätnásť), dolezity (dôležitý)

defword

nezrozumiteľné slovo (tri a viac zámen grafém v slove s výnimkou chybnej diakritiky) alebo slovo v inom jazyku

samuslina (zmrzlina), bybarený (vybavený), uniwersytet (univerzita), Rakousko (Rakúsko), dort (torta), těžký (ťažký)

dot0

chýbajúca bodka

13 januára 2016 (13. januára 2016)

dot1

redundantná bodka

v roku 2014. tu postavili budovu (v roku 2014 tu postavili budovu)

char0

chýbajúca graféma v slove

prtože (pretože), s študentom (so študentom)

char1

redundantná graféma v slove

súčastne (súčasne), pekingský (pekinský)

charmeta

zámena grafém v slove

Sbrsko (Srbsko), horovím (hovorím)

hyph

chyba pri zápise spojovníka (chýbajúci alebo redundantný spojovník)

československý slovník (česko-slovenský slovník), rímsko-katolícky (rímskokatolícky)

quantbase0

chýbajúca kvantita v tvarotvornom základe slova alebo v neohybnom slove

krasny (krásny), stretavali (stretávali), vstavali (vstávali), prinos (prínos), vystavba (výstavba), krajin (krajín), miliard (miliárd), devätnasť (devätnásť)

quantbase1

redundantná kvantita v tvarotvornom základe slova alebo v neohybnom slove

výsoký (vysoký), hrád (hrad), prénos (prenos), výhodiť (vyhodiť), po nemecký (po nemecky)

quantsuf0

chýbajúca kvantita v gramatickej relačnej morféme substantíva, adjektíva, pronomina alebo numerále; chýbajúca kvantita v tematickej alebo gramatickej relačnej morféme verba

novy nemecky (nový nemecký) prezident, tuto (túto) osobu, ktorykoľvek (ktorýkoľvek) človek, skonči (skončí), tešim sa (teším sa), trva (trvá), robim (robím), čakam (čakám), sadam (sadám), musim (musím), mam (mám)

quantsuf1

redundantná kvantita v gramatickej relačnej morféme substantíva, adjektíva, pronomina alebo numerále; redundantná kvantita v tematickej alebo gramatickej relačnej morféme verba

krásný (krásný), talianskými (talianskymi), budová (budova), dám svojím (svojim) kamarátkam, spáli sme (spali sme), predstavujém (predstavujem)

substchar

a) zámena interpunkčného znamienka
b) zámena vokálu (netýka sa zámen vokálov v gramatických relačných morfémach)
c) zámena konsonantu (okrem zámen konsonantov v gramatických relačných morfémach)
d) zámena diftongu (netýka sa zámen diftongov v gramatických relačných morfémach)

a) jedlo. ktoré sa volá (jedlo, ktoré sa volá)
b) meso (mäso), piatek (piatok), piesnička (pesnička), ůnava (únava)
c) lyba (ryba), yazyk (jazyk), chudba (hudba)
d) kvoň (kôň), deťa (dieťa), nevim (neviem), o osmej (o ôsmej)

y0

zámena y – i v tvarotvornom základe slova

sir (syr), midlo (mydlo)

y1

zámena i – y v tvarotvornom základe slova

medzynárodný (medzinárodný), univerzyta (univerzita)

Chyby na úrovni jednej morfémy alebo jedného slova

Značka

Vysvetlenie

Príklady

asp

chyba v aspekte (zámena dokonavého tvaru nedokonavým alebo naopak)

idem jesť, čo mama pripravovala (pripravila), budem uvariť (budem variť)

gend

zámena rodu substantíva

v esejoch (v esejach), z teritórie (z teritória)

morph

a) chyba v tematickej alebo modifikačnej morféme verba
b) gramatická morféma neexistuje v paradigme daného substantíva
c) zámena slovesného tvaru
d) chyby v stupňovaní adjektív a adverbií

a) sadnul si (sadol si), pozriť (pozrieť)
b) z izboj (z izby), študujem slovenčin (slovenčinu), v roke (v roku), bryndzy (z bryndze)
c) ktorá bola zdieľala (zdieľaná); pripijeme si (pripime si!), vyzlečiete sa (vyzlečte sa!), chcem píšem (chcem písať), povedala som, aby sa vráti (povedala som, aby sa vrátila)
d) spravodlivšie (spravodlivejšie)

num

zámena čísla substantíva

koláč s ovociami (koláč s ovocím) ryže sú na tanieri (ryža je na tanieri)

styl

chyba v štylistickom použití slova

na konferencii papkáme (jeme) obed o jednej; Ahoj, ako sa máte? (Dobrý deň, ako sa máte?)

substderiv

zámena derivačnej alebo modifikačnej morfémy

historitické (historické), Británska (Britská), zvariť obed (uvariť)

substword

zámena slova, slovného druhu, alebo zámena (in)determinatívneho verba

tajná vôňa (tajomná vôňa), prezentovať parfum (darovať parfum), z Orava hradu (z Oravského hradu), mám rád hudbu a cestovať (mám rád hudbu a cestovanie), išiel (chodil/chodieval)

temp

chyba v čase

zavolal, že o dva dni musel (musí) odísť

word0

chýbajúce slovo

opýtal ma (opýtal sa ma), moja sestra je sestra (moja sestra je zdravotná sestra), myslím si, že je presne naopak (myslím si, že je to presne naopak)

word1

redundantné slovo

ja sa s tebou súhlasím (ja s tebou súhlasím), oddychovala som sa (oddychovala som)

Chyby na úrovni slovného spojenia v rámci jednej vety

Značka

Vysvetlenie

Príklady

congr

chyba v zhode (kongruencii)

ten centrum (to centrum), zaujímavý esej (zaujímavá esej), veľa ľudí boli (veľa ľudí bolo), rámy je vodotesný (rámy sú vodotesné), ja nerozumieť (ja nerozumiem), budem hovorila (budem hovoriť), povedala som, aby sa vrátiť (povedala som, aby sa vrátila)

dep

chyba v dependencii (v syntaktickej závislosti inej ako zhoda)

hľadám sestra (hľadám sestru), káva s mlieko (káva s mliekom), deväť študenti (deväť študentov), človek, ktorý tu čakám (človek, ktorého tu čakám)

neg

chyba v negácii

nie budem (nebudem), nikto prišiel (nikto neprišiel), nie som bol (nebol som), ne máme (nemáme)

order

porušenie rytmického alebo gramatického princípu slovosledu

veľmi mi tam sa páčilo (veľmi sa mi tam páčilo), v texte sa nachádza veľa mien podstatných (v texte sa nachádza veľa podstatných mien)

phrase

chyba v ustálených spojeniach a vo frazémach

nemá rozprávania (niet o čom), hádzať šošovicu na stenu (hádzať hrach na stenu), ľúbim chodiť do kina (rád chodím do kina)

seccongr

sekundárna chyba v zhode (kongruencii)

idem do filozofickej fakulty (ideme na filozofickú fakultu)

secdep

sekundárna chyba v dependencii prejavujúca sa v tvare substantíva, resp. pronomina

ideme do fakulty (ideme na fakultu), idem do lekára (idem k lekárovi)

space

chýbajúca alebo redundantná medzera medzi slovami

na príklad (napríklad), Akosa voláš (Ako sa voláš)

substword_dep

zámena slova (zvyčajne prepozície alebo konjunkcie) v rámci dependencie

bývame z Bukurešti (bývame v Bukurešti), idem na kaviareň (idem do kaviarne)

word0_asp

chýbajúca gramatická morféma pri aspekte

ako sa mi po skončení školy podarí (bude dariť)

word1_asp

redundantná gramatická morféma pri aspekte (vo futúre)

budem skončiť (skončím), budem napíšem (napíšem)

word0_congr

chýbajúce slovo v rámci gramatického tvaru

Peter, kde bol? (Peter, kde si bol?), opýtal by sa ma, prečo by neprišla (opýtal sa ma, prečo by som neprišla)

word1_congr

redundantné slovo v rámci gramatického tvaru

keby sú prišli (keby prišli), oni sú plakali (oni plakali)

word0_dep

chýbajúca prepozícia alebo konjunkcia v rámci dependencie

zaujímam sa politiku (zaujímam sa o politiku), nahnevane neho pozrel (nahnevane na neho pozrel), povedala som jej vrátiť sa (povedala som jej, aby sa vrátila)

word1_dep

redundantné slovo (zvyčajne prepozícia) v rámci dependencie

zelená evokuje na prírodu, zaoberať sa o módu

und

gramaticky korektná, ale nezrozumiteľná časť textu

aby sme poslali k mieru, priateľstvu a láske; mladosti je až zmenených

Chyby na úrovni textu

Značka

Vysvetlenie

Príklady

theme

chyba v aktuálnom členení výpovede

Mám malú izbu. Len posteľ, dve skrine, kreslo a písací stolík sú v izbe. (Mám malú izbu. V izbe sú len posteľ, dve skrine, kreslo a písací stolík.)

connect

chyba v textovom konektore

V texte sa zaoberáme slovenčinou. Jeho (jej) používanie v rôznych situáciách je ovplyvnené...

Označenie unk – používa sa na mieste chýbajúceho slova; v korpuse sa zobrazuje ako token v úrovni opravy, nie ako štruktúrna značka (a keď sa vrátil, pošta už bola (???), moja mama býva s moji (???) v mestu)

Riešiteľský kolektív

Zoznamy

Staršie verzie tagsetu