Vnútorná anotácia textov v projekte budovania korpusu textov študentov učiacich sa slovenčinu ako cudzí jazyk – ERRKORP
Anotačný tagset (pilotná verzia korpusu)
Pri tvorbe tagsetu vnútornej anotácie sme sa inšpirovali prácami S. Pita Cordera (1981), C. Jamesa (1998), odbornými štúdiami českých autorov K. Šebestu a S. Škodovej (2012), B. Štindlovej (2013) a anotačným tagsetom korpusu CzeSL-SGT-cs.
Pri spracúvaní jazykového materiálu sme zvyčajne uplatnili kombináciu dvoch anotačných prístupov: povrchovú typológiu chýb a funkčnú typológiu chýb.
a) V rámci povrchovej typológie chýb sa ako relevantné ukazujú tri typy chyby:
vynechanie alebo absencia (omission),
pridanie (addition),
nahradenie alebo substitúcia (substitution).
Na základe tohto delenia používame v značkách, kde je to relevantné, tri segmenty: 0, 1 a subst. Napríklad ak je v texte slovo, ktoré je redundantné (*súhlasím sa – súhlasím), použijeme na jeho označenie značku word1. Ak isté slovo chýba (*opýtal ma – opýtal sa ma), uplatníme značku word0, a ak študent v texte použil nevhodnú lexému s iným významom (*idem do lekára – idem k lekárovi), používame značku substword. Niektoré potenciálne možné prípady chýb však do tagsetu nie sú zaradené vzhľadom na nízku textovú frekvenciu – napr. máme síce značky comma0 a comma1, no už nie značku substcomma, ktorá sa pri testovacom anotovaní vôbec nevyskytla.
b) Funkčná typológia spočíva v začlenení chyby spravidla podľa funkčnolingvistickej klasifikácie:
- či je chyba na úrovni jedného segmentu = týka sa jednej grafémy, diakritického znamienka alebo aj interpunkčného znamienka,
- na úrovni časti slova – takto identifikovateľné chyby sa vyskytujú najčastejšie v prípade gramatickej relačnej morfémy alebo derivačnej morfémy (prefixálnej alebo sufixálnej) alebo v prípade kmeňa,
- na úrovni slova a jeho začlenenia do vety – ide najmä o chyby týkajúce sa syntaktickej, lexikálno-sémantickej a štylistickej roviny jazyka (nesprávna kongruencia, nesprávna rekcia, nesprávny slovosled enklitík, ale aj nesprávne použitie ustálených fráz a frazeologizmov),
- na úrovni textu – takáto chyba presahuje rámec vety – ide o chyby textotvornej povahy.
Klasifikácia chýb
Chyby na úrovni jedného segmentu v rámci jedného slova
Značka |
Vysvetlenie |
Príklady |
cap0 |
chýbajúce veľké písmeno |
ministerstvo financií SR (Ministerstvo financií SR) |
cap1 |
redundantné veľké písmeno |
Minister financií (minister financií), Európska Únia (Európska únia) |
caron0 |
chýbajúci mäkčeň |
student (študent), vecera (večera) |
caron1 |
redundantný mäkčeň |
več (vec), ďesať (desať), ďieťa (dieťa), něchaj (nechaj) |
comma0 |
chýbajúca čiarka |
Ahoj Eva (Ahoj, Eva); Nebol tu tak neviem (Nebol tu, tak neviem) |
comma1 |
redundantná čiarka |
V prípade zlého počasia, pôjdeme do múzea (V prípade zlého počasia pôjdeme do múzea) |
defdiacr |
tri a viac chýb v diakritike (napr. „četové písanie“) |
paťnast (pätnásť), dolezity (dôležitý) |
defword |
nezrozumiteľné slovo (tri a viac zámen grafém v slove s výnimkou chybnej diakritiky) alebo slovo v inom jazyku |
samuslina (zmrzlina), bybarený (vybavený), uniwersytet (univerzita), Rakousko (Rakúsko), dort (torta), těžký (ťažký) |
dot0 |
chýbajúca bodka |
13 januára 2016 (13. januára 2016) |
dot1 |
redundantná bodka |
v roku 2014. tu postavili budovu (v roku 2014 tu postavili budovu) |
char0 |
chýbajúca graféma v slove |
prtože (pretože), s študentom (so študentom) |
char1 |
redundantná graféma v slove |
súčastne (súčasne), pekingský (pekinský) |
charmeta |
zámena grafém v slove |
Sbrsko (Srbsko), horovím (hovorím) |
hyph |
chyba pri zápise spojovníka (chýbajúci alebo redundantný spojovník) |
československý slovník (česko-slovenský slovník), rímsko-katolícky (rímskokatolícky) |
quantbase0 |
chýbajúca kvantita v tvarotvornom základe slova alebo v neohybnom slove |
krasny (krásny), stretavali (stretávali), vstavali (vstávali), prinos (prínos), vystavba (výstavba), krajin (krajín), miliard (miliárd), devätnasť (devätnásť) |
quantbase1 |
redundantná kvantita v tvarotvornom základe slova alebo v neohybnom slove |
výsoký (vysoký), hrád (hrad), prénos (prenos), výhodiť (vyhodiť), po nemecký (po nemecky) |
quantsuf0 |
chýbajúca kvantita v gramatickej relačnej morféme substantíva, adjektíva, pronomina alebo numerále; chýbajúca kvantita v tematickej alebo gramatickej relačnej morféme verba |
novy nemecky (nový nemecký) prezident, tuto (túto) osobu, ktorykoľvek (ktorýkoľvek) človek, skonči (skončí), tešim sa (teším sa), trva (trvá), robim (robím), čakam (čakám), sadam (sadám), musim (musím), mam (mám) |
quantsuf1 |
redundantná kvantita v gramatickej relačnej morféme substantíva, adjektíva, pronomina alebo numerále; redundantná kvantita v tematickej alebo gramatickej relačnej morféme verba |
krásný (krásný), talianskými (talianskymi), budová (budova), dám svojím (svojim) kamarátkam, spáli sme (spali sme), predstavujém (predstavujem) |
substchar |
a) zámena interpunkčného znamienka |
a) jedlo. ktoré sa volá (jedlo, ktoré sa volá) |
y0 |
zámena y – i v tvarotvornom základe slova |
sir (syr), midlo (mydlo) |
y1 |
zámena i – y v tvarotvornom základe slova |
medzynárodný (medzinárodný), univerzyta (univerzita) |
Chyby na úrovni jednej morfémy alebo jedného slova
Značka |
Vysvetlenie |
Príklady |
asp |
chyba v aspekte (zámena dokonavého tvaru nedokonavým alebo naopak) |
idem jesť, čo mama pripravovala (pripravila), budem uvariť (budem variť) |
gend |
zámena rodu substantíva |
v esejoch (v esejach), z teritórie (z teritória) |
morph |
a) chyba v tematickej alebo modifikačnej morféme verba |
a) sadnul si (sadol si), pozriť (pozrieť) |
num |
zámena čísla substantíva |
koláč s ovociami (koláč s ovocím) ryže sú na tanieri (ryža je na tanieri) |
styl |
chyba v štylistickom použití slova |
na konferencii papkáme (jeme) obed o jednej; Ahoj, ako sa máte? (Dobrý deň, ako sa máte?) |
substderiv |
zámena derivačnej alebo modifikačnej morfémy |
historitické (historické), Británska (Britská), zvariť obed (uvariť) |
substword |
zámena slova, slovného druhu, alebo zámena (in)determinatívneho verba |
tajná vôňa (tajomná vôňa), prezentovať parfum (darovať parfum), z Orava hradu (z Oravského hradu), mám rád hudbu a cestovať (mám rád hudbu a cestovanie), išiel (chodil/chodieval) |
temp |
chyba v čase |
zavolal, že o dva dni musel (musí) odísť |
word0 |
chýbajúce slovo |
opýtal ma (opýtal sa ma), moja sestra je sestra (moja sestra je zdravotná sestra), myslím si, že je presne naopak (myslím si, že je to presne naopak) |
word1 |
redundantné slovo |
ja sa s tebou súhlasím (ja s tebou súhlasím), oddychovala som sa (oddychovala som) |
Chyby na úrovni slovného spojenia v rámci jednej vety
Značka |
Vysvetlenie |
Príklady |
congr |
chyba v zhode (kongruencii) |
ten centrum (to centrum), zaujímavý esej (zaujímavá esej), veľa ľudí boli (veľa ľudí bolo), rámy je vodotesný (rámy sú vodotesné), ja nerozumieť (ja nerozumiem), budem hovorila (budem hovoriť), povedala som, aby sa vrátiť (povedala som, aby sa vrátila) |
dep |
chyba v dependencii (v syntaktickej závislosti inej ako zhoda) |
hľadám sestra (hľadám sestru), káva s mlieko (káva s mliekom), deväť študenti (deväť študentov), človek, ktorý tu čakám (človek, ktorého tu čakám) |
neg |
chyba v negácii |
nie budem (nebudem), nikto prišiel (nikto neprišiel), nie som bol (nebol som), ne máme (nemáme) |
order |
porušenie rytmického alebo gramatického princípu slovosledu |
veľmi mi tam sa páčilo (veľmi sa mi tam páčilo), v texte sa nachádza veľa mien podstatných (v texte sa nachádza veľa podstatných mien) |
phrase |
chyba v ustálených spojeniach a vo frazémach |
nemá rozprávania (niet o čom), hádzať šošovicu na stenu (hádzať hrach na stenu), ľúbim chodiť do kina (rád chodím do kina) |
seccongr |
sekundárna chyba v zhode (kongruencii) |
idem do filozofickej fakulty (ideme na filozofickú fakultu) |
secdep |
sekundárna chyba v dependencii prejavujúca sa v tvare substantíva, resp. pronomina |
ideme do fakulty (ideme na fakultu), idem do lekára (idem k lekárovi) |
space |
chýbajúca alebo redundantná medzera medzi slovami |
na príklad (napríklad), Akosa voláš (Ako sa voláš) |
substword_dep |
zámena slova (zvyčajne prepozície alebo konjunkcie) v rámci dependencie |
bývame z Bukurešti (bývame v Bukurešti), idem na kaviareň (idem do kaviarne) |
word0_asp |
chýbajúca gramatická morféma pri aspekte |
ako sa mi po skončení školy podarí (bude dariť) |
word1_asp |
redundantná gramatická morféma pri aspekte (vo futúre) |
budem skončiť (skončím), budem napíšem (napíšem) |
word0_congr |
chýbajúce slovo v rámci gramatického tvaru |
Peter, kde bol? (Peter, kde si bol?), opýtal by sa ma, prečo by neprišla (opýtal sa ma, prečo by som neprišla) |
word1_congr |
redundantné slovo v rámci gramatického tvaru |
keby sú prišli (keby prišli), oni sú plakali (oni plakali) |
word0_dep |
chýbajúca prepozícia alebo konjunkcia v rámci dependencie |
zaujímam sa politiku (zaujímam sa o politiku), nahnevane neho pozrel (nahnevane na neho pozrel), povedala som jej vrátiť sa (povedala som jej, aby sa vrátila) |
word1_dep |
redundantné slovo (zvyčajne prepozícia) v rámci dependencie |
zelená evokuje na prírodu, zaoberať sa o módu |
und |
gramaticky korektná, ale nezrozumiteľná časť textu |
aby sme poslali k mieru, priateľstvu a láske; mladosti je až zmenených |
Chyby na úrovni textu
Značka |
Vysvetlenie |
Príklady |
theme |
chyba v aktuálnom členení výpovede |
Mám malú izbu. Len posteľ, dve skrine, kreslo a písací stolík sú v izbe. (Mám malú izbu. V izbe sú len posteľ, dve skrine, kreslo a písací stolík.) |
connect |
chyba v textovom konektore |
V texte sa zaoberáme slovenčinou. Jeho (jej) používanie v rôznych situáciách je ovplyvnené... |
Označenie unk – používa sa na mieste chýbajúceho slova; v korpuse sa zobrazuje ako token v úrovni opravy, nie ako štruktúrna značka (a keď sa vrátil, pošta už bola (???), moja mama býva s moji (???) v mestu)
Riešiteľský kolektív
Zoznamy