→English

Morfologická anotácia textov Slovenského národného korpusu

Morfologická anotácia je základnou (a najčastejšou) lingvistickou informáciou vnášanou do korpusov najmä flektívnych jazykov. Obsahuje slovnodruhové a tvarové charakteristiky slov v kontexte. Zvyčajne jej predchádza lematizácia – priradenie základného (slovníkového) tvaru každému slovu.

V Slovenskom národnom korpuse sa nachádzajú dva druhy morfologickej anotácie a lematizácie:

Všetky značky uvádzame v nasledujúcich tabuľkách; príklady a ukážky sú presne prevzaté z ručne anotovaného podkorpusu.

Substantívum

Prepozícia

Interpunkcia

Adjektívum

Konjunkcia

Neurčiteľný slovný druh

Pronominum

Partikula

Neslovný element

Numerále

Interjekcia

Citátový výraz

Verbum

Reflexívum

Číslica

Particípium

Kondicionálová morféma

Vlastné meno

Adverbium

Abreviácia, značka

Chybný zápis

Celý dokument o morfologickej anotácii je dostupný vo formáte PDF. Podiel druhov textov v ručne morfologicky anotovanom podkorpuse sa nachádza na stránke s prehľadom verzií r-mak.

Morfologickej anotácii podliehajú všetky textové jednotky – tokeny, teda reťazce znakov, ktoré sa štandardne nachádzajú medzi dvoma medzerami, ako aj znaky interpunkcie, pred ktoré sa pri spracúvaní textov v korpuse (pri segmentácii) medzery umelo pridávajú. Je to nevyhnutný predpoklad pre efektívne vyhľadávanie absolútnych výskytov slov – v prípade neoddelenia interpunkčného znamienka medzerou by sa museli vyhľadávať osobitne „čisté“ slová/tvary a osobitne tie isté slová/tvary s akýmkoľvek možným interpunkčným znamienkom pred alebo za sebou.

Každému tokenu sa pri ďalšom spracovaní textu priraďujú atribúty lema a tag.

Lema je v podstate základný, „slovníkový“ tvar tokenu zahŕňajúci všetky tvary slov z ohybných slovných druhov a prísloviek.

V ručne morfologicky anotovaných korpusoch sa do verzie r-mak-4.0 (v ostatných korpusoch do r. 2016) nedodržiavala dištinkcia malého a veľkého začiatočného písmena, t. j. všetky lemy mali malé začiatočné písmeno a informácia o propriálnosti sa označovala osobitným spôsobom (malým písmenom r na konci tagu po dvojbodke). Od verzie r-mak-5.0 sa lematizácia vlastných mien realizuje s veľkým začiatočným písmenom (a bez dodatočnej informácie pomocou malého písmena r na konci tagu). Vlastné mená osôb a objektov, ktoré nie sú homonymné so všeobecnými pomenovaniami, sa lematizujú s veľkým začiatočným písmenom bez výnimky, v homonymných prípadoch sa prihliada na väčšinové používanie. Napr. jedinečné názvy spoločností, bánk, klubov, fantazijných reálií, biblických kníh a pod. sú lematizované s veľkým začiatočným písmenom (Interpol, Tatrabanka, Kalligram, Zem-Nezem, Exodus), názvy hier, filmov, kníh, skupín, spoločností, ulíc, produktov, počítačových programov a pod., ktoré sa frekventovanejšie používajú ako všeobecné podstatné mená, sú lematizované s malým začiatočným písmenom (Filozofická fakulta Prešovskej univerzityfilozofický, prešovský; Stromová ulicastromový; hra Monopolymonopol). Uvedený spôsob lematizácie s rozlišovaním malých a veľkých začiatočných písmen sa aplikoval aj v rámci automatizovanej anotácie hlavného korpusu prim-8.0 a vo všetkých ďalších korpusoch a podkorpusoch SNK zverejňovaných od r. 2017. Problematické prípady s rozkolísaným pravopisom sú však zvyčajne lematizované podľa spôsobu zápisu v textoch (napr. automobil škodaškoda; automobil ŠkodaŠkoda; googlegoogle; GoogleGoogle).

Negované tvary slovies, ako aj negatívne podoby slov z iných slovných druhov (napr. neistota, neposledný, nemálo) sa v korpusoch SNK lematizujú negovaným tvarom, pri slovesách sa afirmácia a negácia navyše označuje na úrovni tagu znamienkom + alebo –.

Morfologické značky sa zapisujú pomocou US-ASCII písmen latinskej abecedy (malých aj veľkých), číslic a symbolov. Každá kategória alebo konkrétna vlastnosť má pridelený osobitný znak, ktorý sa nemôže opakovať na označenie inej kategórie, ale pre rovnakú kategóriu je v rôznych slovných druhoch použitý rovnaký znak (napr. x, y, z je označenie pre prvý, druhý a tretí stupeň pri prídavných menách aj pri príslovkách). Súbor jednotlivých znakov tvorí jeden tag k jednému tokenu.

Tag vyjadruje hodnoty formálnych kategórií, ktoré sú pre daný token relevantné. V Slovenskom národnom korpuse sa používajú tagy s variabilným počtom znakov, ich poradie v tagu je však záväzné. Na prvom mieste stojí informácia o príslušnosti k slovnému druhu (podľa zaužívanej desaťčlennej slovnodruhovej typológie), resp. k slovnej triede (špecifické textové jednotky vrátane interpunkcie a neslovných elementov vyskytujúcich sa v bežnom texte). Nasledujú značky pre príslušné gramatické kategórie (záväzne), resp. značky pre špeciálne skupiny (nezáväzne – stoja na konci tagu po dvojbodke a označujú vlastné mená v r-maku do verzie 4.0 a chybné zápisy).

Podrobnejšie informácie o tokenizácii, lematizácii a morfologickej anotácii sú tu (PDF, 270 kB).