Morfologická anotácia textov Slovenského národného korpusu

Morfologická anotácia je základnou (a najčastejšou) lingvistickou informáciou vnášanou do korpusov najmä flektívnych jazykov. Obsahuje slovnodruhové a tvarové charakteristiky slov v kontexte. Zvyčajne jej predchádza lematizácia – priradenie základného (slovníkového) tvaru každému slovu.

V Slovenskom národnom korpuse sa nachádzajú dva druhy morfologickej anotácie a lematizácie:

ručná morfologická anotácia v podkorpuse r-mak na základe súboru nižšie uvedených značiek a pravidiel vrátane pravidiel lematizácie,
automatizovaná morfologická anotácia všetkých ostatných korpusov a podkorpusov, pri ktorej sa použil ten istý súbor značiek a pravidiel, pričom tagery spaCy (v korpuse prim-10.0) a MorphoDiTa (v korpusoch web-6.0, prim-9.0 a starších) boli natrénované na podkorpuse r-mak a pri anotácii sa využil aj slovník všetkých tvarov slov – morfologická databáza SNK.

Všetky značky uvádzame v nasledujúcich tabuľkách; príklady a ukážky sú presne prevzaté z ručne anotovaného podkorpusu.

Substantívum	Prepozícia	Interpunkcia
Adjektívum	Konjunkcia	Neurčiteľný slovný druh
Pronominum	Partikula	Neslovný element
Numerále	Interjekcia	Citátový výraz
Verbum	Reflexívum	Číslica
Particípium	Kondicionálová morféma	Vlastné meno
Adverbium	Abreviácia, značka	Chybný zápis

Celý dokument o morfologickej anotácii je dostupný vo formáte PDF. Podiel druhov textov v ručne morfologicky anotovanom podkorpuse sa nachádza na stránke s prehľadom verzií r-mak.

Morfologickej anotácii podliehajú všetky textové jednotky – tokeny, teda reťazce znakov, ktoré sa štandardne nachádzajú medzi dvoma medzerami, ako aj znaky interpunkcie, pred ktoré sa pri spracúvaní textov v korpuse (pri segmentácii) medzery umelo pridávajú. Je to nevyhnutný predpoklad pre efektívne vyhľadávanie absolútnych výskytov slov – v prípade neoddelenia interpunkčného znamienka medzerou by sa museli vyhľadávať osobitne „čisté“ slová/tvary a osobitne tie isté slová/tvary s akýmkoľvek možným interpunkčným znamienkom pred alebo za sebou.

Každému tokenu sa pri ďalšom spracovaní textu priraďujú atribúty lema a tag.

Lema je v podstate základný, „slovníkový“ tvar tokenu zahŕňajúci všetky tvary slov z ohybných slovných druhov a prísloviek.

V ručne morfologicky anotovaných korpusoch sa do verzie r-mak-4.0 (v ostatných korpusoch do r. 2016) nedodržiavala dištinkcia malého a veľkého začiatočného písmena, t. j. všetky lemy mali malé začiatočné písmeno a informácia o propriálnosti sa označovala osobitným spôsobom (malým písmenom r na konci tagu po dvojbodke). Od verzie r-mak-5.0 sa lematizácia vlastných mien realizuje s veľkým začiatočným písmenom (a bez dodatočnej informácie pomocou malého písmena r na konci tagu). Vlastné mená osôb a objektov, ktoré nie sú homonymné so všeobecnými pomenovaniami, sa lematizujú s veľkým začiatočným písmenom bez výnimky, v homonymných prípadoch sa prihliada na väčšinové používanie. Napr. jedinečné názvy spoločností, bánk, klubov, fantazijných reálií, biblických kníh a pod. sú lematizované s veľkým začiatočným písmenom (Interpol, Tatrabanka, Kalligram, Zem-Nezem, Exodus), názvy hier, filmov, kníh, skupín, spoločností, ulíc, produktov, počítačových programov a pod., ktoré sa frekventovanejšie používajú ako všeobecné podstatné mená, sú lematizované s malým začiatočným písmenom (Filozofická fakulta Prešovskej univerzity → filozofický, prešovský; Stromová ulica → stromový; hra Monopoly → monopol). Uvedený spôsob lematizácie s rozlišovaním malých a veľkých začiatočných písmen sa aplikoval aj v rámci automatizovanej anotácie hlavného korpusu prim-8.0 a vo všetkých ďalších korpusoch a podkorpusoch SNK zverejňovaných od r. 2017. Problematické prípady s rozkolísaným pravopisom sú však zvyčajne lematizované podľa spôsobu zápisu v textoch (napr. automobil škoda → škoda; automobil Škoda → Škoda; google → google; Google → Google).

Negované tvary slovies, ako aj negatívne podoby slov z iných slovných druhov (napr. neistota, neposledný, nemálo) sa v korpusoch SNK lematizujú negovaným tvarom, pri slovesách sa afirmácia a negácia navyše označuje na úrovni tagu znamienkom + alebo –.

Morfologické značky sa zapisujú pomocou US-ASCII písmen latinskej abecedy (malých aj veľkých), číslic a symbolov. Každá kategória alebo konkrétna vlastnosť má pridelený osobitný znak, ktorý sa nemôže opakovať na označenie inej kategórie, ale pre rovnakú kategóriu je v rôznych slovných druhoch použitý rovnaký znak (napr. x, y, z je označenie pre prvý, druhý a tretí stupeň pri prídavných menách aj pri príslovkách). Súbor jednotlivých znakov tvorí jeden tag k jednému tokenu.

Tag vyjadruje hodnoty formálnych kategórií, ktoré sú pre daný token relevantné. V Slovenskom národnom korpuse sa používajú tagy s variabilným počtom znakov, ich poradie v tagu je však záväzné. Na prvom mieste stojí informácia o príslušnosti k slovnému druhu (podľa zaužívanej desaťčlennej slovnodruhovej typológie), resp. k slovnej triede (špecifické textové jednotky vrátane interpunkcie a neslovných elementov vyskytujúcich sa v bežnom texte). Nasledujú značky pre príslušné gramatické kategórie (záväzne), resp. značky pre špeciálne skupiny (nezáväzne – stoja na konci tagu po dvojbodke a označujú vlastné mená v r-maku do verzie 4.0 a chybné zápisy).

Podrobnejšie informácie o tokenizácii, lematizácii a morfologickej anotácii sú tu (PDF, 270 kB).

Slovenský národný korpus

Morfologická anotácia textov Slovenského národného korpusu