Morfologická anotácia textov Slovenského národného korpusu
Morfologická anotácia je základnou (a najčastejšou) lingvistickou informáciou vnášanou do korpusov najmä flektívnych jazykov. Obsahuje slovnodruhové a tvarové charakteristiky slov v kontexte. Zvyčajne jej predchádza lematizácia – priradenie základného (slovníkového) tvaru každému slovu.
V Slovenskom národnom korpuse sa nachádzajú dva druhy morfologickej anotácie a lematizácie:
- ručná morfologická anotácia v podkorpuse r-mak na základe súboru nižšie uvedených značiek a pravidiel vrátane pravidiel lematizácie,
automatizovaná morfologická anotácia všetkých ostatných korpusov a podkorpusov, pri ktorej sa použil ten istý súbor značiek a pravidiel, pričom tagery spaCy (v korpuse prim-10.0) a MorphoDiTa (v korpusoch web-6.0, prim-9.0 a starších) boli natrénované na podkorpuse r-mak a pri anotácii sa využil aj slovník všetkých tvarov slov – morfologická databáza SNK.
Všetky značky uvádzame v nasledujúcich tabuľkách; príklady a ukážky sú presne prevzaté z ručne anotovaného podkorpusu.
Celý dokument o morfologickej anotácii je dostupný vo formáte PDF. Podiel druhov textov v ručne morfologicky anotovanom podkorpuse sa nachádza na stránke s prehľadom verzií r-mak.
Morfologickej anotácii podliehajú všetky textové jednotky – tokeny, teda reťazce znakov, ktoré sa štandardne nachádzajú medzi dvoma medzerami, ako aj znaky interpunkcie, pred ktoré sa pri spracúvaní textov v korpuse (pri segmentácii) medzery umelo pridávajú. Je to nevyhnutný predpoklad pre efektívne vyhľadávanie absolútnych výskytov slov – v prípade neoddelenia interpunkčného znamienka medzerou by sa museli vyhľadávať osobitne „čisté“ slová/tvary a osobitne tie isté slová/tvary s akýmkoľvek možným interpunkčným znamienkom pred alebo za sebou.
Každému tokenu sa pri ďalšom spracovaní textu priraďujú atribúty lema a tag.
Lema je v podstate základný, „slovníkový“ tvar tokenu zahŕňajúci všetky tvary slov z ohybných slovných druhov a prísloviek.
V ručne morfologicky anotovaných korpusoch sa do verzie r-mak-4.0 (v ostatných korpusoch do r. 2016) nedodržiavala dištinkcia malého a veľkého začiatočného písmena, t. j. všetky lemy mali malé začiatočné písmeno a informácia o propriálnosti sa označovala osobitným spôsobom (malým písmenom r na konci tagu po dvojbodke). Od verzie r-mak-5.0 sa lematizácia vlastných mien realizuje s veľkým začiatočným písmenom (a bez dodatočnej informácie pomocou malého písmena r na konci tagu). Vlastné mená osôb a objektov, ktoré nie sú homonymné so všeobecnými pomenovaniami, sa lematizujú s veľkým začiatočným písmenom bez výnimky, v homonymných prípadoch sa prihliada na väčšinové používanie. Napr. jedinečné názvy spoločností, bánk, klubov, fantazijných reálií, biblických kníh a pod. sú lematizované s veľkým začiatočným písmenom (Interpol, Tatrabanka, Kalligram, Zem-Nezem, Exodus), názvy hier, filmov, kníh, skupín, spoločností, ulíc, produktov, počítačových programov a pod., ktoré sa frekventovanejšie používajú ako všeobecné podstatné mená, sú lematizované s malým začiatočným písmenom (Filozofická fakulta Prešovskej univerzity → filozofický, prešovský; Stromová ulica → stromový; hra Monopoly → monopol). Uvedený spôsob lematizácie s rozlišovaním malých a veľkých začiatočných písmen sa aplikoval aj v rámci automatizovanej anotácie hlavného korpusu prim-8.0 a vo všetkých ďalších korpusoch a podkorpusoch SNK zverejňovaných od r. 2017. Problematické prípady s rozkolísaným pravopisom sú však zvyčajne lematizované podľa spôsobu zápisu v textoch (napr. automobil škoda → škoda; automobil Škoda → Škoda; google → google; Google → Google).
Negované tvary slovies, ako aj negatívne podoby slov z iných slovných druhov (napr. neistota, neposledný, nemálo) sa v korpusoch SNK lematizujú negovaným tvarom, pri slovesách sa afirmácia a negácia navyše označuje na úrovni tagu znamienkom + alebo –.
Morfologické značky sa zapisujú pomocou US-ASCII písmen latinskej abecedy (malých aj veľkých), číslic a symbolov. Každá kategória alebo konkrétna vlastnosť má pridelený osobitný znak, ktorý sa nemôže opakovať na označenie inej kategórie, ale pre rovnakú kategóriu je v rôznych slovných druhoch použitý rovnaký znak (napr. x, y, z je označenie pre prvý, druhý a tretí stupeň pri prídavných menách aj pri príslovkách). Súbor jednotlivých znakov tvorí jeden tag k jednému tokenu.
Tag vyjadruje hodnoty formálnych kategórií, ktoré sú pre daný token relevantné. V Slovenskom národnom korpuse sa používajú tagy s variabilným počtom znakov, ich poradie v tagu je však záväzné. Na prvom mieste stojí informácia o príslušnosti k slovnému druhu (podľa zaužívanej desaťčlennej slovnodruhovej typológie), resp. k slovnej triede (špecifické textové jednotky vrátane interpunkcie a neslovných elementov vyskytujúcich sa v bežnom texte). Nasledujú značky pre príslušné gramatické kategórie (záväzne), resp. značky pre špeciálne skupiny (nezáväzne – stoja na konci tagu po dvojbodke a označujú vlastné mená v r-maku do verzie 4.0 a chybné zápisy).
Podrobnejšie informácie o tokenizácii, lematizácii a morfologickej anotácii sú tu (PDF, 270 kB).