Morfologická anotácia textov Slovenského národného korpusu
Morfologická anotácia je základnou (a najčastejšou) lingvistickou informáciou vnášanou do korpusov najmä flektívnych jazykov. Obsahuje slovnodruhové a tvarové charakteristiky slova v kontexte. Zvyčajne jej predchádza lematizácia – priradenie základného (slovníkového) tvaru každému slovu.
V Slovenskom národnom korpuse sa nachádzajú dva druhy morfologickej anotácie a lematizácie:
- ručná morfologická anotácia v podkorpuse r-mak na základe súboru nasledujúcich značiek a pravidiel vrátane pravidiel lematizácie,
- automatizovaná morfologická anotácia celého korpusu na základe natrénovania na podkorpuse r-mak, pri ktorej sa použil ten istý súbor značiek a pravidiel s výnimkou niektorých pravidiel lematizácie (na to ďalej osobitne upozorníme).
Všetky značky uvádzame v nasledujúcich tabuľkách; príklady a ukážky sú presne prevzaté z ručne anotovaného podkorpusu.
Celý dokument o morfologickej anotácii je dostupný vo formáte PDF. Podiel druhov textov v ručne morfologicky anotovanom podkorpuse sa nachádza v časti Štruktúra SNK.
Morfologickej anotácii podliehajú všetky textové jednotky – tokeny, teda reťazce znakov medzi dvoma medzerami, ako aj znaky interpunkcie, pred ktoré sa pri spracúvaní textov v korpuse (pri segmentácii) medzery umelo pridávajú. Je to nevyhnutný predpoklad pre efektívne vyhľadávanie absolútnych výskytov slov – v prípade neoddelenia interpunkčného znamienka medzerou by sa museli vyhľadávať osobitne „čisté“ slová/tvary a osobitne tie isté slová/tvary s akýmkoľvek možným interpunkčným znamienkom pred alebo za sebou. Každému tokenu sa pri ďalšom spracovaní textu priraďujú atribúty lema a tag.
Lema je v podstate základný, „slovníkový“ tvar tokenu. Pri ručnej anotácii sa nedodržiava dištinkcia malého a veľkého začiatočného písmena, t. j. všetky lemy majú malé začiatočné písmeno a informácia o propriálnosti sa označuje osobitným spôsobom (malým písmenom r na konci tagu po dvojbodke). Negované tvary slovies sa v ručnej anotácii lematizujú negovaným tvarom infinitívu, afirmácia a negácia sa označuje na úrovni tagu znamienkom + alebo –. V automatizovanej lematizácii sa všetky negované tvary lematizujú bez morfémy ne- (napr. Nevedeli o tom. – automatizovaná lematizácia Vedieť, o, to).
Morfologické značky sa zapisujú pomocou US-ASCII písmen latinskej abecedy (malých aj veľkých), číslic a symbolov. Každá kategória alebo konkrétna vlastnosť má pridelený osobitný znak, ktorý je prenosný medzi slovnými druhmi (napr. x, y, z je označenie pre prvý, druhý a tretí stupeň pri prídavných menách aj pri príslovkách). Súbor jednotlivých znakov tvorí jeden tag k jednému tokenu.
Tag vyjadruje hodnoty formálnych kategórií, ktoré sú pre daný token relevantné. V Slovenskom národnom korpuse sa používajú tagy s variabilným počtom znakov, ich poradie v tagu je však záväzné. Na prvom mieste stojí informácia o príslušnosti k slovnému druhu (podľa zaužívanej desaťčlennej slovnodruhovej typológie), resp. k slovnej triede (sem patria špecifické textové jednotky vrátane interpunkcie a neslovných elementov vyskytujúcich sa v bežnom texte). Nasledujú značky pre príslušné gramatické kategórie (záväzne), resp. značky pre špeciálne skupiny (nezáväzne – stoja na konci tagu po dvojbodke a označujú vlastné mená a chybné zápisy). Podrobnejšie informácie o tokenizácii, lematizácii a morfologickej anotácii sú tu (PDF, 270 kB).
Použitie v programe Bonito 2 (web klient)
Pri práci s korpusovým manažérom Manatee a klientom Bonito sa dajú textové jednotky vyhľadávať ako konkrétne tvary slova a lemy.
Vo formulári v položke Corpus nastavíme meno korpusu, ktorý chceme používať. Ak máme záujem o ručne morfologicky anotovaný korpus, z ponuky vyberieme podkorpus r-mak (vo verzii 1.0 alebo v novšej, 2.0).
V ponukovom riadku otvoríme položku Corpus, v políčku QUERY TYPE vyberieme Lemma, v prípade základného tvaru slova, alebo Word form pre konkrétny tvar slova.
- Do vyhľadávacieho okienka napíšeme príslušný tvar slova pre word, základný tvar slova pre lemu.
- Ak chceme príslušné charakteristiky vidieť, v ľavom ponukovom riadku klikneme na VIEW OPTIONS a v ponuke ATTRIBUTES označíme atribúty LEMMA a TAG pre kľúčové slovo alebo pre všetky slová vo vyhľadanom kontexte.
Použitie v programe Bonito 1 (stará verzia, Tcl/Tk klient)
Pri práci s korpusovým manažérom Manatee a klientom Bonito sa dajú textové jednotky vyhľadávať ako konkrétne tvary slova, ako lemy alebo ako morfologické triedy (pomocou tagu alebo jeho časti).
- V pravom hornom rohu nastavíme meno korpusu, ktorý chceme používať. Ak máme záujem o ručne morfologicky anotovaný korpus, z ponuky vyberieme podkorpus r-mak (vo verzii 1.0 alebo v novšej, 2.0).
- V hornom ponukovom riadku otvoríme položku KORPUS, v nej klikneme na položku IMPLICITNÝ ATRIBÚT a vyznačíme podľa predmetu vyhľadávania WORD, LEMMA alebo TAG.
- Do vyhľadávacieho okienka napíšeme príslušný tvar slova pre word, základný tvar slova pre lemu, konkrétny tag alebo jeho časť (pomocou regulárnych výrazov) pre vyhľadávanie všetkých slov s požadovanými morfologickými charakteristikami.
- Ak chceme príslušné charakteristiky vidieť, nezabudnime v hornom ponukovom riadku nastaviť v položke ZOBRAZENIE zobrazenie pre ATRIBÚTY, a to konkrétne LEMY alebo TAGU pre kľúčové slovo alebo pre všetky slová vo vyhľadanom kontexte.
