Informácia o plnení uznesenia vlády č

Záverečné hodnotenie úlohy

Vybudovanie Národného korpusu slovenského jazyka a elektronizácia jazykovedného výskumu v rokoch 2002 – 2006

Materiál na rokovanie Ministerstva kultúry SR

Vypracovala Mária Šimková

Bratislava 10. 11. 2006

Projekt vybudovania Národného korpusu slovenského jazyka a elektronizácie jazykovedného výskumu v rokoch 2002 – 2006, schválený Uznesením vlády Slovenskej republiky č. 137/2002, sa v roku 2006 dostal do posledného roka svojej realizácie. Riešiteľský kolektív oddelenia Slovenského národného korpusu (ďalej len SNK), ktoré bolo utvorené v r. 2002 ako špecializované pracovisko Jazykovedného ústavu Ľ. Štúra Slovenskej akadémie vied v Bratislave s cieľom budovať a spravovať automatizovanú textovú databázu slovenského jazyka v čo najširšom rozsahu, pokračoval v roku 2006 v plnení svojich úloh už štandardným spôsobom podľa plánu. Na tento rok boli v etapizácii projektu stanovené nasledujúce úlohy: pokračovanie v činnosti z predchádzajúceho obdobia, evalvácia vyváženosti korpusu a dopĺňanie chýbajúcich druhov textov, značkovanie korpusu, sprístupnenie korpusu cez internet. Jednotlivé plnenia za rok 2006 sú osobitne konkretizované pri celkovom hodnotení.

Na základe uznesenia vlády mal projekt splniť tieto ciele:

zachytiť jazyk v celej jeho šírke (novinové texty, beletria, odborné publikácie, hovorený jazyk a pod.) na základe lingvisticky zdôvodnených kritérií a tým vytvoriť objektívny a autentický zdroj jazykovej informácie, ktorý by bol materiálovým východiskom na

všestranný jazykovedný výskum,

tvorbu základných akademických diel (viaczväzkového slovníka súčasnej slovenčiny, ortoepického slovníka, retrográdneho slovníka, akademickej gramatiky a lexikológie slovenského jazyka), ako aj na

aktualizáciu jestvujúcich praktických jazykových príručiek (Krátkeho slovníka slovenského jazyka, pravopisného slovníka v Pravidlách slovenského pravopisu, Synonymického slovníka slovenčiny).

Vzhľadom na závažnosť legislatívnej sféry sa rátalo s vytvorením špecializovaného podkorpusu – databázy legislatívnych textov s cieľom napomáhať v spolupráci so zainteresovanými vládnymi orgánmi (napr. legislatívnou radou vlády, pracoviskom Jednotného automatizovaného systému právnych informácií, Ústavom pre aproximáciu práva) zvyšovanie terminologickej kultúry v oblasti právneho jazyka.

Ako ďalšie možnosti využívania národného korpusu sa v projekte uvádzalo:

bohatý výučbový materiál pre oblasť lingvistiky a počítačového spracovania jazyka,
virtuálna knižnica textov nespadajúcich pod pôsobnosť autorského zákona,
materiál na dopĺňanie terminologickej databanky neologizmami,
výkonné vyhľadávacie mechanizmy,
archivačné knižničné mechanizmy,
nástroje na indexáciu a kategorizáciu textových dokumentov,
nástroje na štatistickú analýzu a identifikáciu vývojových trendov v jazyku.

Budovanie Slovenského národného korpusu v prvom roku realizácie (r. 2002) predstavovalo fyzické vybudovanie nových priestorov (v podkroví budovy Jazykovedného ústavu Ľ. Štúra SAV) a ich vybavenie potrebnou počítačovou a kancelárskou technikou a zariadením. Riešiteľský kolektív sa takisto budoval postupne z externého prostredia – JÚĽŠ SAV ani žiadna vysoká škola na Slovensku nepripravovala a nepripravuje špecialistov na korpusovú lingvistiku. Základné zloženie kmeňových pracovníkov predstavoval vedúci pracovník (lingvista), dvaja programátori, dvaja lingvisti, technický pracovník a technicko-administratívny pracovník. Od roku 2002 prebiehali na pôde nového oddelenia semináre z korpusovej a počítačovej lingvistiky, na ktorých odznelo vyše 30 prednášok, z toho 20 zahraničných. Významnú pomoc poskytli najmä príbuzné české korpusové pracoviská v Prahe i Brne, na ktorých jednotliví pracovníci SNK JÚĽŠ SAV absolvovali krátkodobé študijné pobyty. Na základe získaných poznatkov a podkladov sa vypracovala rámcová koncepcia budovania Národného korpusu a pripravili sa základné dokumenty: licenčná zmluva na poskytnutie textov na nekomerčné použitie podľa autorského zákona (umožniť SNK získať automaticky text na základe osobitného paragrafu v autorskom zákone sa nepodarilo ani pri novelizácii tohto zákona), podmienky používania korpusu a pod. Pripravila a sprístupnila sa internetová stránka korpusu (http://korpus.juls.savba.sk), na ktorej slovenská verejnosť dostala základné informácie o korpusoch a ich využitiach a na ktorej sa neskôr sprístupňovali jednotlivé verzie korpusu. Postupne sa koncipovali zásady technického spracúvania textov (konverzie elektronických verzií na jednotný formát, skenovanie a zhotovovanie technických rozmnoženín starších textov, odstraňovanie grafiky a pod.), zásady tokenizácie a lematizácie (segmentácie a prvotného lingvistického spracovania) získaných textov, ako aj zásady bibliografickej a štýlovo-žánrovej anotácie. Na základné lingvistické spracovanie textu bol zapožičaný softvér z Matematicko-fyzikálnej fakulty Univerzity Karlovej v Prahe, na prácu s korpusom bol zakúpený korpusový manažér z Fakulty informatiky Masarykovej univerzity v Brne. Od roku 2003 sa začalo s prípravou vlastného morfologického tagsetu (súboru pravidiel a značiek) pre prvú rovinu internej lingvistickej anotácie a od r. 2004 sa začalo s ručnou morfologickou anotáciou vybraných textov. Po prvých testovacích verziách korpusu sa v r. 2004 sprístupnil korpus plne lematizovaný a morfologicky automatizovane označkovaný pomocou českého softvéru (na interné použitie), začiatkom roka 2006 bola spustená nová verzia všeobecného, základného korpusu prim-2.1 v rozsahu 300 miliónov textových jednotiek s prvou verziou ručne morfologicky anotovaného podkorpusu (r-mak-1.0) a automatizovanou morfologickou anotáciou celého korpusu pomocou slovenských značiek.

Kým prvé verzie korpusu obsahovali predovšetkým publicistiku a texty z posledného desaťročia (ide o pomerne ľahko získateľné a spracovateľné dáta), pri poslednej verzii sa už dosiahol aj lepší pomer štýlového zastúpenia (60,6 % publicistiky, 17,5 % umeleckých a 11,6 % odborných textov), aj lepšie zastúpenie textov z obdobia rokov 1955 (dolná hranica na zaradenie textu do korpusu súčasného jazyka) až 1992 (dokedy neexistujú elektronické verzie textov). Vzhľadom na to bolo možné vytvoriť pre špecifické potreby niektorých výskumov samostatné podkorpusy s publicistickými textami, odbornými a populárno-náučnými textami a s umeleckými textami – spomedzi týchto sú dokonca osobitne vyčlenené originálne (pôvodné) slovenské umelecké texty. To všetko bolo možné vďaka intenzívnemu získavaniu príslušných textov v rámci autorského zákona (v r. 2006 bolo oslovených a zazmluvnených 85 nových poskytovateľov, dohromady ich je vyše 360) a vďaka skenovaniu a upravovaniu do elektronickej podoby tých textov, ktoré existujú iba v papierovej forme. V r. 2005 bolo naskenovaných a spracovaných takmer 60 tisíc strán textu, v r. 2006 to bude približne také isté množstvo. Pri čítaní a opravovaní skenovaných textov pomáhalo v r. 2005 – 2006 priemerne mesačne 30 študentov a iných externých spolupracovníkov. Podľa plánu tak pokračovala evalvácia vyváženosti korpusu a dopĺňanie chýbajúcich druhov textov. Koncom roka 2006 bude na internete sprístupnená nová verzia korpusu a až na jej základe budeme vedieť presné čísla o spracovaných textoch (predpokladáme prírastok vyše 50 mil. textových jednotiek) vrátane percentuálneho zastúpenia jednotlivých štýlov a dekád. Vyvážený korpus z tejto novej verzie bude distribuovaný aj na CD/DVD nosičoch najmä na výučbové využitie.

Pokračovalo a pokračuje ručné morfologické značkovanie vybraných textov korpusu. R-mak-1.0, sprístupnený začiatkom roka 2006, obsahuje 322 600 textových jednotiek, v súčasnosti je už pripravený 700-tisícový súbor, ktorý bude sprístupnený s novou verziou korpusu. Na ručnej morfologickej anotácii sa tento rok podieľalo 6 študentov a absolventov odboru slovenského jazyka z Filozofickej fakulty Univerzity Komenského v Bratislave. V polovici roka 2005 sa začalo s prípravou Slovenského závislostného korpusu (SZK) – syntakticky anotovaného podkorpusu. Anotujú sa texty, ktoré prešli ručnou morfologickou anotáciou, každý text dvoma rôznymi anotátormi. Vo fáze opráv sa obe anotácie automatizovane porovnajú a na základe konečného manuálneho spracovania vznikne definitívna verzia SZK. Na syntaktickej anotácii spolupracovalo a spolupracuje 7 študentiek a absolventiek slovenského jazyka z Prešovskej univerzity, Katolíckej univerzity v Ružomberku, Univerzity Cyrila a Metoda v Trnave a Univerzity Komenského v Bratislave, ktoré zanotovali dohromady takmer 70 tisíc viet (z toho takmer 50 tisíc v r. 2006). Prvá verzia SZK bude sprístupnená v polovici r. 2007. Podľa plánu sa tak realizovalo aj lingvistické značkovanie korpusu.

V r. 2005 sa začalo s vývojom vlastného morfologického analyzátora a generátora tvarov slovenského jazyka, ktorý môže prispieť k zlepšeniu automatizovanej morfologickej anotácie a bude mať významné využitie pri počítačovom spracovaní slovenčiny a v príslušných aplikáciách (opravovacie a vyhľadávacie programy). Do slovníka morfologického analyzátora sa v priebehu r. 2006 spracovali všetky slová z Krátkeho slovníka slovenského jazyka a doplnili sa najfrekventovanejšie slová z korpusu (celkovo je spracovaných 56 003 ohybných slov s paradigmami v rámci 876 vzorov). Boli vypracované skripty na automatickú kontrolu dopĺňaných slov a vzorov a pokračuje sa v tvorbe algoritmov na analýzu ľahko predikovateľného ohýbania (číslovky, superlatívy, negácie).

Riešiteľský kolektív tak splnil úlohu vytvoriť národný korpus slovenského jazyka v dostatočne širokom rozsahu a zábere, vybavený výkonnými vyhľadávacími nástrojmi, nástrojmi na indexáciu a kategorizáciu textových dokumentov, nástrojmi na štatistickú analýzu a identifikáciu vývojových trendov v jazyku (rôzne štatistické údaje sú priamo dostupné na stránke korpusu). Korpus poskytuje bohatý výskumný a výučbový materiál pre oblasť lingvistiky a počítačového spracovania prirodzeného jazyka (každý rok je okolo 200 registrovaných používateľov z rôznych vedecko-výskumných domácich i zahraničných pracovísk, neregistrovaných vstupov najmä do lingvistických zdrojov je už priemerne približne 1000 denne, priamo v oddelení vznikli dve diplomové práce a pripravujú sa ďalšie diplomové aj doktorandské práce). Korpus slúži ako referenčná materiálová báza na tvorbu nového 8-zväzkového slovníka súčasnej slovenčiny a na aktualizáciu praktických jazykových príručiek. V rámci grantov VEGA sa na ňom realizujú viaceré výskumy s výstupmi v oblasti gramatiky a lexikológie slovenského jazyka.

Korpus nemôže slúžiť ako virtuálna knižnica textov nespadajúcich pod pôsobnosť autorského zákona – presahuje to možnosti a ciele korpusu, ako aj súčasnej slovenskej legislatívy. Rozvinula sa však interná spolupráca a výmena textov s občianskym združením INFOBLIND, ktoré sprístupňuje texty v elektronickej podobe nevidiacim.

Nerealizovala sa spolupráca s Ministerstvom spravodlivosti SR – s oddelením JASPI, ani s inými vládnymi orgánmi zainteresovanými na zvyšovaní terminologickej kultúry v oblasti právneho jazyka jednak vzhľadom na sústavnú vyťaženosť oddelenia JASPI inými úlohami, resp. neprijatím vládneho uznesenia ako spoločnej úlohy, jednak vzhľadom na to, že všetky uvedené inštitúcie si chránia svoje dáta a nebolo možné pristúpiť ku konštruktívnej spolupráci. Pracovisko SNK začalo s prípravou vlastného projektu Slovenskej terminologickej databázy zameranej na oblasť práva, ekonomiky a vybraných technických vied, ktorej sa dlhodobo dožaduje domáca prekladateľská i široká odborná verejnosť a v poslednom období ju akútne potrebujú aj prekladatelia Európskej komisie, Európskeho parlamentu, ako aj iných európskych inštitúcií. V roku 2006 sa v rámci prípravnej fázy projektu vypracoval návrh terminologického záznamu a návrh softvérovej štruktúry databázy s cvičnými údajmi. S cieľom zostaviť odborný ekonomický podkorpus bola nadviazaná spolupráca s Ekonomickou knižnicou, vydavateľstvom IURA Edition a jednotlivými autormi publikácií z oblasti ekonomických vied, vybranými na základe vypracovanej bibliografie. Slovenský národný korpus bude aj ďalšími odbornými textami a nástrojmi slúžiť ako zdroj na budovanie Slovenskej terminologickej databázy prostredníctvom automatizovanej extrakcie termínov z jednotlivých oblastí.

SNK sa buduje ako všeobecný jednojazyčný korpus, no v roku 2006 sa začali aj práce na paralelných korpusoch (slovensko-ruský, slovensko-francúzsky, slovensko-český). Korpus je určený predovšetkým pre potreby lexikografov (tvorba slovníkov, najmä nový veľký výkladový slovník slovenského jazyka) a gramatického a štylistického výskumu (gramatické príručky, pravopisné pravidlá). Svoje využitie nachádza aj v školách (tvorba pravopisných, gramatických a štylistických cvičení; výučba slovenského jazyka pre cudzincov), ako aj pri automatizovanom spracovaní prirodzeného jazyka. V r. 2006, keď sa končí schválený projekt budovania Národného korpusu slovenského jazyka a projekt elektronizácie jazykovedného výskumu, sa završuje prvá veľká etapa spočívajúca najmä v extenzívnom budovaní korpusu a príprave podmienok na postupnú elektronizáciu jazykovedného výskumu, teda vo vytvorení východiska na ďalšie práce.

Vzhľadom na potrebu ďalšieho fungovania SNK ako pracoviska základného výskumu a systematického budovania vedného odboru, ktorý doteraz na Slovensku chýbal a ktorý zapája Slovensko do medzinárodného kontextu vývoja jazykových a informačných technológií, ako aj do projektov záchrany a dlhodobého a všeobecne prístupného uchovania dôležitej časti nášho kultúrneho dedičstva bola v júni 2006 podpísaná Zmluva o spolupráci medzi Ministerstvom kultúry Slovenskej republiky, Ministerstvom školstva Slovenskej republiky a Slovenskou akadémiou vied na obdobie od 1. 1. 2007 do 31. 12. 2011 (č. zmluvy 0967/2006). Jej predmetom je spolupráca zmluvných strán s cieľom dobudovania Slovenského národného korpusu a vytvorenia špecifických diel využívajúcich zhromaždené dáta podľa dohodnutej koncepcie. V nasledujúcom období sa podľa nej bude naďalej rozširovať a skvalitňovať elektronická databáza textov súčasného slovenského jazyka, bude napredovať počítačové spracovanie slovenčiny pre potreby ďalších výskumov i praktických využití a vypracujú sa relevantné výstupy v podobe špecifických lexikografických diel a elektronických databáz.