SNK

Slovenský národný korpus – východiská a plány

Mária Šimková

ŠIMKOVÁ, Mária: Slovenský národný korpus – východiská a plány. In: Slovenčina na začiatku 21. storočia. Ed. Mária Imrichová. Prešov: Prešovská univerzita, Fakulta humanitných a prírodných vied 2004, s. 150 – 158.

Abstract:
Slovak National Corpus is a new department (from 2002) of Institute of Linguistics of Slovak Academy of Sciences. In a broad context, this paper describes a preparation, build-up and perspectives (till 2006) of the Slovak National Corpus and its various subcorpora. Especially the 200-million contemporary corpus of written Slovak and criteria for its building are described.

1. Pred desiatimi rokmi, keď Katedra slovenského jazyka a literatúry vtedajšej Pedagogickej fakulty v Prešove vtedajšej Univerzity P. J. Šafárika v Košiciach zorganizovala v jeseni 1993 konferenciu Text a kontext, odzneli na tejto pôde po prvý raz príspevky z oblasti počítačovej a korpusovej lingvistiky (porov. rovnomenný zborník z konferencie, 1993). Kým na Slovensku sme vtedy boli v danej oblasti v úplných začiatkoch, vo svete sa budovanie korpusov a výskumy na nich založené rozbehli takým tempom, že 90. roky 20. storočia sa označujú ako dekáda korpusovej lingvistiky. Okrem kvantitatívneho nárastu počtu korpusových pracovísk a všeobecných národných i špecializovaných korpusov (v uvedenej dekáde najmä v krajinách východnej a strednej Európy) bol začiatok 90. rokov poznamenaný aj kvalitatívnou zmenou v nazeraní lingvistiky a ďalších odborov či zainteresovaných odborníkov na korpus. Od otázky načo korpus? nastal výrazný posun k veľmi pragmatickým úvahám o čo najlepšom využití korpusov nielen na skvalitnenie (zexaktnenie) či zrýchlenie lingvistických výskumov a ich širšiu interdisciplinaritu, ale aj o využití korpusov ako referenčného zdroja informácií pre rôzne oblasti vedy a výskumu (predovšetkým však napr. pre historikov, literárnych vedcov a tvorcov, kulturológov, sociológov) a ako prostriedku pri výskume a vývoji jazykových technológií a ďalších aplikácií umelej inteligencie (expertné systémy, strojový preklad a pod.). Počiatočné ťažkosti, ktoré sprevádzali nástup korpusov v 60. rokoch 20. storočia – nedostatočná výkonnosť počítačov, neúplnosť matematických (formalizovaných) opisov prirodzeného jazyka a neprijímanie zo strany lingvistov zvyknutých na tradičné teórie založené na malom množstve neraz značne vyabstrahovaného materiálu –, sa istým spôsobom prejavili s odstupom takmer tridsiatich rokov aj na Slovensku.

2. Korpusy a korpusová lingvistika vo svete

V súvislosti s prudkým nárastom informácií a rozvojom moderných technológií sa v druhej polovici 20. storočia začali rozvíjať viaceré nové výskumné odbory často interdisciplinárneho charakteru. Tento trend neobišiel ani lingvistiku, ktorej metódy a predmet výskumu sa mohli kombinovať nielen v rámci tzv. spoločenských (humanitných) vied, kde vznikali také hraničné disciplíny ako sociolingvistika, psycholingvistika, etnosociolingvistika a pod., ale aj mimo tohto rámca – úspešne navzájom kombinovateľné sa ukázali výsledky a záujmy lingvistiky s výsledkami a ďalšími záujmami matematiky, logiky, neskôr aj informatiky a pod. Prvým stupňom takejto spolupráce v rámci matematickej lingvistiky bola kvantitatívna (štatistická) lingvistika, metodologicky budovaná už od konca 19. storočia. Druhý stupeň – algebrickú lingvistiku (teóriu matematických modelov jazyka) predznamenal nástup Chomského generatívnej gramatiky v druhej polovici 20. storočia. Na obidve teoretické disciplíny nadviazala aplikačná počítačová lingvistika, ktorá sa ako tzv. strojová (komputačná) lingvistika zameriavala spočiatku predovšetkým na oblasť strojového (automatizovaného) prekladu. Problémom prvého obdobia rozvoja disciplín matematickej lingvistiky bola nízka výkonnosť počítačov (v porovnaní s dnešnými) a z toho vyplývajúce obmedzenia v rozsahu spracovaného materiálu. Výskum sa naďalej pohyboval najmä v rovine abstrakcií a teórií formulovaných na základe ľudsky poznateľného a analyzovateľného jazykového materiálu (kartotéky excerpcií, jazykové vedomie a indukcie bádateľov). Nemožno poprieť, že sa aj na tejto báze dosiahli mnohé pozoruhodné výsledky, nemožno však súčasne nevidieť, aké možnosti otvorila éra korpusov, korpusovej lingvistiky (osobitne korpusovej lexikografie) a počítačového spracovania prirodzeného jazyka. Pri retrospekcii vývoja lingvistiky G. Leech konštatuje, že ani korpusový lingvista z 50. rokov, ktorý odmietal intuíciu, ani generatívny lingvista zo 60. rokov (reprezentovaný samotným Chomským; pozn. M. Š.), ktorý odmietal korpusové dáta, nebol schopný interakcie medzi obsiahnutím dát a lingvistickou introspekciou. Touto interakciou sa vyznačuje až množstvo úspešných analýz počítačových korpusov posledných rokov (Leech, 1991).

Prvým korpusom ako cielene zhromaždeným, vnútorne štruktúrovaným rozsiahlym súborom textov, ktoré sú elektronicky uložené a spracovateľné, bol Brown Corpus. Budovali ho H. Kučera a N. Francis na Brown University v 60. rokoch 20. storočia a v konečnej podobe obsahoval 1 milión slov vybranej vzorky textov písanej americkej angličtiny. V tom istom čase vznikal už skôr ohlásený miliónový neelektronický korpus zložený z polovice písaných a polovice hovorených textov britskej angličtiny – Survey of English Usage Corpus autorov R. Quirka a S. Greenbauma. Mohli by sme oponovať, že je to päťnásobne menej len v porovnaní s kartotékou Jazykovedného ústavu Ľ. Štúra SAV, ktorá obsahuje vyše 5 miliónov excerpčných lístočkov, a teda oprávnene zopakovať otázku načo korpus? Rozdiel medzi kartotékou a korpusom sme objasňovali už na spomínanej konferencii pred desiatimi rokmi. V kartotéke nájdeme slovo len v prípade, že ho niekto zámerne vyexcerpoval a na excerpčnom lístku uviedol v záhlaví, podľa ktorého sú “privilegované” (niečím zaujímavé, špecifické) slová v kartotéke abecedne zoradené, pričom všetky ostatné slová a spojenia sú v podstate nenájditeľné. V korpuse však nájdeme absolútny kontextový výskyt každého slova a tvaru tak, ako sa nachádza v zhromaždených textoch. Analytickou sondou do kartotéky JÚĽŠ SAV sme vtedy zistili, že napr. slovesný tvar som bol ako bežný, “nezaujímavý” jazykový prostriedok osobitne vyexcerpovaný iba 6-krát (Šimková, 1993). Napokon, veľkosť korpusov čoskoro presiahla možnosti akejkoľvek kartotéky a neostala ich jedinou výhodou.

Už korpusy na začiatku 70. rokov 20. storočia zvyčajne obsahovali vyše 5 miliónov slov, druhá generácia korpusov v 80. rokoch sa pohybovala okolo rozsahu 20 miliónov slov, treťou generáciou boli korpusy 90. rokov, ktorých veľkosť sa merala v stovkách miliónov slov. Súbory počítačovo čitateľných textov sa teda za tridsať rokov rozrástli z počiatočného jedného miliónu slov až takmer na miliardu, takže, ako uvádza G. Leech (c. d.), si podobne možno predstaviť ešte tisíckrát väčší nárast objemu korpusov až na jeden bilión slov do roku 2021. Pritom nejde o to, aby sa elektronicky uložili “nejaké” texty v “nejakom” alebo v čo najväčšom rozsahu (takto sa zhromažďovali a zhromažďujú texty vo forme voľných súborov textov, elektronických knižníc alebo elektronických archívov), ale ide o to, aby zhromaždené texty svojou formou, obsahom i rozsahom napĺňali vopred stanovený cieľ – zachytenie synchrónneho stavu písanej podoby konkrétneho jazyka, materiálový zdroj na tvorbu slovníka termínov z oblasti turistiky a pod. V korpuse treba navyše efektívne nájsť požadované (najmä lingvistické) informácie, t. j. vyhľadanie slova alebo jazykového prostriedku, získanie syntagmatickej alebo paradigmatickej informácie na základe korpusových dát má trvať čo najkratšie a používateľ má dostať čo najpresnejšiu odpoveď. To kladie nároky na adekvátne výkonný softvér, ale aj na tzv. lingvistickú anotáciu korpusu.

Vyhľadávanie slova alebo tvaru v kontextových použitiach pomocou niektorého zo špeciálnych konkordančných programov je najzákladnejšou možnosťou, ktorú poskytuje korpus na lingvistické ciele, v tomto prípade predovšetkým na ciele lexikografické. Dnes už existuje viacero slovníkov vytvorených na báze korpusu textov príslušného jazyka, napr. Collins Cobuild bol koncipovaný na základe birminghamského korpusu, Longman Dictionary of Contemporary English bol revidovaný na základe troch korpusov: British National Corpus, Longman Lancaster Corpus a Longman Learner's Corpus. Na korpusovom materiáli v súčasnosti vznikajú aj gramatiky, čo však predpokladá vybavenie textov lingvistickými informáciami s často zložitou anotačnou štruktúrou a technické zabezpečenie možnosti vyhľadávania najrôznejších kombinácií informácií. Prakticky žiadny korpus už dnes nedáva k dispozícii dáta iba v podobe jednoduchých lineárnych textových reťazcov (Čermák, 2000, s. 22), hoci sa stále nachádzajú hlasy a argumenty proti vnášaniu lingvistických informácií do textového materiálu ako základného zdroja poznania jazyka. O nedostatkoch anotovaných korpusov sa vie: každé značkovanie (tagovanie) je značne subjektívne, poplatné nejakej dočasnej lingvistickej teórii, časovo náročné a zvyčajne dosahujúce úspešnosť len niečo vyše 90 %, čiže štatisticky prakticky neúspešné, no kombináciou rôznych metód sa pracuje na zvýšení úspešnosti anotácie. Väčšina dostupných korpusov s lingvistickou anotáciou je zároveň technicky zabezpečená tak, aby sa bádateľ vždy mohol vrátiť k pôvodnému, “surovému” textu a otestovať jazykový materiál vlastnou empíriou.

Najčastejšia lingvistická informácia, ktorá sa v súčasných korpusoch vyskytuje, je základný tvar (lema) a slovnodruhová charakteristika každého slova. V korpusoch hovoreného jazyka je rozšírená fonetická/fonologická anotácia, v korpusoch písaného jazyka syntaktická anotácia (v podobe tzv. stromových štruktúr). Rýchly rozvoj zaznamenáva v súčasnosti najmä morfologická (morfosyntaktická) anotácia, zaujímavé výsledky prinášajú pokusy o sémantickú, pragmatickú či diskurznú anotáciu. To opäť kladie nároky na vývoj korpusových nástrojov, ktoré musia (mali by) zvládnuť nielen vyhľadávanie v lineárnych reťazcoch a (štatistické) vyhodnotenie nájdených reťazcov, ale aj vyhľadávanie v rôznych stupňoch značkovania, a to vo veľmi veľkých a rôznorodých objemoch dát. Korpusové nástroje by v budúcnosti mali zvládnuť celé jazykové spracovávanie korpusu bez väčších zásahov človeka a interakciu medzi korpusmi a lexikálnymi či gramatickými databázami. Zrejme sa však vždy nájdu informácie, ktoré budú v akokoľvek dobre označkovanom korpuse lingvistovi chýbať, a naopak, v jazykovom systéme sa vždy nájdu javy, ktoré budú musieť informatici či matematici nanovo riešiť.

3. Matematická lingvistika a budovanie textového korpusu na Slovensku

Na rozdiel od situácie v Českej republike, kde v tejto oblasti existuje takmer štyridsaťročná tradícia s medzinárodne uznávanými výsledkami a samostatnými vednými odbormi, na Slovensku sa nadväzuje najmä na zahraničné výskumy a ich výsledky a na niekoľko izolovaných domácich vstupov do problematiky.

Prvým, veľmi sľubne sa rozvíjajúcim projektom bola v r. 1962 – 1970 inštitucionalizácia oddelenia matematickej lingvistiky a fonetiky v Ústave slovenského jazyka SAV (dnes JÚĽŠ SAV), ktorej iniciátor J. Horecký sa programovo usiloval o rozpracovanie princípov a metód matematickej (algebrickej) lingvistiky na materiáli slovenského jazyka. Pripravovaný slovník tvarov a morfém sa však v tomto oddelení nikdy nedokončil. Na Slovensku sa v ďalšom období z matematickej lingvistiky rozvíjala najmä kvantitatívna analýza textov – známe sú frekvenčné slovníky J. Mistríka a čiastkové štúdie niekoľkých autorov skúmajúcich štatistiku jazykových javov. K celosvetovému trendu búrlivého rozvoja počítačových a jazykových technológií sa Slovensko akoby opäť prihlásilo až v r. 1989, keď bol do programu sympózia Metódy výskumu a opisu lexiky slovanských jazykov (konaného v rámci 7. zasadnutia Lexikologicko-lexikografickej komisie pri Medzinárodnom komitéte slavistov) zaradený tematický okruh Počítačové spracovanie slovnej zásoby. V jeho rámci odzneli 3 slovenské (J. Horecký, J. Furdík, P. Žigo) a 2 zahraničné pripravené príspevky, 1 zahraničný a 1 domáci (J. Horecký) diskusný príspevok (porov. rovnomenný zborník zo sympózia, 1990). V záverečnom slove V. Blanár k tomuto okruhu konštatoval: “Potvrdzuje sa myšlienka, že kapacita ľudského mozgu nestačí zvládnuť ustavičný rast informácií, človek môže plniť mnohé informačné a encyklopedické úlohy len za pomoci automatického spracúvania dát... Pri automatickom spracúvaní dát sa zároveň stimuluje jazykovedný výskum... Dôležité je, že pri takomto prístupe sa treba pozrieť na mnohé jazykové javy z nových aspektov” (Blanár, 1990, s. 292). Od vyslovenia k napĺňaniu vysloveného uplynul znova nejaký čas poznačený najmä absenciou techniky a pripravených špecialistov na danú oblasť, ale už aj systematickými krokmi na etablovanie sa nového vedného odboru na Slovensku.

Jeden z hlavných referátov na spomínanom sympóziu predniesol J. Horecký. Predstavil úvahy o projekte bázy dát slovenského jazyka, ktorá by bola zložená zo šiestich vecných oblastí. Štyri z nich by v podstate predstavovali elektronické verzie existujúcich slovníkov (Krátkeho slovníka slovenského jazyka, terminologických slovníkov, Slovníka slovenských nárečí a Historického slovníka slovenského jazyka), jedna vecná oblasť by obsahovala texty zo súčasnej slovenčiny (prípadne texty zo starších excerpčných lístkov) a v jednej by sa nachádzali sústredené lingvistické údaje o slovách a tvaroch, ako boli publikované v odborných či populárno-náučných článkoch. V záverečnej etape by sa dalo podľa autora uvažovať aj o generálnom registri slov a tvarov (Horecký, 1990). Vzhľadom na to, že v čase predstavenia projektu nebol v Jazykovednom ústave nijaký počítač a na Slovensku sa nikto systematicky nezaoberal problematikou korpusov, išlo o pomerne širokú predstavu o možnostiach spracovania slovnej zásoby slovenčiny pomocou počítača. Na medzinárodnej konferencii o počítačovej lexikografii prezentoval tento projekt o rok neskôr V. Benko (1991).

Napredovanie svetovej lingvistiky v oblasti automatizovaného spracovania prirodzeného jazyka (Natural Language Processing – NLP) a korpusovej lingvistiky začalo koncom 80. rokov 20. storočia nachádzať výraznejšiu odozvu aj v krajinách strednej a východnej Európy, a teda aj na Slovensku. Po diskusiách o možnej spolupráci medzi pracovníkmi JÚĽŠ SAV a Informačného centra SAV sa pod vedením J. Horeckého vytvorila v r. 1990 nová pracovná skupina počítačovej lingvistiky, ktorá začala na pôde Jazykovedného ústavu Ľ. Štúra SAV rozpracúvať celostnú koncepciu budúceho korpusu textov slovenského jazyka a lexikálnej bázy dát (Jarošová, 1993). Dôležitým prvkom v tejto prípravnej fáze bola práca na teoretickom počítačovom modeli slovenčiny (Páleš, 1994), ale najmä praktické zhromažďovanie textov v elektronickej podobe a ich prvé lingvistické analýzy (Benko, 1993; Šimková, c. d.).

Zhromažďovanie textov prebiehalo pre nedostatočnú technickú a personálnu zabezpečenosť veľmi prácne, doslova slovo k slovu, bez inklinácie k reprezentatívnosti či aspoň vyváženosti, skôr tzv. oportunistickým spôsobom – do korpusu sa dostávali texty ľahko získateľné a spracovateľné. Anotácia sa nerobila žiadna (okrem základnej bibliografickej informácie) a softvérové vybavenie bolo takisto minimálne (WordCruncher, neskôr WordSmith; na prípravu konkordancií sa v režime MS DOS využíval MicroConcord). Do roku 2002 sa takto postupne sprístupňoval korpus textov slovenského jazyka na interné použitie v rámci Jazykovedného ústavu Ľ. Štúra SAV. V záverečnej fáze zhruba 30 miliónový korpus obsahoval predovšetkým publicistiku, niekoľko odborných zborníkov a časopisov a malé množstvo beletrie. Špecifickou časťou bola elektronická podoba lexikografickej produkcie JÚĽŠ SAV: 2. a 3. vydanie Krátkeho slovníka slovenského jazyka, Pravidlá slovenského pravopisu z r. 1998, 1. vydanie Synonymického slovníka slovenčiny, akademický Slovník cudzích slov, päť zväzkov Slovníka slovenského jazyka. Čo však treba vyzdvihnúť, je od začiatku veľmi aktívne využívanie aj toho minima, ktoré bolo k dispozícii, na lingvistické, predovšetkým lexikografické účely, a udržiavanie kontaktov so zahraničnými korpusovými pracoviskami a projektmi. Okrem viacerých štúdií prezentujúcich techniku spracúvania dát, vybrané štatistické ukazovatele či zahraničný kontext a teóriu i prax lexikografického využitia korpusov (V. Benko, M. Šimková, A. Jarošová) to boli aj rôzne lexikálnogramatické a porovnávacie štúdie, ktorých autorom sa požadovaný dokladový materiál individuálne pripravoval a poskytoval. Existujúci korpus textov slovenského jazyka a lexikálna báza dát sa však najviac využívali v kolektíve lexikografov koncipujúcich nový veľký výkladový slovník slovenského jazyka (1. zväzok je pred dokončením), ako aj pri príprave 3. a 4. vydania Krátkeho slovníka slovenského jazyka a vydaní Pravidiel slovenského pravopisu z r. 1998 a 2000. Získané poznatky a skúsenosti sa konfrontovali na medzinárodných podujatiach v zahraničí i doma: v r. 1999 zorganizoval Jazykovedný ústav Ľ. Štúra SAV a Pedagogická fakulta Univerzity Komenského v Bratislave medzinárodný seminár Textové korpusy a viacjazyčná lexikografia (podujatie bolo súčasťou medzinárodného projektu TELRI II uskutočňovaného v rámci programu Európskej komisie INCO-COPERNICUS), v r. 2001 rovnakí organizátori realizovali v Bratislave medzinárodný seminár Slovenčina a čeština v počítačovom spracovaní (podujatie s rovnomenným zborníkom, 2001, bolo takisto jedným z výsledkov účasti v spomínanom projekte).

Postupne bolo stále viac zrejmé, že “príštipkársky” spôsob budovania a prevádzkovania korpusu textov slovenského jazyka je dlhodobo neudržateľný a najmä neporovnateľný so situáciou v okolitých krajinách. Navyše sa koncom 90. rokov 20. storočia začal zvyšovať dopyt bežných používateľov po verejne prístupných lingvistických informáciách, zvyšovali sa nároky lexikografov na rozsah a štruktúru korpusových textov a na efektívnosť ich využitia pri koncipovaní, viaceré potreby sa objavili aj v súvislosti s prípravou vstupu Slovenska do Európskej únie. Po úvahách o najvhodnejšom mieste a spôsobe systematického budovania nového korpusu s medzinárodne porovnateľnými parametrami sa vypracoval aktuálny projekt, ktorý predpokladal vznik nového špecializovaného pracoviska s primeraným technickým vybavením a personálnym obsadením. Po schválení projektu vládou SR 13. februára 2002 sa začali prípravné práce (výstavba pracovných miestností v podkroví budovy Jazykovedného ústavu Ľ. Štúra SAV, nákup a inštalácia techniky a softvéru) a do konca roka sa stabilizoval 7-členný pracovný kolektív oddelenia Slovenského národného korpusu JÚĽŠ SAV v Bratislave.

4. Plány Slovenského národného korpusu na roky 2003 – 2006

4.1. Ciele

4.1.1. Vybudovanie všeobecného jednojazyčného korpusu písaných textov súčasného slovenského jazyka (1955 – 2005) a sprístupnenie jeho reprezentatívnej časti v rozsahu 200 mil. slov na internete. Sprístupnená časť korpusu bude lematizovaná a morfologicky anotovaná, vybraná vzorka sa bude anotovať aj syntakticky.

4.1.2. Sprístupnenie celého súboru elektronicky spracovaných získaných textov bez lingvistických informácií pracovníkom JÚĽŠ SAV a externým spolupracovníkom v jeho priestoroch na vedecko-výskumné, predovšetkým lexikografické účely (rozsah bude podmienený technickými možnosťami a ústretovosťou poskytovateľov textov).

4.1.3. Budovanie špecifických korpusov / databáz

– terminologická databáza (v spolupráci s Ministerstvom spravodlivosti SR a rezortnými terminologickými komisiami); – databáza lexikografických diel (sprístupnenie lexikografickej produkcie JÚĽŠ SAV v elektronickej podobe na internete, príp. aj na CD nosičoch); – korpus diachrónnych textov a korpus nárečových textov (podľa potrieb pracovníkov v príslušných odboroch a podľa technických možností – náročné bude najmä optické rozpoznávanie starých tlačí či rukopisov a prepisy hovorenej reči); – paralelný/-é korpus/-y (najmä pre tzv. malé jazyky sú takéto korpusy dobrým nástrojom pre prekladateľov a tlmočníkov, ale aj dobrým prostriedkom na zviditeľňovanie a akceptáciu jazyka vo svete); – korpus hovorených prejavov (technická a časová náročnosť prepisu bude vyžadovať samostatné finančné i personálne zabezpečenie).

4.1.4. Tvorba príslušných programových nástrojov (archivovanie textov; evidenčná databáza; konverzie a filtrácie textov; lematizátor, morfologický anotátor), využívanie a adaptácia existujúcich programových nástrojov (syntaktický parser; korpusový manažér).

4.2. Etapy

2003: Vypracovanie koncepcie Slovenského národného korpusu
Zber dát, nadväzovanie kontaktov s poskytovateľmi textov; evidenčná databáza
Testovanie existujúcich programových nástrojov, výber a aplikácia najvyhovujúcejších
Sprístupnenie reprezentatívnej čiastočne anotovanej vzorky textov (30 mil. slov) na internete
Formulácia pravidiel morfosyntaktickej anotácie a morfologickej dezambiguácie pre slovenčinu
Terminologická databáza v spolupráci s MS SR
2004 – 2006: Dopĺňanie písaných textov súčasného slovenského jazyka na reprezentatívny rozsah 200 mil. slov
Vývoj a využitie vlastných programových nástrojov na základnú lingvistickú anotáciu
Korpus nárečových a diachrónnych textov
Paralelný korpus
Využitie lingvisticky anotovaných textov Slovenského národného korpusu pri tvorbe gramatiky založenej na korpuse