Národný korpus slovenského jazyka a jeho dimenzie

Alexandra Jarošová

Článok bol publikovaný v časopise Správy Slovenskej akadémie vied (2002, roč. 38, č. 9, s. 2 - 4).

Vláda Slovenskej republiky schválila 13. 2. 2002 uznesením č. 137 projekt vybudovania Národného korpusu slovenského jazyka a elektronizácie jazykovedného výskumu. Predkladateľmi návrhu boli minister školstva SR, predseda Slovenskej akadémie vied a minister kultúry SR.

Predmetom navrhovaného projektu je vybudovať pracovisko Národného korpusu slovenského jazyka a organizačne, materiálno-technicky a personálne ho zabezpečiť v rokoch 2002 – 2006. Národný korpus by mal byť svojím poslaním celonárodnou inštitúciou, ktorá by prostredníctvom internetu slúžila celej kultúrnej verejnosti Slovenskej republiky. Vzhľadom na súčasné financovanie vedy na Slovensku by sa Národný korpus dal len ťažko vybudovať ako vedecký projekt Jazykovedného ústavu Ľ. Štúra SAV financovaný prostredníctvom agentúr na podporu vedy.

Panská 22
Jazykovedný ústav Ľudovíta Štúra SAV.

Korpus ako reprezentatívny súbor textov a komunikátov daného jazyka je známy v lingvistike už dávno, ale úplne novú kvalitu a možnosti nadobudol až vďaka príchodu počítačov, pretože súbor textov mohol byť uložený na pamäťové médiá a spracúvaný pomocou programových nástrojov. Prvý takýto korpus elektronických textov (obsahujúci v súhrne jeden milión textových slov, tzv. tokens) bol vytvorený začiatkom šesťdesiatych rokov na Brownovej univerzite v USA. Posledných 15 rokov pozorujeme výrazný rast počtu korpusov národných jazykov so súčasným zväčšovaním ich objemu (dosahujúceho stovky miliónov textových slov). Tento trend je spôsobený nielen relatívnou dostupnosťou výkonnej výpočtovej techniky a elektronicky uložených textov, ale najmä presadením sa názoru, že opisy jazyka v podobe slovníkov a gramatík musia vychádzať z čo najväčšieho množstva objektívnym spôsobom zhromaždeného materiálu.

Korpus je teda rozsiahly súbor elektronicky zapísaných textov pochádzajúcich od rôznych autorov, z rôznych médií (kníh, periodík, reklamných a informačných tlačovín, záznamov hovorených prejavov, internetu a pod.), z rozličných komunikačných tematických a žánrových oblastí (napr. historický román, humoristická poviedka, odborný článok o leteckej doprave, technická norma, text zákona, text zápisnice, záznam diskusie a pod.). Vzájomný pomer týchto textov je vopred určený na základe výskumov a mal by predstavovať reprezentatívnu vzorku určitého jazyka použiteľnú na základný a aplikovaný jazykovedný výskum. Texty zaraďované do korpusu prichádzajú z viacerých kanálov: prepisovaním do počítača, skenovaním, sťahovaním z internetu, získaním kópie z elektronickej sadzby. Texty získané z elektronickej sadzby kníh, časopisov a novín treba viacstupňovo čistiť. To znamená, že získané texty sa konvertujú do podoby čistého textu: odstraňujú sa obrázky a iné grafické prvky, riadiace kódy použitých textových editorov a kódovanie písmen sa transformuje do jednotnej kódovej tabuľky. Po vyčistení sa texty prevedú do jednotného formátu SGML (Standard Generalized Markup Language), čo je medzinárodne štandardizovaný spôsob označovania elektronicky uložených textov.

Veľkosť korpusu sa meria počtom textových slov (reťazec znakov medzi dvoma medzerami alebo interpunkčnými znamienkami) a kvalita korpusu sa meria spomínanou reprezentatívnosťou (vyváženosťou) a taktiež detailnosťou pripojenej bibliografickej anotácie (kategória zdrojového textu, autor textu, vydavateľstvo, rok vydania, žáner) a lingvistickej informácie o gramatických kategóriách každého textového slova uložených pomocou značiek SGML.

Korpus má viacero dimenzií:

  1. je prirodzenou súčasťou základného a aplikovaného jazykovedného výskumu;
  2. hrá dôležitú úlohu vo vývoji informačných technológií;
  3. má status kultúrneho fenoménu, pretože predstavuje pokladnicu jednej z najdôležitejších zložiek kultúrneho dedičstva národného jazyka

Priblížme si prvú zo spomínaných dimenzií korpusu. Ak má byť jazykoveda empirickou disciplínou postavenou na veľkom množstve autentického materiálu a nemá byť len modelom jazyka skonštruovaným na vybraných jazykových javoch, potom stojí pred úlohou zbierať a spracúvať veľké množstvo jazykových dát. Závery robené na vybraných a obmedzených dátach majú primerane obmedzenú hodnotu. Platilo to vždy, ale nie vždy sa podľa toho dalo riadiť, pretože nebolo v silách kolektívov zhromaždiť lexikálnu kartotéku obsahujúcu stovky miliónov ručne napísaných excerpčných lístkov, čo predstavuje v priemere niekoľko stoviek dokladov na textové použitie slov tvoriacich heslár stredného slovníka (cca 150 tis. slov). Takže súčasná jazykoveda nemá inú alternatívu ako elektronizáciu materiálovej základne slovníkov, gramatík a iných príručiek. A práve korpus ako rozsiahly súbor textov uložených na pamäťových médiách predstavuje obrovskú viacúčelovú elektronickú kartotéku. V klasickej excerpčnej kartotéke sa uchováva záznam obsahujúci vybrané slovo v určitom jazykovom kontexte (1 – 3 vety) a hoci text na excerpčnom lístku obsahuje desiatky slov, vyhľadávanie je možné len podľa kľúčového slova, pretože podľa neho je kartotékový lístok zaradený. V korpuse, na rozdiel od kartotéky, sa spravidla uchovávajú úplné texty a vhodný vyhľadávací program nám umožňuje rýchlo vyhľadať výskyty akýchkoľvek zadaných slov a slovných spojení a umožňuje automatizovať ich následné vyhodnocovanie a spracovanie podľa rozličných aspektov. Najčastejším formátom, v ktorom používateľ dostáva informáciu z korpusu, je tzv. konkordancia hľadaného slova alebo slovného spojenia. Konkordancia slova má podobu súhrnu jeho výskytov v kontexte, ktorého povahu aj rozsah je možné voliť. Najčastejšie ide o jednoriadkový kontext (od začiatku do konca obrazovky), v ktorého strede je kľúčové slovo. Nie je technickým problémom vybudovať korpusy obsahujúce desiatky a stovky miliónov textových slov. Limitujúcim faktorom sú len finančné prostriedky. Zahraničné skúsenosti ukazujú, že jednozväzkový výkladový slovník obsahujúci 50 tisíc hesiel sa dá urobiť na základe 25 miliónov textových slov. Slovník stredného typu obsahujúci od 120 do 180 tisíc slov potrebuje minimálne 100 miliónový korpus. Je to preto, aby sa dosiahlo primerané množstvo výskytov (a teda dokladov použitia) na zriedkavé slová. Pri ručne vyhotovených kartotékach niekedy stačili na zaradenie do slovníka 2 – 3 doklady, aj od toho istého autora.

Korpusový manažér Bonito
Korpusový manažér Bonito - ukážka konkordancie s heslovým slovom internet

V ďalšej časti článku naznačíme niektoré súvislosti korpusu s počítačovou lingvistikou a informačnými technológiami. Povedali sme, že moderný výkladový a prekladový slovník je teda výsledkom jazykovednej analýzy korpusu ako špecifickej databázy plniacej úlohu elektronickej kartotéky. Ale elektronicky uložený text slovníka takisto predstavuje databázu svojho druhu a zdroj informácií na ďalší jazykovedný výskum. Elektronický slovník nemusí byť len pendantom papierovej verzie. Môže to byť aj samostatný lexikografický produkt. Ďalším zaujímavým výstupom elektronizácie jazykovedy sú lexikálne, prípadne terminologické databázy. Lexikálne databázy majú vysoko štruktúrovanú podobu, údaje sú spoľahlivo uložené, klasifikované, dá sa nimi manipulovať a dajú sa ľahko vyhľadať. Heslo databázy obsahuje oveľa viac parametrov ako obyčajný slovník.

Tvorba a využívanie textových korpusov, počítačových slovníkov, lexikálnych a terminologických databáz tvorí oblasť počítačovej lingvistiky nazývanej jazykové zdroje. Jazykové zdroje sa využívajú ako jazykové a jazykovedné dáta prístupné v rozličných formátoch (napr. v podobe slovníkového hesla, frekvenčného zoznamu rozličných slovných tvarov vyskytujúcich sa v korpuse, veľmi často v podobe konkordancie hľadaného slova.

Spomínali sme, že na prácu s korpusom je nevyhnutný softvér na rýchle vyhľadávanie jednotlivých slov a slovných spojení, ako aj na ich automatické vyhodnocovanie a spracovanie, napr. pomocou ich rozčlenenia do skupín s rovnakým kontextom. Iným nástrojom sú programy na automatizovanú morfologickú analýzu, ktoré v spolupráci s vyhľadávacím programom umožňujú lokalizovať aj výskyt hľadaných slov, ktoré v texte nie sú uvedené v základnom tvare nazývanom lema (napr. po zadaní kľúčového slova banka program vyhľadá aj spojenia s tvarmi banky, banke, bankou, bánk atď.). Určité programy dokážu interpretovať gramatický tvar všetkých slov korpuse (napr. pri tvare mier je značka interpretujúca tento reťazec grafém ako nominatív substantíva mužského rodu mier, genitív plurálu substantíva ženského rodu miera a imperatív slovesa mieriť), ďalej dokážu vyhľadať napr. všetky substantíva v genitíve plurálu s príponou -ár, prípadne postupnosť slov určitých gramatických tried (napr. slovesá s dvoma mennými doplneniami, z ktorých jedno je v akuzatíve a druhé v datíve). Aby programové nástroje mohli extrahovať informáciu z korpusu na úrovni gramatických tried slov a morfologických/syntaktických kategórií, je potrebné celý korpus takýmto typom informácie opatriť. Dodávanie lingvistickej informácie do korpusu sa volá lingvistická anotácia alebo značkovanie. Ako vyzerá označkovaný korpus? V rámci automatickej morfologickej analýzy bola každému slovesnému tvaru priradená informácia o slovnom druhu a hodnotách príslušných morfologických kategórií, ktorá má podobu kombinácie čísel a písmen. Takéto priradenie značky, ako sme videli pri tvare mier, však nebýva jednoznačné. Výstupom morfologickej analýzy je reťazec všetkých možných značiek pre daný tvar. Väčšina počítačových aplikácií však vyžaduje, aby slovný tvar mal priradenú len jednu značku, tú, ktorá je v danom kontexte jedine správna. Proces selekcie správnej značky je možné uskutočniť ručne alebo automaticky. Pod ručným značkovaním sa chápe proces, v priebehu ktorého anotátor identifikuje v zozname navrhnutých značiek práve jednu značku správnu pre daný jazykový kontext. Automatické značkovanie znamená, že program na základe určitej metódy pridelí tvaru jednoznačnú značku bez zásahu anotátora. Väčšina metód automatického značkovania vychádza z ručne označkovaného textu, z ktorého čerpajú informácie pre vlastnú morfologickú analýzu. Čerpanie informácie sa označuje ako trénovanie a označkované texty ako trénovacie dáta. Súbor ručne označkovaných viet na analyticko-syntaktickej rovine slúži ako trénovacie dáta na vytvorenie pravdepodobnostne (stochasticky) orientovanej syntaktickej analýzy jazyka a súčasne ako empirický podklad pre jazykovedné monografie a výučbu jazyka. Trénovacie a testovacie dáta nevyhnutné v procese vývoja jazykového softvéru takisto môže poskytnúť iba korpus. Treba otvorene povedať, že väčšina základných programových nástrojov gramatickej a sémantickej analýzy (lematizátor, derivačný procesor, parser, resp. syntaktický analyzátor, extraktor ustálených spojení) nie je v prípade slovenčiny vytvorená. Otvára sa tu široký priestor na prácu študentov a doktorandov z odboru matematiky, informatiky, prípadne umelej inteligencie a aj priestor na spoluprácu jazykovedných pracovísk a pracovísk z oblasti matematicko-fyzikálnych vied a informatiky. Perspektívne treba uvažovať aj o vybudovaní odboru počítačová lingvistika, ktorý by vyškolil odborníkov v oblasti jazykových technológií, bez ktorých si informačnú spoločnosť 21. storočia nevieme predstaviť.

Spomínané nástroje jazykovej analýzy tvoria nielen počítačovú podporu základného jazykovedného výskumu, ale často sú komponentom komplexnejších programových produktov, ktoré nazývame jazykové technológie, a využívajú sa tak v aplikovanej jazykovede (lexikografia, preklad a výučba jazykov), ako aj v iných odvetviach spoločenskej praxe. Ide o také produkty, ako používateľské rozhrania, systémy vyhľadávania metódou úplného textu (celotextové vyhľadávanie), programy na syntézu a analýzu rečového signálu, na generovanie administratívnych dokumentov, na automatické indexovanie a rešeršovanie, systémy počítačovej podpory prekladu, korektory pravopisu a štýlu, interaktívne jazykové učebnice a slovníky a pod. Jazykové technológie teda pokrývajú širokú škálu činností, ktorých cieľom je umožniť ľuďom extrahovať čo najviac informácií z jestvujúcich textov a použiť pri komunikácii s počítačom prirodzené jazykové zručnosti a návyky. Preto tvorba jazykových technológií je multidisciplinárnym podujatím vyžadujúcim znalosti z lingvistiky, psychológie, počítačových systémov a informatiky.

V našom informačnom veku hrajú jazykové technológie kľúčovú úlohu. Počet tých, ktorí získavajú informácie prostredníctvom počítačových sietí, je obmedzený najmä dvoma faktormi: prístupom k počítačom a rozsahom počítačovej gramotnosti. Pretože dôležitosť interaktívnych sietí rastie tak v oblasti obchodu ako aj v bežnom živote, stáva sa absencia počítačových zručností pre mnohých ľudí vážnym handicapom. Práve pokrok v oblasti jazykových technológií ponúka prakticky univerzálny prístup k službám a informáciám poskytovaným cez sieť. Možno konštatovať, že s nástupom informačnej spoločnosti úloha jazykovedy vzrastá, ale náš vzdelávací systém túto skutočnosť zatiaľ reflektuje len v obmedzenej miere.

Korpusy sú dnes vo svete prirodzenou súčasťou nielen jazykovedného výskumu a vývoja niektorých informačných systémov, ale aj kultúrnym fenoménom prístupným širokej verejnosti cez internet. Tvorba národného korpusu slovenského jazyka je aj súčasťou Koncepcie starostlivosti o štátny jazyk, ktorej garantom je Ministerstvo kultúry SR. Ide o to, že tento dokument sa zaoberá aj otázkami podpory štátu pri budovaní materiálno-technického vybavenia vedeckého pracoviska s kodifikačnou pôsobnosťou v oblasti spisovného jazyka.

V krajinách, v ktorých napreduje rozvoj jazykových zdrojov primerane, budovaním korpusu sa zaoberá buď špecializovaná inštitúcia, alebo aspoň početný pracovný kolektív. V prevažnej väčšine prípadov táto inštitúcia funguje na akademickej pôde. Keďže projekt Národného korpusu slovenského jazyka súvisí s realizáciou Koncepcie starostlivosti o štátny jazyk Slovenskej republiky, ktorej viaceré úlohy zabezpečuje Jazykovedný ústav Ľ. Štúra SAV, ako aj vzhľadom na fakt, že Jazykovedný ústav Ľ. Štúra už určité skúsenosti s budovaním textovej databázy má, utvorili sa predpoklady, aby pracovisko budujúce Národný korpus bolo samostatným oddelením v rámci tohto ústavu. Za toto riešenie hovoria aj ekonomicko-organizačné dôvody (usporené finančné prostriedky na obslužné činnosti). Národný korpus sa bude budovať 5 rokov a jeho plánovaná veľkosť je 200 mil. textových slov. Cieľom budovania plánovaného Národného korpusu je

Vzhľadom na závažnosť legislatívnej sféry sa ráta s vytvorením špecializovaného podkorpusu – databázy legislatívnych textov – s cieľom napomáhať – v spolupráci so zainteresovanými vládnymi orgánmi (napr. Legislatívnou radou vlády, pracoviskom Jednotného automatizovaného systému právnych informácií, Ústavom pre aproximáciu práva) – zvyšovanie terminologickej kultúry v oblasti právneho jazyka.

Ďalšie možnosti využívania Národného korpusu:

Polyfunkčnosť Národného korpusu zakladá veľmi dobré podmienky na širokú spoluprácu korpusového pracoviska s domácimi a zahraničnými akademickými inštitúciami pri riešení náročných vedeckovýskumných projektov v rámci programov EÚ. Pri spolupráci s domácimi vzdelávacími inštitúciami matematického a elektrotechnického smeru by sa pracovisko mohlo podieľať aj na doktorandskom štúdiu, pretože korpus umožní študentom z oblasti jazykových technológií vykonávať experimenty v rozsahu, ktorý doteraz nebol možný. Okrem textov bude súčasťou korpusu aj onomastický komponent obsahujúci súpisy mien a názvov, ako sú napr. vlastné osobné mená na Slovensku, názvy slovenských a zahraničných ustanovizní vyskytujúcich sa v heslári Encyklopédie Beliany a iné. Tento podkorpus bude obsahovať aj štandardné podoby

  1. názvov sídelných a nesídelných geografických objektov z územia Slovenskej republiky obsiahnuté v základných štátnych mapových dielach s mierkou 1:10 000 a menšou (dovedna cca 80 000 názvov),
  2. štandardné podoby názvov sídelných a nesídelných geografických objektov z územia mimo Slovenskej republiky a názvov mimozemských objektov (dovedna cca 3400 názvov), o ktorých štandardizácii rozhoduje v zmysle § 18 zákona Národnej rady Slovenskej republiky č. 215/1995 Z. z. o geodézii a kartografii Úrad geodézie, kartografie a katastra Slovenskej republiky.

Ďalším komponentom korpusu bude terminologická banka, v ktorej sa budú v podobe súpisov termínov a definícií registrovať výsledky činnosti terminologických komisií v jednotlivých rezortoch. Na získavanie jazykových zdrojov (elektronickej verzie vybraných publikácií) sa využijú jestvujúce mechanizmy kontaktov Ústrednej knižnice Slovenskej akadémie vied, vydavateľstva Slovenskej akadémie vied Veda, kontakty s vydavateľstvami neperiodickej tlače a firmami elektronicky archivujúcimi periodické publikácie.

V závere možno konštatovať, že cieľom vybudovania nášho textového korpusu je zachytenie slovenského jazyka v celej jeho šírke a vytvorenie objektívneho a autentického zdroja jazykovej informácie na tvorbu základných akademických diel a aktualizácia jestvujúcich jazykových príručiek. Ak si pripomenieme, akú úlohu hrá korpus v základnom jazykovednom výskume, v koncepcii starostlivosti o štátny jazyk a v jazykových technológiách, neprekvapí nás fakt, že je tak komponentom informatizácie našej spoločnosti a súčasne dôležitým predpokladom prežitia jazyka počtom malého národa v budúcej informačnej spoločnosti.