Čo je korpus?

Korpus textov predstavuje špecifický súbor jazykových dát, ktorý sa buduje v elektronickej podobe. Jeho základom sú texty zvyčajne rôznych štýlov a žánrov, ku ktorým sa pridávajú lingvistické informácie na úrovni slova (textovej jednotky), vety aj celého textu. Výkonné vyhľadávacie nástroje umožňujú vyhľadávanie a triedenie skúmaných jazykových prostriedkov a informácií. Lingvisti na základe autentického jazykového materiálu opisujú významy a funkcie slov i ďalších jazykových javov, ich štatistiky, spájateľnosti a pod. Bežným používateľom jazyka môže korpus poslúžiť ako zdroj praktického poznania systému jazyka a overenia či doplnenia jednotlivých poznatkov o reálnom fungovaní jazykových prostriedkov v praxi. Korpus nie je elektronickou knižnicou (texty v ňom sa nedajú čítať ako jeden celok), ani nenahrádza kodifikačné či gramatické príručky.

Slovenský národný korpus je vedecko-výskumný projekt budovania elektronického korpusu textov, v prvej fáze so zameraním na písané texty súčasného slovenského jazyka (1955 – 2005). V druhej a tretej fáze sa rozširuje o texty z ďalších období (spred roka 1955 až do začiatkov spisovného obdobia a do predspisovného obdobia, ako aj po roku 2005) a sfér používania slovenského jazyka (hovorená slovenčina, podľa možností výberovo aj dialekty). V Jazykovednom ústave Ľ. Štúra Slovenskej akadémie vied, kde sa SNK začal v r. 2002 budovať s podporou Ministerstva kultúry SR a Ministerstva školstva, vedy, výskumu a športu SR, sa tak systematicky a komplexne spracúva slovenský jazyk a realizuje sa elektronizácia jazykovedného výskumu na Slovensku. Súčasne sa vytvárajú a využívajú všetky podmienky na počítačové spracovanie slovenčiny ako prirodzeného jazyka.

Na lepšiu orientáciu v pojmoch použite Výberový slovník termínov z korpusovej lingvistiky.

Aké sú typy korpusov?

Jednotlivé korpusy sa líšia viacerými parametrami, predovšetkým:

1. jazykom

- jednojazyčné korpusy – v súčasnosti existujú korpusy pre desiatky rôznych jazykov (národné korpusy) - dvoj- a viacjazyčné (paralelné) korpusy – rovnaké texty v dvoch alebo viacerých jazykoch (zvyčajne originál a preklad/preklady)

2. zaznamenanou formou jazyka

popri najčastejších korpusoch písaných textov existujú aj korpusy hovoreného jazyka

3. veľkosťou

prvé korpusy (do r. 1975) disponovali zvyčajne menej ako 1 miliónom slovných tvarov, v súčasnosti viaceré korpusové celky obsahujú miliardy slov

4. typom textov

korpusy môžu byť všeobecné (nešpecifické, základné, s cieľom postihnúť všetky jazykové prostriedky daného jazyka) alebo špecializované na určitý typ textov či jazykových javov (korpus textov jedného autora; korpus neformálnych prejavov; korpus najnovších textov s cieľom postihnúť neologizmy a pod.)

5. spôsobom uloženia

korpusy môžu byť uložené v základnej textovej podobe bez lingvistických informácií alebo lematizované (každé slovo má priradený základný, slovníkový tvar) a morfologicky, syntakticky, príp. sémanticky či štylisticky anotované

6. obdobím, z ktorého texty pochádzajú

korpusy konkrétneho jazyka v jeho súčasnej vývinovej fáze sa označujú ako synchrónne, prierez starších vývinových fáz zahŕňajú korpusy diachrónne

Jednou z dôležitých vlastností korpusov je ich reprezentatívnosť alebo vyváženosť. Reprezentatívne korpusy sa zameriavajú na prezentáciu národného jazyka v celom rozsahu, pri ich budovaní sa kladie veľký dôraz na zastúpenie rozličných jazykových variet, typov a žánrov textov z rozličných časových období a od rozličných autorov v presne (na základe sociolingvistických výskumov) stanovených rozsahoch. Vo vyváženom korpuse ide o rovnomerné zastúpenie textov podľa hlavných štýlov, ostatné parametre (žánre, vecné oblasti, autorské školy a pod.) sa zvyčajne iba registrujú.

Ako sa budujú korpusy?

Budovanie korpusu má viacero etáp:

Získavanie súhlasov na iné použitie diel. Korpusy budované na vedecko-výskumné účely sú založené na nekomerčnej báze a texty do nich sa získavajú v súlade s príslušným autorským zákonom podľa zmluvne dohodnutých podmienok s autormi, vydavateľstvami alebo inými držiteľmi autorských či distribučných práv.
Zber dát. Korpusový materiál sa získava najčastejšie priamo v elektronickej podobe, príp. prenesením z internetu, ale aj technickým spracovaním (OCR) alebo zriedkavejšie prepisovaním textov.
Spracovanie korpusových dát. V prvej fáze ide najmä o technické čistenie textov, teda odstraňovanie znakov a symbolov editorov a programov, v ktorých texty vznikli, o odstraňovanie grafických súčastí textu (obrázky, tabuľky, grafy a pod.) a prevod textov do jednotného formátu, ktorý zaznamenáva štruktúrne vlastnosti textu. Súčasťou konverzie textov do jednotného formátu je tokenizácia – segmentácia textu na najmenšie jednotky (tvary slov a iné znaky v texte – tokeny, čiže textové jednotky). V nasledujúcej fáze sa tokenizovaný text zvyčajne značkuje (tagging) – textu sa pridajú ďalšie dodatočné informácie, ako sú bibliografické údaje o príslušnom texte, informácie o štruktúre textu, jazykové informácie na úrovni slov (napr. slovný druh, základný tvar slova – lema), jazykové informácie na úrovni viet (funkcia vo vete, sémantika) a pod.

Ako sa využívajú korpusy?

Korpusy sa používajú v rôznych vedeckých výskumoch a aplikáciách, napr.:

1. Korpusová lingvistika

Odbor matematickej, konkr. počítačovej lingvistiky, ktorého predmetom sú jazykové fenomény zisťované na základe korpusov, teda na veľkom množstve reálnych textov, v ktorých sa slová a jazykové javy nachádzajú v prirodzených kontextoch. Na základe analýzy korpusových textov sa overujú doterajšie lingvistické teórie a môžu vzniknúť nové hypotézy a teórie. Najvýznamnejšou aplikačnou zložkou je lexikografické využitie: veľa korpusov sa budovalo a buduje na podporu tvorby slovníkov a lexikografi patria medzi najčastejších používateľov korpusov.

2. Počítačové spracovanie prirodzeného jazyka

Niektoré výsledky zo spracovania korpusov, ako sú zoznamy slov, spoločné výskyty slov (kolokácie), frekvencia slov atď., sa používajú aj v nelingvistických aplikáciách. Sem patria napr. systémy na spracovanie textov (automatická kontrola pravopisu či gramatiky, strojový preklad textov), systémy na rozpoznávanie reči atď.

3. Výučba jazykov

Korpus je dobrým zdrojom fráz a viet využiteľných pri výučbe cudzieho, ale aj materinského jazyka. Učebný počítačový program môže obsahovať klasický slovník spolu s menším korpusom, v ktorom sa dajú jednotlivé slová prezerať v kontexte, v akom sa reálne vyskytujú.