4. Plány Slovenského národného korpusu na roky 2003 – 2006

4.1. Ciele

4.1.1. Vybudovanie všeobecného jednojazyčného korpusu písaných textov súčasného slovenského jazyka (1955 – 2005) a sprístupnenie jeho reprezentatívnej časti v rozsahu 200 mil. slov na internete. Sprístupnená časť korpusu bude lematizovaná a morfologicky anotovaná, vybraná vzorka sa bude anotovať aj syntakticky.

4.1.2. Sprístupnenie celého súboru elektronicky spracovaných získaných textov bez lingvistických informácií pracovníkom JÚĽŠ SAV a externým spolupracovníkom v jeho priestoroch na vedecko-výskumné, predovšetkým lexikografické účely (rozsah bude podmienený technickými možnosťami a ústretovosťou poskytovateľov textov).

4.1.3. Budovanie špecifických korpusov / databáz

– terminologická databáza (v spolupráci s Ministerstvom spravodlivosti SR a rezortnými terminologickými komisiami); – databáza lexikografických diel (sprístupnenie lexikografickej produkcie JÚĽŠ SAV v elektronickej podobe na internete, príp. aj na CD nosičoch); – korpus diachrónnych textov a korpus nárečových textov (podľa potrieb pracovníkov v príslušných odboroch a podľa technických možností – náročné bude najmä optické rozpoznávanie starých tlačí či rukopisov a prepisy hovorenej reči); – paralelný/-é korpus/-y (najmä pre tzv. malé jazyky sú takéto korpusy dobrým nástrojom pre prekladateľov a tlmočníkov, ale aj dobrým prostriedkom na zviditeľňovanie a akceptáciu jazyka vo svete); – korpus hovorených prejavov (technická a časová náročnosť prepisu bude vyžadovať samostatné finančné i personálne zabezpečenie).

4.1.4. Tvorba príslušných programových nástrojov (archivovanie textov; evidenčná databáza; konverzie a filtrácie textov; lematizátor, morfologický anotátor), využívanie a adaptácia existujúcich programových nástrojov (syntaktický parser; korpusový manažér).

4.2. Etapy

2003

2004 – 2006

4.3. Textové zdroje

Zber dát bude sledovať princíp “čo najviac a čo najrozmanitejších textov”. Reprezentatívna vzorka písaných textov súčasného slovenského jazyka bude zostavená zhruba z jednej tretiny publicistických textov, jednej tretiny umeleckých textov a jednej tretiny odborných a populárno-náučných textov. Posledné dve skupiny by mali obsahovať približne po tretine preložených textov. Texty sa budú získavať predovšetkým v elektronickej podobe (bezprostredná súčasnosť), ale pokrytie produkcie predchádzajúcich desaťročí si bude vyžadovať manuálnu prácu pri skenovaní a prevode tlačených textov do elektronickej podoby, prípadne pri prepise textov do elektronickej podoby.

Literatúra

BENKO, Vladimír: Slovak Language Lexical Database. In: Computational Lexicography. Budapest: Research Institute for Linguistics Hungarian Academy of Sciences 1991, s. 5 – 8.

BENKO, Vladimír: Počítačové korpusy a analýza textu. In: Text a kontext. Zborník z medzinárodnej vedeckej konferencie. Text v priestore jazykovej komunikácie. Text v priestore literárnej komunikácie. Text v priestore didaktickej komunikácie. Prešov 18. – 19. novembra 1993. Red. F. Ruščák. Prešov: Pedagogická fakulta v Prešove Univerzity P. J. Šafárika v Košiciach 1993, s. 43 – 50.

BLANÁR, Vincent: Na záver sympózia o metódach výskumu a opisu lexiky slovanských jazykov. In: Metódy výskumu a opisu lexiky slovanských jazykov. Materiály zo sympózia konaného v rámci 7. zasadnutia Lexikologicko-lexikografickej komisie pri Medzinárodnom komitéte slavistov (Nové Vozokany 24. – 26. apríla 1989). Zost. V. Blanár. Bratislava: Jazykovedný ústav Ľ. Štúra SAV 1990, s. 289 – 292.

ČERMÁK, František: Jazykový korpus: prostředek a zdroj poznání. In: Studie z korpusové lingvistiky. Acta Universitatis Carolinae. Philologica 3 – 4. Praha: Univerzita Karlova – Nakladatelství Karolinum 2000, s. 15 – 37.

HORECKÝ, Ján: Projekt bázy dát slovenského jazyka. In: Metódy výskumu a opisu lexiky slovanských jazykov. Materiály zo sympózia konaného v rámci 7. zasadnutia Lexikologicko-lexikografickej komisie pri Medzinárodnom komitéte slavistov (Nové Vozokany 24. – 26. apríla 1989). Zost. V. Blanár. Bratislava: Jazykovedný ústav Ľ. Štúra SAV 1990, s. 251 – 253.

JAROŠOVÁ, Alexandra: Korpus textov slovenského jazyka. In: Slovenská reč, 1993, roč. 58, č. 2, s. 89 – 95.

LEECH, Geoffrey: The State of Art in Corpus Linguistics. In: English Corpus Linguistics. Studie in Honour of Jan Svartvik. London: Longman 1991, s. 8 – 29; český preklad V. Petkevič. In: Studie z korpusové lingvistiky. Acta Universitatis Carolinae. Philologica 3 – 4. Praha: Univerzita Karlova – Nakladatelství Karolinum 2000, s. 39 – 56.

Metódy výskumu a opisu lexiky slovanských jazykov. Materiály zo sympózia konaného v rámci 7. zasadnutia Lexikologicko-lexikografickej komisie pri Medzinárodnom komitéte slavistov (Nové Vozokany 24. – 26. apríla 1989). Zost. V. Blanár. Bratislava: Jazykovedný ústav Ľ. Štúra SAV 1990. 292 s.

Páleš, Emil: SAPFO. Parafrázovač slovenčiny. Bratislava: Veda 1994. 305 s.

Slovenčina a čeština v počítačovom spracovaní. Ed. A. Jarošová. Bratislava: Veda 2001. 196 s.

ŠIMKOVÁ, Mária: Možnosti využitia programu WordCruncher pri analýze textu (na báze Sládkovičovej a Kraskovej poézie a ľudových rozprávok). In: Text a kontext. Zborník z medzinárodnej vedeckej konferencie. Text v priestore jazykovej komunikácie. Text v priestore literárnej komunikácie. Text v priestore didaktickej komunikácie. Prešov 18. – 19. novembra 1993. Red. F. Ruščák. Prešov: Pedagogická fakulta v Prešove Univerzity P. J. Šafárika v Košiciach 1993, s. 51 – 58.

Šulc, Michal: Korpusová lingvistika. První vstup. Praha: Karolinum 1999. 94 s.

Text a kontext. Zborník z medzinárodnej vedeckej konferencie. Text v priestore jazykovej komunikácie. Text v priestore literárnej komunikácie. Text v priestore didaktickej komunikácie. Prešov 18. – 19. novembra 1993. Red. F. Ruščák. Prešov: Pedagogická fakulta v Prešove Univerzity P. J. Šafárika v Košiciach 1993. 291 s.

URL: http://korpus.juls.savba.sk