4. Plány Slovenského národného korpusu na roky 2003 – 2006
4.1. Ciele
4.1.1. Vybudovanie všeobecného jednojazyčného korpusu písaných textov súčasného slovenského jazyka (1955 – 2005) a sprístupnenie jeho reprezentatívnej časti v rozsahu 200 mil. slov na internete. Sprístupnená časť korpusu bude lematizovaná a morfologicky anotovaná, vybraná vzorka sa bude anotovať aj syntakticky.
4.1.2. Sprístupnenie celého súboru elektronicky spracovaných získaných textov bez lingvistických informácií pracovníkom JÚĽŠ SAV a externým spolupracovníkom v jeho priestoroch na vedecko-výskumné, predovšetkým lexikografické účely (rozsah bude podmienený technickými možnosťami a ústretovosťou poskytovateľov textov).
4.1.3. Budovanie špecifických korpusov / databáz
– terminologická databáza (v spolupráci s Ministerstvom spravodlivosti SR a rezortnými terminologickými komisiami); – databáza lexikografických diel (sprístupnenie lexikografickej produkcie JÚĽŠ SAV v elektronickej podobe na internete, príp. aj na CD nosičoch); – korpus diachrónnych textov a korpus nárečových textov (podľa potrieb pracovníkov v príslušných odboroch a podľa technických možností – náročné bude najmä optické rozpoznávanie starých tlačí či rukopisov a prepisy hovorenej reči); – paralelný/-é korpus/-y (najmä pre tzv. malé jazyky sú takéto korpusy dobrým nástrojom pre prekladateľov a tlmočníkov, ale aj dobrým prostriedkom na zviditeľňovanie a akceptáciu jazyka vo svete); – korpus hovorených prejavov (technická a časová náročnosť prepisu bude vyžadovať samostatné finančné i personálne zabezpečenie).
4.1.4. Tvorba príslušných programových nástrojov (archivovanie textov; evidenčná databáza; konverzie a filtrácie textov; lematizátor, morfologický anotátor), využívanie a adaptácia existujúcich programových nástrojov (syntaktický parser; korpusový manažér).
4.2. Etapy
2003
- Vypracovanie koncepcie Slovenského národného korpusu Zber dát, nadväzovanie kontaktov s poskytovateľmi textov; evidenčná databáza Testovanie existujúcich programových nástrojov, výber a aplikácia najvyhovujúcejších Sprístupnenie reprezentatívnej čiastočne anotovanej vzorky textov (30 mil. slov) na internete Formulácia pravidiel morfosyntaktickej anotácie a morfologickej dezambiguácie pre slovenčinu Terminologická databáza v spolupráci s MS SR
2004 – 2006
- Dopĺňanie písaných textov súčasného slovenského jazyka na reprezentatívny rozsah 200 mil. slov Vývoj a využitie vlastných programových nástrojov na základnú lingvistickú anotáciu Korpus nárečových a diachrónnych textov Paralelný korpus Využitie lingvisticky anotovaných textov Slovenského národného korpusu pri tvorbe gramatiky založenej na korpuse
4.3. Textové zdroje
Zber dát bude sledovať princíp “čo najviac a čo najrozmanitejších textov”. Reprezentatívna vzorka písaných textov súčasného slovenského jazyka bude zostavená zhruba z jednej tretiny publicistických textov, jednej tretiny umeleckých textov a jednej tretiny odborných a populárno-náučných textov. Posledné dve skupiny by mali obsahovať približne po tretine preložených textov. Texty sa budú získavať predovšetkým v elektronickej podobe (bezprostredná súčasnosť), ale pokrytie produkcie predchádzajúcich desaťročí si bude vyžadovať manuálnu prácu pri skenovaní a prevode tlačených textov do elektronickej podoby, prípadne pri prepise textov do elektronickej podoby.
Literatúra
BENKO, Vladimír: Slovak Language Lexical Database. In: Computational Lexicography. Budapest: Research Institute for Linguistics Hungarian Academy of Sciences 1991, s. 5 – 8.
BENKO, Vladimír: Počítačové korpusy a analýza textu. In: Text a kontext. Zborník z medzinárodnej vedeckej konferencie. Text v priestore jazykovej komunikácie. Text v priestore literárnej komunikácie. Text v priestore didaktickej komunikácie. Prešov 18. – 19. novembra 1993. Red. F. Ruščák. Prešov: Pedagogická fakulta v Prešove Univerzity P. J. Šafárika v Košiciach 1993, s. 43 – 50.
BLANÁR, Vincent: Na záver sympózia o metódach výskumu a opisu lexiky slovanských jazykov. In: Metódy výskumu a opisu lexiky slovanských jazykov. Materiály zo sympózia konaného v rámci 7. zasadnutia Lexikologicko-lexikografickej komisie pri Medzinárodnom komitéte slavistov (Nové Vozokany 24. – 26. apríla 1989). Zost. V. Blanár. Bratislava: Jazykovedný ústav Ľ. Štúra SAV 1990, s. 289 – 292.
ČERMÁK, František: Jazykový korpus: prostředek a zdroj poznání. In: Studie z korpusové lingvistiky. Acta Universitatis Carolinae. Philologica 3 – 4. Praha: Univerzita Karlova – Nakladatelství Karolinum 2000, s. 15 – 37.
HORECKÝ, Ján: Projekt bázy dát slovenského jazyka. In: Metódy výskumu a opisu lexiky slovanských jazykov. Materiály zo sympózia konaného v rámci 7. zasadnutia Lexikologicko-lexikografickej komisie pri Medzinárodnom komitéte slavistov (Nové Vozokany 24. – 26. apríla 1989). Zost. V. Blanár. Bratislava: Jazykovedný ústav Ľ. Štúra SAV 1990, s. 251 – 253.
JAROŠOVÁ, Alexandra: Korpus textov slovenského jazyka. In: Slovenská reč, 1993, roč. 58, č. 2, s. 89 – 95.
LEECH, Geoffrey: The State of Art in Corpus Linguistics. In: English Corpus Linguistics. Studie in Honour of Jan Svartvik. London: Longman 1991, s. 8 – 29; český preklad V. Petkevič. In: Studie z korpusové lingvistiky. Acta Universitatis Carolinae. Philologica 3 – 4. Praha: Univerzita Karlova – Nakladatelství Karolinum 2000, s. 39 – 56.
Metódy výskumu a opisu lexiky slovanských jazykov. Materiály zo sympózia konaného v rámci 7. zasadnutia Lexikologicko-lexikografickej komisie pri Medzinárodnom komitéte slavistov (Nové Vozokany 24. – 26. apríla 1989). Zost. V. Blanár. Bratislava: Jazykovedný ústav Ľ. Štúra SAV 1990. 292 s.
Páleš, Emil: SAPFO. Parafrázovač slovenčiny. Bratislava: Veda 1994. 305 s.
Slovenčina a čeština v počítačovom spracovaní. Ed. A. Jarošová. Bratislava: Veda 2001. 196 s.
ŠIMKOVÁ, Mária: Možnosti využitia programu WordCruncher pri analýze textu (na báze Sládkovičovej a Kraskovej poézie a ľudových rozprávok). In: Text a kontext. Zborník z medzinárodnej vedeckej konferencie. Text v priestore jazykovej komunikácie. Text v priestore literárnej komunikácie. Text v priestore didaktickej komunikácie. Prešov 18. – 19. novembra 1993. Red. F. Ruščák. Prešov: Pedagogická fakulta v Prešove Univerzity P. J. Šafárika v Košiciach 1993, s. 51 – 58.
Šulc, Michal: Korpusová lingvistika. První vstup. Praha: Karolinum 1999. 94 s.
Text a kontext. Zborník z medzinárodnej vedeckej konferencie. Text v priestore jazykovej komunikácie. Text v priestore literárnej komunikácie. Text v priestore didaktickej komunikácie. Prešov 18. – 19. novembra 1993. Red. F. Ruščák. Prešov: Pedagogická fakulta v Prešove Univerzity P. J. Šafárika v Košiciach 1993. 291 s.