Budovanie Slovenského národného korpusu a elektronizácia jazykovedného výskumu na Slovensku (druhá a tretia etapa)
- Objednávateľ: Ministerstvo školstva, vedy, výskumu a športu SR, Ministerstvo kultúry SR, SAV
- Zmluva o spolupráci č. 0372/2012
Zodpovedná riešiteľka: PhDr. Mária Šimková, Ph.D.
- Doba riešenia: 2007 – 2011, 2012 – 2016
Rámcový harmonogram riešenia úloh
2007
Dokončenie ručnej lingvistickej anotácie: ručne morfologicky anotovaný korpus do rozsahu 1,2 mil. textových jednotiek, syntakticky anotovaný korpus do rozsahu 50 tis. viet. Vývoj príslušných nástrojov na automatizované spracúvanie slovenčiny ako prirodzeného jazyka (analyzátor a generátor tvarov slovenského jazyka, morfologický lematizátor, anotátor a dezambiguátor). Koncepcia korpusu hovorených komunikátov.
2008
Vybudovanie paralelného korpusu slovensko-českého a česko-slovenského v rozsahu min. 5 mil. textových jednotiek pre potreby koncipovania prekladového slovníka a porovnávacích výskumov. Vytvorenie príslušných nástrojov na zarovnávanie textov, automatizované označkovanie oboch textov a ich efektívne využívanie. Vytvorenie slovenského elektronického slovníka WordNet a integrácia do projektu EuroWordNet (sémantický slovník viacerých európskych jazykov). Zber a prepis dát pre hovorený korpus.
2009
Vytvorenie Frekvenčného slovníka súčasnej slovenčiny a Retrográdneho slovníka súčasnej slovenčiny na báze korpusu písaných textov. Prvá verzia Slovenskej terminologickej databázy. Zber a prepis dát pre hovorený korpus.
2010
Dobudovanie Slovenského národného korpusu z hľadiska reprezentatívneho zastúpenia štýlov, žánrov a časových období – cca 100 mil. textových jednotiek vo verzii SNK2010 s morfologickou anotáciou celého korpusu a syntaktickou anotáciou vybraných textov. Zber a prepis dát pre hovorený korpus.
2011
Nová verzia všeobecného korpusu písaných textov v rozsahu 600 mil. textových jednotiek. Vybudovanie a sprístupnenie pilotného korpusu hovorených komunikátov v rozsahu cca 2 mil. textových jednotiek.
2012
Koncepcia tvorby a anotácie historického korpusu v kooperácii s Oddelením dejín slovenčiny, onomastiky a etymológie JÚĽŠ SAV. Sprístupnenie pilotnej verzie historického korpusu. Vybudovanie a sprístupnenie paralelného slovensko-latinského korpusu. Sprístupnenie novej rozšírenej verzie Slovenského národného korpusu, webového korpusu slovenčiny a Slovenského hovoreného korpusu. Vydanie príručky korpusovej lingvistiky.
2013
Koncepcia tvorby a anotácie nárečového korpusu v kooperácii s Dialektologickým oddelením JÚĽŠ SAV. Sprístupnenie pilotnej verzie nárečového korpusu. Sprístupnenie novej verzie slovenského elektronického slovníka WordNet. Tvorba a vydanie gramatických príručiek s plnými paradigmami podstatných mien a slovies (pre školu a prax, ako aj pre cudzincov učiacich sa po slovensky). Dokončenie Frekvenčného slovníka súčasnej slovenčiny.
2014
Vybudovanie a sprístupnenie paralelného slovensko-nemeckého a slovensko-maďarského korpusu. Sprístupnenie novej verzie nárečového a historického korpusu a rozšírenej verzie Slovenského hovoreného korpusu. Vybudovanie a sprístupnenie korpusu slovenských textov spred r. 1955. Sprístupnenie rozšírenej verzie Slovenskej terminologickej databázy. Príprava finálnej podoby adjektívnej časti Slovníka spájateľnosti v slovenčine.
2015
Sprístupnenie novej rozšírenej verzie Slovenského národného korpusu a webového korpusu slovenčiny. Príprava slovesnej časti Slovníka spájateľnosti v slovenčine. Finálna podoba Retrográdneho slovníka súčasnej slovenčiny.
2016
Sprístupnenie rozšírenej verzie nárečového korpusu, historického korpusu a Slovenského hovoreného korpusu. Sprístupnenie rozšírenej verzie Slovenskej terminologickej databázy. Príprava Frekvenčného slovníka hovorenej slovenčiny. Príprava monografie o dynamike súčasnej slovenčiny na základe korpusových dát.
Priebežne v r. 2007 – 2011
Dopĺňanie všeobecného korpusu aktuálnymi textami pre potreby koncipovania výkladového Slovníka súčasného slovenského jazyka a pre potreby prípravy ďalších lexikografických a gramatických príručiek (napr. Pravidlá slovenského pravopisu, morfologické a syntaktické opisy slovenského jazyka, valenčný slovník) – min. 600 mil. textových jednotiek do roku 2011. Dolaďovanie a dopĺňanie ručne lingvisticky anotovaných podkorpusov, morfologického slovníka a príslušných nástrojov. Zhromažďovanie a spracúvanie odborných textov na prípravu databázy termínov vybraných vedných odborov, dopĺňanie terminologickej databázy. Sprístupňovanie celej elektronickej databázy na internete na vedecko-výskumné a učebné využitie pre slovenských i zahraničných bádateľov. Zabezpečovanie korpusu efektívnymi a aktuálnymi vyhľadávacími nástrojmi vhodnými na lingvistické využitie i počítačové spracovanie prirodzeného jazyka.
Priebežne v r. 2012 – 2016
Dopĺňanie všeobecného korpusu a paralelných korpusov aktuálnymi textami. Dopĺňanie morfologického slovníka, skvalitňovanie anotácií, anotačných a vyhľadávacích nástrojov. Zhromažďovanie a spracúvanie odborných textov pre databázu termínov vybraných vedných odborov, dopĺňanie Slovenskej terminologickej databázy. Zhromažďovanie a prepisovanie zvukových záznamov do Slovenského hovoreného korpusu a nárečového korpusu. Technické a lingvistické spracúvanie originálnych zdrojov do historického korpusu. Zabezpečovanie korpusov a databáz efektívnymi a aktuálnymi nástrojmi vhodnými na lingvistické využitie i počítačové spracovanie prirodzeného jazyka.