Webový korpus
1. Aktuálna verzia
Aktuálna verzia web-6.0 bola vytvorená 26. 3. 2022 a sprístupnená 15. 6. 2022 v rozsahu 4 373 231 228 tokenov.
Korpus je založený na dátach beta verzie korpusu Araneum Slovacum VI Maximum (22.01) z projektu Aranea. Tokenizované a segmentované dáta boli ďalej lematizované a morfologicky označkované tagerom MorphoDiTa natrénovaným v SNK na báze tagsetu používaného aj pri písaných korpusoch. Pri textoch sú uvedené základné informácie o ich url a čase získania.
1.1. Tvorcovia
- Podkladový korpus
Vladimír Benko
- Nástroje na spracovanie korpusu
Radovan Garabík
Ivor Uhliarik
2. Staršie verzie korpusu
2.1. Verzia 5.0
Verzia web-5.0 bola sprístupnená 27. 1. 2020 v rozsahu 4 042 363 283 tokenov.
Zdrojom tejto verzie sú dáta z korpusu Araneum Slovacum V Maximum (20.01) vytvoreného v rámci projektu Aranea, ktoré boli tokenizované, segmentované, lematizované a morfologicky označkované štruktúrou a značkami v zásade kompatibilnými s písanými korpusmi SNK tagerom MorphoDiTa natrénovaným v SNK na báze tagsetu vypracovaného v Slovenskom národnom korpuse. Pri textoch sú uvedené základné informácie o ich url a čase získania.
2.1.1. Tvorcovia
- Podkladový korpus
Vladimír Benko
- Návrh a spracovanie korpusu
Radovan Garabík
Ivor Uhliarik
- Výsledné spracovanie korpusu
Ivor Uhliarik
- Text na stránke
Mária Šimková
2.2. Verzia 4.0
Verzia web-4.0 bola sprístupnená 31. 1. 2018 v rozsahu 2 963 462 451 tokenov.
Korpus založený na slovenských textoch z projektu Araneum bol lematizovaný a morfologicky anotovaný tagerom MorphoDiTa natrénovaným v SNK na báze tagsetu vypracovaného v Slovenskom národnom korpuse. Pri textoch sú uvedené základné informácie o ich url a čase získania.
2.2.1. Tvorcovia
- Podkladový korpus
Vladimír Benko
- Návrh a spracovanie korpusu
Radovan Garabík
2.3. Verzia 3.0
Verzia web-3.0 bola sprístupnená 6. 3. 2015 v rozsahu 2 372 769 958 tokenov.
Webový korpus obsahoval slovenské texty dostupné na WWW a poskytnuté SNK v r. 2010 pracovníkmi Fakulty informatiky MU v Brne, ktoré boli základom prvej verzie (988 474 323 tokenov pred odstránením duplicít a neodfiltrovaných českých textov), slovenské texty získané z webu v r. 2011 – 2012 v SNK (489 869 717 tokenov po odstránení duplicít a cudzojazyčných textov) a slovenské texty z projektu Araneum (3 221 914 708 tokenov pred odstránením duplicít a cudzojazyčných textov).
Korpus bol ďalej spracovaný v rámci projektu SNK, je lematizovaný a morfologicky anotovaný, pri textoch je uvedená informácia o ich zdroji. K dispozícii sú zoznamy tisíc najčastejších slovných tvarov a lem.
2.3.1. Tvorcovia
- Podkladový korpus
Vladimír Benko
- Návrh a spracovanie korpusu
Radoslav Brída
Radovan Garabík
2.4. Verzia 2.0
Verzia web-2.0 z 28. 3. 2012 mala veľkosť 1 045 558 148 tokenov.
K dispozícii sú zoznamy tisíc najčastejších slovných tvarov a lem, ako aj úplné zoznamy podľa frekvencie.
2.4.1. Tvorcovia
- Návrh a spracovanie korpusu
Radoslav Brída
Radovan Garabík
2.5. Verzia 1.0
Verzia web-1.0 z r. 2011 bola utvorená v spolupráci s pracovníkmi Fakulty informatiky Masarykovej univerzity v Brne a obsahovala 952 095 260 tokenov.
2.5.1. Tvorcovia
- Podkladové dáta
Fakulta informatiky Masarykovej univerzity v Brne
- Návrh a spracovanie korpusu
Radovan Garabík