Referenčný korpus

Referenčný korpus prim-7.0-frk je podmnožinou hlavného korpusu prim-7.0-public-all, z ktorého bol vytvorený na základe štyroch hlavných kritérií vychádzajúcich z koncepcie Frekvenčného slovníka slovenčiny na báze Slovenského národného korpusu a z položiek bibliografickej a štýlovo-žánrovej anotácie SNK:

Rozsah korpusu prim-7.0-frk je 253 137 609 tokenov, celkový objem doň zahrnutých textov predstavuje 158 281 dokumentov. Korpus je lematizovaný a morfologicky anotovaný na základe tagsetu SNK, na anotáciu bol použitý tager MorphoDiTa s osobitným natrénovaním na rozpoznávanie vlastných mien.

Z referenčného korpusu prim-7.0-frk boli napočítané hodnoty pre Frekvenčný slovník slovenčiny na báze Slovenského národného korpusu a vybrané doklady uvedené v publikácii Skloňovanie podstatných mien v slovenčine s korpusovými príkladmi.