Registrácia
Na získanie plného prístupu do databáz SNK je potrebná registrácia prostredníctvom vyplnenia webového REGISTRAČNÉHO FORMULÁRA. Po jeho vyplnení a odoslaní treba počkať niekoľko sekúnd, kým bude vo Vašom počítači vygenerovaný dokument Podmienky používania SNK, ktorý je potrebné podpísať a doručiť poštou alebo osobne na adresu:
Slovenský národný korpus Jazykovedný ústav Ľ. Štúra SAV Panská 26 811 01 Bratislava 1
Po jeho doručení Vám e-mailom pošleme prístupové údaje do SNK.
Vyhľadávanie v Slovenskom národnom korpuse
1. NoSketch Engine s dátami SNK
V Slovenskom národnom korpuse sa vyhľadáva pomocou nástroja NoSketch Engine (https://www.sketchengine.co.uk/). Pôvodne sa používal korpusový manažér Manatee s klientom Bonito vyvinutý na Fakulte informatiky Masarykovej univerzity v Brne. Webové rozhranie NoSketch Engine s dátami SNK je prístupné na adrese https://bonito.korpus.sk. Aby ste ho mohli používať, je nevyhnutné sa najprv zaregistrovať.
2. Jednoduché vyhľadávanie bez registrácie – WWW rozhranie
Jednoduché vyhľadávanie je možné aj bez registrácie prostredníctvom WWW rozhrania, ale s veľmi obmedzenými možnosťami: prístupné sú iba dva základné korpusy, bez možnosti zisťovania štatistických a iných údajov.
Ako citovať korpus
Verzie a podkorpusy SNK, ako i jednotlivé zdroje z nich citujte podľa nasledujúceho návodu.
Typy a značky anotácií textov SNK
Výber najčastejšie používaných metaznakov na vyhľadávanie
Metaznaky používame pri vyhľadávaní pomocou atribútu CQL, spôsob hľadania jedného tokenu je vždy záväzný a má tvar [atribút="hľadaný_token"], napr. [lemma="hlava"]. Regulárny výraz môžeme utvoriť aj pomocou kombinácie atribútov, napr. [word=".*ací" & tag!="A.*"] (vyhľadanie všetkých tvarov slov zakončených na -ací, ktoré nie sú adjektívami).
Znak v korpuse sa chápe ako ľubovoľný znak okrem medzery. Formulácia metaznak BODKA nahrádza ľubovoľný znak znamená, že bodka v tomto prípade nahrádza aj ľubovoľnú číslicu, interpunkčné znamienko, zátvorku a pod.
Nasledujúce príklady platia pre nástroje Bonito I, NoSketch Engine a Sketch Engine.
Metaznak |
Význam metaznaku |
Príklad použitia |
Očakávaný výsledok vyhľadávania |
. |
BODKA nahrádza jeden ľubovoľný znak. |
dom.. |
domov, domec |
* |
HVIEZDIČKA určuje, že znak, ktorý je pred hviezdičkou, sa opakuje ľubovoľný počet krát (aj nula krát). |
hm* |
h, hm, hmm, hmmm |
+ |
PLUS určuje, že znak, ktorý je pred týmto regulárnym výrazom, sa opakuje raz alebo viackrát. |
hm+ |
hm, hmm, hmmm... |
{ } |
ZLOŽENÉ ZÁTVORKY. V nich umiestnené číslo určuje, koľkokrát sa má regulárny výraz, resp. písmeno pred zátvorkami opakovať. |
dom.{3} |
domový, domček... |
{m,n} |
Do zátvoriek môžeme zapísať aj interval výskytu znaku stojaceho pred zátvorkami. |
.{5,10} |
ľubovoľné slová skladajúce sa z 5 až 10 písmen |
| |
ZVISLÁ ČIARA má funkciu operátora ALEBO. |
dom|doma |
dom, doma |
[ ] |
HRANATÉ ZÁTVORKY. Definuje sa v nich množina znakov, ktoré sa môžu vyskytovať v danom výraze na mieste zátvoriek. Množina sa určuje vymenovaním znakov, ktoré sa neoddeľujú čiarkou, alebo určením intervalu napr. a-z (interval zahŕňa sled znakov bez diakritiky). |
[dsl]om |
dom, som, lom |
( ) |
JEDNODUCHÉ ZÁTVORKY slúžia na zápis súboru požiadaviek na určitý znak vyhľadávaného výrazu pomocou regulárneho výrazu, resp. viacerých regulárnych výrazov. |
(D|d)om |
Dom, dom |
(?i) |
Tento regulárny výraz spôsobí, že pri vyhľadávaní sa bude ignorovať rozlišovanie veľkých a malých písmen. |
(?i)dom |
Dom, dom |
\ |
Obrátený znak LOMENÉ pred znakom regulárneho výrazu znamená, že sa daný znak nebude pri vyhľadávaní chápať ako regulárny výraz, ale ako jednotka textu. |
napr\. |
napr. (a nie napri, napre, naprd...) |
? |
Otáznik predstavuje žiaden alebo jeden výskyt predchádzajúceho znaku. |
i?šlo |
išlo, šlo |
strieška |
Strieška spôsobí, že sa pri vyhľadávaní bude ignorovať prvok, ktorý za ňou nasleduje. |
SSfs^2 |
všetky feminína v singulári okrem genitívnych tvarov |
& |
Ampersand vyjadruje funkciu A SÚČASNE, ktorá umožňuje definovať viaceré hodnoty naraz. |
[tag="SAms4" & lemma=".*ci"] |
všetky substantíva s adjektívnou paradigmou, ktorých lema sa končí na -ci, napr. domáceho, kupujúceho, vedúceho |
1. Kombinácia metaznakov
.*
- Kombinácia BODKA HVIEZDIČKA nahrádza ľubovoľný znak ľubovoľný početkrát. Výsledkom vyhľadávania zápisu .*istá budú slová zakončené sufixom -istá, ale aj samotné slovo istá.
.+
- Kombinácia BODKA PLUS sa používa pri vyhľadávaní slov s určitým prefixom, sufixom, skupinou písmen a pod. Výsledok vyhľadávania zápisu za.+ zobrazí všetky slová začínajúce sa písmenami za- (okrem slova za). Pri zápise vyhľadávaného výrazu môže byť regulárny výraz použitý na ľubovoľnom mieste. Napríklad pomocou zápisu za.+ík možno nájsť všetky slová začínajúce sa písmenami za- a končiace sa na -ík. Naopak, zápisom .*koreň.* možno nájsť všetky slová s bázou koreň. Dodatočnou úpravou tohto zápisu na .*kore(ň|n).* sa vo výsledku vyhľadávania nájdu i slová obsahujúce alternáciu v danej báze (napríklad i slová koreniny, vykorenený).
2. Podmienky používané pri vyhľadávaní v korpuse
2.1. within
Príklad |
Význam |
Očakávaný výsledok |
[tag="S.*"]{2} within [tag="V.*"] []* [tag="V.*"] |
Dve bezprostredne za sebou nasledujúce substantíva v skupine výrazov medzi dvoma slovesami |
… že to všetko je vlastne vecou histórie , spoločenského poriadku , nanovo sa vo mne ozvali ... |
[lemma="zelený"] within <doc auth="Vincent Šikula" /> |
Všetky lemy zelený v dielach Vincenta Šikulu |
napr. Aký je zelený , — divili sa chlapci . |
[lemma="hlava"] [lemma="deravý"] within <s/> |
Zobrazenie spojení dvom lem hlava a deravý v rámci vety, (farebne zvýraznené sú len hľadané tokeny) |
hlavách deravých, hlavy deravé |
2.2. containing
Príklad |
Význam |
Očakávaný výsledok |
<s/> containing [lemma="hlava"] [lemma="deravý"] |
Zobrazenie celých viet, ktoré obsahujú lemy hlava a deravý |
napr. Sňal si z hlavy deravý slamený širák , zotrel z čela pot . |
[tag="V.*"] []{5} [tag="V.*"] containing [tag="S.*"]{3} |
Zobrazenie celých 7-tokenových fráz obsahujúcich mennú skupinu zloženú z troch substantív stojacich bezprostredne za sebou, pričom frázy sú ohraničené slovesami |
napr. vybral z vrecka balíček cigariet a podal |
2.3. meet
Príklad |
Význam |
(meet [tag="S.*"] [tag="VL.*"] -3 3) |
Zobrazenie substantíva, ktoré je obklopené slovesami v minulom čase v rozsahu pozícií -3 3 |
2.4. union
Príklad |
Význam |
(union (meet [lemma="hovoriť"] [lemma="pravda"] -4 4) (meet [lemma="vysloviť"] [lemma="lož"] -4 4)) |
Funkcia ALEBO pri vyhľadávaniach kolokácií pomocou funkcie podmienky meet, zobrazí sa len lema hovoriť alebo vysloviť |
3. Všeobecné podmienky používané v SketchEngine
Príklad |
Význam |
Očakávaný výsledok |
1:[] 2:[] & 1.tag = 2.tag |
Všetky slová stojace vedľa seba, ktorých morfologické kategórie sú totožné. |
napr. príliš automaticky, exkluzívne ekologické, až prakticky, celkom mimovoľne |
1:[] 2:[] & 1.tag = 2.tag & f(1.tag) > 1000 |
Všetky slová stojace bezprostredne vedľa seba, ktoré majú rovnakú morfologickú značku, ale frekvencia prvej morfologickej značky musí byť viac ako 1000 v danom korpuse. |
napr. udržateľný ekonomický, Ježišom Kristom, alebo ako, aj keď |
Viac informácií o možnostiach vyhľadávania v nástroji Sketch Engine a NoSketch Engine nájdete tu.