→English

Registrácia

Na získanie plného prístupu do databáz SNK je potrebná registrácia prostredníctvom vyplnenia webového REGISTRAČNÉHO FORMULÁRA. Po jeho vyplnení a odoslaní treba počkať niekoľko sekúnd, kým bude vo Vašom počítači vygenerovaný dokument Podmienky používania SNK, ktorý je potrebné podpísať a doručiť poštou alebo osobne na adresu:

 Slovenský národný korpus
 Jazykovedný ústav Ľ. Štúra SAV
 Panská 26
 811 01 Bratislava 1

Po jeho doručení Vám e-mailom pošleme prístupové údaje do SNK.

Vyhľadávanie v Slovenskom národnom korpuse

1. NoSketch Engine s dátami SNK

V Slovenskom národnom korpuse sa vyhľadáva pomocou nástroja NoSketch Engine (https://www.sketchengine.co.uk/). Pôvodne sa používal korpusový manažér Manatee s klientom Bonito vyvinutý na Fakulte informatiky Masarykovej univerzity v Brne. Webové rozhranie NoSketch Engine s dátami SNK je prístupné na adrese https://bonito.korpus.sk. Aby ste ho mohli používať, je nevyhnutné sa najprv zaregistrovať.

2. Jednoduché vyhľadávanie bez registrácie – WWW rozhranie

Jednoduché vyhľadávanie je možné aj bez registrácie prostredníctvom WWW rozhrania, ale s veľmi obmedzenými možnosťami: prístupné sú iba dva základné korpusy, bez možnosti zisťovania štatistických a iných údajov.

Ako citovať korpus

Verzie a podkorpusy SNK, ako i jednotlivé zdroje z nich citujte podľa nasledujúceho návodu.

Typy a značky anotácií textov SNK

Výber najčastejšie používaných metaznakov na vyhľadávanie

Metaznaky používame pri vyhľadávaní pomocou atribútu CQL, spôsob hľadania jedného tokenu je vždy záväzný a má tvar [atribút="hľadaný_token"], napr. [lemma="hlava"]. Regulárny výraz môžeme utvoriť aj pomocou kombinácie atribútov, napr. [word=".*ací" & tag!="A.*"] (vyhľadanie všetkých tvarov slov zakončených na -ací, ktoré nie sú adjektívami).

Znak v korpuse sa chápe ako ľubovoľný znak okrem medzery. Formulácia metaznak BODKA nahrádza ľubovoľný znak znamená, že bodka v tomto prípade nahrádza aj ľubovoľnú číslicu, interpunkčné znamienko, zátvorku a pod.

Nasledujúce príklady platia pre nástroje Bonito I, NoSketch Engine a Sketch Engine.

Metaznak

Význam metaznaku

Príklad použitia

Očakávaný výsledok vyhľadávania

.

BODKA nahrádza jeden ľubovoľný znak.

dom..

domov, domec

*

HVIEZDIČKA určuje, že znak, ktorý je pred hviezdičkou, sa opakuje ľubovoľný počet krát (aj nula krát).

hm*

h, hm, hmm, hmmm

+

PLUS určuje, že znak, ktorý je pred týmto regulárnym výrazom, sa opakuje raz alebo viackrát.

hm+

hm, hmm, hmmm...

{ }

ZLOŽENÉ ZÁTVORKY. V nich umiestnené číslo určuje, koľkokrát sa má regulárny výraz, resp. písmeno pred zátvorkami opakovať.

dom.{3}

domový, domček...

{m,n}

Do zátvoriek môžeme zapísať aj interval výskytu znaku stojaceho pred zátvorkami.

.{5,10}
hm{1,4}

ľubovoľné slová skladajúce sa z 5 až 10 písmen
hm, hmm, hmmm, hmmmm

|

ZVISLÁ ČIARA má funkciu operátora ALEBO.

dom|doma

dom, doma

[ ]

HRANATÉ ZÁTVORKY. Definuje sa v nich množina znakov, ktoré sa môžu vyskytovať v danom výraze na mieste zátvoriek. Množina sa určuje vymenovaním znakov, ktoré sa neoddeľujú čiarkou, alebo určením intervalu napr. a-z (interval zahŕňa sled znakov bez diakritiky).

[dsl]om
[r-v]ám

dom, som, lom
rám, sám, tám, uám, vám (ak sa takéto tokeny v korpuse vyskytujú)

( )

JEDNODUCHÉ ZÁTVORKY slúžia na zápis súboru požiadaviek na určitý znak vyhľadávaného výrazu pomocou regulárneho výrazu, resp. viacerých regulárnych výrazov.

(D|d)om
([Kk]|[Tt])am

Dom, dom
Kam, kam, Tam, tam

(?i)

Tento regulárny výraz spôsobí, že pri vyhľadávaní sa bude ignorovať rozlišovanie veľkých a malých písmen.

(?i)dom

Dom, dom

\

Obrátený znak LOMENÉ pred znakom regulárneho výrazu znamená, že sa daný znak nebude pri vyhľadávaní chápať ako regulárny výraz, ale ako jednotka textu.

napr\.

napr. (a nie napri, napre, naprd...)

?

Otáznik predstavuje žiaden alebo jeden výskyt predchádzajúceho znaku.

i?šlo

išlo, šlo

strieška

Strieška spôsobí, že sa pri vyhľadávaní bude ignorovať prvok, ktorý za ňou nasleduje.

SSfs^2

všetky feminína v singulári okrem genitívnych tvarov

&

Ampersand vyjadruje funkciu A SÚČASNE, ktorá umožňuje definovať viaceré hodnoty naraz.

[tag="SAms4" & lemma=".*ci"]

všetky substantíva s adjektívnou paradigmou, ktorých lema sa končí na -ci, napr. domáceho, kupujúceho, vedúceho

1. Kombinácia metaznakov

.*

.+

2. Podmienky používané pri vyhľadávaní v korpuse

2.1. within

Príklad

Význam

Očakávaný výsledok

[tag="S.*"]{2} within [tag="V.*"] []* [tag="V.*"]

Dve bezprostredne za sebou nasledujúce substantíva v skupine výrazov medzi dvoma slovesami

… že to všetko je vlastne vecou histórie , spoločenského poriadku , nanovo sa vo mne ozvali ...

[lemma="zelený"] within <doc auth="Vincent Šikula" />

Všetky lemy zelený v dielach Vincenta Šikulu

napr. Aký je zelený , — divili sa chlapci .

[lemma="hlava"] [lemma="deravý"] within <s/>

Zobrazenie spojení dvom lem hlava a deravý v rámci vety, (farebne zvýraznené sú len hľadané tokeny)

hlavách deravých, hlavy deravé

2.2. containing

Príklad

Význam

Očakávaný výsledok

<s/> containing [lemma="hlava"] [lemma="deravý"]

Zobrazenie celých viet, ktoré obsahujú lemy hlava a deravý

napr. Sňal si z hlavy deravý slamený širák , zotrel z čela pot .

[tag="V.*"] []{5} [tag="V.*"] containing [tag="S.*"]{3}

Zobrazenie celých 7-tokenových fráz obsahujúcich mennú skupinu zloženú z troch substantív stojacich bezprostredne za sebou, pričom frázy sú ohraničené slovesami

napr. vybral z vrecka balíček cigariet a podal

2.3. meet

Príklad

Význam

(meet [tag="S.*"] [tag="VL.*"] -3 3)

Zobrazenie substantíva, ktoré je obklopené slovesami v minulom čase v rozsahu pozícií -3 3

2.4. union

Príklad

Význam

(union (meet [lemma="hovoriť"] [lemma="pravda"] -4 4) (meet [lemma="vysloviť"] [lemma="lož"] -4 4))

Funkcia ALEBO pri vyhľadávaniach kolokácií pomocou funkcie podmienky meet, zobrazí sa len lema hovoriť alebo vysloviť

3. Všeobecné podmienky používané v SketchEngine

Príklad

Význam

Očakávaný výsledok

1:[] 2:[] & 1.tag = 2.tag

Všetky slová stojace vedľa seba, ktorých morfologické kategórie sú totožné.

napr. príliš automaticky, exkluzívne ekologické, až prakticky, celkom mimovoľne

1:[] 2:[] & 1.tag = 2.tag & f(1.tag) > 1000

Všetky slová stojace bezprostredne vedľa seba, ktoré majú rovnakú morfologickú značku, ale frekvencia prvej morfologickej značky musí byť viac ako 1000 v danom korpuse.

napr. udržateľný ekonomický, Ježišom Kristom, alebo ako, aj keď

Viac informácií o možnostiach vyhľadávania v nástroji Sketch Engine a NoSketch Engine nájdete tu.