Corpusul paralel slovaco-român

Prima versiune, par-skro-fic-1.1, a fost dată spre folosință la 24 august 2017, fiind un corpus mic și experimental, care include aproximativ 1,3 milioane de entități (tokens) (603 111 în partea slovacă și 688 867 în partea românească).

Folosiți interfața web NoSketch Engine pentru a interoga textele în limba română și textele în limba slovacă.

Corpusul paralel slovaco-român este o bază de date care cuprinde trei texte literare traduse din română în slovacă și un document despre colaborarea între cele două state. Textele sunt aliniate la nivel de propoziție, în mod automat.

Textele în slovacă sunt adnotate morfologic în mod automat, prin intermediul instrumentului de etichetare MorphoDiTa, instruit și îmbunătățit datorită aplicării etichetelor aparținând Corpusului Național Slovac. Textele în limba română sunt adnotate prin intermediul TreeTagger.

Corpusul Național Slovac

Corpusul paralel slovaco-român