Къырымтатар тилининъ лингвистик корпусы

Мундеридже / Contents / Содержание

Къырымтатарджа

Авторы

  • Кубединова Ленара - В.И.Вернадский адындаки Таврия миллий университетининъ четэль филология факультетининъ инглиз тили ве эдибияты оджасы, украин тильшынас кафедрасынынъ аспиранты, Акъмесджит, Къырым, Украина. Тенъештирме фразеология боюнджа ильмий ишнен огъраша.
  • Radovan Garabík – Штура адындаки тильшынас институтнынъ Словак миллий корпусынынъ болюгинде мутехассыс Словак илим академиясы, Братислава, Словакия

Корпус акъкъында

«Къырымтатар тилининъ лингвистик корпусы» – земаневий къырымтатар язылув тилининъ корпусы. Корпус XXI асырнынъ башында дердж олунгъан газет метинлерден ибареттир. Корпус – бу малюмат-сорав системы, о электрон метинлер топламына эсаслана. Корпус – бу тильнинъ муайен девирде булунгъан алы ве севиесини косьтере. Тильшынаслар (лингвистлер) лингвистик корпусны ильмий теткъикъат ве тильге огретюв ичюн мейдангъа кетирелер.

Араштырув

Сорав интерфейсини ачмакъ ичюн басынъыз мында

Корпус кирилл элифбеси эсасында язылгъан метинлер ичюн ве бу себептен соравлар кирилл арифлеринен язылмакъ керек. Клавиатурада кирилл язувы олмаса, мумкюн экранда олгъан виртуаль клавиатуранен къулланмакъ(файдаланмакъ). Екяне яхут къошма токен бирикмелерини, эм де адий, адет узьре къулланылгъан ибарелерни де мында тапа билесинъиз. Бойле ибарелернинъ тафсилятлы тарифленмесини ашагъыда тапмакъ мумкюн: http://docs.python.org/lib/re-syntax.html

Мисаллер

  • Къырым - Къырым екяне токенине аит олгъан бутюн ибарелерни тапа биле;
  • Къырым.* - Къырым*нен башлангъан бутюн токенлерини, яни: *Къырым, Къырымгъа, Къырымнынъ, Къырымтатар ве иляхрелерни тапа биле;
  • къырымтатар тили ве эдебияты бу ибаренинъ бутюн къулланув вазиет ве шекиллерини тапа биле;
  • ...гъа 6 арифтен ибарет олгъан ве гъа аффиксинен биткен сёзлерни тапа биле;
  • асылында араштырув ишаретлер регистрининъ эсапкъа алынгъан алда япыла, регистрни эсапкъа алмамакъ ичюн ибаренинъ огюнде (?i) ишаретини къоймалы, яни (?i)къырымтатар къырымтатар ве Къырымтатар - эки шекилини де тапа биле

Араштырувнынъ нетиджеси

Араштырувнынъ нетиджеси KWIC (метининде эсас сёз)шекилинде такъдим этиле. Мында эр бир сатыр озюне хас мананы такъдим эте. Сол джедвельде эки сыра косьтерильген. Аит санына (корпуста весикъанынъ саны) баскъанда, аит весикъанынъ аннотациясы алына биле. ( ) ишаретке (экинджи сырада) баскъанда, экранда араштырув сынъырыны бельгилеген кенъ контекст чыкъарыла. Ашагъы сыра башлангъыч ве сонъки мевамыны (позицияны), аит олып чыкъкъан ибарелернинъ сайсыны ве саифеде олгъан бу ибарелернинъ сайысыны косьтере.

Статистика

Бугуньде корпус 521012 токенлерден (пунктуация ишаретлеринен берабер), яни 56752ге якъын словоформалардан ибарет. Энъ сыкъ расткельген сёзлер:

ве бир ичюн бу де да эди Бу сонъ озь деп Къырым олгъан сенеси о чокъ исе акъкъында эр онынъ

Айры адлы саифеде даа да зияде статистик малюматларыны тапмакъ мумкюн.

Сонъки денъишмелернинъ куню 2022-09-22.


English

Authors

  • Kubedinova Lenara - teacher of English language and literature, Department of Foreign Philology, post-graduate student, Department of Ukrainian Linguistics, Tavrida National University named by V.I.Vernadskiy, Simferopol, Crimea, Ukraine, is writing Ph.D. thesis on comparative phraseology.
  • Radovan Garabík works in the Slovak National Corpus department of the Ľ. Štúr Institute of Linguistics, Slovak Academy of Scieces, Bratislava, Slovakia.

About the corpus

“Linguistic corpus of Crimean Tatar language” is a general corpus of written contemporary Crimean Tatar language. It consists mostly of newspaper texts published at the beginning of XXI century.

Searching in the corpus

Click here to open the query interface or here to search via the NoSketch engine.

Corpus contains texts written in the cyrillic orthography, and the queries should be also written in cyrillic. To accommodate systems without cyrillic keyboard, on-screen virtual keyboard can be used to insert cyrillic characters into the query form. It is possible to search either for single tokens (words), sequences of tokens, or tokens matching given regular expressions. You can find a detailed description of regular expressions e.g. here: http://docs.python.org/lib/re-syntax.html

Examples

  • Къырым will find all the concordances of the single token Къырым
  • Къырым.* will find all the tokens starting with Къырым, e.g. Къырым, Къырымгъа, Къырымнынъ, Къырымтатар etc.
  • къырымтатар тили ве эдебияты will find all the occurrences of the phrase
  • ...гъа will find all the 6 letter long words ending with гъа
  • note that the search is case sensitive, to force case insensitivity, prefix the expression with (?i), e.g. (?i)къырымтатар will match both къырымтатар and Къырымтатар
  • (?i).*[^кгн]ъ.* matches all the words containing the hard sign ъ preceeded by a letter other that к, г, or н

Results

Results are presented in a KWIC (key word in context) form, with each line representing one concordance. At the leftmost table column, by clicking on the corresponding number (number of the document in the corpus) you can display annotation of the respective document, clicking on the ( ) mark in the second column displays wider context, with the search term highlighted. The bottom status line shows the starting and ending positions of the displayed concordances, total number of concordances and number of concordances displayed per page.

Statistics

Currently, the corpus contains 521012 tokens (including punctuation), which amounts to 56752 distinct wordforms. The most frequent words in the corpus are: ве бир ичюн бу де да эди Бу сонъ озь деп Къырым олгъан сенеси о чокъ исе акъкъында эр онынъ

You can find more statistical data on a separate page.

There is also a corpus of Latin orthography texts and a corpus of Crimean Tatar Wikipedia.

Last modified 2022-09-22.


По-русски

Авторы

  • Кубединова Ленара - преподаватель английского языка и литературы факультета иностранной филологии, аспирант кафедры украинского языкознания Таврического национального университета им. В.И.Вернадского, Симферополь, Крым, Украина. Пишет научную работу по сравнительной фразеологии.
  • Radovan Garabík - специалист в отделе Словацкого национального корпуса Института языкознания им. Л. Штура Словацкой академии наук, Братислава, Словакия.

О корпусе

«Лингвистический корпус крымскотатарского языка» – корпус современного письменного крымскотатарского языка. В состав корпуса входят преимущественно тексты из крымскотатарских газет начала XXIго века.

Поиск в корпусе

Нажмите Нажмите, чтобы открыть интерфейс для запроса. или здесь для NoSketch engine корпусного менеджера.

Корпус содержит тексты на кириллице, следовательно, запросы тоже должны вводится на кириллице. В случае отсутствия на клавиатуре кириллицы, вы можете использовать виртуальную клавиатуру на экране для введения символов на кириллице в окно запроса. Возможен поиск единичных токенов(слов), сочетаний (серий) токенов или токенов, соответствующих регулярным выражениям. Описание регулярных выражений можно найти здесь.

Примеры

  • Къырым найдет все соответствия с единичным токеном Къырым
  • Къырым.* найдет все токены начинающиеся с Къырым, т.е. Къырым, Къырымгъа, Къырымнынъ, Къырымтатар и т.д.
  • къырымтатар тили ве эдебияты найдет все случаи употребления данного выражения
  • ...гъа найдет все слова, состоящие из 6 букв и оканчивающихся на гъа
  • поиск производится с учетом регистра символов, для поиска без учета регистра перед выражением поставьте (?i), т.е. (?i)къырымтатар найдет оба варианта къырымтатар и Къырымтатар

Результаты поиска

Результаты поиска представлены в форме KWIC (ключевое слово в контексте), где каждая строка представляет одно соответствие. В левой таблице представлены две колонки: нажатием на соответствующий номер (номер документа в корпусе) вы можете получить аннотацию соответствующего документа, нажатием на значок ( ) во второй колонке выводит на экран более широкий контекст с выделенной границей поиска. Нижняя строка статуса показывает начальную и конечную позиции, общее количество соответствий и количество соответствий на странице.

Статистика

В настоящее время корпус содержит 521012 токенов (включая пунктуацию), что составляет около 56752 словоформ. Наиболее часто встречающиеся слова: ве бир ичюн бу де да эди Бу сонъ озь деп Къырым олгъан сенеси о чокъ исе акъкъында эр онынъ

Вы можете найти больше статистических данных на отдельной странице.

Дата последнего изменения 2022-09-22.