ТЕСЛА Обрада српског језика као помоћ у лексикографском раду, 27. мај 2024. Конференција Лексикографски сусрети
Радионица је намењена свима које интересују савремене технике и методе у обради природних језика, посебно оне које могу помоћи у лингвистичким истраживањима и лексикографском раду. Како је радионица је првенствено намењена обради српског језика, полазници ће се прво упознати с ресурсима и алатима које је за српски језик развило Друштво за језичке ресурсе и технологије ЈеРТех, укључујући оне који се заснивају на векторској репрезентацији речи а који настају у склопу пројекта ТЕСЛА Фонда за науку Републике Србије.
Циљ радионице је да покаже полазницима како могу да користе једнојезичне и двојезичне корпусе Јертех-а, а потом и да креирају сопствене корпусе. Практичне вежбе обухватају постављање упита над корпусима, претрагу обележених ентитета, као и вишејезичну претрагу паралелних корпуса. Други део радионице је посвећен креирању и текстометријској анализи сопствених корпуса коришћењем алата TXM. За вежбе су припремљени текстови из корпуса српских романа (1840–1920) SrpELTeC и италијанско-српског корпуса књижевних текстова It-Sr-NER.
Материјал са радионице:
Организатори:
- Ранка Станковић (Универзитет у Београду – Рударско-геолошки факултет)
- Биљана Рујевић (Универзитет у Београду – Рударско-геолошки факултет)
- Михаило Шкорић (Универзитет у Београду – Рударско-геолошки факултет)
- Цветана Крстев (Друштво за језичке ресурсе и технологије – ЈеРТех)
- Душко Витас (Друштво за језичке ресурсе и технологије – ЈеРТех)
Датум:
- 27. 5. 2024. од 9.00 до 12.30
Место:
- Филолошки факултет, Сала за седнице, први спрат
- Распоред:
- 09.00 — Корпуси ЈеРТех-а и њихова претрага
- 09.30 — Коришћење модела и алата ЈеРТех-а
- 10.00 — Векторске репрезентације речи
- 10.30 — пауза
- 11.30 — Креирање корпуса коришћењем алата TXM
- 11.45 — Текстометријска анализа корпуса
Викилајв, 18-19. мај 2024.
ЈуДиг – Анализа корпуса: текстометрија, ТXМ и други алати
Радионица је одржана 22. новембра 2024. године на Филолошком факултету Универзитета у Београду, у оквиру конференције Јужнословенски језици у дигиталном окружењу – ЈуДиг.
Радионица је била намењена свима заинтересованима за савремене технике и методе обраде природног језика. Учесници су најпре упознати са концептом и методама текстометријске анализе уграђене у ТXМ алат, као и са моделима и ресурсима које је за српски језик развили Друштво за језичке ресурсе и технологије ЈеРТех и тим пројекта ТЕСЛА.
Циљ радионице је био да се демонстрира како учесници могу користити текстометријску анализу на готовим Јертех корпусима и накнадно креирати сопствене корпусе. Други део радионице био је посвец́ен креирању и текстометријској анализи сопствених корпуса учесника коришц́ењем ТXМ алата. За вежбе су припремљени текстови из корпуса српског романа (1840–1920) SrpELTeC:
Srpski ELTeC Corpus TXM Edition (108 NER) SrpELTeC TXM Copus od 108 романа нивоу-2, deo ELTeC-a. Романи су означени POS-om, lemom i 7 категорија именованих ентитета: PERS, ORG, LOC, DEMO, WORK, EVENT i ROLE, i
ЈуДиг паралелни корпус Корпус књига сажетака Јужнословенски језици у дигиталном окружењу, 21-23. новембар 2024. објављен на енглеском и једном од јужнословенских језика. 60 докумената је паралелизовано: Увод, 4 позвана предавања, 51 сажетак и 4 описа радионица, а користи се анотирани корпус за ТXМ софтвер https://doi.org/10.5281/zenodo.14194575
Радионици је присуствовало 25 учесника, међу којима су студенти Филолошког, Рударског, Филозофског и Математичког факултета Универзитета у Београду, као и истраживачи са факултета у Београду, Новом Саду и Нишу. Поред тога, учествовали су библиотекари из Крушевца и истраживачи са Института за српски језик и Историјског института.
Презентација са теоријским делом и практичним вежбама доступна је на платформи Зенодо: https://doi.org/10.5281/zenodo.14238188
ЈуДиг – Препознавање именованих ентитета (НЕР) и повезивање са Vikipodacima
Радионица је учесницима пружила увид у концепте и технике аутоматског препознавања именованих ентитета (НЕР). Учесници су научили како да упореде моделе који идентификују људе, места и организације у књижевним делима и повезују их са одговарајућим ентитетима на Википедији.
Практични део радионице обухватио је коришћење алата и модела, укључујући оне засноване на векторској репрезентацији речи, развијене у оквиру пројекта TESLA Text Embeddin – Апликације за српски језик, који је финансиран од стране Научног фонда Републике Србије. Коришћени су алати и сервиси доступни на https://ners.jerteh.rs/, модел јертех-355-тесла (https://huggingface.co/Tanor/sr_ner_tesla_j355) и модел SrpCNNEL, алат INCEPTION и Wikidata. Презентација је доступна на https://doi.org/10.5281/zenodo.14236776, а материјали на https://github.com/te-sla/JuDiG-radionice2024.
Радионици је присуствовало 20 учесника, међу којима су студенти основних студија са Катедре за библиотекарство и информатику Филолошког факултета, као и докторанти Математичког факултета, Универзитета у Београду. Радионицу су похађали и истраживачи са Филолошког и Филозофског факултета у Београду, Новом Саду и Нишу, као и библиотекари из Крушевца, истраживачи са Института за српски језик и истраживачи са Историјског института.