Пројекат

Назив предлога пројекта: Векторизација текста – апликације за српски језик (Text Embeddings – Serbian Language Applications)

Акроним: ТЕСЛА

Научна област: Вештачка интелигенција (ВИ)

Научно-истраживачке организације (НИО) које учествују у пројекту и њихови акроними:

Универзитет у Београду – Рударско-геолошки факултет (УБРГФ),
Универзитет у Београду – Филолошки факултет (УБФФ)

Руководилац пројекта (ПИ): Ранка Станковић

Резиме:

Позадина проблема истраживања. Доскорашњи напредак у области NLP-а (Natural Language Processing, Обрада природног језика) резултирао је развојем унапред обучених језичких модела као што су GPT (Generative Pre-Training), BERT (Bidirectional Encoder Representations from Transformers) и њихови деривати. Ови модели су засновани на DL (Deep Learning , Дубоко учење) и контекстуално-свесном уграђивању текста са мерилима који показују да су бољи од конвенционалних модела.

Методе. DL модели и алати развијени у пројекту ће се градити на искуству GPT-а, и вишејезичног модела BERT, али и на искуству чланова пројектног тима у областима NLP-а, великих језичких корпуса и различитих специфичних NLP проблема и задатака, квантификовањем различитости језичких појава у корпусима.

Новитети. Пројекат ТЕСЛА има за циљ да развије отворене, унапред обучене језичке моделе специјално за српски, засноване на уграђивању текста и дубоком учењу, и да их фино подеси за специфичне NLP задатке. Ови модели ће узети у обзир специфичности српског језика и тако надмашити вишејезичне верзије постојећих великих језичких модела примењених на текстове на српском језику.

Утицај. DL модели и алати развијени у овом пројекту обезбедиће дигитално укључивање српског језика, будући да су сви отвореног кода. Развијени модели и алати ће бити доступни за употребу у бројним апликацијама у академској заједници, индустрији и услугама, као што су апликације за генерисање сажетака текста, парафразирање, откривање лексичких односа, креирање различитих чет-ботова који „говоре“ српски, итд.

Очекивани резултати. Главни резултат пројекта биће скуп унапред обучених језичких модела заснованих на дубоком учењу који су новина за српски језик и који би представљали искорак у српском NLP-у. Да би демонстрирали и приказали њихову корисност и перформансе, биће произведени NLP алати специфични за задатке и домене у српском језику, као што су алати за именовање ентитета, алати за издвајање релација и генерисање текста, као и чет-ботови. Алати ће бити јавно доступни на новом веб-порталу, праћени визуелним објашњењима прилагођеним кориснику, у виду приказа језичких образаца и специфичности откривених у текстовима.