TESLA je акроним за Text Embeddings – Serbian Language Applications, што бисмо превели као: Векторизација текста – апликације за српски језик. Кроз изградњу разноврсних језичких ресурса и технологија створиће се предуслови за развој висококвалитетних језичких модела који ће се бавити специфичностима српског језика и тако надмашити вишејезичне верзије постојећих језичких модела примењених на текстове на српском језику. Наиме, постојећи језички модели које су развиле велике корпорације нису се бавили специфичностима српског језика, већ је то рађено у склопу вишејезичног развоја, углавном коришћењем ресурса доступних на вебу. Kвалитет корпуса директно утиче на квалитет језичког модела – тако да корпуси за квалитетне моделе морају да укључују научна дела, уџбенике и, што је нарочито важно, књижевна дела. Очекујемо да ће лепи текстови којима ћемо обучавати моделе и квалитетно обележавање дати значајно бољи резултат од постојећих модела.
Којим проблемом се бавимо?
Доскорашњи напредак у обради и аутоматском разумевању природног језика резултирао је развојем унапред обучених језичких модела. Ови модели су засновани на дубоком учењу и контекстуално-свесном уграђивању текста и значајно су бољи од конвенционалних модела. Наш тим ће се бавити развојем унапред обучених, општенаменских језичких модела за српски језик, заснованих на векторизацији текста, као и изградњом додатне инфраструктуре и пратећих алата који ће обезбедити укључивање српског језика у дигитални свет. Модели за српски језик ће омогућити вишеслојно анотирање, почевши од граматичких информација, преко препознавања и повезивања именованих ентитета, екстракције релација за прављење графова знања, анализе осећања. Систем за одговарање на питања и сумаризацију текста интегрисан у портал алата на српском језику, као можда најатрактивнији у овом тренутку, има за циљ да допре до академске и пословне заједнице.
Kоји је главни циљ пројекта?
Пројекат ТЕСЛА има за циљ да развије отворене, предобучене језичке моделе за српски, засноване на векторским репрезентацијама речи, реченица или целих докумената и да их дообучи за специфичне задатке, међу којима су генерисање сажетака текста, парафразирање, откривање лексичких односа, креирање чет ботова итд. Од пројекта се очекује значајан напредак обраде српског језика заснован на развоју претренираних (унапред обучених) језичких модела, као што су ГПТ, БЕРТ и њихови деривати засновани на дубоком учењу и контекстуално-свесној векторској репрезентацији текста.
Теоријски концепт/методологија која ће се користити током реализације пројекта.
Развој језичких модела у оквиру пројекта ТЕСЛА биће заснован на дубоком учењу, при чему ће се алати у пројекту ослањати на искуствa ГПТ-а, БЕРТ-а и вишејезичног БЕРТ-а, али и на искуству чланова пројектног тима у областима обраде и разумевања текста на природном језику, као и креирању великих колекција текстова и корпуса. За обучавање ће се, осим текстуалних колекција, креирати скупови обележених података за решавање низа различитих специфичних проблема и задатака, квантификовањем различитости језичких појава у корпусима. Aко желимо да језички модел одговара на питања, он мора, у фази обучавања, да „види“ скуп у виду питања и одговора. Ако треба да препозна тзв. именоване ентитете, као што су особе, локације, организације, догађаји, онда мора да учи на основу скупа података са овим обележјима.
Kоји су очекивани резултати истраживања пројектног тима?
Главни резултат пројекта биће скуп унапред обучених великих језичких модела чије ће перформансе кроз развијене алате бити приказане на специфичним задацима обраде српског језика, као што су препознавање именованих ентитета, екстракција релација, генерисање текста и чет ботови. Алати ће бити јавно доступни на новом веб порталу, упарени с једноставним визуелним објашњењима која ће корисницима олакшати разумевање језичких образаца и феномена откривених у текстовима. Иако ће финални прозвод бити скуп модела и апликација које их користе, не мање важан ресурс ће бити и корпус текстова припремљен на одговарајући начин, као и бројни скупови обележених података које ће други тимови у истраживачким установама и привреди моћи да користе за своје потребе.
Које техничко решење ће бити развијено у оквиру пројекта?
Техничка решења која ће проистећи из пројекта односиће се на практичне софтверске апликације у виду веб апликација за решавање конкретних проблема, рецимо за обележавање важних ентитета у тексту – имена особа, локација, организација, датума, мера… Осим што ће се обележавати, њихова појављивања у тексту ће се везивати и за базе знања. Екстракција кључних ентитета, тема, фраза и речи у неком тексту са бројем њиховог појављивања биће пут да се на брз начин сагледа о чему се ради у неком тексту – дакле различитим текстометријским анализама ће се омогућити кориснику такозвано „читање на даљину“ (eng. distant reading). Удаљено читање подразумева коришћење машинских (рачунарских) метода за анализу великих збирки текстова. Сажимање текста ће бити још једно од практичних решења, које би било специјализовано за поједине домене, на пример за пољопривреду, енергетику, рударство, геологију.
На који начин пројекат доприноси науци на међународном нивоу?
Језици са мање развијеним језичким ресурсима, какав је и српски, у фокусу су истраживања у свету која имају за циљ да се унапреде језичка разноликост и културно богатство, инклузивност, једнакост и очување културног наслеђа. Уз то, српски језик ће постати доступнији глобалној заједници. Тежња да се подстакне технолошки развој такозваних мањих језика, односно језика с мањим бројем говорника, не лежи само у потреби да се културно, историјско и научно наслеђе учине доступним за аутоматско разумевање на изворном језику. Постоје докази да чак и при обучавању вишејезичних модела, квалитетни, избалансирани ресурси за мање језике доприносе опшем унапређењу међујезичких анализа и перформанси. Јасно је да квалитет машинског превођења са српског на друге језике и обратно директно утиче на истраживања на циљним језицима и свакако доприноси науци на међународном нивоу.
Kакву корист могу имати грађани од резултата истраживања?
Језички модели могу генерисати текст на основу унетих информација, па могу бити корисни за писање чланака, есеја или чак креативних садржаја, као што су приче и песме. Модели могу одговарати на питања корисника, пружајући информације на основу свог обимног знања, тако да корисници могу да пронађу информације или разјасне недоумице.
Подршку учењу очекујемо кроз могућност да модели донекле објасне концепте, реше проблеме и пруже додатне информације о различитим темама.
Модели могу служити као алат за коректуру правописа и граматике, помажући корисницима да побољшају своје текстуалне радове. Модели могу симулирати различите разговорне ситуације, помажући људима у вежбању комуникативних вештина или чак побољшању вештина преговарања.
Модели могу анализирати текст како би одредили сентимент или тон поруке, што може бити корисно у пословним, маркетиншким или истраживачким контекстима.
Наш пројектни тим.
Пројектни тим је састављен од истраживача са комплементарним знањима из различитих области, а њихова синергија ће обезбедити успешно истраживање. Проф. др Ранка Станковић, руководилац пројекта, бави се екстракцијом информација, семантичким технологијама, лексичким ресурсима и повезаним лингвистичким подацима. Др Оливера Kитановић је специјалиста за базе података, информационе системе и онтологије. Др Михаило Шкорић је експерт за језичке моделе и дубоко учење, развој система за аутоматско анотирање текста и друге примене језичких технологија. Др Александра Томашевић има искуство у раду са дигиталним библиотекама, у управљању документацијом, дигитализацији и припреми доменских корпуса. Др Љиљана Kолоња се бави пословном интелигенцијом и развојем терминолошких ресурса. Доц. др Милош Утвић је уско специјализован за корпусну лингвистику, српски језик, означавање и анотирање текста. Милица Иконић Нешић је специјалиста за машинско учење, препознавање и повезивање ентитета (информација) и класификацију текста.
Очекивани значај пројекта за НИО које учествују у конзорцијуму.
Пројекат ТЕСЛА може донети значајне користи Филолошком факултету, пре свега у виду дубинске анализе лингвистичких карактеристика српског језика. Језички модели могу помоћи у проучавању семантичких веза, синтактичких структура и стилистичких елемената у српском језику, а такође праве основу за развој напредних језичких алата, као што су унапређени правописни и граматички коректори, језички модели за машинско превођење. Филолошки факултет може користити резултате оваквог пројекта у настави, пружајући студентима могућност проучавања и разумевања најновијих језичких технологија. Рударско-геолошки факултет резултате може применити на терминолошке и текстуалне податке у области енергетике, рударства и геологије, у аутоматској анализи пројектне и техничке документације, научних радова или било којих других текстуалних материјала, чиме се убрзава процес истраживања. Систем одговарања на питања може се укључити у наставни процес, као помоћ при оцењивању студената.
Применуа резултата истраживања
Конкретна примена резултата може се очекивати, осим у академским истраживањима, и у привреди, уградњом развијених језичких модела у практичне алате. Можемо очекивати да ће развијени модели и сервиси унапредити аутоматско (машинско) разумевање текста на српском језику и да ће се отворити нове могућности за привреду и појединце. Kако технологија напредује, можемо очекивати да видимо софистицираније апликације које ће наставити да побољшавају наш свакодневни живот, а имајући у виду да су системи за одговарање на питања данас можда најтраженији, верујемо да ће то можда бити и најраспрострањенија примена.
Могућност сарадње са привредом
Пројекат ТЕСЛА има велики потенцијал за сарадњу са привредом јер језичке технологије и модели могу имати бројне корисне примене од значаја за привредне субјекте. Развој апликација за анализу текста помоћи ће компанијама у обради великог обима података, у праћењу и анализи медија, захтева и коментара корисника, као и садржаја друштвених мрежа. Даље, развој алата за аутоматско генерисање текста помаже у креирању садржаја у маркетиншке сврхе, на пример за веб презентације и друштвене мреже; развој образовних апликација и платформи које користе језичке моделе за подршку учењу језика, у анализи текста и других језичких вештина; интеграција језичких модела у системе клијентске подршке послужиће за аутоматско одговарање на питања и решавање проблема без чекања оператера. Виртуелни асистенти могу обављати различите задатке, укључујући и помоћ у комуникацији са корисницима. Језичка индустрија у свету је већ добро развијена грана привреде, а ми се надамо да ће ТЕСЛА допринети да тако буде и у нашој земљи.