Logo SUJT
Domov Člani Raziskave Blog in novice Medijsko središče Demonstracije

FRI Logo

LahTex: Korpus lahkega branja v slovenščini za poenostavljanje besedil z umetno inteligenco

Projekt se ukvarja z vprašanjem omejenega dostopa do informacij za skupine z nižjo bralno pismenostjo, kot so osebe s posebnimi potrebami, priseljenci in starejši. Besedila v lahkem branju z jezikovnimi prilagoditvami, ki omogoča boljše razumevanje pisnih vsebin, so pomembna za aktivnejše vključevanje oseb s posebnimi potrebami v družbo, pri priseljencih pa so ena od poti lažje integracije. Ključni izzivi, s katerimi se sooča področje lahkega branja v slovenščini, izvirajo predvsem iz pomanjkanja ustrezne infrastrukture in virov. Trenutno v slovenščini ne obstaja specializiran korpus lahkega branja, kar omejuje možnosti za sistematično raziskovanje ter razvoj učinkovitih orodij in pristopov za poenostavljanje besedil. Dodatno težavo predstavlja raznolikost ciljnih skupin – te se med seboj razlikujejo po potrebah, zmožnostih in pričakovanjih, zato zahtevajo različno stopnjo in vrsto jezikovne prilagoditve. Obenem je v slovenskem prostoru še vedno premalo izkoriščen potencial umetne inteligence kot orodja za podporo vključujočemu komuniciranju. Ključna ovira pri tem je pomanjkanje ustreznih učnih podatkov, na katerih bi lahko temeljil razvoj kakovostnih modelov za generiranje poenostavljenih besedil. Glavni cilj projekta je tako razvoj prvega korpusa lahkega branja v slovenščini, ki bo omogočil empirične raziskave lahkega branja v slovenščini in razvoj orodij umetne inteligence za poenostavljanje besedil. V projektu bo zgrajen korpus, ki bo vključeval avtentična besedila lahkega branja, strojno prevedena besedila ter umetno generirana besedila v lahkem branju. Na podlagi teh podatkov bo razvit sistem za poenostavljanje besedil, temelječ na slovenskem velikem jezikovnem modelu GaMS, za različne ciljne skupine na podlagi različnih podkorpusov lahkega branja. Projekt z razvojem virov in orodij za področje lahkega branja v slovenščini prispeva k digitalni vključenosti in človekovim pravicam, saj omogoča razvoj dostopnih vsebin za ranljive skupine.

Spletna stran projekta: https://inz.si/projekt/lahtex-korpus-lahkega-branja-v-slovenscini-za-poenostavljanje-besedil-z-umetno-inteligenco/