VELIKI JEZIKOVNI MODEL ZA SLOVENIJO

Nastaja slovenski ChatGPT in lahko ga že preizkusite

"Slovenščina ni suverena, če o njej odločajo v ameriških podjetjih," pravi vodja projekta Simon Krek. Slovenski model lahko že brezplačno preizkusite. Objavljamo povezavo v članku.
Središče Ljubljane v prihodnosti, kot si jo predstavlja umetna inteligenca danes. Opazne so razlike med dejansko in generirano podobo mesta ter gradu nad njim. Zato je vsebine, generirane z UI, treba jemati s pravšnjo mero previdnosti. FOTO: Delo UI


 
Središče Ljubljane v prihodnosti, kot si jo predstavlja umetna inteligenca danes. Opazne so razlike med dejansko in generirano podobo mesta ter gradu nad njim. Zato je vsebine, generirane z UI, treba jemati s pravšnjo mero previdnosti. FOTO: Delo UI  
E. N.
 15. 1. 2025 | 13:11
 15. 1. 2025 | 14:35
7:56

Za tiste, ki ste neučakani in se vam ne ljubi brati celotnega članka: slovenski ChatGPT, imenuje se PoVeJMo, že deluje. Preizkusite ga lahko na tej povezavi. A pozor, avtorji potrebujejo vašo pomoč, saj morajo jezikovni model natrenirati na čim več slovenskih besedilih. Zato prosijo, če jim pošljete vaše tekstovne datoteke, ki so primerne za treniranje modela.

Treba je vedeti še: obstoječi slovenski model je tisočkrat manjši od največjih modelov, zato se v odgovorih tudi pogosteje moti. Koristen pa je za testiranje, kakšen je učinek učenja na slovenskih podatkih, pravijo avtorji. Model tudi nima ustreznih varnostnih mehanizmov in je lahko v odgovorih pristranski.

Potrebujejo na milijarde besed

Na Centru za jezikovne vire in tehnologije Univerze v Ljubljani v okviru projekta PoVeJMo gradijo veliki jezikovni model za slovenski jezik. Ime mu je GaMS. Ocenili so, da za to nalogo potrebujejo besedila v obsegu 40 milijard besed. V ta namen organizirajo nacionalno zbiralno akcijo pisnih in govorjenih besedil v slovenščini. K posredovanju besedil vabijo prav vsakogar. Za besedila so že prosili velike institucije, kot so Narodna in univerzitetna knjižnica, in medijske hiše. K posredovanju besedil pa vabijo tudi posameznike in posameznice.

Avtorji projekta zbirajo vsa pisna besedila v digitalni obliki, posneta govorjena besedila in tudi rokopisno gradivo. Ker želijo raznovrstna besedila, lahko posamezniki pošljejo splošna besedila, ki jih ustvarjajo vsakodnevno, na primer zabeležke, elektronska sporočila, prošnje, blogovske zapise, zapise na družbenih omrežjih ipd., ali specializirana besedila z določenega strokovnega področja, članke, poročila ipd.

Pri pornografiji in sovražnem govoru: obvoz!

Ni pomembno, ali so besedila standardna, nestandardna, lektorirana ali nelektorirana – sprejemajo vsa. Pomembno je le, da imajo za oddana besedila avtorske pravice. Izključena sta tudi, kakopak, pornografija in sovražni govor.

Avtorji pravijo: »Čim več besedil bomo imeli, bolje bo model deloval. Jezikovni model lahko zgradimo samo skupaj in s sodelovanjem bodo posamezniki omogočili razvoj varne, kakovostne in odprto dostopne umetne inteligence v slovenščini.«

Kako sodelovati

Vsi, ki želijo sodelovati v zbiralni akciji besedil za projekt PoVeJMo, lahko pošljejo besedila, za katera imajo avtorske pravice, prek spletnega obrazca na spletni strani Povejmo.si.

Kaj se bo dogajalo z oddanimi besedili in posnetki

Besedila bodo namenjena za učenje velikega jezikovnega modela za slovenščino. Po šifriranju in varni hrambi gradiva bodo besedila najprej pretvorili v enotni, digitalni format. Nato bodo besedila strojno anonimizirali, odstranili bodo osebne informacije in zaščitili posameznikovo zasebnost. Za učinkovito treniranje in delovanje jezikovnega modela bodo besedila razbili na manjše dele (stavke, besede, celo znake), nato naučili jezikovni model, ki ga bomo na koncu še varnostno izboljšali in testirali.

Zakaj potrebujemo svoj jezikovni model

Veliki jezikovni modeli, kot je na primer ChatGPT, že vsebujejo slovenska besedila. Zato se poraja vprašanje, zakaj potrebujemo svoj jezikovni model. Razlogov je več, CJVT jih navaja spodaj. 

  • Razvojna neodvisnost. Priprava nacionalnega velikega jezikovnega modela bo omogočila razvojno neodvisnost na področju jezikovnih tehnologij in zasnovo, vsebino ter dostopnost modela v skladu s slovenskim javnim interesom.
  • Nadzorovan proces in varnost podatkov. Nadzorovana priprava velikega jezikovnega modela za slovenščino bo omogočila učinkovit nadzor nad vhodnimi podatki (besedili, na podlagi katerih bo model naučen) ter ustrezno upoštevanje zakonov o varstvu zasebnosti in zasebnih podatkov.
  • Odprta dostopnost. Slovenski jezikovni model bo odprto dostopen za raznolike vrste uporabe, od integracije v medicini in industriji do novih jezikovnih virov in tehnologij za pisni in govorni slovenski jezik, kar bo spodbudilo nadaljnji razvoj in konkurenčnost orodij ter storitev v slovenskem jeziku.
  • Premagovanje jezikovnih ovir. Nacionalni jezikovni modeli igrajo ključno vlogo pri odpravi jezikovnih ovir, kar omogoča širšemu spektru ljudi, da izkoristijo digitalne storitve. To vključuje posameznike iz oddaljenih ali manj razvitih območij, ki morda ne govorijo mednarodnih jezikov ali nimajo dostopa do specifičnih tehnoloških virov.
  • Boljše razumevanje in generiranje slovenščine. Veliki jezikovni modeli so pogosto razviti in optimizirani za angleščino in druge večje jezike. Trenutno javno dostopni veliki modeli so bili naučeni le z delčkom slovenskih besedil, zato za slovenščino delujejo precej slabše kot za ostale večje jezike. Model, razvit primarno na slovenščini, bo jezikovno bolj avtentičen in natančen.
  • Boljše poznavanje nacionalnih specifik. Nacionalni modeli lahko bolje upoštevajo lokalne kulturne specifike in navade, kar je pomembno za ustrezno in učinkovito komunikacijo.

Logo
IZBRANO ZA VAS
Promo
JAVNI RAZPIS
Promo
BREZ BANKE
PromoPhoto
VIRUTALNI STREŽNIKI
PromoPhoto
GRADBENIŠTVO
PromoPhoto
E-MOBILNOST
Promo
NOTRANJA VRATA
Promo
PLAČE
Photo
Tehnološki velikani
Promo
ČOKOLADNO
Promo
HALKUX VALGUS
Promo
KAPITALSKI TRGI
Promo
GRADNJA IN OBNOVA
Promo
BLACK FRIDAY
Promo
POGOZDOVANJE
PromoPhoto
KIBERNETSKA ODPORNOST
Promo
NEPREMIČNINE
Promo
APLIKACIJA
Promo
AMBIENT IN DOM PLUS
Photo
DELOVE PODJETNIŠKE ZVEZDE 2025
PromoPhoto
POŠTA SLOVENIJE