TEKSTYNŲ VALIDAVIMO MODELIŲ SUKŪRIMO PASLAUGOS

Išanalizuota

Kauno technologijos universitetas (PV)

Rinkos konsultacijaCPV: 72212311 - Dokumentų tvarkymo programinės įrangos kūrimo paslaugos

ID: 75303352026-04-22 16:15

Aprašymas

Perkamos tekstynų validavimo modelių sukūrimo paslaugos, skirtos projekto „Nuasmeninimo tekstyno sukūrimas (NUS)“ įgyvendinimui. Šių paslaugų tikslas – sukurti ir apmokyti lietuvių kalbai pritaikytus vardinių esybių atpažinimo (NER) modelius, ypatingą dėmesį skiriant asmens duomenų nuasmeninimui. Projektas apima sistemos, skirtos paskirstytam modelių mokymui, eksperimentų valdymui, duomenų paruošimui ir rezultatų vertinimui, sukūrimą bei dokumentavimą.

Kvalifikaciniai reikalavimai

Kvalifikacinių reikalavimų nerasta

Techniniai reikalavimai

Duomenų valdymas

1Sistema turi palaikyti automatizuotus duomenų įkėlimo ir apdorojimo procesus, užtikrinant suderinamumą su populiariais struktūrizuotų duomenų formatais (pvz., CSV, JSON ir lygiaverčiais).
2Sistema turi užtikrinti automatizuotą duomenų rinkinio padalijimą į mokymo, validavimo ir testavimo dalis pagal naudotojo apibrėžtus santykius (pvz., 80 %; 10 %; 10 %), išlaikant duomenų paskirstymo vientisumą ir atkartojamumą.
3Sistema turi būti sukurta ir apmokyta naudojant lietuvių kalbos tekstynus, kurie sudaro pagrindinį modelių mokymo ir validavimo duomenų šaltinį.
4Sistema turi užtikrinti, kad anotacijos būtų suderinamos su lietuvių kalbos gramatine struktūra, įskaitant linksnių, skaičiaus ir giminės variacijas.
5Sistema turi realizuoti tokenizavimo funkcionalumą, pritaikytą lietuvių kalbos morfologinėms ir sintaksinėms ypatybėms, užtikrinantį korektišką linksnių, darybos formų ir sudurtinių žodžių apdorojimą bei suderinamumą su subword tipo modeliais.
6Sistema turi realizuoti lietuvių kalbai pritaikytą anotacijų apdorojimą, užtikrinantį anotacijų nuoseklumą ir suderinamumą su lietuvių kalbos morfologinėmis ir semantinėmis ypatybėmis, įskaitant esybių klasifikavimą ir koregavimą pagal lingvistinį kontekstą.
7Sistema turi užtikrinti teisingą žymių sulygiavimą su „subžodžių“ tokenais, korektiškai paskirstant BIO/IOB tipo anotacijas tokenizacijos metu.
8Sistema turi palaikyti paketų sudarymo (angl. batch collation) ir užpildymo (angl. padding) mechanizmus skirtingo ilgio tekstams, optimizuojant atminties panaudojimą ir mokymo efektyvumą.
9Sistema turi palaikyti didelių tekstynų srautinį nuskaitymą neįkeliant viso tekstyno į atmintį.

Lyginamoji analizė

1Sistema turi palaikyti kelių modelių lygiagretų vertinimą, sudarant galimybę palyginti ne mažiau kaip penkis skirtingus modelių variantus ar konfigūracijas.
2Sistema turi generuoti išsamią lyginamąją veiklos ataskaitą, kurioje pateikiami kiekvieno modelio preciziškumo, atkūrimo (angl. recall) ir F1 įverčio rezultatai tiek agreguotai, tiek pagal atskirus esybių tipus.
3Sistema turi pateikti modelių struktūrinių charakteristikų palyginimą, įskaitant parametrų skaičių, modelio failo dydį (MB/GB) ir, jei taikoma, skaičiavimo sudėtingumo rodiklius.
4Sistema turi generuoti interaktyvias vizualizacijas, leidžiančias palyginti modelius pagal skirtingus kriterijus (pvz., „scatter“ diagramas, stulpelines diagramas, ar kitus analitinius grafikus).

Modelių vertinimas

1Modelių mokymui turi būti naudojama ne mažesnė kaip 5 000 000 žodžių apimties lietuvių kalbos tekstyno imtis; validacijai treniravimo metu ‒ ne mažesnė kaip 500 000 žodžių apimties imtis; o galutiniam modelių vertinimui ‒ atskira, su mokymo ir validavimo duomenimis nesikertanti, ne mažesnė kaip 1 000 sakinių testavimo imtis, užtikrinant duomenų reprezentatyvumą ir rezultatų patikimumą.
2Sistema turi automatiškai apskaičiuoti standartines vardinių esybių atpažinimo (NER) vertinimo metrikas: preciziškumą, atkūrimą (angl. recall) ir F1 įvertį.
3Sukurtas modelis turi pasiekti ne mažesnį kaip 0,80 F1 įvertį, vertinant jį su atskira testavimo imtimi.
4Sistema turi apskaičiuoti vertinimo metrikas tiek agreguotai visam testavimo rinkiniui, tiek atskirai kiekvienai esybės kategorijai (pvz., PER, LOC, ORG ir kt.).
5Sistema turi palaikyti griežto atitikimo (angl. strict evaluation) vertinimo režimą, kai esybė laikoma teisingai atpažinta tik tuo atveju, jei jos ribos ir kategorija visiškai sutampa su tikrąja anotacija.
6Sistema turi užtikrinti korektišką BIO/IOB (ir jų išplėstinių variantų) formato apdorojimą vertinimo metu, įskaitant žymių konvertavimą į esybių segmentus.
7Sistema turi apskaičiuoti mikro (angl. micro-average) ir makro (angl. macro-average) F1 įverčius, aiškiai nurodant skaičiavimo metodiką.
8Sistema turi generuoti detalias vertinimo ataskaitas, kuriose pateikiamos visos pagrindinės metrikos, klaidų analizė (pvz., klaidingai teigiami, klaidingai neigiami atvejai) bei galimybė eksportuoti rezultatus CSV, JSON arba Markdown formatais.

Modelių atkuriamumas

1Sistema turi automatiškai registruoti ir išsaugoti visas mokymo konfigūracijas, įskaitant hiperparametrus, modelio architektūrą, optimizavimo strategiją, duomenų apdorojimo ir transformacijų žingsnius.
2Sistema turi automatiškai fiksuoti vykdymo aplinkos informaciją, įskaitant programavimo kalbos versiją (pvz., Python), naudojamų bibliotekų ir jų versijų numerius, CUDA ir GPU tvarkyklių versijas, operacinę sistemą bei kitus reikšmingus sisteminius parametrus.
3Sistema turi užtikrinti pilną mokymo proceso metaduomenų registravimą, sudarant galimybę atkurti eksperimentą identiškomis konfigūracijos ir aplinkos sąlygomis bei užtikrinti rezultatų atkartojamumą.

Garantijos ir palaikymas

1Paslaugų teikėjas turi užtikrinti techninę pagalbą sistemos naudojimo, konfigūravimo ir sutrikimų šalinimo klausimais ne trumpiau, kaip 12 mėn. nuo galutinio priėmimo-perdavimo akto pasirašymo dienos.
2Paslaugų teikėjas turi pateikti rekomendacijas dėl duomenų ir modelių atsarginių kopijų tvarkymo.
3Paslaugų teikėjas turi užtikrinti konsultacijas dėl hiperparametrų parinkimo ir optimizavimo strategijų.

Dokumentavimo reikalavimai

1Sistemai ir išmokytiems modeliams turi būti parengta išsami dokumentacija lietuvių kalba, apimanti šiuos aspektus: Pagrindinių sistemos funkcionalumų ir mokymo proceso aprašymą.
2Sistemos architektūros ir komponentų sąveikos aprašymą (mokymo infrastruktūra, eksperimentų valdymas, duomenų srautai, modelių registras).
3Išsamias diegimo instrukcijas lokalioje aplinkoje (Linux, Windows, macOS), įskaitant priklausomybių įdiegimą, aplinkos konfigūravimą ir GPU palaikymo nustatymą.
4Naudojimo instrukciją: duomenų paruošimas, mokymo parametrų konfigūravimas, eksperimentų paleidimas ir stebėjimas, hiperparametrų optimizavimas, modelių vertinimas ir eksportavimas.
5Sistemoje naudojamų NER vertinimo metrikų ir jų skaičiavimo metodikos paaiškinimą.
6Išsamią eksperimentų rezultatų ataskaitą su geriausių modelių veiklos metrikomis, mokymo parametrais ir lyginamąja analize.
7Geriausiai veikiančių modelių aprašymą: bazinis modelis, architektūra, pagrindinės charakteristikos, veiklos rodikliai ir naudojimo rekomendacijos.
8Duomenų importavimo formatų ir modelių eksportavimo galimybių aprašymą.
9Galimų integracijų scenarijus ir sistemos taikymo atvejus.
10Visa dokumentacija turi būti parengta laikantis bendrinės lietuvių kalbos taisyklių.
11Visi Paslaugų teikėjo parengti dokumentai turi būti suderinti su Užsakovu.
12Dokumentų galutinės versijos turi būti pateiktos elektroniniu formatu (Markdown, MS Word arba kitu su Užakovu suderintu redaguoti tinkamu formatu).
13Pastabos ir korekcijos dokumentų projektuose turi būti teikiamos naudojant MS Office programinio paketo (ar lygiaverčio) pakeitimų sekimo (angl. track changes) ir komentavimo funkcijas.

Mokymo sistemos reikalavimai

1Sistema turi palaikyti paskirstytą modelių mokymą (angl. distributed training) keliuose GPU įrenginiuose ir (arba) mazguose vienu metu, užtikrinant efektyvų skaičiavimo išteklių panaudojimą, aukštą duomenų perdavimo spartą bei mastelio didinimo galimybę (scalability).
2Sistema privalo užtikrinti aparatinį ir programinį mišrios tikslumo aritmetikos (FP16/BF16) palaikymą, suderinamumą su pagrindinėmis DI sistemų kūrimo platformomis (pvz., PyTorch, TensorFlow) bei automatizuotą skaitinio stabilumo valdymą.
3Sistema turi užtikrinti automatinį modelio būsenos kontrolės taškų (angl. checkpoints) kūrimą ir saugojimą nustatytais laiko arba iteracijų intervalais, sudarant galimybę atkurti mokymo procesą po neplanuoto sustabdymo be reikšmingo duomenų ar progreso praradimo.
4Sistema turi palaikyti mokymo tęsimą nuo bet kurio išsaugoto kontrolės taško, užtikrinant, kad sustabdytas mokymas gali būti pratęstas be duomenų praradimo.
5Sistema turi realizuoti ankstyvo sustabdymo mechanizmą, automatiškai nutraukiantį mokymo procesą, kai validavimo metrikos per nustatytą laikotarpį neberodo statistiškai reikšmingo pagerėjimo.
6Sistema turi palaikyti konfigūruojamus mokymo žingsnio dydžio planavimo algoritmus, įskaitant linijinį, kosinusinį, polinominį ir kitus adaptacinius metodus.
7Sistema turi realizuoti gradiento apkarpymo mechanizmą, skirtą užtikrinti mokymo proceso skaitinį stabilumą.
8Sistema turi užtikrinti atsitiktinių pradinių reikšmių ir atsitiktinių procesų kontrolę, sudarant galimybę atkurti mokymo rezultatus identiškomis konfigūracijos ir aplinkos sąlygomis).
9Sistema privalo palaikyti lietuvių kalbai adaptuotų NER modelių kūrimą ir mokymą, įskaitant duomenų paruošimą, anotacijų apdorojimą bei suderinamumą su standartiniais BIO/IOB (ir jų išplėstiniais variantais, pvz., BIOES) žymėjimo formatais, užtikrinant esybių atpažinimą atsižvelgiant į lietuvių kalbos morfologinius, sintaksinius ir semantinius ypatumus.
10Sistema turi palaikyti iš anksto apibrėžtų vardinių esybių kategorijų atpažinimą lietuvių kalba, įskaitant bendruosius ir specialių kategorijų asmens duomenis: fizinių asmenų vardus ir pavardes (įskaitant slapyvardžius, pravardes, vartotojų vardus ir inicialus); identifikavimo numerius ir kodus (pvz., asmens kodus, socialinio draudimo numerius, telefono numerius, paso numerius, transporto priemonių valstybinius numerius); geografines vietoves (miestus, šalis, adresus, pavadintą infrastruktūrą); organizacijų, įstaigų ir juridinių asmenų pavadinimus; demografinius ir profesinius asmens požymius (pvz., gimtąją kalbą, pareigas, išsilavinimą, amžių); datą, laiką arba trukmę; kiekius ir finansines reikšmes (procentus, pinigines sumas); religinius ar filosofinius įsitikinimus; politines pažiūras, narystę profesinėse sąjungose; lytinę orientaciją, gyvenimą; rasinę ir etninę priklausomybę; sveikatos, genetinius ir biometrinius duomenis, apimant ir jautrius su sveikata susijusius įpročius (piktnaudžiavimą narkotinėmis medžiagomis); kitą asmeninę informaciją, tiesiogiai ar netiesiogiai susijusią su asmeniu, nepriklausančią išvardytoms kategorijoms.

Hiperparametrų optimizavimas

1Sistema turi užtikrinti automatizuotą hiperparametrų optimizavimo funkcionalumą, leidžiantį sistemingai ieškoti optimalios modelio konfigūracijos.
2Sistema turi palaikyti kelias hiperparametrų paieškos strategijas: Tinklelio paiešką, išbandant visas apibrėžtas parametrų kombinacijas; Atsitiktinę paiešką, generuojant atsitiktines konfigūracijas iš apibrėžtos paieškos erdvės; Bajeso optimizavimą, adaptuojant parametrų parinkimą pagal ankstesnių eksperimentų rezultatus ir pasirinktą optimizavimo metriką.
3Sistema turi sudaryti galimybę apibrėžti hiperparametrų paieškos erdvę, nurodant parametrų tipą (diskretus, tęstinis, kategorinis), ribas ar galimų reikšmių aibę (pvz., mokymosi greitis, epochų skaičius, optimizatoriaus tipas ir kt.).
4Sistema turi palaikyti lygiagrečią kelių eksperimentų vykdymą (angl. parallel sweep execution), efektyviai panaudojant turimus GPU išteklius.
5Sistema turi automatiškai identifikuoti ir pažymėti geriausią hiperparametrų konfigūraciją pagal naudotojo pasirinktą optimizavimo kriterijų (pvz., F1 įvertį), išsaugant susijusius modelio artefaktus ir meta-duomenis.

Modelių eksportas ir diegimas

1Sistema turi palaikyti modelių eksportavimą į HuggingFace Hub suderinamą formatą, įskaitant modelio svorius, konfigūracijos failus, tokenizatorių ir susijusius metaduomenis.
2Sistema turi palaikyti modelių kvantizaciją į mažesnio tikslumo formatus (pvz., INT8, INT4), siekiant sumažinti modelio dydį ir optimizuoti našumą.
3Sistema turi palaikyti lokalų modelių išsaugojimą su pilna konfigūracija ir tokenizatoriais.

Eksperimentų valdymas ir stebėsena

1Sistema turi integruoti centralizuotą eksperimentų valdymo platformą, leidžiančią realiuoju laiku stebėti visų vykdomų modelių mokymo procesų eigą ir būseną.
2Platforma privalo automatiškai registruoti kiekvieno eksperimento konfigūraciją, įskaitant visus hiperparametrus (pvz., learning rate, paketo dydį, epochų skaičių, optimizatoriaus tipą ir kt.).
3Platforma turi realiuoju laiku stebėti, saugoti ir vizualizuoti mokymo bei validavimo metrikas (pvz., nuostolio funkcijos reikšmes, tikslumą, F1 įvertį ir kitas pasirinktinas metrikas).
4Platforma turi sudaryti galimybę vienu metu palyginti kelis eksperimentus, pateikiant interaktyvius grafikus, lenteles ir statistinius palyginimus.
5Platforma turi automatiškai registruoti ir vizualizuoti sisteminius išteklius mokymo metu, įskaitant GPU panaudojimą, GPU ir RAM atminties suvartojimą, CPU apkrovą ir kitus našumo rodikliu.
6Sistema turi užtikrinti modelių artefaktų versijų valdymą automatiškai išsaugant kiekvieno eksperimento modelio svorius.
7Sistema turi palaikyti duomenų versijų sekimą užtikrinant, kad žinoma, kokiais duomenimis buvo mokytas kiekvienas modelis.
8Platforma turi leisti generuoti automatines eksperimentų ataskaitas, apibendrinančias pagrindinius rezultatus ir lyginimą.
9Sistema turi realizuoti įspėjimų ir anomalijų aptikimo mechanizmą, automatiškai informuojantį apie galimus mokymo sutrikimus (pvz., atminties perpildymą, nutrūkusį procesą, neįprastą metrikų elgseną).
10Platforma turi palaikyti centralizuotą modelių registrą, kuriame saugomi modelio metaduomenys, t. y., architektūra, mokymo data, naudoti duomenys, hiperparametrai, veiklos metrikos ir versijos informacija.
11Platforma turi būti prieinama per interneto naršyklę, užtikrinant saugią ir interaktyvią darbo aplinką (angl. dashboard) su vartotojų prieigos valdymu.

Vartotojo sąsajos ir prieinamumo reikalavimai

1Sistema turi turėti aiškią konfigūracijos sąsają per YAML ar JSON failus, leidžiančią nustatyti visus mokymo parametrus be programavimo.
2Eksperimentų valdymo platforma turi turėti intuityvią naršyklės sąsają, prieinamą interneto naršyklėje.
3Naršyklės sąsaja turi prisitaikyti prie įvairių rezoliucijų monitorių.
4Sistema turi turėti CLI (angl. command-line interface) paslaugą, leidžiančią paleisti mokymus per terminalą su aiškiais parametrais.

Teisinės ir intelektinės nuosavybės sąlygos

1Kuriant modelių sistemą privalu laikytis autorių ir gretutines teises reguliuojančių Lietuvos ir ES teisės aktų.
2Kuriant modelių sistemą privalu laikytis duomenų apsaugą reguliuojančių Lietuvos ir ES teisės aktų.
3Kuriant modelių sistemą privalu laikytis dirbtinio intelekto sistemoms rengiamų mokymo duomenų kokybę reguliuojančių Lietuvos ir Europos teisės aktų.
4Kuriant modelių sistemą privalu laikytis Lietuvos ir ES teisės aktų, reguliuojančių atvirų duomenų formavimo ir skelbimo principus (ES direktyva dėl atvirųjų duomenų ir viešojo sektoriaus informacijos pakartotinio naudojimo BDAR (EUR-Lex - 32016R0679 - EN - EUR-Lex (europa.eu)) https://eur-lex.europa.eu/legal-content/EN/TXT/?qid=1561563110433&uri=CELEX:32019L1024).
5Kuriant modelių sistemą privalu vadovautis kitais teisės aktais ar projekto kvietimo dokumentais reglamentuojančiais modelių kūrimą.
6Kuriant visus produktus (rezultatus) rekomenduojama atsižvelgti į dirbtinio intelekto aktą (EUR-Lex - 52021PC0206 - EN - EUR-Lex (europa.eu) https://eur-lex.europa.eu/legal-content/EN/TXT/?uri=celex:52021PC0206).
7Visi Paslaugos rezultatai įgyti vykdant Sutartį, įskaitant autorines turtines ir kitas intelektinės nuosavybės teises, yra Užsakovo nuosavybė, kuria ji gali disponuoti (t. y. rezultatus naudoti, publikuoti, perleisti ar perduoti) kaip mano esant tinkama ir be jokių geografinių ar kitų apribojimų. Užsakovo nuo pilno apmokėjimo už suteiktą paslaugą dienos suteikiama neatlygintina neišimtinė, neterminuota licencija naudoti rezultatus savo veikloje, priimant sprendimus dėl veiklos vystymo.
8Be išankstinio raštiško Užsakovo sutikimo ir (arba) atskiro raštiško susitarimo Tiekėjas neturi teisės publikuoti informacijos apie įvykdytos paslaugos rezultatus ir perduoti suteiktų teisių į paslaugų rezultatus bet kokiems tretiesiems asmenims.

Dokumentai3

2_1 priedas_Techninė specifikacija.docx
1016_7530335.pdf
1_Kvietimas dalyvauti rinkos konsultacijoje.docx

tendis.lt · Sukurta recodin.lt