Grįžti į sąrašą

Tekstynų validavimo modelių sukūrimo paslaugos

Išanalizuota

Kauno technologijos universitetas (PV)

140 000
Atviras konkursasCPV: 72212311 - Dokumentų tvarkymo programinės įrangos kūrimo paslaugos
ID: 66926992026-03-03 05:10
Atidaryti CVP IS

Aprašymas

Perkamos tekstynų validavimo modelių sukūrimo paslaugos, apimančios dirbtinio intelekto (DI) modelių mokymo sistemos sukūrimą ir konfigūravimą, specializuotų modelių apmokymą, bei išsamios dokumentacijos ir programinio kodo pateikimą. Šios paslaugos skirtos tobulinti lietuvių kalbos vardinių esybių atpažinimo (NER) funkcionalumą, veikiant su jautriais asmens duomenimis, ir yra finansuojamos iš Europos Sąjungos ekonomikos gaivinimo ir atsparumo didinimo priemonės lėšų.

Kvalifikaciniai reikalavimai

  • 1Tiekėjo metinės visos veiklos pajamos per paskutinius finansinius metus, o jeigu tiekėjas įregistruotas ar veiklą atitinkamoje srityje pradėjo vėliau – nuo jo įregistravimo dienos, turi būti ne mažesnės 200 000 (du šimtai tūkstančių) Eur.
  • 2Tiekėjas, per paskutinius 3 metus iki pasiūlymo pateikimo termino pabaigos turi būti įvykdęs bent vieną sutartį kalbos technologijų projekto įgyvendinimui, kurios (-ių) vertė ne mažesnė kaip 45 000 (keturiasdešimt penki tūkstančiai) Eur.
  • 3Tiekėjas, per paskutinius 3 metus iki pasiūlymo pateikimo termino pabaigos turi būti įvykdęs bent vieną sutartį dirbtinio intelekto įrankių susijusių su dirbtinio intelekto sprendimų, veikiančių su jautriais duomenimis (pvz., medicininiais ar kitais specialių kategorijų duomenimis), kūrimu ir (ar), kurios (-ių) vertė ne mažesnė kaip 70 000,00 (septyniasdešimt tūkstančių) Eur.
  • 4Projekto vadovas: iki pasiūlymų pateikimo termino pabaigos turi būti vadovavęs bent 1 (vienam) projektui (sutarčiai) arba jo daliai, kurio metu buvo sukurtas bent vienas kalbos technologijų arba lygiaverčių technologijų sprendimas; turi informacinių sistemų projektų vadovo kvalifikaciją; turi aukštąjį universitetinį ar jam prilygintą išsilavinimą.
  • 5Dirbtinio intelekto specialistas: iki pasiūlymų pateikimo termino pabaigos turi būti sukaupęs ne trumpesnę kaip 3 (trijų) metų programuotojo darbo patirtį; turi programuotojo kvalifikaciją; iki pasiūlymų pateikimo termino pabaigos turi būti sukaupęs ne mažiau kaip 2 (dviejų) metų darbo patirtį vystant dirbtinio intelekto sprendimus įtraukiant mašininio mokymosi įkaitant giliojo mokymosi modelius.

Techniniai reikalavimai

Dokumentavimas

  • 1Sistemai ir išmokytiems modeliams turi būti parengta išsami dokumentacija lietuvių kalba, apimanti pagrindinių sistemos funkcionalumų ir mokymo proceso aprašymą.
  • 2Sistemai ir išmokytiems modeliams turi būti parengta sistemos architektūros ir komponentų sąveikos aprašymą (mokymo infrastruktūra, eksperimentų valdymas, duomenų srautai, modelių registras).
  • 3Sistemai ir išmokytiems modeliams turi būti parengtos išsamios diegimo instrukcijas lokalioje aplinkoje (Linux, Windows, macOS), įskaitant priklausomybių įdiegimą, aplinkos konfigūravimą ir GPU palaikymo nustatymą.
  • 4Sistemai ir išmokytiems modeliams turi būti parengta naudojimo instrukcija: duomenų paruošimas, mokymo parametrų konfigūravimas, eksperimentų paleidimas ir stebėjimas, hiperparametrų optimizavimas, modelių vertinimas ir eksportavimas.
  • 5Sistemai ir išmokytiems modeliams turi būti parengtas sistemoje naudojamų NER vertinimo metrikų ir jų skaičiavimo metodikos paaiškinimas.
  • 6Sistemai ir išmokytiems modeliams turi būti parengta išsami eksperimentų rezultatų ataskaita su geriausių modelių veiklos metrikomis, mokymo parametrais ir lyginamąja analize.
  • 7Sistemai ir išmokytiems modeliams turi būti parengtas geriausiai veikiančių modelių aprašymą: bazinis modelis, architektūra, pagrindinės charakteristikos, veiklos rodikliai ir naudojimo rekomendacijos.
  • 8Sistemai ir išmokytiems modeliams turi būti parengtas duomenų importavimo formatų ir modelių eksportavimo galimybių aprašymas.
  • 9Sistemai ir išmokytiems modeliams turi būti parengtas galimų integracijų scenarijus ir sistemos taikymo atvejus.
  • 10Visa dokumentacija turi būti parengta laikantis bendrinės lietuvių kalbos taisyklių.
  • 11Visi Paslaugų teikėjo parengti dokumentai turi būti suderinti su Užsakovu.
  • 12Dokumentų galutinės versijos turi būti pateiktos elektroniniu formatu (Markdown, MS Word arba kitu su Užsakovu suderintu redaguoti tinkamu formatu).
  • 13Pastabos ir korekcijos dokumentų projektuose turi būti teikiamos naudojant MS Office programinio paketo (ar lygiaverčio) pakeitimų sekimo ir komentavimo funkcijas.

Duomenų valdymas

  • 1Sistema turi palaikyti automatizuotus duomenų įkėlimo ir apdorojimo procesus, užtikrinant suderinamumą su populiariais struktūrizuotų duomenų formatais (pvz., CSV, JSON ir lygiaverčiais).
  • 2Sistema turi užtikrinti automatizuotą duomenų rinkinio padalijimą į mokymo, validavimo ir testavimo dalis pagal naudotojo apibrėžtus santykius (pvz., 80 %; 10 %; 10 %), išlaikant duomenų paskirstymo vientisumą ir atkartojamumą.
  • 3Sistema turi realizuoti teksto tokenizavimo funkcionalumą, pritaikytą lietuvių kalbos morfologinėms ypatybėms bei suderinamą su daugiakalbių kalbinių modelių tokenizatoriais (pvz., subword-grįstais metodais).
  • 4Sistema turi užtikrinti teisingą žymių sulygiavimą su „subžodžių“ tokenais, korektiškai paskirstant BIO/IOB tipo anotacijas tokenizacijos metu.
  • 5Sistema turi palaikyti paketų sudarymo (angl. batch collation) ir užpildymo (angl. padding) mechanizmus skirtingo ilgio tekstams, optimizuojant atminties panaudojimą ir mokymo efektyvumą.
  • 6Sistema turi palaikyti didelių tekstynų srautinį nuskaitymą neįkeliant viso tekstyno į atmintį.

Lyginamoji analizė

  • 1Sistema turi palaikyti kelių modelių lygiagretų vertinimą, sudarant galimybę palyginti ne mažiau kaip penkis skirtingus modelių variantus ar konfigūracijas.
  • 2Sistema turi generuoti išsamią lyginamąją veiklos ataskaitą, kurioje pateikiami kiekvieno modelio preciziškumo, atkūrimo ir F1 įverčio rezultatai tiek agreguotai, tiek pagal atskirus esybių tipus.
  • 3Sistema turi pateikti modelių struktūrinių charakteristikų palyginimą, įskaitant parametrų skaičių, modelio failo dydį (MB/GB) ir, jei taikoma, skaičiavimo sudėtingumo rodiklius.
  • 4Sistema turi generuoti interaktyvias vizualizacijas, leidžiančias palyginti modelius pagal skirtingus kriterijus (pvz., „scatter“ diagramas, stulpelines diagramas, ar kitus analitinius grafikus).

Modelių vertinimas

  • 1Sistema turi automatiškai apskaičiuoti standartines vardinių esybių atpažinimo (NER) vertinimo metrikas: preciziškumą, atkūrimą ir F1 įvertį.
  • 2Sistema turi apskaičiuoti vertinimo metrikas tiek agreguotai visam testavimo rinkiniui, tiek atskirai kiekvienai esybės kategorijai (pvz., PER, LOC, ORG ir kt.).
  • 3Sistema turi palaikyti griežto atitikimo (angl. strict evaluation) vertinimo režimą, kai esybė laikoma teisingai atpažinta tik tuo atveju, jei jos ribos ir kategorija visiškai sutampa su tikrąja anotacija.
  • 4Sistema turi užtikrinti korektišką BIO/IOB (ir jų išplėstinių variantų) formato apdorojimą vertinimo metu, įskaitant žymių konvertavimą į esybių segmentus.
  • 5Sistema turi apskaičiuoti mikro ir makro F1 įverčius, aiškiai nurodant skaičiavimo metodiką.
  • 6Sistema turi generuoti detalias vertinimo ataskaitas, kuriose pateikiamos visos pagrindinės metrikos, klaidų analizė (pvz., klaidingai teigiami, klaidingai neigiami atvejai) bei galimybė eksportuoti rezultatus CSV, JSON arba Markdown formatais.

Teisiniai reikalavimai

  • 1Kuriant modelių sistemą privalu laikytis autorių ir gretutines teises reguliuojančių Lietuvos ir ES teisės aktų.
  • 2Kuriant modelių sistemą privalu laikytis duomenų apsaugą reguliuojančių Lietuvos ir ES teisės aktų.
  • 3Kuriant modelių sistemą privalu laikytis dirbtinio intelekto sistemoms rengiamų mokymo duomenų kokybę reguliuojančių Lietuvos ir Europos teisės aktų.
  • 4Kuriant modelių sistemą privalu laikytis Lietuvos ir ES teisės aktų, reguliuojančių atvirų duomenų formavimo ir skelbimo principus (ES direktyva dėl atvirųjų duomenų ir viešojo sektoriaus informacijos pakartotinio naudojimo BDAR).
  • 5Vadovautis kitais teisės aktais ar projekto kvietimo dokumentais reglamentuojančiais modelių kūrimą.
  • 6Rekomenduojama atsižvelgti į dirbtinio intelekto aktą (EUR-Lex - 52021PC0206 - EN - EUR-Lex (europa.eu)).
  • 7Visi Paslaugos rezultatai įgyti vykdant Sutartį, įskaitant autorines turtines ir kitas intelektinės nuosavybės teises, yra Užsakovo nuosavybė, kuria ji gali disponuoti kaip mano esant tinkama ir be jokių geografinių ar kitų apribojimų.
  • 8Užsakovo nuo pilno apmokėjimo už suteiktą paslaugą dienos suteikiama neatlygintina neišimtinė, neterminuota licencija naudoti rezultatus savo veikloje, priimant sprendimus dėl veiklos vystymo.
  • 9Be išankstinio raštiško Užsakovo sutikimo ir (arba) atskiro raštiško susitarimo Tiekėjas neturi teisės publikuoti informacijos apie įvykdytos paslaugos rezultatus ir perduoti suteiktų teisių į paslaugų rezultatus bet kokiems tretiesiems asmenims.

Modelių mokymo sistema

  • 1Sistema turi palaikyti paskirstytą modelių mokymą keliuose GPU įrenginiuose ir (arba) mazguose vienu metu, užtikrinant efektyvų skaičiavimo išteklių panaudojimą, aukštą duomenų perdavimo spartą bei mastelio didinimo galimybę.
  • 2Sistema privalo užtikrinti aparatinį ir programinį mišrios tikslumo aritmetikos (FP16/BF16) palaikymą, suderinamumą su pagrindinėmis DI sistemų kūrimo platformomis (pvz., PyTorch, TensorFlow) bei automatizuotą skaitinio stabilumo valdymą.
  • 3Sistema turi užtikrinti automatinį modelio būsenos kontrolės taškų (angl. checkpoints) kūrimą ir saugojimą nustatytais laiko arba iteracijų intervalais, sudarant galimybę atkurti mokymo procesą po neplanuoto sustabdymo be reikšmingo duomenų ar progreso praradimo.
  • 4Sistema turi palaikyti mokymo tęsimą nuo bet kurio išsaugoto kontrolės taško, užtikrinant, kad sustabdytas mokymas gali būti pratęstas be duomenų praradimo.
  • 5Sistema turi realizuoti ankstyvo sustabdymo mechanizmą, automatiškai nutraukiantį mokymo procesą, kai validavimo metrikos per nustatytą laikotarpį neberodo statistiškai reikšmingo pagerėjimo.
  • 6Sistema turi palaikyti konfigūruojamus mokymo žingsnio dydžio planavimo algoritmus, įskaitant linijinį, kosinusinį, polinominį ir kitus adaptacinius metodus.
  • 7Sistema turi realizuoti gradiento apkarpymo mechanizmą, skirtą užtikrinti mokymo proceso skaitinį stabilumą.
  • 8Sistema turi užtikrinti atsitiktinių pradinių reikšmių ir atsitiktinių procesų kontrolę, sudarant galimybę atkurti mokymo rezultatus identiškomis konfigūracijos ir aplinkos sąlygomis.
  • 9Sistema privalo palaikyti lietuvių kalbos NER modelių mokymą, įskaitant duomenų paruošimą, anotacijų apdorojimą ir suderinamumą su standartiniais BIO/IOB (ir jų išplėstiniais variantais, pvz., BIOES) žymėjimo formatais.
  • 10Sistema turi palaikyti iš anksto apibrėžtų vardinių esybių kategorijų atpažinimą lietuvių kalba, įskaitant bendruosius ir specialių kategorijų asmens duomenis (fizinių asmenų vardai ir pavardės, identifikavimo numeriai ir kodai, geografinės vietovės, organizacijų pavadinimai, demografiniai ir profesiniai asmens požymiai, data/laikas/trukmė, kiekiai ir finansinės reikšmės, religiniai/filosofiniai įsitikinimai, politinės pažiūros, lytinė orientacija, rasinė ir etninė priklausomybė, sveikatos/genetiniai/biometriniai duomenys, kita asmeninė informacija).

Garantijos ir palaikymas

  • 1Paslaugų teikėjas turi užtikrinti techninę pagalbą sistemos naudojimo, konfigūravimo ir sutrikimų šalinimo klausimais ne trumpiau, kaip 12 mėn. nuo galutinio priėmimo-perdavimo akto pasirašymo dienos.
  • 2Paslaugų teikėjas turi pateikti rekomendacijas dėl duomenų ir modelių atsarginių kopijų tvarkymo.
  • 3Paslaugų teikėjas turi užtikrinti konsultacijas dėl hiperparametrų parinkimo ir optimizavimo strategijų.

Sutarties vykdymo tvarka

  • 1Paslaugų teikėjas per 3 (tris) darbo dienas nuo sutarties pasirašymo turės parengti ir derinimui su Užsakovui pateikti reglamentą, kuriame turi būti nustatyta paslaugų teikimo rezultatų pateikimo, Užsakovo informavimo apie paslaugų teikimo progresą tvarka.
  • 2Užsakovas pastabas derinimui pateiktam dokumentui turi pateikti per 2 (dvi) darbo dienas nuo dokumento gavimo dienos.
  • 3Paslaugų teikėjas pagal Užsakovo pateiktas pastabas dokumentą turi ištaisyti per 2 (dvi) darbo dienas (nuo pastabų gavimo dienos).
  • 4Sistemos modelių kūrimo rezultatas (sukurta ir sukonfigūruota validavimo modelių mokymo sistema, išmokyti modeliai, pateikta pilna ir išsami dokumentacija, programinis kodas, metaduomenys) turi būti perduotas Užsakovui per 14 kalendorinių dienų nuo sutarties pasirašymo dienos.
  • 5Paslaugų rezultatų metaduomenys turi būti aprašyti pagal Lietuvos teisės aktais nustatytą ir Reglamente su Užsakovu suderintą metaduomenų standartą, taip pat turi būti pateikti Užsakovo nustatytoje metaduomenų saugykloje.

Hiperparametrų optimizavimas

  • 1Sistema turi užtikrinti automatizuotą hiperparametrų optimizavimo funkcionalumą, leidžiantį sistemingai ieškoti optimalios modelio konfigūracijos.
  • 2Sistema turi palaikyti kelias hiperparametrų paieškos strategijas: Tinklelio paiešką, Atsitiktinę paiešką, Bajeso optimizavimą.
  • 3Sistema turi sudaryti galimybę apibrėžti hiperparametrų paieškos erdvę, nurodant parametrų tipą (diskretus, tęstinis, kategorinis), ribas ar galimų reikšmių aibę (pvz., mokymosi greitis, epochų skaičius, optimizatoriaus tipas ir kt.).
  • 4Sistema turi palaikyti lygiagrečią kelių eksperimentų vykdymą, efektyviai panaudojant turimus GPU išteklius.
  • 5Sistema turi automatiškai identifikuoti ir pažymėti geriausią hiperparametrų konfigūraciją pagal naudotojo pasirinktą optimizavimo kriterijų (pvz., F1 įvertį), išsaugant susijusius modelio artefaktus ir meta-duomenis.

Atkuriamumas ir dokumentavimas

  • 1Sistema turi automatiškai registruoti ir išsaugoti visas mokymo konfigūracijas, įskaitant hiperparametrus, modelio architektūrą, optimizavimo strategiją, duomenų apdorojimo ir transformacijų žingsnius.
  • 2Sistema turi automatiškai fiksuoti vykdymo aplinkos informaciją, įskaitant programavimo kalbos versiją (pvz., Python), naudojamų bibliotekų ir jų versijų numerius, CUDA ir GPU tvarkyklių versijas, operacinę sistemą bei kitus reikšmingus sisteminius parametrus.
  • 3Sistema turi užtikrinti pilną mokymo proceso metaduomenų registravimą, sudarant galimybę atkurti eksperimentą identiškomis konfigūracijos ir aplinkos sąlygomis bei užtikrinti rezultatų atkartojamumą.

Modelių eksportas ir diegimas

  • 1Sistema turi palaikyti modelių eksportavimą į HuggingFace Hub suderinamą formatą, įskaitant modelio svorius, konfigūracijos failus, tokenizatorių ir susijusius metaduomenis.
  • 2Sistema turi palaikyti modelių kvantizaciją į mažesnio tikslumo formatus (pvz., INT8, INT4), siekiant sumažinti modelio dydį ir optimizuoti našumą.
  • 3Sistema turi palaikyti lokalų modelių išsaugojimą su pilna konfigūracija ir tokenizatoriais.

Vartotojo sąsajos ir prieinamumas

  • 1Sistema turi turėti aiškią konfigūracijos sąsają per YAML ar JSON failus, leidžiančią nustatyti visus mokymo parametrus be programavimo.
  • 2Eksperimentų valdymo platforma turi turėti intuityvią naršyklės sąsają, prieinamą interneto naršyklėje.
  • 3Naršyklės sąsaja turi prisitaikyti prie įvairių rezoliucijų monitorių.
  • 4Sistema turi turėti CLI (angl. command-line interface) paslaugą, leidžiančią paleisti mokymus per terminalą su aiškiais parametrais.

Eksperimentų valdymas ir stebėsena

  • 1Sistema turi integruoti centralizuotą eksperimentų valdymo platformą, leidžiančią realiuoju laiku stebėti visų vykdomų modelių mokymo procesų eigą ir būseną.
  • 2Platforma privalo automatiškai registruoti kiekvieno eksperimento konfigūraciją, įskaitant visus hiperparametrus.
  • 3Platforma turi realiuoju laiku stebėti, saugoti ir vizualizuoti mokymo bei validavimo metrikas (pvz., nuostolio funkcijos reikšmes, tikslumą, F1 įvertį ir kitas pasirinktinas metrikas).
  • 4Platforma turi sudaryti galimybę vienu metu palyginti kelis eksperimentus, pateikiant interaktyvius grafikus, lenteles ir statistinius palyginimus.
  • 5Platforma turi automatiškai registruoti ir vizualizuoti sisteminius išteklius mokymo metu (GPU panaudojimą, GPU ir RAM atminties suvartojimą, CPU apkrovą ir kitus našumo rodiklius).
  • 6Sistema turi užtikrinti modelių artefaktų versijų valdymą automatiškai išsaugant kiekvieno eksperimento modelio svorius.
  • 7Sistema turi palaikyti duomenų versijų sekimą užtikrinant, kad žinoma, kokiais duomenimis buvo mokytas kiekvienas modelis.
  • 8Platforma turi leisti generuoti automatines eksperimentų ataskaitas, apibendrinančias pagrindinius rezultatus ir lyginimą.
  • 9Sistema turi realizuoti įspėjimų ir anomalijų aptikimo mechanizmą, automatiškai informuojantį apie galimus mokymo sutrikimus (pvz., atminties perpildymą, nutrūkusį procesą, neįprastą metrikų elgseną).
  • 10Platforma turi palaikyti centralizuotą modelių registrą, kuriame saugomi modelio metaduomenys (architektūra, mokymo data, naudoti duomenys, hiperparametrai, veiklos metrikos ir versijos informacija).
  • 11Platforma turi būti prieinama per interneto naršyklę, užtikrinant saugią ir interaktyvią darbo aplinką su vartotojų prieigos valdymu.

Dokumentai21

  • espd-request.pdf
  • README.txt
  • 2_Konkurso salygos_6692699.7z
  • 6692699_Contract notice - general directive, standard regime_0.pdf
  • 11.2 priedas_Paslaugų pirkimo sutarties bendrosios sąlygos.docx
  • 1_priedas_-_Terminai T.docx
  • 2 priedas TS. Tekstynų validavimo modelių kūrimas.docx
  • 3 priedas - Tiekėjų pašalinimo pagrindai.docx
  • 5_priedas_-_EBVPD.docx
  • 6_priedas_-_Pasiūlymo_forma.docx
  • Bendrosios_pirkimo_sąlygos.docx
  • Specialios pirkimo sąlygos_6692699.docx
  • espd-request.xml
  • 3_c4t_6692699_1.xml
  • 1016_6692699.pdf
  • 11.1 priedas_Paslaugų pirkimo sutarties specialiosios sąlygos.docx
  • 12_priedas_-_Tiekėjo_subtiekejo_deklaracijos_forma.docx
  • 13 priedas Specialistų sąrašas.docx
  • 14_priedas_Specialisto_ įvykdytų_projektų(sutarčių)_sąrašas.docx
  • 4 priedas Tiekėjų kvalifikacijos reikalavimai ir reikalaujami kokybės bei aplinkos apsaugos vadybos sistemų standartai.docx
  • 7_priedas_-_Pasiūlymų_vertinimo_kriterijai.docx