DI vertinimas sprendimų priėmimui neapibrėžtumo sąlygomis

Į sprendimus orientuotas LLM vertinimas neapibrėžtumo sąlygomis

Dauguma DI vertinimo būdų remiasi prielaida, kad tikslas yra sukurti teisingą, išsamų ir gerai suformuotą tekstą. Šiame straipsnyje teigiama, kad tokios prielaidos žlunga realaus pasaulio valdymo kontekstuose. Kai sprendimus reikia priimti esant neapibrėžtumui, su nepilnais ir triukšmingais duomenimis, svarbiausias klausimas yra ne tai, ar išvestis yra tobula, o ar ji padeda priimti teisingą sprendimą tinkamame lygmenyje. Ši perspektyva siūlo alternatyvą: į sprendimus orientuotą DI vertinimo požiūrį, grįstą neapibrėžtumu, ribotu racionalumu ir įmonės valdymo principais.

Kanita perspektyva

DI vertinimas dažnai grindžiamas teisingumu, išsamumu ir kalbine kokybe. Toks požiūris gerai tinka tokioms užduotims kaip santraukų kūrimas, klausimų–atsakymų sistemos ar turinio generavimas. Tačiau jis tampa nepakankamas kontekste, kuriame veikia Kanita (www.kanita.se): valdymo, rizikos ir vadovų sprendimų priėmimo esant neapibrėžtumui bei laiko spaudimui srityje.

Kanita kuria valdymo triage ataskaitas iš nepilnų, triukšmingų ir dažnai dviprasmiškų duomenų. Labiausiai apribotu atveju sistema gali remtis vien tik viešai prieinama informacija, gauta iš vieno URL. Tai sudaro sąmoningai silpnų signalų aplinką, kurioje duomenų kokybė iš prigimties yra ribota ir netolygi.

Pagrindinė hipotezė yra ne ta, kad DI sukurs visiškai teisingas ar išsamias analizes, bet ta, kad sprendimų priėmėjams dažnai daugiau naudos duoda ankstyvi, netobuli signalai, o ne vėluojančios, išsamios ataskaitos. Todėl tikslas yra ne analitinis išsamumas, o silpnų ir fragmentiškų įvesčių transformavimas į struktūruotas, sprendimams reikšmingas gaires.

Kanita požiūrio centre yra triage pleištas:

LEISTI — tęsti pagal esamą valdymo tvarką
SUSTABDYTI — pristabdyti, kol bus aiškiai nustatyta atsakomybė ir rizika
REIKALINGAS FORMALUS SPRENDIMAS — eskaluoti į vadovų lygmenį

Ši struktūra sumažina dviprasmiškumą iki veiksmingų kategorijų ir suderina skubumą su tinkamu organizaciniu lygmeniu. Nors turtingesni vidiniai ir struktūruoti duomenų šaltiniai gali reikšmingai pagerinti išvesčių kokybę, didesnis informacijos išsamumas nebūtinai lemia geresnius sprendimus. Didelio neapibrėžtumo aplinkoje signalo aiškumas dažnai nusveria analizės išsamumą.

Ši perspektyva dera su nusistovėjusiomis sąvokomis, tokiomis kaip VUCA (kintamumas, neapibrėžtumas, sudėtingumas, dviprasmiškumas), ir sprendimų priėmimu neapibrėžtumo sąlygomis, kai tikslas nėra pašalinti neapibrėžtumą, o veikti efektyviai jo viduje.

Nuo teksto kokybės prie sprendimo signalo

Įprasti kalbos modelių vertinimo modeliai, įskaitant etalonų rinkinius, tokius kaip HELM (Holistic Evaluation of Language Models), ir susijusius metodus, pabrėžia tokius matmenis kaip tikslumas, kalibracija, atsparumas ir kalbinė kokybė. Šie modeliai yra tinkami tada, kai „ground truth“ yra aiškiai apibrėžta arba kai išvestis galima vertinti pagal stabilius etaloninius atsakymus.

Tačiau valdymo ir rizikos kontekstuose tokių atskaitos taškų dažnai nėra arba jie iš esmės yra dviprasmiški. Klausimas yra ne tai, ar ataskaita yra „teisinga“ absoliučia prasme, o ar ji padeda priimti tinkamus sprendimus turint nepilną informaciją.

Todėl Kanita performuluoja vertinimą aplink tris pagrindinius klausimus: ar išvestis sukuria tinkamą sprendimo signalą, ar eskalavimas priskirtas tinkamam organizaciniam lygmeniui ir ar svarbiausios rizikos iškeliamos pakankamai aiškiai, kad būtų galima veikti.

Taigi vertinimo vienetas yra ne pats tekstas, o jo funkcinis poveikis sprendimų priėmimui.

Ši perspektyva sujungia įžvalgas iš kelių tyrimų sričių: LLM vertinimo (porinio palyginimo ir modelio pagrindu atliekamo vertinimo), informacijos paieškos (reikšmingumas svarbiau už išsamumą) ir sprendimų mokslo (ribotas racionalumas ir „pakankamai gero“ sprendimo principas). Kartu šios sritys rodo, kad naudingumas neapibrėžtumo sąlygomis yra tinkamesnis vertinimo objektas nei tekstinis tikslumas.

Veikimas neapibrėžtumo sąlygomis

Kanita kontekstą apibrėžia trys struktūriniai apribojimai: nepilni ir triukšmingi duomenys, didelės svarbos sprendimų aplinka ir ribotas laikas analizei. Tai nėra laikini ribojimai — tai esminės realaus pasaulio valdymo ir rizikos savybės.

Tai turi dvi svarbias pasekmes.

Pirma, tai daro tradicines „teisingumo“ sampratas nepakankamomis. Kai duomenys yra daliniai, dviprasmiški arba silpnai pagrįsti, dažnai nėra stabilaus „ground truth“, pagal kurį būtų galima vertinti išvestis. Bet koks siekis optimizuoti tobulą tikslumą tokioje aplinkoje arba sukurs klaidingą preciziškumą, arba ves į paralyžių.

Antra, tai perkelia problemą nuo analizės prie sprendimų priėmimo esant apribojimams. Tai atitinka nusistovėjusius sprendimų mokslo principus:

Ribotas racionalumas (Herbert Simon) — sprendimai priimami esant laiko, informacijos ir kognityvinių gebėjimų apribojimams
„Pakankamai gero“ sprendimo principas (satisficing) — tikslas nėra optimalūs sprendimai, bet pakankamai geri sprendimai, pagal kuriuos galima veikti

Šių sąvokų reikšmė yra tiesioginė. Jei sprendimų priėmėjai veikia riboto racionalumo sąlygomis, tuomet vertinimo sistemos turi atspindėti tuos pačius apribojimus. Išvestis turi būti vertinama ne pagal tai, kiek ji absoliučiai išsami ar tiksli, o pagal tai, kaip veiksmingai ji padeda veikti tokiomis sąlygomis.

Tai lemia kitokią „gerumo“ sampratą.

Gera išvestis nėra ta, kuri pašalina neapibrėžtumą, bet ta, kuri:

struktūruoja neapibrėžtumą į aiškų sprendimo signalą
priskiria tą signalą tinkamam eskalavimo lygmeniui
leidžia laiku veikti, neperžengiant turimų įrodymų ribų

Kitaip tariant, kokybė apibrėžiama kaip sprendimo adekvatumas neapibrėžtumo sąlygomis, o ne analitinis išsamumas ar tekstinis teisingumas.

Atitinkamai Kanita vertina išvestis pagal jų gebėjimą iš netobulų duomenų sukurti naudotinus, tinkamai kalibruotus sprendimo signalus.

Kaip atrodo „gera“ išvestis

Apibrėžti, kas šiame kontekste yra „gera“ ataskaita, nėra paprasta. Skirtingai nuo užduočių, kuriose yra aiškus „ground truth“, valdymo triage vyksta dviprasmiškumo, dalinės informacijos ir konkuruojančių interpretacijų sąlygomis. Todėl toliau pateikti kriterijai neturėtų būti laikomi galutiniais ar išsamiais, o veikiau išvestinėmis euristikomis, pagrįstomis anksčiau išdėstytais apribojimais ir teoriniais pagrindais.

Konkrečiai, jie kyla iš šių principų:

riboto racionalumo (sprendimai priimami turint ribotą informaciją ir laiką)
„pakankamai gero“ sprendimo principo (pirmenybė teikiama veiksmingam pakankamumui, o ne optimaliam išsamumui)
reikšmingumu grįsto vertinimo (naudingumas svarbiau už absoliutų teisingumą)

Žvelgiant iš šios perspektyvos, „gera“ ataskaita yra tokia, kuri, tikėtina, atitinka kelias persidengiančias sąlygas.

Pirma, ji turėtų priskirti pagrįstą triage kategoriją. Esant neapibrėžtumui tiksli klasifikacija dažnai yra nepasiekiama; vis dėlto ataskaita turėtų įdėti klausimą į tikėtiną sprendimo juostą (pvz., reikšmingai nepernelyginti ir nenuvertinti rizikos). Tai atspindi „pakankamai gero“ sprendimo principą, o ne tikslią optimizaciją.

Antra, ji turėtų priskirti sprendimą tinkamam organizaciniam lygmeniui. Tai kyla iš valdymo teorijos (pvz., COSO ERM), kur sprendimo kokybę iš dalies lemia tai, ar už jį atsakoma tinkamame atskaitomybės lygmenyje.

Trečia, ji turėtų identifikuoti reikšmingas valdymo ir rizikos temas. Remiantis informacijos paieškos principais, tikslas nėra išsamiai aprėpti viską, o užfiksuoti svarbiausius sprendimui reikšmingus signalus (pvz., reguliacinę ekspoziciją, atskaitomybės spragas, atsekamumo problemas).

Ketvirta, ji turėtų sudaryti sąlygas konkrečiai diskusijai ir veiksmui. Vadovaujantis riboto racionalumo logika, išvestys turi mažinti kognityvinę apkrovą, o ne ją didinti. Ataskaita, kuri analitiškai turtinga, bet operaciškai dviprasmiška, turi ribotą vertę.

Penkta, ji turėtų parodyti tinkamą neapibrėžtumo valdymą. Tai apima prielaidų aiškų įvardijimą, nepagrįsto preciziškumo vengimą ir stebėjimų atskyrimą nuo išvadų. Tai labiau atitinka epistemologinę kalibraciją nei faktinį išsamumą.

Šie matmenys yra tarpusavyje priklausomi, o ne nepriklausomos metrikos, todėl kompromisai yra neišvengiami. Ypač dažnai stebimi du nesėkmės režimai:

Perdėtas pasitikėjimas silpnais signalais, kai ataskaita pervertina tikrumą arba eskaluoja neturėdama pakankamo pagrindo
Perteklinis atsargumas, kai su neapibrėžtumu elgiamasi taip konservatyviai, kad nebelieka jokio veiksmingo signalo

„Gera“ išvestis šių įtampų nepašalina, bet jas subalansuoja. Ji yra pakankamai struktūruota, kad leistų veikti, ir kartu pakankamai kalibruota pagal turimų duomenų ribas.

Šia prasme kokybę geriausia suprasti ne kaip teisingumą, o kaip sprendimo adekvatumą neapibrėžtumo sąlygomis.

Kaip vyksta vertinimas (pradinis metodas)

Dabartinis įgyvendinimas yra pradinis metodas, skirtas vertinti valdymo triage išvestis skirtinguose modeliuose ir konfigūracijose.

Kelios ataskaitos generuojamos iš tų pačių bazinių duomenų, naudojant skirtingus modelius (pvz., Google Gemini, Mistral) ir skirtingo dydžio modelių versijas. Taip sukuriamas kontroliuojamas palyginimo rinkinys, kuriame skirtumus lemia modelio elgsena, o ne įvesčių skirtumai.

Gautos išvestys vertinamos LangSmith aplinkoje, taikant kombinaciją iš:

Lyginamojo vertinimo (porinio palyginimo)
Struktūruoto vertinimo pagal apibrėžtus matmenis

Tokia sąranka leidžia tiek sudaryti reitingą (kuri ataskaita geresnė), tiek gauti diagnostinių įžvalgų (kodėl ji geresnė).

Lyginamasis vertinimas

Ataskaitos vertinamos poromis. Pagrindinis klausimas yra:

Kuri ataskaita geriau padeda priimti vadovų sprendimus?

Porinis palyginimas empiriškai yra patikimesnis nei absoliutus vertinimas kontekstuose, kuriems būdingas dviprasmiškumas ir nepilnas „ground truth“.

Struktūruoti matmenys

Kiekviena ataskaita taip pat vertinama pagal apibrėžtą matmenų rinkinį:

triage teisingumas
sprendimo lygmens tikslumas
rizikos reikšmingumas
naudingumas sprendimui
neapibrėžtumo disciplina
teiginių disciplina (nepagrįstų išvadų vengimas)

Šie matmenys matuojami ordinalinėmis skalėmis, siekiant išlaikyti interpretuojamumą ir sumažinti klaidingą preciziškumą.

Valdymo požiūriu šiuos matmenis taip pat galima suprasti per COBIT prizmę:

Triage teisingumas → atitinka užtikrinimą, kad rizikos būtų tinkamai įvertintos ir kad būtų inicijuoti tinkami kontrolės veiksmai (rizikos optimizavimas)
Sprendimo lygmens tikslumas → atspindi tinkamą sprendimo teisių ir atskaitomybės paskirstymą (valdymo ir vadybos atsakomybės)
Rizikos reikšmingumas → atitinka įmonės rizikų, darančių įtaką vertės kūrimui, identifikavimą ir prioritetizavimą
Naudingumas sprendimui → palaiko vertės kūrimą, leisdamas priimti veiksmingus ir savalaikius sprendimus
Neapibrėžtumo disciplina → susijusi su tinkamo užtikrinimo lygio palaikymu ir klaidingo preciziškumo vengimu kontrolėje bei ataskaitose
Teiginių disciplina → atitinka informacijos, naudojamos valdyme ir sprendimų priėmime, integralumą ir patikimumą

Šis susiejimas sustiprina mintį, kad vertinimo matmenys nėra atsitiktiniai, bet dera su nusistovėjusiais IT valdymo ir įmonės rizikos valdymo principais.

Dar tiksliau, šią sistemą galima interpretuoti kaip lengvą, į sprendimus orientuotą COBIT principų operacionalizaciją neapibrėžtumo sąlygomis. Ypač:

EDM (Evaluate, Direct, Monitor) → atsispindi triage teisingume ir sprendimo lygmens tikslume, užtikrinant, kad tinkami klausimai būtų eskaluojami ir valdomi tinkamame lygmenyje
APO (Align, Plan, Organize) → atsispindi rizikos reikšmingume ir naudingume sprendimui, susiejant identifikuotas rizikas su veiksmingais organizaciniais atsakais
BAI (Build, Acquire, Implement) → netiesiogiai palaikoma per neapibrėžtumo ir teiginių discipliną, užtikrinant, kad sprendimai, patenkantys į įgyvendinimo srautus, būtų tinkamai kvalifikuoti ir pagrįsti

Ši interpretacija parodo sistemą ne kaip alternatyvą nusistovėjusiems valdymo modeliams, o kaip papildomą sluoksnį, orientuotą į ankstyvos stadijos signalų struktūravimą ir pagalbą priimant sprendimus.

Kaip vertinami matmenys

Kiekvienas matmuo vertinamas remiantis stebimais signalais išvestyje, o ne vien subjektyviais įspūdžiais.

Triage teisingumas

Ar rekomenduojamas veiksmas (LEISTI / SUSTABDYTI / FORMALUS SPRENDIMAS) atitinka aprašytą rizikos lygį?
Raudonos vėliavos: per menkas saugos ar reguliacinių klausimų eskalavimas arba pernelyg didelis menkų problemų eskalavimas

Sprendimo lygmens tikslumas

Ar klausimas priskirtas tinkamam organizaciniam lygmeniui (komanda vs CIO vs vadovai)?
Signalas: rizikos apimties ir sprendimo įgaliojimų atitikimas

Rizikos reikšmingumas

Ar identifikuotos svarbiausios valdymo rizikos?
Signalas: pagrindinių temų buvimas (reguliacinė rizika, atskaitomybė, atsekamumas, trečiųjų šalių rizika)

Naudingumas sprendimui

Ar sprendimų priėmėjas gali tuo remdamasis veikti iškart?
Signalas: aiškus kitas žingsnis, dviprasmiškumo nebuvimas, aiški eskalavimo logika

Neapibrėžtumo disciplina

Ar ataskaita tinkamai kvalifikuoja prielaidas?
Signalas: skirtis tarp stebėtų faktų, išvestinių išvadų ir nežinomųjų

Teiginių disciplina

Ar teiginiai proporcingi turimiems įrodymams?
Signalas: nepagrįstų ar pernelyg specifinių teiginių nebuvimas

Pavyzdinė matrica: geros ir prastos išvestys

Matmuo	Geras pavyzdys	Prastas pavyzdys
Triage teisingumas	Eskaluoja DI saugos sistemose į FORMALŲ SPRENDIMĄ dėl reguliacinės ekspozicijos	Tą pačią problemą priskiria LEISTI kategorijai su miglotu pagrindimu
Sprendimo lygmens tikslumas	Tarpfunkcinį valdymo klausimą priskiria CIO lygmeniui	Sisteminio valdymo klausimą palieka komandos lygmenyje
Rizikos reikšmingumas	Identifikuoja AI Act, atsekamumo ir kokybės užtikrinimo spragas	Apsiriboja bendro pobūdžio teiginiais, kad „DI yra svarbus“
Naudingumas sprendimui	Aiškiai nurodo „pristabdyti diegimą, kol bus apibrėžtas validavimo procesas“	Pateikia analizę, bet nepateikia aiškios rekomendacijos
Neapibrėžtumo disciplina	Aiškiai įvardija prielaidas ir išryškina nežinomuosius	Pateikia išvestines išvadas kaip nustatytus faktus
Teiginių disciplina	Vartoja atsargią kalbą kalbėdamas apie išvestines rizikas	Be įrodymų pateikia konkrečius teiginius apie sistemas ar procesus

Šis pradinis metodas yra sąmoningai iteracinis. Vertinimo išvestys naudojamos ne tik modeliams palyginti, bet ir promptų dizainui, modelių parinkimui bei būsimiems sistemos patobulinimams informuoti.

Subjektyvumo įtvirtinimas

Tai greičiausiai sunkiausia šios sistemos dalis. Praktikoje ataskaitos vertę lemia ne vien jos vidinė kokybė, bet ir tai, ką ji padaro realioje organizacinėje aplinkoje. Ataskaita gali būti laikoma „gera“ todėl, kad ji analitiškai gerai kalibruota, arba todėl, kad padeda sprendimų priėmėjui iškelti anksčiau nepastebėtą, bet svarbią problemą. Tačiau ji taip pat gali būti laikoma „gera“ dėl mažiau pagrindžiamų priežasčių: nes palaiko iš anksto egzistuojančią darbotvarkę, sustiprina mėgstamą susirūpinimą ar pasirodo tuo metu, kai organizacija tam klausimui yra neįprastai imli.

Pagrindinė mintis:

Ataskaita praktikoje gali būti veiksminga dėl kitų priežasčių, nei tai, kad ji analitiškai gera.

Tai sukuria svarbų skirtumą tarp trijų susijusių, bet skirtingų sąvokų:

Analitinė kokybė — kaip gerai ataskaita atspindi turimus įrodymus ir tvarkosi su neapibrėžtumu
Organizacinis priėmimas — ar ataskaita priimama, aptariama ar pagal ją veikiama
Poveikis sprendimams — ar laikui bėgant ataskaita lemia prasmingus ar teisingus sprendimus

Šie dalykai ne visada sutampa. Ataskaita gali sulaukti didelio priėmimo, bet turėti žemą analitinę kokybę (pvz., stiprindama „mėgstamą problemą“), arba būti labai kokybiška analitiškai, bet menkai priimama (pvz., dėl netinkamo laiko ar organizacinio nepasirengimo).

Dėl šios priežasties Kanita subjektyvumą laiko ne triukšmu, kurį galima tiesiog pašalinti, o reiškinio, kurį reikia tirti, dalimi. Praktinis testas iš dalies yra „pudingo įrodymas jo ragavime“: renkamas ribotas realių atvejų rinkinys, kad būtų galima stebėti, kaip išvestys priimamos, naudojamos ir interpretuojamos tikruose sprendimų kontekstuose.

Ši perspektyva atitinka tyrimus apie neapibrėžtumą ir ekologinį racionalumą, ypač Gerd Gigerenzer darbus. Pagrindinė šios tradicijos įžvalga yra ta, kad sprendimai neturėtų būti vertinami tik abstrakčiai, bet ir atsižvelgiant į aplinkas, kuriose jie naudojami. Neapibrėžtose aplinkose paprastos euristikos gali pranokti sudėtingesnius modelius, kai jos gerai dera su užduoties struktūra. Vadinasi, valdymo ataskaitos naudingumo negalima vertinti vien pagal tekstines savybes; jis turi būti vertinamas atsižvelgiant į organizacinį kontekstą, sprendimo laiką ir veiksmų tipą, kurį ataskaita turi paremti.

Tai taip pat siejasi su organizaciniais tyrimais apie dviprasmiškumą, dėmesį ir motyvuotą samprotavimą. Realiuose institutuose tai, kas laikoma įtikinama ar naudinga, formuoja ne vien įrodymai, bet ir paskatos, temos aktualumas bei laikas. Ataskaita, iškelianti „mėgstamą problemą“, gali sulaukti dėmesio todėl, kad rezonuoja su esamais politiniais prioritetais, o ne todėl, kad geriausiai atspindi pamatinę riziką. Ir priešingai, geriau kalibruota ataskaita gali būti ignoruojama, jei organizacija dar nėra pasirengusi pagal ją veikti.

Ši dinamika sukuria svarbų metodologinį iššūkį: vertinimas negali remtis vien tuo, ar ataskaita „laimi“ praktikoje. Praktinis priėmimas yra informatyvus, bet jis nėra tas pats, kas analitinė kokybė. Todėl realaus pasaulio naudojimas turėtų būti laikomas vienu iš kelių signalų, o ne vieninteliu kokybės arbitru.

Užuot mėginusi pašalinti subjektyvumą, Kanita siekia jį apriboti ir tirti pasitelkdama:

kuruojamus etaloninius atvejus („golden set“)
pakartotinius vertinimo paleidimus
vertintojų sutarimo matavimą
atsitiktinę palyginimų seką, mažinančią šališkumą
ribotą realaus pasaulio priėmimo ir naudojimo stebėseną

Tikslas yra ne objektyvumas absoliučia prasme, o nuoseklumas ir patikimumas esant subjektyviam vertinimui, kartu nepamirštant, kad patį vertinimą formuoja neapibrėžtumas, organizacinis kontekstas ir laikas. Ataskaita, iškelianti „mėgstamą problemą“, gali sulaukti dėmesio todėl, kad rezonuoja su esamais politiniais prioritetais, o ne todėl, kad geriausiai atspindi pamatinę riziką. Ir priešingai, geriau kalibruota ataskaita gali būti ignoruojama, jei organizacija dar nėra pasirengusi pagal ją veikti.

Užuot mėginusi pašalinti subjektyvumą, Kanita siekia jį apriboti ir tirti pasitelkdama:

kuruojamus etaloninius atvejus („golden set“)
pakartotinius vertinimo paleidimus
vertintojų sutarimo matavimą
atsitiktinę palyginimų seką, mažinančią šališkumą
ribotą realaus pasaulio priėmimo ir naudojimo stebėseną

Tikslas yra ne objektyvumas absoliučia prasme, o nuoseklumas ir patikimumas esant subjektyviam vertinimui, kartu išliekant dėmesingiems tam, kad patį vertinimą formuoja neapibrėžtumas, organizacinis kontekstas ir laikas.

Pagrindai

Ši perspektyva remiasi keliomis nusistovėjusiomis sritimis. Kiekviena jų suteikia skirtingą žvilgsnį į tai, kaip vertinti DI sukurtas išvestis sprendimų priėmimo kontekstuose.

LLM vertinimas

Ką nagrinėja ši sritis
LLM vertinimas orientuojasi į kalbos modelių veikimo vertinimą pagal tokius matmenis kaip tikslumas, samprotavimas, atsparumas ir atitiktis žmonių preferencijoms. Modeliams tapus pajėgesniems, vertinimas nuo statinių etalonų pasislinko link dinamiškesnių metodų, tokių kaip porinis palyginimas ir modelio pagrindu vykdomas vertinimas.

Pagrindiniai vardai ir indėlis

OpenAI (pvz., GPT-4 ataskaita): pristatė plataus masto žmogaus preferencijomis ir poriniu vertinimu grįstą vertinimą
Anthropic: pabrėžė struktūruotą vertinimą, suderinimą ir nuoseklumą
LMSYS (Zheng ir kt.): pademonstravo LLM-as-a-judge ir lyginamojo vertinimo metodus
Stanford HELM projektas: holistinis vertinimas pagal kelis matmenis ir scenarijus

Informacijos paieška

Ką nagrinėja ši sritis
Informacijos paieška tiria, kaip rasti ir sureitinguoti reikšmingą informaciją dideliuose, triukšminguose duomenų rinkiniuose. Vertinimas čia sutelktas ne į absoliutų teisingumą, o į reikšmingumą — ar surasta informacija yra naudinga konkrečiai užduočiai.

Pagrindiniai vardai ir indėlis

TREC (Text REtrieval Conference): nustatė reikšmingumu grįsto vertinimo standartus
Gerard Salton: pamatiniai darbai apie vektorinės erdvės modelius ir reitingavimą
Stephen Robertson: probabilistiniai paieškos modeliai (pvz., BM25)

Sprendimų mokslas

Ką nagrinėja ši sritis
Sprendimų mokslas aiškinasi, kaip individai ir organizacijos priima sprendimus esant tokiems apribojimams kaip ribota informacija, laiko spaudimas ir kognityviniai ribotumai. Jis kvestionuoja visiškai racionalaus sprendimų priėmimo prielaidą.

Pagrindiniai vardai ir indėlis

Herbert Simon: ribotas racionalumas ir „pakankamai gero“ sprendimo principas
Daniel Kahneman ir Amos Tversky: euristikos, šališkumai ir sprendimų priėmimas neapibrėžtumo sąlygomis
Gerd Gigerenzer: ekologinis racionalumas ir adaptyvios euristikos

Rizika ir valdymas

Ką nagrinėja ši sritis
Rizikos ir valdymo sistemos apibrėžia, kaip organizacijos struktūruoja sprendimo teises, atskaitomybę, kontrolės mechanizmus ir rizikos valdymą sudėtingose aplinkose. Šiame kontekste valdymas yra ne vien atitiktis, bet ir užtikrinimas, kad sprendimai būtų priimami tinkamame lygmenyje, turint tinkamą informaciją ir aiškią atsakomybę.

Pagrindiniai vardai ir indėlis

COBIT (ISACA): pateikia išsamią įmonės IT valdymo ir vadybos sistemą, pabrėžiančią verslo tikslų, kontrolės tikslų ir sprendimo teisių suderinimą
CGEIT žinių bazė: orientuota į įmonės IT valdymą, įskaitant vertės kūrimą, rizikos optimizavimą ir išteklių valdymą
ISO 31000: rizikos valdymo neapibrėžtumo sąlygomis principai ir gairės
ES DI aktas (EU AI Act): besiformuojantis Europos reguliavimo pagrindas didelės rizikos DI sistemoms, pabrėžiantis atsekamumą, atskaitomybę ir valdymą

Kartu šios sritys palaiko poslinkį nuo tekstinių išvesčių vertinimo prie sprendimų palaikymo sistemų, veikiančių neapibrėžtumo sąlygomis, vertinimo.

Ribotumai ir būsimas darbas

Ši sistema yra pradinis bandymas formalizuoti sprendimų palaikymo sistemų vertinimą neapibrėžtumo sąlygomis. Todėl ji turi kelis ribotumus.

Pirma, sistema remiasi struktūruotu subjektyviu vertinimu, o ne objektyviu „ground truth“. Nors tokie mechanizmai kaip porinis palyginimas, sutarimo matavimas ir etaloniniai atvejai sumažina savavališkumą, jie jo nepanaikina. Vertinimo rezultatai išlieka jautrūs rubrikos dizainui ir vertintojų prielaidoms.

Antra, dabartiniai kriterijai yra euristiniai ir indukciniai. Jie išvesti iš teorijos (sprendimų mokslo, informacijos paieškos, valdymo) ir ankstyvų empirinių stebėjimų, tačiau dar nėra patvirtinti didelio masto ar longitudiniais tyrimais.

Trečia, sistema daro prielaidą apie santykinai nuoseklų sprendimų kontekstą (CIO / vadovų valdymas). Norint ją taikyti kitose srityse ar kitokiose sprendimų aplinkose, gali prireikti adaptacijos.

Ketvirta, pusiausvyrą tarp neapibrėžtumo kalibracijos ir veiksmingumo vis dar sunku tiksliai išmatuoti. Ilgainiui gali prireikti formalesnių pakaitinių rodiklių ir metrikų, kad šį kompromisą būtų galima vertinti patikimiau.

Būsimas darbas

Tolesnis vystymas bus orientuotas į šios konceptualios sistemos pavertimą nuolat tobulinama vertinimo sistema.

Pagrindinės kryptys:

Vertintojų kalibravimas ir lyginamasis testavimas
Sistemiškas sutarimo tarp žmonių vertintojų ir LLM pagrįstų vertintojų matavimas, įskaitant stabilumą per pakartotinius paleidimus.
LLM-as-a-judge vystymas
Vertinimo promptų ir schemų tobulinimas, siekiant didesnio nuoseklumo, mažesnio šališkumo ir mastelio požiūriu efektyvaus lyginamojo vertinimo.
**Duomenų rinkinio plėtra („golden set“) **
Didesnio ir įvairesnio etaloninio duomenų rinkinio kūrimas, kad vertinimas būtų geriau įtvirtintas ir būtų galima atlikti statistinę analizę.
Metrikų formalizavimas
Aiškesnių ir patikrinamų pakaitinių rodiklių kūrimas tokiems matmenims kaip naudingumas sprendimui, neapibrėžtumo disciplina ir perteklinių teiginių dažnis.
Modelių optimizavimas
Vertinimo signalų naudojimas smulkiajam derinimui arba mažesnių, efektyvesnių modelių distiliacijai, optimizuotų valdymo triage užduotims.
Promptų ir sistemos dizaino iteravimas
Nuolatinis promptų, vamzdynų ir paieškos strategijų tobulinimas, remiantis stebimais vertinimo rezultatais.

Ilgalaikis tikslas — išvystyti tai į uždaro ciklo vertinimo ir tobulinimo sistemą, kurioje išvestys būtų nuolat vertinamos, lyginamos ir naudojamos tiek modeliams, tiek vertinimo metodams gerinti.

Išvada

Ši perspektyva performuluoja DI vertinimą iš teksto kokybės klausimo į sprendimų palaikymo neapibrėžtumo sąlygomis klausimą.

Visame dokumente išryškėja nuosekli pozicija:

Realaus pasaulio valdymas vyksta turint nepilnus duomenis, esant laiko spaudimui ir konkuruojančioms interpretacijoms.
Tokiomis sąlygomis teisingumas ir išsamumas yra nepakankami vertinimo tikslai.
Svarbiausia yra tai, ar išvestys sukuria tinkamai kalibruotus, veiksmingus sprendimo signalus.

Todėl siūlomas požiūris apjungia:

Lyginamąjį vertinimą (kuri ataskaita naudingesnė sprendimų priėmimui)
Struktūruotus matmenis, grįstus sprendimų mokslu, informacijos paieška ir su COBIT suderintais valdymo principais
Aiškų subjektyvumo įtraukimą, pripažįstant atotrūkį tarp analitinės kokybės, organizacinio priėmimo ir poveikio sprendimams

Praktiškai tai įgyvendinama kaip pradinis metodas: keli modeliai (pvz., Gemini, Mistral) generuoja ataskaitas pagal tuos pačius duomenis; išvestys vertinamos LangSmith aplinkoje; rezultatai naudojami modelių pasirinkimui, promptų dizainui ir sistemos iteracijai. Metodas yra sąmoningai iteracinis ir sukurtas taip, kad ilgainiui taptų uždaro ciklo vertinimo sistema.

Konceptualiai ši sistema pozicionuoja Kanita kaip sluoksnį, veikiantį prieš formalų valdymą — struktūruojantį silpnus signalus į triage sprendimus, kurie dera su COBIT principais (EDM/APO/BAI), kartu išlaikant kalibraciją neapibrėžtumo atžvilgiu.

Pagrindinė išvada yra ne ta, kad neapibrėžtumą galima pašalinti, o ta, kad jį galima paversti veiksmingu.

Tikslas nėra tobula analizė.

Tikslas yra teisingas sprendimo signalas, tinkamame lygmenyje, su kalibruotu pasitikėjimu, iš netobulų duomenų.

Į sprendimus orientuotas LLM vertinimas neapibrėžtumo sąlygomis

Kanita perspektyva

Nuo teksto kokybės prie sprendimo signalo

Veikimas neapibrėžtumo sąlygomis

Kaip atrodo „gera“ išvestis

Kaip vyksta vertinimas (pradinis metodas)

Lyginamasis vertinimas

Struktūruoti matmenys

Kaip vertinami matmenys

Pavyzdinė matrica: geros ir prastos išvestys

Subjektyvumo įtvirtinimas

Pagrindai

LLM vertinimas

Informacijos paieška

Sprendimų mokslas

Rizika ir valdymas

Ribotumai ir būsimas darbas

Būsimas darbas

Išvada

Susiję esė