AI novērtēšana lēmumu pieņemšanai nenoteiktības apstākļos

Uz lēmumiem orientēta LLM novērtēšana nenoteiktības apstākļos

Lielākā daļa pieeju AI novērtēšanai pieņem, ka mērķis ir radīt pareizu, pilnīgu un labi noformētu tekstu. Šajā rakstā tiek argumentēts, ka šādi pieņēmumi sabrūk reālās pārvaldības situācijās. Ja lēmumi jāpieņem nenoteiktības apstākļos, ar nepilnīgiem un trokšņainiem datiem, būtiskais jautājums nav par to, vai izvade ir perfekta, bet gan par to, vai tā noved pie pareizā lēmuma pareizajā līmenī. Šī perspektīva iezīmē alternatīvu: uz lēmumiem orientētu pieeju AI novērtēšanai, kas balstīta nenoteiktībā, ierobežotā racionalitātē un uzņēmuma pārvaldībā.

Kanita perspektīva

AI novērtēšana bieži tiek ietverta korektuma, pilnīguma un lingvistiskās kvalitātes kategorijās. Šis ietvars labi darbojas tādiem uzdevumiem kā kopsavilkumu veidošana, jautājumu un atbilžu sistēmas vai satura ģenerēšana. Taču tas kļūst nepietiekams kontekstā, kurā darbojas Kanita (www.kanita.se): pārvaldībā, risku vadībā un vadības līmeņa lēmumu pieņemšanā nenoteiktības un laika spiediena apstākļos.

Kanita veido pārvaldības triāžas ziņojumus no nepilnīgiem, trokšņainiem un bieži vien neskaidriem datiem. Visierobežotākajā formā sistēma var balstīties tikai uz publiski pieejamu informāciju, kas iegūta no viena URL. Tas veido apzināti vāju signālu vidi, kurā datu kvalitāte pēc būtības ir ierobežota un nevienmērīga.

Pamata hipotēze nav tāda, ka AI radīs pilnībā pareizas vai izsmeļošas analīzes, bet gan tāda, ka lēmumu pieņēmēji bieži iegūst vairāk no agrīniem, nepilnīgiem signāliem nekā no novēlotiem, visaptverošiem ziņojumiem. Tāpēc mērķis nav analītisks pilnīgums, bet gan vāju un fragmentētu ievadu pārveidošana strukturētās, lēmumiem nozīmīgās vadlīnijās.

Kanita pieejas centrā ir triāžas ķīlis:

ATĻAUT — turpināt esošās pārvaldības ietvaros
IESALDĒT — apturēt, līdz ir precizēta atbildība un risks
NEPIECIEŠAMS FORMĀLS LĒMUMS — eskalēt uz vadības līmeni

Šī struktūra samazina neskaidrību līdz rīcībspējīgām kategorijām un saskaņo steidzamību ar atbilstošo organizācijas līmeni. Lai gan bagātīgāki iekšējie un strukturētie datu avoti var būtiski uzlabot izvades kvalitāti, lielāks informācijas pilnīgums ne vienmēr noved pie labākiem lēmumiem. Augstas nenoteiktības vidēs signāla skaidrība bieži atsver analīzes pilnīgumu.

Šī perspektīva saskan ar iedibinātiem jēdzieniem, piemēram, VUCA (svārstīgums, nenoteiktība, sarežģītība, neskaidrība) un lēmumu pieņemšanu nenoteiktības apstākļos, kur mērķis nav novērst nenoteiktību, bet efektīvi rīkoties tās ietvaros.

No teksta kvalitātes uz lēmuma signālu

Tradicionālie valodu modeļu novērtēšanas ietvari — tostarp etalonkopas, piemēram, HELM (Holistic Evaluation of Language Models), un saistītās pieejas — uzsver tādas dimensijas kā precizitāte, kalibrācija, robustums un lingvistiskā kvalitāte. Šie ietvari ir piemēroti, ja patiesais stāvoklis ir skaidri definēts vai ja izvades var novērtēt pret stabiliem atsauces risinājumiem.

Tomēr pārvaldības un risku kontekstos šādi atsauces punkti bieži nav pieejami vai ir pēc būtības neskaidri. Jautājums nav par to, vai ziņojums ir “pareizs” absolūtā nozīmē, bet gan par to, vai tas atbalsta atbilstošu lēmumu pieņemšanu pie nepilnīgas informācijas.

Tāpēc Kanita pārorientē novērtēšanu ap trim pamatjautājumiem: vai izvade rada atbilstošu lēmuma signālu, vai eskalācija ir novietota pareizajā organizatoriskajā līmenī un vai nozīmīgākie riski ir izcelti pietiekami skaidri, lai iespējotu rīcību.

Tādējādi novērtēšanas vienība nav pats teksts, bet tā funkcionālā ietekme uz lēmumu pieņemšanu.

Šī perspektīva sintezē atziņas no vairākām pētniecības jomām: LLM novērtēšanas (pāru salīdzināšana un modeļos balstīta vērtēšana), informācijas atlases (nozīmīgums svarīgāks par pilnīgumu) un lēmumu zinātnes (ierobežota racionalitāte un pietiekamības princips). Kopā šīs jomas liecina, ka lietderība nenoteiktības apstākļos ir piemērotāks novērtēšanas mērķis nekā teksta uzticamība.

Darbība nenoteiktības apstākļos

Kanita kontekstu nosaka trīs strukturāli ierobežojumi: nepilnīgi un trokšņaini dati, augstu likmju lēmumu vide un ierobežots analīzei pieejamais laiks. Tie nav pagaidu ierobežojumi — tās ir reālās pārvaldības un risku pasaules iekšējas īpašības.

Tam ir divas svarīgas sekas.

Pirmkārt, tas padara tradicionālos “pareizības” priekšstatus nepietiekamus. Ja dati ir daļēji, neskaidri vai vāji pamatoti, bieži vien nepastāv stabila patiesā atskaites vērtība, pret kuru vērtēt izvades. Jebkurš mēģinājums šādā vidē optimizēt perfekti precīzu rezultātu vai nu novedīs pie maldīgas precizitātes, vai paralīzes.

Otrkārt, tas pārbīda problēmu no analīzes uz lēmumu pieņemšanu ierobežojumu apstākļos. Tas saskan ar iedibinātiem principiem lēmumu zinātnē:

Ierobežotā racionalitāte (Herbert Simon) — lēmumi tiek pieņemti laika, informācijas un kognitīvās kapacitātes ierobežojumu apstākļos
Pietiekamības princips (satisficing) — mērķis nav optimāli lēmumi, bet pietiekami labi lēmumi, uz kuru pamata var rīkoties

Šo jēdzienu nozīmīgums ir tiešs. Ja lēmumu pieņēmēji darbojas ierobežotas racionalitātes apstākļos, tad novērtēšanas ietvariem jāatspoguļo tie paši ierobežojumi. Izvades nav jāvērtē pēc tā, cik pilnīgas vai precīzas tās ir absolūtā nozīmē, bet pēc tā, cik efektīvi tās atbalsta rīcību šo ierobežojumu ietvaros.

Tas noved pie atšķirīgas definīcijas tam, ko nozīmē “labs”.

Labs rezultāts nav tāds, kas novērš nenoteiktību, bet gan tāds, kas:

strukturē nenoteiktību skaidrā lēmuma signālā
novieto šo signālu atbilstošā eskalācijas līmenī
ļauj savlaicīgi rīkoties, nepārspīlējot pamatā esošo pierādījumu spēku

Citiem vārdiem, kvalitāti definē lēmuma adekvātums nenoteiktības apstākļos, nevis analītisks pilnīgums vai teksta pareizība.

Attiecīgi Kanita vērtē izvades pēc to spējas no nepilnīgiem datiem radīt lietojamus, pareizi kalibrētus lēmuma signālus.

Kā izskatās “labs” rezultāts

Definēt, kas šajā kontekstā ir “labs” ziņojums, nav triviāli. Atšķirībā no uzdevumiem ar skaidru patieso atbildi, pārvaldības triāža darbojas neskaidrības, daļējas informācijas un konkurējošu interpretāciju apstākļos. Tāpēc turpmāk minētos kritērijus nevajadzētu interpretēt kā galīgus vai izsmeļošus, bet gan kā atvasinātas heiristikas, kas sakņotas iepriekš izklāstītajos ierobežojumos un teorētiskajos pamatos.

Konkrēti, tie izriet no:

ierobežotas racionalitātes (lēmumi pie ierobežotas informācijas un laika)
pietiekamības principa (priekšroka rīcībspējīgam pietiekamumam, nevis optimālam pilnīgumam)
uz nozīmīgumu balstītas novērtēšanas (lietderība svarīgāka par absolūtu pareizību)

No šī skatpunkta “labs” ziņojums ir tāds, kas, šķiet, atbilst vairākiem pārklājošiem nosacījumiem.

Pirmkārt, tam vajadzētu piešķirt pamatotu triāžas kategoriju. Nenoteiktības apstākļos precīza klasifikācija bieži nav sasniedzama; tomēr ziņojumam vajadzētu novietot jautājumu ticamā lēmumu joslā (piemēram, būtiski nenovērtējot vai nepārvērtējot risku). Tas atspoguļo pietiekamības principu, nevis precīzu optimizāciju.

Otrkārt, tam vajadzētu novietot lēmumu atbilstošā organizatoriskajā līmenī. Tas izriet no pārvaldības teorijas (piemēram, COSO ERM), kur lēmuma kvalitāti daļēji nosaka tas, vai par to atbild pareizais atbildības līmenis.

Treškārt, tam vajadzētu identificēt nozīmīgas pārvaldības un risku tēmas. Balstoties informācijas atlases principos, mērķis nav izsmeļošs pārklājums, bet gan lēmumam būtiskāko signālu uztveršana (piemēram, regulatīvā ietekme, atbildības plaisas, izsekojamības problēmas).

Ceturtkārt, tam vajadzētu ļaut veikt konkrētu diskusiju un rīcību. Saskaņā ar ierobežotas racionalitātes principu izvadei jāsamazina, nevis jāpalielina kognitīvā slodze. Ziņojumam, kas ir analītiski bagāts, bet operacionāli neskaidrs, ir ierobežota vērtība.

Piektkārt, tam vajadzētu demonstrēt atbilstošu nenoteiktības apstrādi. Tas ietver pieņēmumu skaidru norādīšanu, nepamatotas precizitātes nepieļaušanu un novērojumu nošķiršanu no secinājumiem. Tas saskan ar epistemisko kalibrāciju, nevis faktu pilnīgumu.

Šīs dimensijas ir savstarpēji atkarīgas, nevis neatkarīgi rādītāji, un kompromisi ir sagaidāmi. Īpaši konsekventi tiek novēroti divi kļūmju režīmi:

Pārmērīga pārliecība, balstoties uz vājiem signāliem, kad ziņojums pārspīlē noteiktību vai eskalē bez pietiekama pamata
Pārmērīga piesardzība, kad nenoteiktība tiek pārvaldīta tik konservatīvi, ka nepaliek nekāds rīcībspējīgs signāls

“Labs” rezultāts šīs spriedzes nenovērš, bet līdzsvaro. Tas ir pietiekami strukturēts, lai atbalstītu rīcību, vienlaikus paliekot atbilstoši kalibrēts attiecībā pret pamatā esošo datu ierobežojumiem.

Šajā nozīmē kvalitāti vislabāk saprast nevis kā pareizību, bet kā lēmuma adekvātumu nenoteiktības apstākļos.

Kā darbojas novērtēšana (sākotnējā metode)

Pašreizējā ieviešana ir sākotnēja metode pārvaldības triāžas izvades novērtēšanai dažādos modeļos un konfigurācijās.

Vairāki ziņojumi tiek ģenerēti no vieniem un tiem pašiem pamatdatiem, izmantojot dažādus modeļus (piemēram, Google Gemini, Mistral) un dažādus modeļu izmērus. Tas rada kontrolētu salīdzināšanas kopu, kurā variācija rodas no modeļa uzvedības, nevis ievaddatu atšķirībām.

Iegūtās izvades tiek novērtētas LangSmith vidē, izmantojot kombināciju no:

Salīdzinošas novērtēšanas (pāru salīdzinājums)
Strukturētas novērtēšanas pa dimensijām

Šī pieeja ļauj gan veidot rangojumu (kurš ziņojums ir labāks), gan gūt diagnostisku ieskatu (kāpēc tas ir labāks).

Salīdzinošā novērtēšana

Ziņojumi tiek vērtēti pa pāriem. Galvenais jautājums ir:

Kurš ziņojums labāk atbalsta vadības līmeņa lēmumu pieņemšanu?

Pāru salīdzināšana empīriski ir robustāka nekā absolūtais vērtējums kontekstos, kam raksturīga neskaidrība un nepilnīgs patiesā stāvokļa pamatojums.

Strukturētās dimensijas

Katrs ziņojums tiek vērtēts arī pa definētu dimensiju kopu:

triāžas pareizība
lēmuma līmeņa precizitāte
risku nozīmīgums
lietderība lēmuma pieņemšanai
nenoteiktības disciplīna
apgalvojumu disciplīna (izvairīšanās no nepamatotiem secinājumiem)

Šīs dimensijas tiek mērītas, izmantojot ordinālas skalas, lai saglabātu interpretējamību un mazinātu maldīgu precizitāti.

No pārvaldības skatpunkta šīs dimensijas var saprast arī caur COBIT prizmu:

Triāžas pareizība → saskan ar nodrošinājumu, ka riski tiek pienācīgi novērtēti un tiek ierosinātas atbilstošas kontroles darbības (risku optimizācija)
Lēmuma līmeņa precizitāte → atspoguļo pareizu lēmumu tiesību un atbildības sadalījumu (pārvaldības un vadības pienākumi)
Risku nozīmīgums → atbilst uzņēmuma risku identificēšanai un prioritizēšanai, kas ietekmē vērtības radīšanu
Lietderība lēmuma pieņemšanai → atbalsta vērtības radīšanu, ļaujot pieņemt rīcībspējīgus un savlaicīgus lēmumus
Nenoteiktības disciplīna → saistīta ar atbilstoša pārliecības līmeņa uzturēšanu un izvairīšanos no maldīgas precizitātes kontrolē un atskaitēs
Apgalvojumu disciplīna → saskan ar pārvaldībā un lēmumu pieņemšanā izmantotās informācijas integritāti un uzticamību

Šī kartēšana nostiprina to, ka novērtēšanas dimensijas nav patvaļīgas, bet atbilst iedibinātiem IT pārvaldības un uzņēmuma risku vadības principiem.

Vēl konkrētāk, šo ietvaru var interpretēt kā vieglsvēra, uz lēmumiem orientētu COBIT principu operacionalizāciju nenoteiktības apstākļos. Īpaši:

EDM (Evaluate, Direct, Monitor) → atspoguļojas triāžas pareizībā un lēmuma līmeņa precizitātē, nodrošinot, ka pareizie jautājumi tiek eskalēti un pārvaldīti atbilstošajā līmenī
APO (Align, Plan, Organize) → atspoguļojas risku nozīmīgumā un lietderībā lēmumu pieņemšanai, sasaistot identificētos riskus ar rīcībspējīgām organizatoriskām atbildēm
BAI (Build, Acquire, Implement) → netieši tiek atbalstīts caur nenoteiktības un apgalvojumu disciplīnu, nodrošinot, ka lēmumi, kas nonāk ieviešanas plūsmās, ir atbilstoši kvalificēti un pamatoti

Šī interpretācija pozicionē ietvaru nevis kā alternatīvu iedibinātiem pārvaldības modeļiem, bet kā papildinošu slāni, kas fokusējas uz agrīnas stadijas signālu strukturēšanu un lēmumu atbalstu.

Kā tiek vērtētas dimensijas

Katra dimensija tiek novērtēta, izmantojot izvadē novērojamus signālus, nevis tikai subjektīvus iespaidus.

Triāžas pareizība

Vai ieteiktā darbība (ATĻAUT / IESALDĒT / FORMĀLS LĒMUMS) atbilst aprakstītajam riska līmenim?
Sarkanās karodziņa pazīmes: drošības vai regulatīvo jautājumu nepietiekama eskalācija vai nelielu bažu pārmērīga eskalācija

Lēmuma līmeņa precizitāte

Vai jautājums ir novietots atbilstošā organizatoriskajā līmenī (komanda pret CIO pret vadību)?
Signāls: saskaņa starp riska tvērumu un lēmuma pilnvarām

Risku nozīmīgums

Vai ir identificēti būtiskākie pārvaldības riski?
Signāls: galveno tēmu klātbūtne (regulatīvais risks, atbildība, izsekojamība, trešo pušu risks)

Lietderība lēmuma pieņemšanai

Vai lēmumu pieņēmējs var uzreiz rīkoties, balstoties uz to?
Signāls: nākamā soļa skaidrība, neskaidrību neesamība, skaidra eskalācijas loģika

Nenoteiktības disciplīna

Vai ziņojums atbilstoši kvalificē pieņēmumus?
Signāls: nošķīrums starp novērotajiem faktiem, izsecinātajiem secinājumiem un nezināmajiem

Apgalvojumu disciplīna

Vai apgalvojumi ir samērīgi ar pieejamajiem pierādījumiem?
Signāls: nepamatotu vai pārmērīgi specifisku apgalvojumu neesamība

Piemēru matrica: labi un vāji rezultāti

Dimensija	Labs piemērs	Vājš piemērs
Triāžas pareizība	Eskalē AI drošības sistēmās uz FORMĀLU LĒMUMU regulatīvās ietekmes dēļ	To pašu jautājumu klasificē kā ATĻAUT ar neskaidru pamatojumu
Lēmuma līmeņa precizitāte	Piešķir starpfunkcionālu pārvaldības jautājumu CIO līmenim	Atstāj sistēmisku pārvaldības jautājumu komandas līmenī
Risku nozīmīgums	Identificē AI aktu, izsekojamību un QA nepilnības	Fokusējas tikai uz vispārīgiem apgalvojumiem “AI ir svarīgs”
Lietderība lēmuma pieņemšanai	Skaidri nosaka “apturēt ieviešanu, līdz definēts validācijas process”	Piedāvā analīzi, bet bez skaidra ieteikuma
Nenoteiktības disciplīna	Skaidri norāda pieņēmumus un izceļ nezināmos	Izsecinātus apgalvojumus pasniedz kā nostiprinātus faktus
Apgalvojumu disciplīna	Izmanto piesardzīgu valodu attiecībā uz izsecinātiem riskiem	Bez pierādījumiem izsaka specifiskus apgalvojumus par sistēmām vai procesiem

Šī sākotnējā metode ir veidota iteratīvai attīstībai. Novērtēšanas izvades tiek izmantotas ne tikai modeļu salīdzināšanai, bet arī uzvedņu dizaina, modeļu izvēles un turpmāku sistēmas uzlabojumu informēšanai.

Subjektivitātes piesaiste pie pamata

Šī, visticamāk, ir visgrūtākā ietvara daļa. Praksē ziņojuma vērtību nenosaka tikai tā iekšējā kvalitāte, bet arī tas, ko tas dara reālā organizatoriskā vidē. Ziņojums var tikt vērtēts kā “labs”, jo tas ir analītiski labi kalibrēts vai palīdz lēmumu pieņēmējam izcelt iepriekš ignorētu, bet svarīgu jautājumu. Taču tas var tikt vērtēts kā “labs” arī mazāk aizstāvamu iemeslu dēļ: tāpēc, ka tas atbalsta iepriekš pastāvošu darba kārtību, pastiprina iecienītu bažu tēmu vai nonāk brīdī, kad organizācija ir neparasti uzņēmīga pret šo jautājumu.

Pamatideja:

Ziņojums praksē var būt efektīvs arī citu iemeslu dēļ, nevis tāpēc, ka tas ir analītiski labs.

Tas rada kritisku atšķirību starp trim saistītiem, bet atšķirīgiem jēdzieniem:

Analītiskā kvalitāte — cik labi ziņojums atspoguļo pieejamos pierādījumus un apstrādā nenoteiktību
Organizatoriskā pieņemšana — vai ziņojums tiek pieņemts, apspriests vai izmantots rīcībā
Ietekme uz lēmumiem — vai ziņojums laika gaitā noved pie nozīmīgiem vai pareiziem lēmumiem

Tie ne vienmēr sakrīt. Ziņojums var panākt augstu pieņemšanu, bet zemu analītisko kvalitāti (piemēram, nostiprinot “mīļo tēmu”), vai arī augstu analītisko kvalitāti, bet zemu pieņemšanu (piemēram, neveiksmīga laika izvēles vai organizācijas gatavības trūkuma dēļ).

Šī iemesla dēļ Kanita subjektivitāti neuztver kā troksni, ko vienkārši var izņemt, bet gan kā daļu no pētāmās parādības. Praktiskais pārbaudījums zināmā mērā ir “pudiņa pierādījums ēšanā”: tiek vākts ierobežots reālu gadījumu kopums, lai novērotu, kā izvades tiek saņemtas, izmantotas un interpretētas faktiskos lēmumu kontekstos.

Šī perspektīva saskan ar pētījumiem par nenoteiktību un ekoloģisko racionalitāti, īpaši ar Gerd Gigerenzer darbu. Centrāla atziņa šajā tradīcijā ir tāda, ka spriedumi nav jāvērtē tikai abstrakcijā, bet attiecībā pret vidi, kurā tie tiek izmantoti. Nenoteiktās vidēs vienkāršas heiristikas var pārspēt sarežģītākus modeļus, ja tās ir labi pieskaņotas uzdevuma struktūrai. Attiecīgi pārvaldības ziņojuma lietderību nevar novērtēt tikai pēc tekstuālām īpašībām; tā jāvērtē attiecībā pret organizatorisko kontekstu, lēmuma pieņemšanas laiku un darbības veidu, ko ziņojums ir paredzēts atbalstīt.

Tas sasaistās arī ar organizāciju pētījumiem par neskaidrību, uzmanību un motivētu spriešanu. Reālās institūcijās to, kas tiek uzskatīts par pārliecinošu vai lietderīgu, veido ne tikai pierādījumi, bet arī stimuli, jautājuma aktualitāte un laiks. Ziņojums, kas paceļ “mīļo tēmu”, var iegūt rezonansi tāpēc, ka tas saskan ar pašreizējām politiskajām prioritātēm, nevis tāpēc, ka tas vislabāk atspoguļo pamatā esošo risku. Savukārt labāk kalibrēts ziņojums var tikt ignorēts, ja organizācija vēl nav gatava rīkoties.

Šī dinamika rada būtisku metodoloģisku izaicinājumu: novērtēšana nevar balstīties tikai uz to, vai ziņojums praksē “uzvar”. Praktiskā pieņemšana ir informatīva, taču tā nav ekvivalenta analītiskajai kvalitātei. Tāpēc reālas izmantošanas fakti būtu jāuztver kā viens no vairākiem signāliem, nevis vienīgais kvalitātes šķīrējs.

Tā vietā, lai mēģinātu likvidēt subjektivitāti, Kanita cenšas to ierobežot un pētīt, izmantojot:

atlasītus atsauces gadījumus (“zelta kopu”)
atkārtotus novērtēšanas ciklus
vērtētāju savstarpējās saskaņas mērīšanu
nejaušinātu salīdzinājumu secību aizspriedumu mazināšanai
ierobežotu reālās pieņemšanas un lietojuma novērošanu

Mērķis nav objektivitāte absolūtā nozīmē, bet konsekvence un uzticamība subjektīva sprieduma apstākļos, vienlaikus saglabājot uzmanību tam, ka pats spriedums tiek veidots nenoteiktības, organizatoriskā konteksta un laika ietekmē. Ziņojums, kas paceļ “mīļo tēmu”, var iegūt rezonansi tāpēc, ka tas saskan ar pašreizējām politiskajām prioritātēm, nevis tāpēc, ka tas vislabāk atspoguļo pamatā esošo risku. Savukārt labāk kalibrēts ziņojums var tikt ignorēts, ja organizācija vēl nav gatava rīkoties.

Tā vietā, lai mēģinātu likvidēt subjektivitāti, Kanita cenšas to ierobežot un pētīt, izmantojot:

atlasītus atsauces gadījumus (“zelta kopu”)
atkārtotus novērtēšanas ciklus
vērtētāju savstarpējās saskaņas mērīšanu
nejaušinātu salīdzinājumu secību aizspriedumu mazināšanai
ierobežotu reālās pieņemšanas un lietojuma novērošanu

Pamati

Šī perspektīva balstās vairākās iedibinātās jomās. Katra no tām sniedz atšķirīgu skatpunktu, kā novērtēt AI ģenerētas izvades lēmumu pieņemšanas kontekstos.

LLM novērtēšana

Par ko ir šī joma
LLM novērtēšana fokusējas uz valodu modeļu snieguma izvērtēšanu tādās dimensijās kā precizitāte, spriešana, robustums un atbilstība cilvēku preferencēm. Modeļiem kļūstot spējīgākiem, novērtēšana ir pārgājusi no statiskiem etaloniem uz dinamiskākām metodēm, piemēram, pāru salīdzināšanu un modeļos balstītu vērtēšanu.

Galvenās balsis un ieguldījumi

OpenAI (piemēram, GPT-4 ziņojums): ieviesa cilvēku preferenču un pāru novērtēšanas plaša mēroga izmantojumu
Anthropic: uzsvēra strukturētu novērtēšanu, saskaņotību un konsekvenci
LMSYS (Zheng et al.): demonstrēja LLM-as-a-judge un salīdzinošās novērtēšanas metodes
Stanford HELM projekts: holistiska novērtēšana vairākās dimensijās un scenārijos

Informācijas atlase

Par ko ir šī joma
Informācijas atlase pēta, kā atrast un sarindot nozīmīgu informāciju lielās, trokšņainās datu kopās. Novērtēšana fokusējas nevis uz absolūtu pareizību, bet uz nozīmīgumu — vai atrastā informācija ir lietderīga konkrētam uzdevumam.

Galvenās balsis un ieguldījumi

TREC (Text REtrieval Conference): iedibināja uz nozīmīgumu balstītus novērtēšanas standartus
Gerard Salton: fundamentāls darbs pie vektortelpas modeļiem un ranžēšanas
Stephen Robertson: varbūtiskie atlases modeļi (piemēram, BM25)

Lēmumu zinātne

Par ko ir šī joma
Lēmumu zinātne pēta, kā indivīdi un organizācijas pieņem izvēles ierobežojumu apstākļos, piemēram, pie ierobežotas informācijas, laika spiediena un kognitīviem ierobežojumiem. Tā apstrīd pieņēmumu par pilnībā racionālu lēmumu pieņemšanu.

Galvenās balsis un ieguldījumi

Herbert Simon: ierobežotā racionalitāte un pietiekamības princips
Daniel Kahneman & Amos Tversky: heiristikas, aizspriedumi un lēmumu pieņemšana nenoteiktības apstākļos
Gerd Gigerenzer: ekoloģiskā racionalitāte un adaptīvas heiristikas

Risks un pārvaldība

Par ko ir šī joma
Risku un pārvaldības ietvari definē, kā organizācijas strukturē lēmumu tiesības, atbildību, kontroles mehānismus un risku vadību sarežģītās vidēs. Šajā kontekstā pārvaldība nav tikai atbilstība prasībām, bet arī nodrošinājums, ka lēmumi tiek pieņemti pareizajā līmenī, ar pareizo informāciju un skaidru atbildību.

Galvenās balsis un ieguldījumi

COBIT (ISACA): nodrošina visaptverošu ietvaru uzņēmuma IT pārvaldībai un vadībai, uzsverot saskaņojumu starp biznesa mērķiem, kontroles mērķiem un lēmumu tiesībām
CGEIT zināšanu kopums: fokusējas uz uzņēmuma IT pārvaldību, tostarp vērtības piegādi, risku optimizāciju un resursu vadību
ISO 31000: principi un vadlīnijas risku vadībai nenoteiktības apstākļos
ES AI akts: topošs Eiropas regulatīvais ietvars augsta riska AI sistēmām, uzsverot izsekojamību, atbildību un pārvaldību

Kopā šīs jomas atbalsta pāreju no teksta izvades novērtēšanas uz lēmumu atbalsta sistēmu, kas darbojas nenoteiktības apstākļos, novērtēšanu.

Ierobežojumi un turpmākais darbs

Šis ietvars ir sākotnējs mēģinājums formalizēt lēmumu atbalsta sistēmu novērtēšanu nenoteiktības apstākļos. Tāpēc tam ir vairāki ierobežojumi.

Pirmkārt, ietvars balstās uz strukturētu subjektīvu spriedumu, nevis objektīvu patiesuma atskaites punktu. Lai arī tādi mehānismi kā pāru salīdzināšana, saskaņas mērīšana un atsauces gadījumi samazina patvaļību, tie to neizslēdz. Novērtēšanas rezultāti joprojām ir jutīgi pret rubriku dizainu un vērtētāju pieņēmumiem.

Otrkārt, pašreizējie kritēriji ir heiristiski un induktīvi. Tie ir atvasināti no teorijas (lēmumu zinātne, informācijas atlase, pārvaldība) un agrīniem empīriskiem novērojumiem, bet vēl nav validēti ar liela mēroga vai longitudināliem pētījumiem.

Treškārt, ietvars pieņem relatīvi konsekventu lēmumu kontekstu (CIO / vadības pārvaldība). Tā piemērojamība citām jomām vai lēmumu vidēm var prasīt pielāgošanu.

Ceturtkārt, līdzsvaru starp nenoteiktības kalibrāciju un rīcībspēju joprojām ir grūti precīzi izmērīt. Laika gaitā var būt nepieciešami formālāki aizstājrādītāji un metrikas, lai šo kompromisu novērtētu uzticamāk.

Turpmākais darbs

Turpmākā attīstība fokusēsies uz šī konceptuālā ietvara pārvēršanu nepārtraukti uzlabojamā novērtēšanas sistēmā.

Galvenie virzieni ietver:

Vērtētāju kalibrācija un etalonēšana
Sistemātiska saskaņas mērīšana starp cilvēku vērtētājiem un uz LLM balstītiem vērtētājiem, tostarp stabilitāte atkārtotos ciklos.
LLM-as-a-judge attīstība
Novērtēšanas uzvedņu un shēmu pilnveide, lai uzlabotu konsekvenci, mazinātu aizspriedumus un iespējotu mērogojamu salīdzinošo novērtēšanu.
Datu kopas paplašināšana (“zelta kopa”)
Lielākas un daudzveidīgākas atsauces datu kopas veidošana, lai nostiprinātu novērtēšanu un atbalstītu statistisko analīzi.
Metriku formalizācija
Skaidrāku un pārbaudāmāku aizstājrādītāju izstrāde tādām dimensijām kā lietderība lēmuma pieņemšanai, nenoteiktības disciplīna un pārmērīgu apgalvojumu īpatsvars.
Modeļu optimizācija
Novērtēšanas signālu izmantošana, lai atbalstītu mazāku, efektīvāku modeļu pielāgošanu vai destilāciju, kas optimizēti pārvaldības triāžas uzdevumiem.
Uzvedņu un sistēmas dizaina iterācija
Nepārtraukta uzvedņu, cauruļvadu un atlases stratēģiju pilnveide, balstoties uz novērotajiem novērtēšanas rezultātiem.

Ilgtermiņa mērķis ir šo pieeju attīstīt par slēgta cikla novērtēšanas un uzlabošanas sistēmu, kur izvades tiek nepārtraukti vērtētas, salīdzinātas un izmantotas gan modeļu, gan novērtēšanas metožu uzlabošanai.

Secinājums

Šī perspektīva pārformulē AI novērtēšanu no teksta kvalitātes jautājuma par lēmumu atbalsta jautājumu nenoteiktības apstākļos.

Visā dokumentā izkristalizējas konsekventa pozīcija:

Reālās pasaules pārvaldība darbojas ar nepilnīgiem datiem, laika spiedienu un konkurējošām interpretācijām.
Šādos apstākļos pareizība un pilnīgums ir nepietiekami novērtēšanas mērķi.
Nozīme ir tam, vai izvades rada atbilstoši kalibrētus, rīcībspējīgus lēmuma signālus.

Tāpēc piedāvātā pieeja apvieno:

Salīdzinošo novērtēšanu (kurš ziņojums ir lietderīgāks lēmumu pieņemšanai)
Strukturētas dimensijas, kas balstītas lēmumu zinātnē, informācijas atlasē un ar COBIT saskaņotos pārvaldības principos
Skaidru subjektivitātes apstrādi, atzīstot plaisu starp analītisko kvalitāti, organizatorisko pieņemšanu un ietekmi uz lēmumiem

Praktiski tas tiek ieviests kā sākotnēja metode: vairāki modeļi (piemēram, Gemini, Mistral) ģenerē ziņojumus par tiem pašiem datiem; izvades tiek novērtētas LangSmith; rezultāti informē modeļu izvēli, uzvedņu dizainu un sistēmas iterāciju. Metode ir apzināti iteratīva un paredzēta attīstībai uz slēgta cikla novērtēšanas sistēmu.

Konceptuāli ietvars pozicionē Kanita kā slāni, kas darbojas pirms formālās pārvaldības — strukturējot vājus signālus triāžas lēmumos, kas saskan ar COBIT principiem (EDM/APO/BAI), vienlaikus paliekot kalibrēti pret nenoteiktību.

Galvenā implikācija nav tāda, ka nenoteiktību var novērst, bet gan tāda, ka to var padarīt rīcībspējīgu.

Mērķis nav perfekta analīze.

Tas ir pareizais lēmuma signāls, pareizajā līmenī, ar kalibrētu pārliecību, no nepilnīgiem datiem.

Uz lēmumiem orientēta LLM novērtēšana nenoteiktības apstākļos

Kanita perspektīva

No teksta kvalitātes uz lēmuma signālu

Darbība nenoteiktības apstākļos

Kā izskatās “labs” rezultāts

Kā darbojas novērtēšana (sākotnējā metode)

Salīdzinošā novērtēšana

Strukturētās dimensijas

Kā tiek vērtētas dimensijas

Piemēru matrica: labi un vāji rezultāti

Subjektivitātes piesaiste pie pamata

Pamati

LLM novērtēšana

Informācijas atlase

Lēmumu zinātne

Risks un pārvaldība

Ierobežojumi un turpmākais darbs

Turpmākais darbs

Secinājums

Saistītās esejas