Tehisintellekti hindamine otsustamiseks ebakindluse tingimustes

Otsusekeskne LLM-ide hindamine ebakindluse tingimustes

Enamik tehisintellekti hindamise lähenemisviise eeldab, et eesmärk on toota korrektset, täielikku ja hästi vormistatud teksti. See artikkel väidab, et sellised eeldused lagunevad pärismaailma juhtimiskontekstides. Kui otsuseid tuleb teha ebakindluse tingimustes, mittetäielike ja mürarikaste andmete põhjal, siis ei ole asjakohane küsimus see, kas väljund on täiuslik, vaid kas see viib õige otsuseni õigel tasemel. See vaade kirjeldab alternatiivi: otsusekeskset lähenemist tehisintellekti hindamisele, mis tugineb ebakindlusele, piiratud ratsionaalsusele ja ettevõtte juhtimisele.

Kanita vaatenurk

Tehisintellekti hindamist käsitletakse sageli korrektsuse, täielikkuse ja keelelise kvaliteedi kaudu. Selline raamistik toimib hästi ülesannete puhul nagu kokkuvõtete loomine, küsimustele vastamine või sisu genereerimine. Kuid see muutub ebapiisavaks kontekstis, milles Kanita (www.kanita.se) tegutseb: juhtimine, risk ja juhtkonna otsustamine ebakindluse ja ajasurve tingimustes.

Kanita koostab juhtimise triaažiraporteid mittetäielike, mürarikaste ja sageli mitmetähenduslike andmete põhjal. Kõige piiratumal kujul võib süsteem tugineda üksnes avalikult kättesaadavale teabele, mis pärineb ühest URL-ist. See kujutab endast tahtlikult nõrga signaali keskkonda, kus andmete kvaliteet on olemuslikult piiratud ja ebaühtlane.

Aluseks olev hüpotees ei ole see, et tehisintellekt toodab täielikult korrektseid või ammendavaid analüüse, vaid et otsustajad saavad sageli rohkem kasu varajastest, ebatäiuslikest signaalidest kui hilinenud, põhjalikest raportitest. Seega ei ole eesmärk analüütiline täielikkus, vaid nõrkade ja killustunud sisendite teisendamine struktureeritud, otsust toetavaks juhiseks.

Kanita lähenemise keskmes on triaažikiil:

LUBA — jätka olemasoleva juhtimiskorralduse raames
PEATA — peata kuni vastutus ja risk on selgitatud
VAJALIK FORMAALNE OTSUS — eskaleeri juhtkonna tasemele

See struktuur vähendab mitmetähenduslikkust tegevust võimaldavateks kategooriateks ja seob kiireloomulisuse sobiva organisatsioonilise tasemega. Kuigi rikkalikumad sisemised ja struktureeritud andmeallikad võivad väljundite kvaliteeti märkimisväärselt parandada, ei vii suurem informatsiooniline täielikkus tingimata paremate otsusteni. Suure ebakindlusega keskkondades kaalub signaali selgus sageli üles analüüsi täielikkuse.

See vaatenurk on kooskõlas väljakujunenud mõistetega nagu VUCA (Volatility, Uncertainty, Complexity, Ambiguity — volatiilsus, ebakindlus, keerukus, mitmetähenduslikkus) ja otsustamine ebakindluse tingimustes, kus eesmärk ei ole ebakindluse kõrvaldamine, vaid tõhus tegutsemine selle sees.

Tekstikvaliteedilt otsussignaalile

Keelemudelite tavapärased hindamisraamistikud — sealhulgas võrdluskomplektid nagu HELM (Holistic Evaluation of Language Models) ja nendega seotud lähenemised — rõhutavad selliseid mõõtmeid nagu täpsus, kalibreeritus, robustsus ja keeleline kvaliteet. Need raamistikud on sobivad siis, kui aluseline tõde on hästi määratletud või kui väljundeid saab hinnata stabiilsete võrdlusvastuste suhtes.

Juhtimise ja riski kontekstides on sellised võrdluspunktid aga sageli kättesaamatud või olemuslikult mitmetähenduslikud. Küsimus ei ole selles, kas raport on absoluutses mõttes “õige”, vaid kas see toetab sobivat otsustamist mittetäieliku teabe tingimustes.

Seetõttu sõnastab Kanita hindamise ümber kolme põhiküsimuse kaudu: kas väljund loob sobiva otsussignaali, kas eskalatsioon paigutatakse õigele organisatsioonilisele tasemele ning kas kõige olulisemad riskid tuuakse piisava selgusega esile, et võimaldada tegutsemist.

Seega ei ole hindamise ühik tekst ise, vaid selle funktsionaalne mõju otsustamisele.

See vaatenurk sünteesib teadmisi mitmest uurimisvaldkonnast: LLM-ide hindamine (paariviisiline võrdlus ja mudelipõhine hindamine), infootsing (asjakohasus üle täielikkuse) ja otsustusteadus (piiratud ratsionaalsus ja piisavalt hea lahendus). Koos viitavad need valdkonnad sellele, et kasulikkus ebakindluse tingimustes on sobivam hindamise siht kui tekstiline truudus.

Tegutsemine ebakindluse tingimustes

Kanita konteksti määratlevad kolm struktuurset piirangut: mittetäielikud ja mürarikkad andmed, kõrgete panustega otsustuskeskkonnad ning piiratud aeg analüüsiks. Need ei ole ajutised piirangud — need on pärismaailma juhtimise ja riski olemuslikud omadused.

Sellest järeldub kaks olulist asjaolu.

Esiteks muudab see traditsioonilised arusaamad “korrektsusest” ebapiisavaks. Kui andmed on osalised, mitmetähenduslikud või nõrgalt põhjendatud, puudub sageli stabiilne aluseline tõde, mille suhtes väljundeid hinnata. Iga katse optimeerida sellises olukorras täiuslikku täpsust viib kas näilise täpsuse või halvatuseni.

Teiseks nihutab see probleemi analüüsilt piirangute tingimustes otsustamisele. See on kooskõlas väljakujunenud põhimõtetega otsustusteaduses:

Piiratud ratsionaalsus (Herbert Simon) — otsuseid tehakse aja, info ja kognitiivse võimekuse piirangute all
Satisficing — eesmärk ei ole optimaalsed otsused, vaid piisavalt head otsused, mille alusel saab tegutseda

Nende mõistete asjakohasus on otsene. Kui otsustajad tegutsevad piiratud ratsionaalsuse tingimustes, siis peavad hindamisraamistikud kajastama samu piiranguid. Väljundeid ei tohiks hinnata selle järgi, kui täielikud või täpsed need absoluutses mõttes on, vaid selle järgi, kui tõhusalt need toetavad tegutsemist nende piirangute sees.

See viib teistsuguse määratluseni selle kohta, mida tähendab “hea”.

Hea väljund ei ole see, mis kõrvaldab ebakindluse, vaid see, mis:

struktureerib ebakindluse selgeks otsussignaaliks
paigutab selle signaali sobivale eskalatsioonitasemele
võimaldab õigeaegset tegutsemist, ületamata aluseks oleva tõendusmaterjali piire

Teisisõnu määratletakse kvaliteeti otsustusliku adekvaatsusega ebakindluse tingimustes, mitte analüütilise täielikkuse või tekstilise korrektsusega.

Sellest lähtuvalt hindab Kanita väljundeid nende võime alusel luua ebatäiuslikest andmetest kasutatavaid, õigesti kalibreeritud otsussignaale.

Milline näeb välja “hea”

Selle määratlemine, mis kujutab selles kontekstis endast “head” raportit, ei ole lihtne. Erinevalt ülesannetest, millel on selge aluseline tõde, toimib juhtimise triaaž mitmetähenduslikkuse, osalise teabe ja konkureerivate tõlgenduste tingimustes. Seetõttu ei tohiks allpool toodud kriteeriume tõlgendada lõplike või ammendavatena, vaid kui tuletatud heuristikuid, mis põhinevad varem kirjeldatud piirangutel ja teoreetilistel alustel.

Täpsustuseks lähtuvad need järgmisest:

piiratud ratsionaalsus (otsused piiratud info ja aja tingimustes)
satisficing (eelistus tegevust võimaldavale piisavusele optimaalse täielikkuse asemel)
asjakohasuspõhine hindamine (kasulikkus üle absoluutse korrektsuse)

Sellest vaatenurgast on “hea” raport selline, mis näib vastavat mitmele kattuvale tingimusele.

Esiteks peaks see määrama mõistliku triaažikategooria. Ebakindluse tingimustes on täpne klassifitseerimine sageli kättesaamatu; siiski peaks raport paigutama teema usutavasse otsustusvahemikku (nt mitte oluliselt alahinnates või üle eskaleerides riski). See peegeldab satisficing’u loogikat, mitte täpset optimeerimist.

Teiseks peaks see paigutama otsuse sobivale organisatsioonilisele tasemele. See tuleneb juhtimisteooriast (nt COSO ERM), kus otsuse kvaliteedi määrab osaliselt see, kas vastutus asub õigel aruandlustasandil.

Kolmandaks peaks see tuvastama asjakohased juhtimis- ja riskiteemad. Tuginedes infootsingu põhimõtetele ei ole eesmärk ammendav katvus, vaid kõige otsustusrelevantsemate signaalide tabamine (nt regulatiivne kokkupuude, vastutuslüngad, jälgitavuse probleemid).

Neljandaks peaks see võimaldama konkreetset arutelu ja tegutsemist. Kooskõlas piiratud ratsionaalsusega peavad väljundid vähendama, mitte suurendama kognitiivset koormust. Raport, mis on analüütiliselt rikas, kuid operatiivselt mitmetähenduslik, on piiratud väärtusega.

Viiendaks peaks see näitama ebakindluse asjakohast käsitlemist. See hõlmab eelduste selgesõnalist väljatoomist, põhjendamatu täpsuse vältimist ning vaatluse ja järelduse eristamist. See on kooskõlas episteemilise kalibreeritusega, mitte faktilise täielikkusega.

Need mõõtmed on omavahel sõltuvad, mitte iseseisvad mõõdikud, ning kompromissid on ootuspärased. Eelkõige täheldatakse järjepidevalt kahte läbikukkumisviisi:

Ülemäärane enesekindlus nõrkade signaalide põhjal, kus raport ülehindab kindlust või eskaleerib ilma piisava aluseta
Liigne ettevaatlikkus, kus ebakindlust käsitletakse nii konservatiivselt, et ükski tegevust võimaldav signaal ei jää alles

“Hea” väljund ei kõrvalda neid pingeid, vaid tasakaalustab neid. See on piisavalt struktureeritud, et toetada tegutsemist, jäädes samal ajal asjakohaselt kalibreerituks aluseks olevate andmete piiride suhtes.

Selles mõttes on kvaliteeti kõige parem mõista mitte korrektsuse, vaid otsustusliku adekvaatsusena ebakindluse tingimustes.

Kuidas hindamine toimib (esialgne meetod)

Praegune teostus kujutab endast esialgset meetodit juhtimise triaaživäljundite hindamiseks erinevate mudelite ja konfiguratsioonide lõikes.

Samadest alusandmetest genereeritakse mitme erineva mudeli (nt Google Gemini, Mistral) ja mudelisuurusega mitu raportit. See loob kontrollitud võrdluskomplekti, kus varieeruvuse põhjustab mudeli käitumine, mitte sisendi erinevused.

Saadud väljundeid hinnatakse LangSmithis, kasutades kombinatsiooni järgmistest meetoditest:

Võrdlev hindamine (paariviisiline)
Struktureeritud mõõtmepõhine skoorimine

See seadistus võimaldab nii järjestamist (milline raport on parem) kui ka diagnostilist arusaama (miks see parem on).

Võrdlev hindamine

Raporteid hinnatakse paarikaupa. Keskne küsimus on:

Milline raport toetab paremini juhtkonna otsustamist?

Paariviisiline võrdlus on empiiriliselt robustsem kui absoluutne skoorimine kontekstides, mida iseloomustavad mitmetähenduslikkus ja mittetäielik aluseline tõde.

Struktureeritud mõõtmed

Igat raportit hinnatakse ka määratletud mõõtmete kogumi alusel:

triaaži korrektsus
otsustaseme täpsus
riski asjakohasus
otsustamise kasulikkus
ebakindluse distsipliin
väidete distsipliin (toetamata järelduste vältimine)

Neid mõõtmeid hinnatakse ordinaalskaaladel, et säilitada tõlgendatavus ja vähendada näilist täpsust.

Juhtimise vaatenurgast saab neid mõõtmeid mõista ka COBIT-i prisma kaudu:

Triaaži korrektsus → haakub sellega, et riskid oleksid õigesti hinnatud ja käivituksid sobivad kontrollimeetmed (riskide optimeerimine)
Otsustaseme täpsus → peegeldab otsustusõiguste ja vastutuse korrektset jaotust (juhtimine vs juhtkondlik teostus)
Riski asjakohasus → vastab ettevõtte väärtusloomist mõjutavate riskide tuvastamisele ja prioriseerimisele
Otsustamise kasulikkus → toetab väärtuse loomist, võimaldades tegevust võimaldavaid ja õigeaegseid otsuseid
Ebakindluse distsipliin → seostub sobiva kindlustaseme hoidmise ja näilise täpsuse vältimisega kontrollis ja aruandluses
Väidete distsipliin → haakub juhtimises ja otsustamises kasutatava teabe tervikluse ja usaldusväärsusega

See kaardistus kinnitab, et hindamismõõtmed ei ole juhuslikud, vaid kooskõlas väljakujunenud IT-juhtimise ja ettevõtte riskijuhtimise põhimõtetega.

Täpsemalt võib seda raamistikku tõlgendada kui kergekaalulist, otsusekeskset COBIT-i põhimõtete operatsionaliseerimist ebakindluse tingimustes. Eelkõige:

EDM (Evaluate, Direct, Monitor) → väljendub triaaži korrektsuses ja otsustaseme täpsuses, tagades, et õiged teemad eskaleeritakse ja neid juhitakse sobival tasemel
APO (Align, Plan, Organize) → väljendub riski asjakohasuses ja otsustamise kasulikkuses, sidudes tuvastatud riskid tegevust võimaldavate organisatsiooniliste vastustega
BAI (Build, Acquire, Implement) → toetatud kaudselt ebakindluse ja väidete distsipliini kaudu, tagades, et tarneahelatesse sisenevad otsused on sobivalt kvalifitseeritud ja põhjendatud

See tõlgendus paigutab raamistiku mitte alternatiivina väljakujunenud juhtimismudelitele, vaid täiendava kihina, mis keskendub varajases faasis signaalide struktureerimisele ja otsustoe pakkumisele.

Kuidas mõõtmeid hinnatakse

Igat mõõdet hinnatakse väljundis täheldatavate signaalide, mitte üksnes subjektiivsete muljete põhjal.

Triaaži korrektsus

Kas soovitatud tegevus (LUBA / PEATA / VAJALIK FORMAALNE OTSUS) vastab kirjeldatud riskitasemele?
Ohumärgid: ohutus- või regulatiivsete probleemide alaeskaleerimine või väiksemate murede üleeskaleerimine

Otsustaseme täpsus

Kas teema on paigutatud sobivale organisatsioonilisele tasemele (tiim vs CIO vs juhtkond)?
Signaal: kooskõla riski ulatuse ja otsustusõiguse vahel

Riski asjakohasus

Kas kõige olulisemad juhtimisriskid on tuvastatud?
Signaal: võtmeteemade olemasolu (regulatsioon, vastutus, jälgitavus, kolmanda osapoole risk)

Otsustamise kasulikkus

Kas otsustaja saab selle põhjal kohe tegutseda?
Signaal: järgmise sammu selgus, mitmetähenduslikkuse puudumine, selgesõnaline eskalatsiooniloogika

Ebakindluse distsipliin

Kas raport kvalifitseerib eeldused asjakohaselt?
Signaal: eristus vaadeldud faktide, tuletatud järelduste ja teadmata asjaolude vahel

Väidete distsipliin

Kas väited on kättesaadava tõendusmaterjaliga proportsionaalsed?
Signaal: toetamata või liialt spetsiifiliste väidete puudumine

Näitemaatriks: head vs kehvad väljundid

Mõõde	Hea näide	Kehv näide
Triaaži korrektsus	Eskaleerib tehisintellekti ohutussüsteemides FORMAALSE OTSUSE tasemele regulatiivse kokkupuute tõttu	Liigitab sama teema kategooriasse LUBA ebamäärase põhjendusega
Otsustaseme täpsus	Määrab funktsioonideülese juhtimisprobleemi CIO tasemele	Jätab süsteemse juhtimisprobleemi tiimi tasemele
Riski asjakohasus	Tuvastab AI Act’i, jälgitavuse ja kvaliteeditagamise lüngad	Keskendub ainult üldistele väidetele stiilis "AI on oluline"
Otsustamise kasulikkus	Ütleb selgelt: "peata juurutamine, kuni valideerimisprotsess on määratletud"	Pakub analüüsi, kuid mitte selget soovitust
Ebakindluse distsipliin	Toob eeldused välja ja rõhutab teadmata asjaolusid selgesõnaliselt	Esitab tuletatud väiteid kinnistunud faktidena
Väidete distsipliin	Kasutab tuletatud riskide puhul ettevaatlikku sõnastust	Esitab süsteemide või protsesside kohta konkreetseid väiteid ilma tõenditeta

See esialgne meetod on kavandatud iteratiivsena. Hindamistulemusi ei kasutata ainult mudelite võrdlemiseks, vaid ka viibedisaini, mudelivaliku ja tulevaste süsteemiparanduste suunamiseks.

Subjektiivsuse ankurdamine

See on tõenäoliselt raamistiku kõige keerulisem osa. Praktikas ei määra raporti väärtust ainult selle sisemine kvaliteet, vaid ka see, mida see reaalses organisatsioonilises keskkonnas kaasa toob. Raportit võidakse hinnata “heaks”, sest see on analüütiliselt hästi kalibreeritud või aitab otsustajal esile tuua tähelepanuta jäänud, kuid olulise probleemi. Kuid seda võidakse hinnata “heaks” ka vähem kaitstavate põhjuste tõttu: kuna see toetab eelnevat agendat, võimendab soositud mureteemat või saabub hetkel, mil organisatsioon on selle küsimuse suhtes ebatavaliselt vastuvõtlik.

Põhiidee:

Raport võib praktikas olla tõhus ka muudel põhjustel kui see, et ta on analüütiliselt hea.

See loob kriitilise eristuse kolme omavahel seotud, kuid erineva mõiste vahel:

Analüütiline kvaliteet — kui hästi raport peegeldab olemasolevat tõendusmaterjali ja käsitleb ebakindlust
Organisatsiooniline omaksvõtt — kas raport võetakse vastu, arutatakse läbi või selle alusel tegutsetakse
Otsustusmõju — kas raport viib aja jooksul sisukate või õigete otsusteni

Need ei lange alati kokku. Raport võib saavutada tugeva omaksvõtu, kuid madala analüütilise kvaliteedi (nt tugevdades “lemmikteemat”), või kõrge analüütilise kvaliteedi, kuid madala omaksvõtu (nt halva ajastuse või organisatsioonilise valmisoleku tõttu).

Sel põhjusel käsitleb Kanita subjektiivsust mitte mürana, mida saab lihtsalt eemaldada, vaid osana uuritavast nähtusest. Praktiline test on osaliselt “pudingu tõestus söömises”: kogutakse piiratud hulka pärisjuhtumeid, et jälgida, kuidas väljundeid tegelikes otsustuskontekstides vastu võetakse, kasutatakse ja tõlgendatakse.

See vaatenurk on kooskõlas uurimustega ebakindlusest ja ökoloogilisest ratsionaalsusest, eriti Gerd Gigerenzeri tööga. Selle traditsiooni keskne arusaam on, et hinnanguid ei tohiks hinnata ainult abstraktselt, vaid seoses keskkondadega, milles neid kasutatakse. Ebakindlates keskkondades võivad lihtsad heuristikad ületada keerukamaid mudeleid, kui need on hästi sobitatud ülesande struktuuriga. Sellest tulenevalt ei saa juhtimisraporti kasulikkust hinnata pelgalt tekstiliste omaduste põhjal; seda tuleb hinnata organisatsioonilise konteksti, otsuse ajastuse ja selle järgi, millist tegevust raport peaks toetama.

See seostub ka organisatsiooniuuringutega mitmetähenduslikkuse, tähelepanu ja motiveeritud arutluse kohta. Reaalsetes institutsioonides kujundavad seda, mida peetakse veenvaks või kasulikuks, mitte ainult tõendid, vaid ka stiimulid, teema aktuaalsus ja ajastus. Raport, mis tõstab esile “lemmikteema”, võib saada kandepinda seetõttu, et see resoneerib hetke poliitiliste prioriteetidega, mitte seetõttu, et see oleks aluseks oleva riski parim representatsioon. Vastupidi, paremini kalibreeritud raportit võidakse ignoreerida, kui organisatsioon ei ole veel valmis selle alusel tegutsema.

Need dünaamikad loovad olulise metodoloogilise väljakutse: hindamine ei saa tugineda ainult sellele, kas raport praktikas “võidab”. Praktiline omaksvõtt on informatiivne, kuid see ei võrdu analüütilise kvaliteediga. Seetõttu tuleks tegelikku kasutust käsitleda ühe signaalina mitmest, mitte kvaliteedi ainsa mõõdupuuna.

Selle asemel, et püüda subjektiivsust kõrvaldada, püüab Kanita seda piirata ja uurida järgmiste vahenditega:

kureeritud võrdlusjuhtumid ("golden set")
korduvad hindamistsüklid
hindajatevahelise kooskõla mõõtmine
juhuslikustatud võrdlusjärjestus kallutatuse vähendamiseks
tegeliku omaksvõtu ja kasutuse piiratud vaatlus

Eesmärk ei ole objektiivsus absoluutses mõttes, vaid järjepidevus ja usaldusväärsus subjektiivse hinnangu tingimustes, jäädes samal ajal tähelepanelikuks selle suhtes, et hinnangut ennast kujundavad ebakindlus, organisatsiooniline kontekst ja ajastus. Raport, mis tõstab esile “lemmikteema”, võib saada kandepinda seetõttu, et see resoneerib hetke poliitiliste prioriteetidega, mitte seetõttu, et see oleks aluseks oleva riski parim representatsioon. Vastupidi, paremini kalibreeritud raportit võidakse ignoreerida, kui organisatsioon ei ole veel valmis selle alusel tegutsema.

Selle asemel, et püüda subjektiivsust kõrvaldada, püüab Kanita seda piirata ja uurida järgmiste vahenditega:

kureeritud võrdlusjuhtumid ("golden set")
korduvad hindamistsüklid
hindajatevahelise kooskõla mõõtmine
juhuslikustatud võrdlusjärjestus kallutatuse vähendamiseks
tegeliku omaksvõtu ja kasutuse piiratud vaatlus

Alused

See vaatenurk tugineb mitmele väljakujunenud valdkonnale. Igaüks neist annab erineva läätse, mille kaudu mõista, kuidas hinnata tehisintellekti loodud väljundeid otsustamiskontekstides.

LLM-ide hindamine

Mida see valdkond käsitleb
LLM-ide hindamine keskendub keelemudelite jõudluse hindamisele sellistes mõõtmetes nagu täpsus, arutlusvõime, robustsus ja kooskõla inimlike eelistustega. Mudelite võimekuse kasvades on hindamine liikunud staatilistelt võrdluskomplektidelt dünaamilisemate meetodite poole, nagu paariviisiline võrdlus ja mudelipõhine hindamine.

Olulised hääled ja panused

OpenAI (nt GPT-4 aruanne): tõi sisse inimlike eelistuste ja paariviisilise hindamise laiaulatusliku kasutuse
Anthropic: rõhutas struktureeritud hindamist, joondatust ja järjepidevust
LMSYS (Zheng jt): demonstreeris LLM-as-a-judge ja võrdleva hindamise meetodeid
Stanfordi HELM-projekt: terviklik hindamine mitmes mõõtmes ja stsenaariumis

Infootsing

Mida see valdkond käsitleb
Infootsing uurib, kuidas leida ja järjestada asjakohast teavet suurtest, mürarikastest andmekogudest. Hindamine ei keskendu absoluutsele korrektsusele, vaid asjakohasusele — kas leitud teave on antud ülesande jaoks kasulik.

Olulised hääled ja panused

TREC (Text REtrieval Conference): kehtestas asjakohasuspõhised hindamisstandardid
Gerard Salton: aluseline töö vektorruumimudelite ja järjestamise vallas
Stephen Robertson: tõenäosuslikud otsingumudelid (nt BM25)

Otsustusteadus

Mida see valdkond käsitleb
Otsustusteadus uurib, kuidas üksikisikud ja organisatsioonid teevad valikuid piirangute tingimustes, nagu piiratud teave, ajasurve ja kognitiivsed piirangud. See seab kahtluse alla täielikult ratsionaalse otsustamise eelduse.

Olulised hääled ja panused

Herbert Simon: piiratud ratsionaalsus ja satisficing
Daniel Kahneman & Amos Tversky: heuristikad, kallutatused ja otsustamine ebakindluse tingimustes
Gerd Gigerenzer: ökoloogiline ratsionaalsus ja kohanevad heuristikad

Risk ja juhtimine

Mida see valdkond käsitleb
Riski- ja juhtimisraamistikud määratlevad, kuidas organisatsioonid struktureerivad otsustusõigusi, vastutust, kontrollimehhanisme ja riskijuhtimist keerukates keskkondades. Selles kontekstis ei tähenda juhtimine ainult vastavust, vaid ka seda, et otsuseid tehakse õigel tasemel, õige teabega ja selge vastutuse all.

Olulised hääled ja panused

COBIT (ISACA): pakub terviklikku ettevõtte IT juhtimise ja haldamise raamistikku, rõhutades ärieesmärkide, kontrollieesmärkide ja otsustusõiguste vahelist joondatust
CGEIT teadmistekogum: keskendub ettevõtte IT juhtimisele, sealhulgas väärtuse loomisele, riskide optimeerimisele ja ressursijuhtimisele
ISO 31000: põhimõtted ja juhised riskijuhtimiseks ebakindluse tingimustes
EL-i tehisintellekti määrus (EU AI Act): kujunev Euroopa regulatiivne raamistik kõrge riskiga tehisintellektisüsteemidele, rõhutades jälgitavust, vastutust ja juhtimist

Koos toetavad need valdkonnad nihet tekstiväljundite hindamiselt ebakindluse tingimustes toimivate otsustussüsteemide hindamisele.

Piirangud ja tulevane töö

See raamistik kujutab endast esialgset katset formaliseerida otsust toetavate süsteemide hindamist ebakindluse tingimustes. Seetõttu on sellel mitmeid piiranguid.

Esiteks tugineb raamistik struktureeritud subjektiivsele hinnangule, mitte objektiivsele aluselisele tõele. Kuigi mehhanismid nagu paariviisiline võrdlus, kooskõla mõõtmine ja võrdlusjuhtumid vähendavad meelevaldsust, ei kõrvalda need seda. Hindamistulemused jäävad tundlikuks hindamisrubriigi kujunduse ja hindajate eelduste suhtes.

Teiseks on praegused kriteeriumid heuristilised ja induktiivsed. Need on tuletatud teooriast (otsustusteadus, infootsing, juhtimine) ja varastest empiirilistest tähelepanekutest, kuid neid ei ole veel valideeritud suuremahuliste või pikisuunaliste uuringutega.

Kolmandaks eeldab raamistik suhteliselt ühtlast otsustuskonteksti (CIO / juhtkonna juhtimine). Selle rakendatavus teistes valdkondades või otsustuskeskkondades võib vajada kohandamist.

Neljandaks on tasakaalu ebakindluse kalibreerimise ja tegevusvõimelisuse vahel endiselt raske täpselt mõõta. Aja jooksul võib olla vaja formaalsemaid asendusmõõdikuid ja meetrikaid, et seda kompromissi usaldusväärsemalt hinnata.

Tulevane töö

Edasine arendus keskendub selle kontseptuaalse raamistiku muutmisele pidevalt paranevaks hindamissüsteemiks.

Peamised suunad hõlmavad järgmist:

Hindajate kalibreerimine ja võrdlusmõõtmine
Inimhindajate ja LLM-põhiste kohtunike vahelise kooskõla süsteemne mõõtmine, sealhulgas stabiilsus korduvate jooksutuste lõikes.
LLM-as-a-judge arendamine
Hindamisviipade ja skeemide täiustamine, et parandada järjepidevust, vähendada kallutatust ja võimaldada skaleeritavat võrdlevat hindamist.
Andmestiku laiendamine ("golden set")
Suurema ja mitmekesisema võrdlusandmestiku loomine, et ankurdada hindamist ja toetada statistilist analüüsi.
Meetrikate formaliseerimine
Selgemate ja testitavamate asendusmõõdikute arendamine selliste mõõtmete jaoks nagu otsustamise kasulikkus, ebakindluse distsipliin ja üleliigsete väidete määr.
Mudelite optimeerimine
Hindamissignaalide kasutamine väiksemate ja tõhusamate mudelite peenhäälestuse või destilleerimise toetamiseks, optimeerituna juhtimise triaaži ülesannetele.
Viipade ja süsteemidisaini iteratsioon
Viipade, torustike ja otsingustrateegiate pidev täiustamine, lähtudes täheldatud hindamistulemustest.

Pikaajaline eesmärk on arendada sellest suletud tsükliga hindamis- ja parendussüsteem, kus väljundeid pidevalt hinnatakse, võrreldakse ning kasutatakse nii mudelite kui ka hindamismeetodite parandamiseks.

Kokkuvõte

See vaatenurk sõnastab tehisintellekti hindamise ümber tekstikvaliteedi küsimuselt otsustoe küsimuseks ebakindluse tingimustes.

Kogu dokumendi vältel ilmneb järjekindel seisukoht:

Pärismaailma juhtimine toimib mittetäielike andmete, ajasurve ja konkureerivate tõlgenduste tingimustes.
Nendes tingimustes on korrektsus ja täielikkus ebapiisavad hindamise sihid.
Oluline on see, kas väljundid loovad asjakohaselt kalibreeritud, tegevust võimaldavaid otsussignaale.

Seetõttu ühendab pakutud lähenemine:

Võrdlevat hindamist (milline raport on otsustamise jaoks kasulikum)
Struktureeritud mõõtmeid, mis tuginevad otsustusteadusele, infootsingule ja COBIT-iga joondatud juhtimispõhimõtetele
Subjektiivsuse selgesõnalist käsitlemist, tunnistades lõhet analüütilise kvaliteedi, organisatsioonilise omaksvõtu ja otsustusmõju vahel

Praktikas rakendatakse seda esialgse meetodina: mitu mudelit (nt Gemini, Mistral) genereerivad samade andmete põhjal raporteid; väljundeid hinnatakse LangSmithis; tulemused suunavad mudelivalikut, viibedisaini ja süsteemi iteratsiooni. Meetod on teadlikult iteratiivne ning kavandatud arenema suletud tsükliga hindamissüsteemiks.

Kontseptuaalselt paigutab raamistik Kanita kihina, mis töötab formaalset juhtimist eelnevas etapis — struktureerides nõrku signaale triaažiotsusteks, mis on kooskõlas COBIT-i põhimõtetega (EDM/APO/BAI), jäädes samal ajal ebakindluse suhtes kalibreerituks.

Peamine järeldus ei ole see, et ebakindlust saab eemaldada, vaid et selle saab muuta tegevust võimaldavaks.

Eesmärk ei ole täiuslik analüüs.

See on õige otsussignaal õigel tasemel, kalibreeritud kindlusega, ebatäiuslikest andmetest.

Otsusekeskne LLM-ide hindamine ebakindluse tingimustes

Kanita vaatenurk

Tekstikvaliteedilt otsussignaalile

Tegutsemine ebakindluse tingimustes

Milline näeb välja “hea”

Kuidas hindamine toimib (esialgne meetod)

Võrdlev hindamine

Struktureeritud mõõtmed

Kuidas mõõtmeid hinnatakse

Näitemaatriks: head vs kehvad väljundid

Subjektiivsuse ankurdamine

Alused

LLM-ide hindamine

Infootsing

Otsustusteadus

Risk ja juhtimine

Piirangud ja tulevane töö

Tulevane töö

Kokkuvõte

Seotud esseed