Epistemisk osäkerhet
En gång för länge sedan höll någon en föreläsning för TMS (Trinity Mathematical Society) om epistemisk osäkerhet. Här är mina funderingar kring det vederbörande sade. Sammanfattning i fetstil.
Epistemisk osäkerhet
En illustration föreläsaren använde för vad epistemisk osäkerhet är är följande:
Han tar upp en slant och säger att han ska singla den. "Vad är sannolikheten för krona?"
Han singlar slanten och täcker för den med handen. "Nu då?"
Han lyfter lite på handen och kikar på resultatet utan att visa publiken. "Nu då?"
Svaret på alla frågor är "50%", men det är bara första gången denna sannolikhet mäter äkta slump (om vi antar att slantsingling är helt slumpmässig). Andra gången är resultatet redan bestämt, och "50%" mäter bara osäkerheten kring resultatet. Sista gången är "50%" bara publikens uppskattning - för föreläsaren är det "100%" eller "0%".
Epistemisk osäkerhet är osäkerhet om ett redan bestämt utfall som uppstår hos en observatör på grund av avsaknad av information. När du går till läkaren så är du antingen sjuk eller inte, men läkarens undersökning är behäftad med epistemisk osäkerhet.
Jag minns inte vad hans poäng med att ta upp detta var, men det jag tycker nu är att epistemisk osäkerhet och slumposäkerhet bör behandlas lika. Därmed faller min tidigare idé att "det är ingen idé att oroa dig för slutbetygen du ska få imorgon för de är redan satta". Dock gäller fortfarande "det är ingen idé att oroa dig för slutbetygen du ska få imorgon för du kan inte påverka dem och oron är inte produktiv". (Detta gäller bara de som inte tror att det finns högre makter som kan påverkas av ens oro och förändra saker som redan hänt.)
Att värdera osäkerhetsuppskattningar
Nu menar jag med "osäkerhet" både äkta och epistemisk sådan. Ett exempel på när någon uppskattar osäkerhet är vid väderförutsägelser. Då kan man höra saker såsom "Det är 75% chans att det regnar imorgon". Men hur kollar man om det verkligen är 75%? Vi har bara en chans att testa påståendet - vänta tills imorgon och se - och då blir resultatet antingen "Det regnade" (100%) eller "Det regnade inte" (0%). Det vi måste göra är att samla in en mängd förutsägelser och resultat, och använda någon metod för att mäta hur bra förutsägelserna stämmer överens med verkligheten.
En naiv metod är följande: Samla ihop alla dagar då meteorologen förutspådde 75% chans till regn, och kolla om det verkligen regnade i 75% av fallen. Detta missar dock en väldigt viktig sak vi önskar från förutsägelser: Specificitet. Vem som helst kan slå upp att det regnar 278 dagar om året på Hawaii, och förutspå 75% regnchans varje dag. Detta är förstås mycket mindre användbart än någon som säger 0% och 100% men missar lite då och då.
En mer sofistikerad metod är att använda ett poängsystem: Den som gissar rätt vinner poäng och den som gissar fel förlorar, men ju säkrare man är desto fler poäng står på spel. Därmed bör den som ger väldigt specifika förutsägelser tjäna fler poäng än den som ger samma medelmåttiga förutsägelse varje gång.
Nu kan man återigen vara naiv och tilldela (X-50) poäng till den som angett X% sannolikhet för den korrekta resultatet, men då uppstår ett annat problem: Låt säga att du har förutspått att det kommer regna med 75% sannolikhet. Då kommer du vinna 25 poäng i 75% av fallen och förlora 25 poäng i övriga 25%. I genomsnitt får du 25*50% = 12.5 poäng per gång. Om du istället ljuger och påstår 100% säkerhet, då får du istället 50*50% = 25 poäng per gång. Detta system uppmanar alltså meteorologen att ljuga och alltid ange 0% eller 100% för regn. Mer användbart än det förra, eftersom du har en indikation på vilket som är mest sannolikt, men inte optimalt.
Istället för detta linjära system bör man till exempel använda ett kvadratiskt system. I ett exempel vi fick göra under föreläsningen skulle vi fördela 10 poäng mellan två motsatta påståenden, där 10+0 betyder att man är bombsäker på det första medan 0+10 betyder att man är bombsäker på det andra. Formeln som användes för poängutdelning var (25 - X^2), där X är poängen man satt på det felaktiga påståendet. Är man bombsäker och har rätt får man alltså 25 poäng, men om man är bombsäker och har fel får man -75.
Det går att visa att detta poängsystem gör att man i längden tjänar mest på att påstå den sannolikhet man själv tror på. Tag återigen som exempel att du tror på att det regnar 75% av tiden på Hawaii. Om du också säger detta, får du +18.75 poäng i 75% av fallen och -31.25 poäng i resten, vilket totalt ger 6.25 poäng i genomsnitt. Hade du istället påstått 100% hade du fått +25*0.75-75*0.25 = 0 poäng i genomsnitt. (Den som vet exakt vilka dagar det kommer regna får 25 poäng varje gång.)
Det är lätt att se med blotta ögat att det kvadratiska systemet avskräcker folk från att överskatta sin säkerhet: Om du anger 10 istället för 9 så får du en extra poäng när du har rätt, men 19 extra minuspoäng när du har fel.
Vi har nu ett system som givet en mängd förutsägelser och resultat kan ge ett siffervärde på hur bra förutsägelserna var. Detta värde i sig säger förstås inget, men det kan användas för att jämföra flera olika förutsägelsemetoder: Är SMHI, yr.no, farfars spåkula eller mormors gikt bäst på att förutspå regn?
Notera att systemet inte tar någon hänsyn överhuvudtaget till vilka metoder som används för att göra dessa förutsägelser. Den som tycker att systemet har fångat essensen av vad vi menar med en bra förutsägelse (försöker ange så korrekt procentsats som möjligt, och ju längre bort från 50% desto bättre) tycker förstås att det är positivt att systemet struntar i irrelevanta saker. Den som endast accepterar vedertagen vetenskap, även om spåkulan ger bättre resultat enligt detta system, måste tycka att systemet har missat något viktigt i definitionen av vad en bra förutsägelse är.
Epistemisk osäkerhet
En illustration föreläsaren använde för vad epistemisk osäkerhet är är följande:
Han tar upp en slant och säger att han ska singla den. "Vad är sannolikheten för krona?"
Han singlar slanten och täcker för den med handen. "Nu då?"
Han lyfter lite på handen och kikar på resultatet utan att visa publiken. "Nu då?"
Svaret på alla frågor är "50%", men det är bara första gången denna sannolikhet mäter äkta slump (om vi antar att slantsingling är helt slumpmässig). Andra gången är resultatet redan bestämt, och "50%" mäter bara osäkerheten kring resultatet. Sista gången är "50%" bara publikens uppskattning - för föreläsaren är det "100%" eller "0%".
Epistemisk osäkerhet är osäkerhet om ett redan bestämt utfall som uppstår hos en observatör på grund av avsaknad av information. När du går till läkaren så är du antingen sjuk eller inte, men läkarens undersökning är behäftad med epistemisk osäkerhet.
Jag minns inte vad hans poäng med att ta upp detta var, men det jag tycker nu är att epistemisk osäkerhet och slumposäkerhet bör behandlas lika. Därmed faller min tidigare idé att "det är ingen idé att oroa dig för slutbetygen du ska få imorgon för de är redan satta". Dock gäller fortfarande "det är ingen idé att oroa dig för slutbetygen du ska få imorgon för du kan inte påverka dem och oron är inte produktiv". (Detta gäller bara de som inte tror att det finns högre makter som kan påverkas av ens oro och förändra saker som redan hänt.)
Att värdera osäkerhetsuppskattningar
Nu menar jag med "osäkerhet" både äkta och epistemisk sådan. Ett exempel på när någon uppskattar osäkerhet är vid väderförutsägelser. Då kan man höra saker såsom "Det är 75% chans att det regnar imorgon". Men hur kollar man om det verkligen är 75%? Vi har bara en chans att testa påståendet - vänta tills imorgon och se - och då blir resultatet antingen "Det regnade" (100%) eller "Det regnade inte" (0%). Det vi måste göra är att samla in en mängd förutsägelser och resultat, och använda någon metod för att mäta hur bra förutsägelserna stämmer överens med verkligheten.
En naiv metod är följande: Samla ihop alla dagar då meteorologen förutspådde 75% chans till regn, och kolla om det verkligen regnade i 75% av fallen. Detta missar dock en väldigt viktig sak vi önskar från förutsägelser: Specificitet. Vem som helst kan slå upp att det regnar 278 dagar om året på Hawaii, och förutspå 75% regnchans varje dag. Detta är förstås mycket mindre användbart än någon som säger 0% och 100% men missar lite då och då.
En mer sofistikerad metod är att använda ett poängsystem: Den som gissar rätt vinner poäng och den som gissar fel förlorar, men ju säkrare man är desto fler poäng står på spel. Därmed bör den som ger väldigt specifika förutsägelser tjäna fler poäng än den som ger samma medelmåttiga förutsägelse varje gång.
Nu kan man återigen vara naiv och tilldela (X-50) poäng till den som angett X% sannolikhet för den korrekta resultatet, men då uppstår ett annat problem: Låt säga att du har förutspått att det kommer regna med 75% sannolikhet. Då kommer du vinna 25 poäng i 75% av fallen och förlora 25 poäng i övriga 25%. I genomsnitt får du 25*50% = 12.5 poäng per gång. Om du istället ljuger och påstår 100% säkerhet, då får du istället 50*50% = 25 poäng per gång. Detta system uppmanar alltså meteorologen att ljuga och alltid ange 0% eller 100% för regn. Mer användbart än det förra, eftersom du har en indikation på vilket som är mest sannolikt, men inte optimalt.
Istället för detta linjära system bör man till exempel använda ett kvadratiskt system. I ett exempel vi fick göra under föreläsningen skulle vi fördela 10 poäng mellan två motsatta påståenden, där 10+0 betyder att man är bombsäker på det första medan 0+10 betyder att man är bombsäker på det andra. Formeln som användes för poängutdelning var (25 - X^2), där X är poängen man satt på det felaktiga påståendet. Är man bombsäker och har rätt får man alltså 25 poäng, men om man är bombsäker och har fel får man -75.
Det går att visa att detta poängsystem gör att man i längden tjänar mest på att påstå den sannolikhet man själv tror på. Tag återigen som exempel att du tror på att det regnar 75% av tiden på Hawaii. Om du också säger detta, får du +18.75 poäng i 75% av fallen och -31.25 poäng i resten, vilket totalt ger 6.25 poäng i genomsnitt. Hade du istället påstått 100% hade du fått +25*0.75-75*0.25 = 0 poäng i genomsnitt. (Den som vet exakt vilka dagar det kommer regna får 25 poäng varje gång.)
Det är lätt att se med blotta ögat att det kvadratiska systemet avskräcker folk från att överskatta sin säkerhet: Om du anger 10 istället för 9 så får du en extra poäng när du har rätt, men 19 extra minuspoäng när du har fel.
Vi har nu ett system som givet en mängd förutsägelser och resultat kan ge ett siffervärde på hur bra förutsägelserna var. Detta värde i sig säger förstås inget, men det kan användas för att jämföra flera olika förutsägelsemetoder: Är SMHI, yr.no, farfars spåkula eller mormors gikt bäst på att förutspå regn?
Notera att systemet inte tar någon hänsyn överhuvudtaget till vilka metoder som används för att göra dessa förutsägelser. Den som tycker att systemet har fångat essensen av vad vi menar med en bra förutsägelse (försöker ange så korrekt procentsats som möjligt, och ju längre bort från 50% desto bättre) tycker förstås att det är positivt att systemet struntar i irrelevanta saker. Den som endast accepterar vedertagen vetenskap, även om spåkulan ger bättre resultat enligt detta system, måste tycka att systemet har missat något viktigt i definitionen av vad en bra förutsägelse är.
Kommentarer