Statistik vid lyssningstest

av **Svante** » 2006-05-04 00:00

Mja, nu är skammens stund inne... :oops:

I mer än tio år har jag levt i en falsk tro att jag hade förstått statistiken vid lyssningstest. I kväll gjorde jag dock lite simuleringar som fick mig att tänka om. En kort bakgrund först, dock.

När man lyssningstestar och kräver ett visst antal riktiga svar i rad finns det ju en risk att man får många rätt av en slump. Prickar man 7 rätt i rad är ju faktiskt risken 1 på 128 (2^7) att just den raden inträffar av en slump. Tillåter man högst ett fel bland 11 så så finns det först en rad med alla rätt, och 11 rader med ett fel av de totalt 2^11=2048 raderna. Risken blir då 12/2048=0,58% att man skulle råka gissa fram någon av de 12 raderna. För 14 försök och 2 fel blir samma siffra 0,65%.

Alla tre exemplen ger 99% konfidens, eftersom risken är <1% att man råkar gissa sig fram till någon av de godkända raderna.

Jag har länge levt i tron att detta innebär att man kan påbörja ett lyssningstest och "se hur det går", dvs först satsar man på 7 rätt i rad, går inte det fortsätter man med högst ett fel av 11, och sedan högst 2 fel av 14.

Nu är ju sadistik en gren av matten som man aldrig riktigt kan förstå, så jag har alltid haft en gnagande känsla att det där med först 7, sen 11, sen 14 i själva verket inte alls är ok. Det är ju tre sannolikheter och tillsammans blir de ju typ 0,99x0,99x0,99 vilket är mindre än 0,99. I något skede tyckte jag dock att jag bevisade för mig själv att det visst måste gå. Nåja.

Vad gör man när man inte begriper statistiken? Jo man låter datorn simulera i stället. Jag simulerade det hela med slumptal i 100000 försök i datorn, där datorn får gissa fram rader. Det visar sig att 7-11-14 inte alls håller. Det ger bara 98,56% konfidens. Det går utmärkt om man från början bestämmer sig för att göra 14 försök och sedan slutför alla 14 även om man får 7 rätt i rad i början. Men att bryta efter de 7 första är inte ok. Det verkar dock som att man kan bestämma sig för tex 8-12-14 (99,04%) och det funkar eller 7-13-16 (99,03%) som också verkar gå bra.

Nu vänder jag mig alltså med skam till Faktiskt erkännandes att jag har syndat i många år och undrar om det finns någon statistiskt kunnig som kan förklara för mig hur man räknar på detta, utan att simulera.

Hmm. Just nu kom jag på hur man ska tänka, tror jag. Eller... Nä, hjälp mig!

av **IngOehman** » 2006-05-04 00:42

Jag vet inte om jag egentligen tycker att det där är ett dugg konstigt.

Vad det handlar om är ju att när man försöker med olika metoder ökar chansen att någon av dem skall lyckas, i synnerhet då det blir kombinatioriska effekter när de olika metoderna går in i varandra.

Skillnaden är inte så stor mellan det du beskriver och om man kör sju i rad och misslyckas, samtidigt som någon annan kör 7 i rad och misslyckas, samtidigt som någon annan kör sju i rad och misslyckas... ...samtidigt som någon annan kör sju i rad och lyckas!

Är det tillräckligt många som gör det är det ju högst troligt att någon lyckas på första försöket.

Det är ju därför det är så viktigt att minnas att statistik inte bevisar något, utan att statistik bara visar något med en bristande signifikans.

99% signifikans är ju inte ett tecken på att en apparat är "väldigt bra", utan bara att dess godhet är "väldigt troligt - fast möjligen helt fel".

Det kan tilläggas att det inte behövar vara olika människor som försöker få 7 rätt i rad, utan det kan vara en person som testar en ny förstärkare med F/E-teknik varje dag. Gör man det, och nöjer sig med 99% konfidens så kommer det att vara rätt troligt att man finner att man lyckas gissar rätt 7 gånger av 7 flera gånger varje år - även om just den testade förstärkaren den gången är helt perfekt.

Det är helt enkelt så, att det är lika viktigt att minnas att ett nollresultat aldrig bevisar någonting, som det är att förstå att enn "lyckad" identifiering med 99% signifikans bara visar att något är mer eller mindre troligt.
Av det skälet tycker jag det är bra att i sådana här sammanhang även ta fasta på subjektiviteter, TROTS att de är svåra att värdera och beskriva perfekt. De kan dock vara en väl så relevant ingrediens för vad en tänkande person väljer att tro.

Om en person exempelvis lyckas höra skillnad på F och E säg 7 gånger av 7, beskriver hur skillnaden låter, och beskrivningen sammanfaller med vad man kunda vänta sig efter att ha mätt på apparaten, så väljer jag att hålla utsagan högre än om den som gissar rätt 7 gånger av 7 säger: -Jag vet inte riktigt vad jag gick på, men jag chansade nog mest.

Om man själv är lyssnare och tycker sig höra en solklar skillnad och träffar in 7 av 7 på direkten utan att tveka en enda gång, menar jag också att det är ett starkare argument än om man lyckas men tycker att det var svårt.

Det finns dom som menar att man inte får resonera som jag gör i det ovanstående, men de har fel - det får man! Dock kan man naturligtvis inte sätta siffror på sakerna. Av det själet kan det vara klokt att avråda från att försöka använda de subjektiva ingredienserna i några vetenskaplig sammanhang.

Ett specialfall när det är synnerligen befogat (tycker jag) att tillgripa sådana här metoder, är just när man testar audioapparater. Exempelvis kan det vara praktiskt att man sitter många samtidigt och lyssnar, och att låta folk fritt få tipsa varandra om vad de tror det är klokt att lyssna efter (det har man ofta en uppfattning om efter den öppna lyssningen). Det är nämligen lätt att visa att sådana procedurer väldigt signifikant ökar andelen rätta svar i dubbelblindteter!

Vissa statistiker menar att man om man är 10 lyssnare och en får 7 rätt av 7 (och de övriga efter samma antal avgivna svar får 35 fel och 35 rätt) inte kan räkna det som 7 av 7, utan måste se det som 42 rätt och 35 fel, det vill säga obefintlig statisktisk signafikans - ett rent slumpresultat.

Min mening är, att det beror på det!

I de allra flesta fall kan man konstatera att när verkligheten utvecklar sig ungefär som det som beskrivits, så är det den person som "gissar bäst" som också gissar mest! Det är ett tydligt tecken (men svårkvantifierbart) på att den som gissat gör det på goda grunder.

Sen är det även viktigt att veta vad för svar man letar efter när man gör sådana här tester.
Om frågan exempelvis är "kan vem som helst höra skillnad?" så är det förstås högst olämpligt att göra de subjetiva glidningar som de jag beskrivit.
Om frågan däremot är "kan någon höra skillnad just denna dag? (och kanske någon annan imorgon)", så är det väldigt viktigt att utföra studien således att inte en god lyssnares förmåga drunknar i massans random-gissningar.

Skall det ske i ett vetenskapligt sammanhang där proceduren måste vara entydig och inte innehålla några subjektiviteter löser man prblemet bäst genom kvalificeringsomgångar. Först får alla gissa, sedan för de som gissat bäst gissa ensamma.

Men, som alltid är det allra viktigaste att man alltid redovisar vad som hänt, så noga som möjligt. Statistisk signifikans kan då alltid räknas ut i efterhand, och den som tar ställning kan även välja att göra sina bedömningar utanför de strikta statistiska sannolikhetsramarna.

Vh, iö

av **DQ-20** » 2006-05-04 10:48

Man kan väl sammanfatta med att "det skall kosta sannolikhet att gissa". Gissar man tjugo gånger vid 0.05 signifikansnivå kommer man i snitt att gissa "rätt" en gång även om nollhypotesen är sann. Att då hoppa på det enda resultatet och säga att testen som helhet ligger på 5%-nivån är givetvis fel. Snarare är det så att vi måste ha otur för att inte få detta resultat. Skall hela serien på 20 test som helhet ligga på 5%-nivån måste man justera kraven på de enskilda testen med exempelvis 5/20 (konservativ justering enligt Bonferroni) dvs. nivån 0.0025 i varje test.

Frågan "vad är sannolikheten att få 10/11 när vi redan har 6/7" är skiljd från "vad är sannolikheten att få 10/11". Att först göra en serie på sju och sedan "spara" denna när man vet vad man fått är att börja på ny kula igen. Resultatet är ju inte längre sannolikt utan sant! Hade du fått en serie som inte hade en rimlig chans att nå signifikant resultat hade du ju inte sparat den, eller hur? Just denna handplockning gör att du får betala dyrt för i termer av sannolikhet eftersom du vill ha möjlighet att slänga bort större delen av fördelningen. Nå, när du står där med din lovande serie och väljer att fortsätta, betingat av vad du redan vet, slänger du bort den sannolikhet du "samlat på dig" just för att du har tittat i backspegelen. Förutsatt att dina första sju försök är inte påverkar de nästa 4 så är den sannolikheten för hela serien 1/2^4=0.062 vid alla rätt på de fyra sista om du bestämmer dig för att sluta vid 11 försök. Tråkigt va? Man kan tänka såhär: du kommer bara att få fyra extra försök i serier som har max 1 fel. Från de fyra extra försökens synvinkel är sannolikheten inte längre 1/128 för 6 rätt utan 1 pga av det betingade urvalet. Sannolikheten för att sammansatta serien är då 1*0.0625=0.0625. Alltså: inget tjuvkikande när man håller på med experiment.

Jag vill försiktigtvis kommentera Öhmans inlägg som jag i princip håller med om. Jag har två invändningar. För det första kan man, om man vill vara ytterligare lite försiktig i sin tolkning av ett signifikant resultat (ingen tolkning alls) säga att det betyder att det är högst osannolikt att det inte finns en skillnad, dvs att nollhypotesen är sann.
Dvs
"99% signifikans är ju inte ett tecken på att en apparat är "väldigt bra", utan bara att dess brist på godhet är "väldigt osannolik - fast möjligen helt sann". Mina ändringar understrukna. Alternativhypotesen "det finns en skillnad" har vi ju inte utvärderat annat än indirekt.

Den andra invändningen jag har är att man mycket väl kan ha en uppfattning om en alternativ hypotes, nämligen att det faktiskt finns en skillnad (av en viss storlek). De två grundläggande problemen man har att brottas med vid tolkningen av signifikanstester är "falskt alarm", dvs att förkasta en sann nollhypotes, samt "överdriven skepsis", dvs att acceptera en falsk nollhypotes. Sannolikheten för den senare kallas beta. Statistical power (1-beta) anger hur känsligt testet är, dvs hur stor är sannolikheten att man får ett signifikant resultat, och beror av effektstorlek i populationen, signifikansnivå och urvalsstorlek. Har man låg känslighet i ett signifikanstest så är det ju inte så konstigt att man får icke signifikanta resultat. Har man hög känslighet i sina test så kan man tycka att de borde givit utslag (förkasta nollhypotesen) om den verkligen fanns en effekt. Problemet är dock att man måste bestämma sig för vad som är en rimlig effektnivå. Om man närmar sig effektnivån 0 så närmar sig den nödvändiga serien oändlighet och beräkningar av power låter sig inte göras: överlappet mellan fördelningen kring nollhypotesen och fördelningen kring alterntivhypotesen blir i det närmaste total. Kan man däremot säga att "om man över en lång serie av lyssningtest inte svarar rätt i mer än 65% av fallen så är det ingen praktisk skillnad" då går det att göra. Jag har i presentationer av F/E-lyssningar dock aldrig sett något sådant övervägande: att försäkra sig om att effektstorleken är skiljd från noll (relativ frekvens rätta svar >50%) verkar vara målet. Öhman har helt rätt i sin tolkning i det specifika fall som LTS F/E-test utgör. Kanske är det enda framkomliga vägen eftersom korta serier (som lyssnarna orkar med) vid hög signifikansnivå och små effekter ger låg "power".

Så tänker jag iallafall.

Hälsningar,

D

av **Svante** » 2006-05-04 17:48

Ja, nu kom jag iaf på hur man ska räkna om man ska räkna riktigt. Jag får sätta restriktioner på försöksdesignen som jag inte är helt nöjd med, men jag tror iaf att jag begriper vad jag gör.

Restriktionen är att jag från början bestämmer mig för 14 lyssningar. Sedan funderar jag (som förut) vilka av de 2^14 möjliga kombinationerna av rätt och fel som jag kommer att godkänna som bevis för att objektet hörs (jag slirar lite här, man skulle visst säga icke-icke nånting, men det blir så jobbigt att skriva...). Hur räknar jag då ut konfidensen för mitt påstående? Jo, jag måste räkna hur stor andel av de totalt 2^14 möjliga utfallen som jag godkänner.

Följande rader kommer att accepteras om jag godtar upp till två fel:

-alla 14 rätt ( en rad )
-ett fel av 14 ( n rader )
-två fel av 14 ( n(n-1)/2 rader )
-alla serier som börjar med 7 rätt i rad
-alla serier som börjar med 10 av 11 rätt

Det finns ett överlapp mellan grupperna som är lite jobbigt att överblicka, men om man räknar ut alla kombinationerna och märker de enskilda utfallen (några blir märkta flera gånger), kan man sedan räkna hur många som godkänns. Ovanstående blir giltigt för 7-11-14, men förstås kan man prova med vilken kombination som helst. Gör jag det blir resultatet nära identiskt med dem i min simulering, så det är nog rätt. Och 7-11-14 ger bara 98,6% konfidens, ska man ha 99% kan man tex välja 8-12-14 eller 7-13-16 som jag skrev i förra inlägget. Båda går bra bara man bestämmer sig innan man börjar.

Det som är jobbigt med detta och som jag skulle vilja ha en lösning på är att jag redan innan försöket måste bestämma ett tak på hur många lyssningar jag får göra. Visserligen har jag på detta sätt tillåtit mig att avbryta serien vid 7 eller 11, jag behöver inte göra alla 14, men taket vid 14 finns fortfarande där och det kan jag inte ändra på när jag väl har börjat. Vad jag skulle vilja ha är gränser som gäller för ett obegränsat antal lyssningar, dvs att man får fortsätta hur länge som helst. Eller är det teoretiskt omöjligt, kommer kravet att bli oändligt många lyssningar för 99% konfidens då?

(fler inlägg kommer som svar till IÖ och Dahlqvist)

av **Svante** » 2006-05-04 18:17

IngOehman skrev:Jag vet inte om jag egentligen tycker att det där är ett dugg konstigt.

Hmm, då är du antingen superintelligent, eller så har du inte förstått frågeställningen... :wink:

Statistik är konstigt helt enkelt.

IngOehman skrev:Vad det handlar om är ju att när man försöker med olika metoder ökar chansen att någon av dem skall lyckas, i synnerhet då det blir kombinatioriska effekter när de olika metoderna går in i varandra.

Ja, så är det ju. Ändå har jag levt i tron att jag begrep det ganska länge.

IngOehman skrev:Av det skälet tycker jag det är bra att i sådana här sammanhang även ta fasta på subjektiviteter, TROTS att de är svåra att värdera och beskriva perfekt. De kan dock vara en väl så relevant ingrediens för vad en tänkande person väljer att tro.

Om en person exempelvis lyckas höra skillnad på F och E säg 7 gånger av 7, beskriver hur skillnaden låter, och beskrivningen sammanfaller med vad man kunda vänta sig efter att ha mätt på apparaten, så väljer jag att hålla utsagan högre än om den som gissar rätt 7 gånger av 7 säger: -Jag vet inte riktigt vad jag gick på, men jag chansade nog mest.

Om man själv är lyssnare och tycker sig höra en solklar skillnad och träffar in 7 av 7 på direkten utan att tveka en enda gång, menar jag också att det är ett starkare argument än om man lyckas men tycker att det var svårt.

Det finns dom som menar att man inte får resonera som jag gör i det ovanstående, men de har fel - det får man! Dock kan man naturligtvis inte sätta siffror på sakerna. Av det själet kan det vara klokt att avråda från att försöka använda de subjektiva ingredienserna i några vetenskaplig sammanhang.

Ja, så fungerar det ju när vetenskap är som bäst. Man har en hypotes som ofta är grundad på ren intuition, en tro om att det är på ett visst sätt. Men ska man vara säker på att det inte är inbillning så måste man ha strikta metoder till hjälp. Så man ska dra nytta av det man tror för att göra en så bra försöksdesign som möjligt, så att man kan visa det med maximal träffsäkerhet.

IngOehman skrev:Ett specialfall när det är synnerligen befogat (tycker jag) att tillgripa sådana här metoder, är just när man testar audioapparater. Exempelvis kan det vara praktiskt att man sitter många samtidigt och lyssnar, och att låta folk fritt få tipsa varandra om vad de tror det är klokt att lyssna efter (det har man ofta en uppfattning om efter den öppna lyssningen).

Absolut! Det finns dock en stor fara med detta och det är att det "läcker" mellan svaren. Det som till sist avgör om det är ett problem är hur lyssnarnas svar registreras, om det görs med eller utan kunskap om de andras svar och med eller utan minspel etc som kan ge läckage. I vetenskapliga sammanhang ses detta därför som ett problem eftersom det studiens trovärdighet blir helt avhängig det sociala samspelet i lyssningsrummet och detta är mycket svårkontrollerat.

Mitt förslag är därför att man först lyssnar tillsammans och kommenterar det man hör, kanske svarar några gånger utan att svaren ingår i testen, bara för att kolla om man har hört rätt.

Därefter bestämmer man att testet börjar och då ser jag helst att man sitter i enrum och avger sina svar. Alternativt får bara en person avge svar per lyssning, eller så får man använda sig av konsensus.

För egentligen vet du ju inte att detta:

IngOehman skrev:Det är nämligen lätt att visa att sådana procedurer väldigt signifikant ökar andelen rätta svar i dubbelblindteter!

...inte beror på läckage. Du tror inte det, men kan du visa det?

IngOehman skrev:
Vissa statistiker menar att man om man är 10 lyssnare och en får 7 rätt av 7 (och de övriga efter samma antal avgivna svar får 35 fel och 35 rätt) inte kan räkna det som 7 av 7, utan måste se det som 42 rätt och 35 fel, det vill säga obefintlig statisktisk signafikans - ett rent slumpresultat.

Min mening är, att det beror på det!

Nja, min också, på sätt och vis. Jag skulle se testet som ett pilotexperiment som väcker frågan om inte just denna person faktiskt klarar att svara rätt hela tiden. Då har man fått en hypotes och då måste man börja från ruta noll om inte statistiken ger kraft nog från det första försöket. Jag brukar följaktligen göra så att den lyssnaren som fick 7/7 får göra om testet. Lyckas han igen, så är sannolikheten stor (hur stor beror på det totala antalet försök) att han faktiskt hör en skillnad.

Men piloten gav inga vetenskapligt hållbara data (om det stämmer i just ditt exempel har jag inte kollat, men antag att det är så för sakens skull)

Det finns också en massa sadistiska metoder som kan användas för att se samvariationer mellan enskilda lyssnare och rättsvarsförmåga, så det kanske skulle gå att få till signifikans även med de siffror du nämner.

av **Svante** » 2006-05-04 18:25

Dahlqvist skrev:Alltså: inget tjuvkikande när man håller på med experiment.

Ja, så kan man ju lösa det också. Det är lite surt bara att man måste bestämma sig för att göra 14 lyssningar utifallatt man skulle råka göra upp till 2 fel. Vett och sans säger ju att efter 10 rätt i rad så behöver man ju inte lyssna mer. Typ.

Dahlqvist skrev:
"99% signifikans är ju inte ett tecken på att en apparat är "väldigt bra", utan bara att dess brist på godhet är "väldigt osannolik - fast möjligen helt sann". Mina ändringar understrukna. Alternativhypotesen "det finns en skillnad" har vi ju inte utvärderat annat än indirekt.

Ja, det var ju det jag menade i mitt inlägg två trappor upp. Icke-icke.

Dahlqvist skrev:Sannolikheten för den senare kallas beta. Statistical power (1-beta) anger hur känsligt testet är, dvs hur stor är sannolikheten att man får ett signifikant resultat, och beror av effektstorlek i populationen, signifikansnivå och urvalsstorlek.

Ja, det där med "power" tycker jag verkar vara ett begrepp som alla vill hitta för sina tester, men att det inte går. Alltså, vad är power för ett vanligt lyssningstest, kan man sätta en siffra på det? Vad är inparametrarna? Det måste ju tex vara musikvalet, bullernivån i lyssningsrummet, anläggningens förmåga att återge lågfrekvens etc etc. Hur kan allt detta sammanfattas i begreppet power?

Eller är power bara ett flumbegrepp som inte går att använda? :wink:

av **PerStromgren** » 2006-05-04 22:02

När jag själv irrade runt på KTH som fjunig teknolog fanns där en hel institution med experter på matematiskt statistik, har ni sparkat ut dom? Om inte har du ju en källa att ösa ur som inte sinar i brårasket.

Även på mitt lokala universitet utbildar vi forskarstudenterna i forskningsmetodik, där statistik är en tung ingrediens. Har ni inget likande där du kan smyga med?

Eller är det du gör för komplicerat för mat-stat-experter?

av **Svante** » 2006-05-04 23:05

perstromgren skrev:Eller är det du gör för komplicerat för mat-stat-experter?

Hehe, nej knappast.jag har bara en inbyggd aversion mot statistik. Men visst, jag borde knacka på hos dem, det har du nog rätt i.

av **IngOehman** » 2006-05-05 01:08

Svante skrev:
IngOehman skrev:Ett specialfall när det är synnerligen befogat (tycker jag) att tillgripa sådana här metoder, är just när man testar audioapparater. Exempelvis kan det vara praktiskt att man sitter många samtidigt och lyssnar, och att låta folk fritt få tipsa varandra om vad de tror det är klokt att lyssna efter (det har man ofta en uppfattning om efter den öppna lyssningen).

Absolut! Det finns dock en stor fara med detta och det är att det "läcker" mellan svaren. Det som till sist avgör om det är ett problem är hur lyssnarnas svar registreras, om det görs med eller utan kunskap om de andras svar och med eller utan minspel etc som kan ge läckage. I vetenskapliga sammanhang ses detta därför som ett problem eftersom det studiens trovärdighet blir helt avhängig det sociala samspelet i lyssningsrummet och detta är mycket svårkontrollerat.

Mitt förslag är därför att man först lyssnar tillsammans och kommenterar det man hör, kanske svarar några gånger utan att svaren ingår i testen, bara för att kolla om man har hört rätt.

Därefter bestämmer man att testet börjar och då ser jag helst att man sitter i enrum och avger sina svar. Alternativt får bara en person avge svar per lyssning, eller så får man använda sig av konsensus.

För egentligen vet du ju inte att detta:

IngOehman skrev:Det är nämligen lätt att visa att sådana procedurer väldigt signifikant ökar andelen rätta svar i dubbelblindteter!

...inte beror på läckage. Du tror inte det, men kan du visa det?

Det behöver jag inte visa, för det är självjusterande!

Fundera på det du.

Om du inte vill, så läs vidare istället.

Kollektiva röstsammanräkningar fungerar inte under andra förutsättningar än att lyssnarna hindras helt från att kommunicera med varandra, så det har aldrig varit aktuellt. Alltså räknas BARA enskildheter, och hänsyn måste tas till hur många som har möjlighet att gissa rätt (och därmed minska signifikansen).

Om det är så att ett imponerande resultat beror på läckage så kan inte antal röstar räknas fullt, och det är något som ju ändå inte görs! Om en lyssnare "hör rätt", och alla andra härmar honom eller henne så får protokollet bara räkna en lyssnare. Det blir alltså automatiskt rätt, så länge man inte faller för frestelsen att räkna tre stycken "7 av 7-lyssnare" som ett "21 av 21-resultat". :oops:

Men vem skulle vara så korkad? Personer med så lågt statistiskt förnuft får givetvis inte ha något att säga till om i sådana här bedömningar.

Det är som filmen: Förnuft och känsla måste råda! :wink:

Eller om man hellre ser det såhär: Man kan göra hur som helst - så länge man tänker innan man bestämmer sig för vad resultatet berättar, och hur pålitligt det är.

Vh, iö

av **Svante** » 2006-05-05 08:02

IngOehman skrev:
Svante skrev: .... , eller så får man använda sig av konsensus.

Om det är så att ett imponerande resultat beror på läckage så kan inte antal röstar räknas fullt, och det är något som ju ändå inte görs! Om en lyssnare "hör rätt", och alla andra härmar honom eller henne så får protokollet bara räkna en lyssnare. Det blir alltså automatiskt rätt, så länge man inte faller för frestelsen att räkna tre stycken "7 av 7-lyssnare" som ett "21 av 21-resultat".

Ja, det där är ju samma sak. Bra, då är vi överens. Frågan är bara när och hur man vet om det finns läckage? I vetenskaplig mening. Jag skulle vilja påstå att det är ytterst sällsynt.

av **IngOehman** » 2006-05-06 23:18

Man vet att det finns maximalt potentiellt läckage, för man ser till att det gör det!

Det förbättrar ju oddsen att man når hög statistisk signiikans när man räknar igenom resultatet.

Det finns ingen poäng i att man påverkat de statistiska villkoren, utan poängen ligger i att det får lyssnarna att prestera (höra) bättre!

Vh, iö

av **JML2005** » 2006-05-07 00:23

Dahlqvist skrev:
För det första kan man, om man vill vara ytterligare lite försiktig i sin tolkning av ett signifikant resultat (ingen tolkning alls) säga att det betyder att det är högst osannolikt att det inte finns en skillnad, dvs att nollhypotesen är sann.

D

Bara en liten kommentar, man säger aldrig att att nollhypotesen är sann!
Bara att man förkastar H1, men det innebär icke att nollhypotesen behöver vara sann!

Hälsningar J
Med 30p statistik i ryggmärgen!

av **dimitri** » 2006-05-07 10:53

I vissa medicinska dubbelblinda studier finns det en sk "referensgrupp". Denna grupp har ingen kontakt med ledningsgruppen för studien. Referensgruppen får fortlöpande resultat.

Låt säga att man jämför en ny medicin mot cancer med den hittills vedertagna medicinen*. Powerberäkningar inför starten talar om att man bör ha x deltagare som skall följas under y månader. Eftersom det rör sig om en inte så vanlig cancerform så tar det 2 år att rekrytera x antal patienter i studien.

Nu är det så (i detta exempel) att powerberäkningen grundades på 20% bättre effekt hos den nya medicinen i djustudier.
Det kan hända, och faktiskt händer, att referensgruppen noterar att det redan efter x/2 inkluderade patienter som har följts i y månader framkommer signifikant skillnad med p<0.01 därför (kanske) att skillnaden i effekten hos människa är 40-50%.
Referensgruppen har i detta läge möjlighet och plikt att avbryta studien.
Varför? För att ge cancerpatienten möjlighet att få behandling med den nya medicinen, inte minst de som deltar i studien och får den gamla medicinen.
Så visst förekommer en form av "tjuvkikande", inte helt invändningsfritt sett ur statistisk synvinkel som dock får ge vika för etiska överväganden.

*Man får inte testa mot placebo när det redan finns verksam medicin

av **Lazyworm** » 2006-05-07 11:22

jag utvecklade ett system åt Johan Holmsäter på www.liv-lust.se som beräknar med signifikans (Ttest) hur en grupp människor har påverkats efter en viss förändring över tid (t.ex mer motion).

Jag tycker du ska söka på Ttest och statistic i t.ex google så kommer du få massor med kött på benen.

av **Svante** » 2006-05-07 11:24

dimitri skrev:Så visst förekommer en form av "tjuvkikande", inte helt invändningsfritt sett ur statistisk synvinkel som dock får ge vika för etiska överväganden.

Ja, och det knepiga med det där är ju att etiken måste grundas på sanning, och det närmaste sanning man kommer är ju faktiskt statistiken. Egentligen borde man om den nya medicinen verkligen verkar dramatiskt bättre anlita en statistiker som kontrollerar att det verkligen är en förbättring med hittills registrerade data, eller om det bara är intuitionen som spelar försöket ett spratt.

Ditt exempel är egentligen ganska likt mitt med lyssningstester, man tänker sig från början att det ska bli svårt, så man säger att man ska klara 12 av 14, men redan efter 7 rätt i rad inser man att det nog finns en skillnad. På ett sätt har man ju rätt men några 99% konfidens får man inte. Det blev "bara"98,5%.

Så hur man ska hantera resultaten beror på förutsättningarna, men i alla fallen bör man se till att förstå statistiken så att man kan grunda besluten på riktiga siffror. Tjyvkikning ger lägre konfidens, men ofta kan man leva med den lägre konfidensen eller bara anstränga sig lite till så uppnår man samma konfidens med mindre anstärngning än man hade tänkt sig från början.

av **Svante** » 2006-05-07 11:25

lazyworm skrev:Jag tycker du ska söka på Ttest och statistic i t.ex google så kommer du få massor med kött på benen.

Vem är "du"?

av **JML2005** » 2006-05-07 11:33

hmmm......ursäkta men gör ett litet OT inlägg! Hoppas det e ok? :roll:

Om det finns någon med mycket stor kunskap inom statistik här så skulle jag behöva lite hjälp med en lognormalfördelning, hjälpsam person kan väl skicka ett PM till mig så snackar vi om problemet den vägen.

/ J

av **dimitri** » 2006-05-07 11:35

Svante skrev:
"Egentligen borde man om den nya medicinen verkligen verkar dramatiskt bättre anlita en statistiker som kontrollerar att det verkligen är en förbättring med hittills registrerade data, eller om det bara är intuitionen som spelar försöket ett spratt. "

O ja. Det är experter som sitter i referensgrupper. Inte sällan är det Martin Bland som ingår. Han syntes faktiskt i Tv när den berömde amerikanske skeptikern (1M$ i pris, jag glömde namnet) ordnade blindtest för effekten av homeopatiska medel. Det blev 0 skillnad jmf placebo.

Edit: Det skulle ju också kunna vara så att den nya medicinen är sämre än den gamla eller har oacceptabla biverkningar i hög frekvens. Referensgruppens uppgift även i dessa fall är att ta ställning till studiens avbrytande i förtid

av **Morello** » 2006-05-07 12:58

Edit: OBS! Lazy från Gustafs PC!!!
Jag tror att du är han som är "du"

Som jag förstod det så ville du veta mer om hur man beräknar saker statistiskt och söker du på Ttest så kommer du få väldigt många ekvationer (med förklaringar) för olika sorters beräkningar inom statistiken, både då två grupper går igenom olika påverkan eller då en grupp får "uppleva" samma påverkan.

av **Tank** » 2006-05-07 13:49

Dimitri: James Randi?

av **IngOehman** » 2006-05-07 14:19

Jag får känslan av att ni är flera stycken här i tråden som resonerar på ett sätt som gör att ni riskerar att missa målet. Fast det beror förstås på vilket mål ni har. :wink:

Om vi pratar om Audio (vilket vi väl gör?) och har som mål att från varje studie extrahera maximalt stor mängd kunskap, så är det väldigt viktigt att inte missa den grundläggande vetenskapliga tesen:

Man kan i ett experiment i bästa fall påvisa närvaron av någonting, men man kan aldrig bevisa frånvaron av allting.

Tänk nu noga på vad detta innebär!

Gör man det så finner man att det är resultat man söker, inte nollresultat.

"Jakten på den invändningsfria presentationen av den statistiska signifikansen från ett experimentutslag", är alltså inte allenarådande!
Långt ifrån till och med. Den saknar helt värde varje gång man får nollresultat.

Detta med den statistiska signifikansen är förvisso en sak som inte får förfelas - men det är minst lika viktigt att experimentet läggs upp så att det faktiskt ger goda odds, helst maximala, att faktiskt kunna påvisa närvaron av något.
(Motsatsen - ett nollresultat - är ju praktiskt taget utan värde. I varje fall i den fyrkantiga världen som råder där man på papper presenterar resultat av experiment. Ett nollresultat kan dock betyda något, alltså ha värde, för den som deltagit i studien och därför kan värdera analystyngden. Den som själv deltagit i en blindlyssning där man misslyckades skilja mellan alternativ A och B, kan ju bedöma om nollresultatet berodde på att lyssningsförutsättningarna var dåliga, eller om det berodde på att skillnaden mellan de objekt som fanns med i kedja A och de som fanns i kedja B defacto var minimala eller kanske rent av obefintliga.)

Min erfarenhet av vetenskapsvärlden är att den här "signifikans-nojjan" ofta är så stor att den bländar försöksansvariga, så till den milda grad att de missar alla viktiga övriga krav helt. Det vill säga att en många helt meningslösa studier görs, där frågetällningar förenkats så till den milda grad att de förorar nästan all mening. I synnerhet när flera parametrar än dem som studien attackerar blir variabler i studien.

Inte sällan behöver teoribildning en bättre informationskraft än vad som kan fås från urvattnade experimentupplägg. Det har lett till att många av de starkaste teoribildningarna har varit resultat av helt intuitiva hanteringar av den experiment-soppa som verkligheten ställer oss inför varje dag. Det är väl därför som många tunga vetenskapsmän varit praktiker med stor experimentlystnad, men kanske inte alltid så stor respekt för hanteringen av analysen. :wink:

Kort sagt: Information, tanke(/känsla), snabbhet och en komplex intelligent värdering, är viktigare än den exakta strukturen för analysen när hypoteser sätts upp, och när teoribildning startar.

Verifikation och falsifikation måste däremot självklart ske med höga krav på signifikansanalys.

Vh, iö

av **Svante** » 2006-05-07 14:44

IngOehman skrev:Min erfarenhet av vetenskapsvärlden är att den här "signifikans-nojjan" ofta är så stor att den bländar försöksansvariga,

Apselut, det där ser jag också. Det finns studier som bevisar att det finns skillnader mellan behandling A och B och skillnaden kan vara fastställd med mycket hög signifikans. Det är bortom allt rimligt tvivel säkerställt att behandling A är bättre än B.

Det man glömmer är hur mycket bättre den är. Det kan vara så att med behandling B överlever 53% av patienterna medan 53,5% överlever med behandling A. Att skillnaden är väldigt säkert fastställd betyder inte att den är stor.

I vanligt språkbruk kanske man kunder säga att skillnaden är tydlig, men liten.

Men detta till trots, så behöver man begripa vad signifikans (och konfidens) betyder och hur man räknar om man ska göra tester. Annars riskerar man hitta en stor skillnad som man tror är tydlig, fast den egentligen är så otydlig att man inte kan vara riktigt säker på att den verkligen var stor. Här får man nästan Tage Danielsson-dejavu...

Hmm, jag tror att jag måste skriva nåt mer om detta, nånstans... :roll:

av **Svante** » 2006-05-07 14:47

Morello=Latmasken skrev:Edit: OBS! Lazy från Gustafs PC!!!
Jag tror att du är han som är "du"
Som jag förstod det så ville du veta mer om hur man beräknar saker statistiskt och söker du på Ttest så kommer du få väldigt många ekvationer (med förklaringar) för olika sorters beräkningar inom statistiken, både då två grupper går igenom olika påverkan eller då en grupp får "uppleva" samma påverkan.

Jadå, T-test kan man ju göra, men det är väl inte direkt applicerbart på detta. Frågeställningen här är ju vad som händer när man ändrar testförutsättningarna under testets gång, dvs att man avbryter testet efter 7 om alla blev rätt, men fortsätter annars.

av **JML2005** » 2006-05-07 16:15

IngOehman skrev:
Man kan i ett experiment i bästa fall påvisa närvaron av någonting, men man kan aldrig bevisa frånvaron av allting.

Tänk nu noga på vad detta innebär!

Tja vad innebär det? Jo om H0 förkastas, är detta en indikation på att den inte är sann, och ju starkare signifikansen är, desto säkrare är denna slutsats. Om H0 inte förkastas har vi däremot inte visat, att H0 är sann!

Rätt tolkat eller? :roll:

av **IngOehman** » 2006-05-07 16:21

Njae... Det där var ju bara en omskrivning (som inte direkt gjorde tesen varken lättfattligare eller informatinsrikare, snarare tvärtom :wink:

).

Det jag syftade på var alla implikationer av tesen, och i förlängningen: Hur man därför bör agera när man förbereder en studie, när man analyserar resultatet från en studie, och vad man kan påstå att man lärt sig från en studie.

Inte minst så är det viktigt att minnas när man formulerar sig (redogör för ett resultat) - att: De flesta som läser det man skriver INTE instinktivt greppar vilka slutsatser som är vetenskapligt korrekta att dra.

Därför är ligger det ett extra stort ansvar på vetenskapsföreträdare att hjälpa sina läsare att förstå vad man kan dra för slutsatser. Inte minst ser man dessa svårigheter yttra sig (i tydlig relief) när man tidskrifter som Illustrerad Vetenskap, och liknande.

Deras vetenskapsjournalister drar ständigt felaktiga slutsatser, eller hjälper sina läsare att göra det.

Om det beror på att de presenterats för textmaterial med felaktiga fomuleringar eller om de själva skapat alla missförstånd är ju svårt att veta, men att det som kommer ut i artikelform är fel är hur som helst alltför vanligt.

Vh, iö

av **JML2005** » 2006-05-07 16:31

IngOehman skrev:Njae... Det där var ju bara en omskrivning (som inte direkt gjorde tesen varken lättfattligare eller informatinsrikare, snarare tvärtom ).

Vh, iö

För mig (som är lite insnöad i statistik) blir det lite tydligare :wink:

Ville bara kolla om jag hängde med i resonemanget. Mycket text att läsa, lätt att man missar något väsentligt litet ord.

av **DQ-20** » 2006-05-07 16:56

Svante skrev:
Dahlqvist skrev:Alltså: inget tjuvkikande när man håller på med experiment.

Ja, så kan man ju lösa det också. Det är lite surt bara att man måste bestämma sig för att göra 14 lyssningar utifallatt man skulle råka göra upp till 2 fel. Vett och sans säger ju att efter 10 rätt i rad så behöver man ju inte lyssna mer. Typ.

Detta med "inget tjuvkikande" har att göra med vilken fördelning du beräknar dina signifikansvärden från. Fråga dig alltid "under vilka fördelningsantaganden är dessa slutsatser giltiga?". Att tjuvkika betyder att man förändrar distributionen eftersom inte fortsätter om man inte har en chans. Om man tjuvkikar låter man slumpen arbeta för sig och för det skall man betala i frihetsgrader.

Svante skrev:Ja, det där med "power" tycker jag verkar vara ett begrepp som alla vill hitta för sina tester, men att det inte går. Alltså, vad är power för ett vanligt lyssningstest, kan man sätta en siffra på det? Vad är inparametrarna? Det måste ju tex vara musikvalet, bullernivån i lyssningsrummet, anläggningens förmåga att återge lågfrekvens etc etc. Hur kan allt detta sammanfattas i begreppet power?

Eller är power bara ett flumbegrepp som inte går att använda?

Ehh, Googla, för tusan mannen. Om man har sett det grafiskt blir det lättare. Du som är klipsk fattar nog snart vad det går ut på. Då förstår du att man måste sätta upp en alternativ hypotes för att räkna ut power.

Kolla t.ex. här:

http://www.animatedsoftware.com/statglos/sgpower.htm

och räkna här:

http://calculators.stat.ucla.edu/powercalc/

Hälsningar,

D

av **DQ-20** » 2006-05-07 17:08

lazyworm skrev:jag utvecklade ett system åt Johan Holmsäter på www.liv-lust.se som beräknar med signifikans (Ttest) hur en grupp människor har påverkats efter en viss förändring över tid (t.ex mer motion).

Jag tycker du ska söka på Ttest och statistic i t.ex google så kommer du få massor med kött på benen.

T-tester är knappast tillämpbara i detta sammanhang. T-testen bygger på antaganden om kontinuerliga variabler och normalfördelning. Vid den typ av lyssningstest som diskuteras här har vi en dichotom (eller binär) variabel som är binominalfördelad. Binominalfördelningen kan visserligen approximeras med normalfördelningen men då krävs längre serier än vad som tycks vara typisk i detta sammanhang.

Hälsningar,

D

av **DQ-20** » 2006-05-07 17:31

JML2005 skrev:Bara en liten kommentar, man säger aldrig att att nollhypotesen är sann! Bara att man förkastar H1, men det innebär icke att nollhypotesen behöver vara sann!

Man kan nog säga på lite olika sätt. Vi diskuterar ju tillämpandet av olika tolkningsregler av signifikanstest och där finns det lite olika bud (tre-fyra eller så). Men det blir lite underligt att säga att vi tror varken att det finns en effekt eller det finns inte en effekt.

JML2005 skrev:Hälsningar J
Med 30p statistik i ryggmärgen!

Själv har jag valt att lägga mina statistikkunskaper i hjärnan. Där förhindrar de mig effektivt från att tänka på viktigare saker. Å andra sidan kan jag forsätta tänka på fördelningar även om jag skulle vara ryggmärgsbedövad.

/D

av **IngOehman** » 2006-05-07 17:57

När jag läser...

Dahlqvist skrev:...där förhindrar det mig effektivt från att tänka på viktigare saker.

...får det mig att vilja påminna om:

iö skrev:Jag får känslan av att ni är flera stycken här i tråden som resonerar på ett sätt som gör att ni riskerar att missa målet. Fast det beror förstås på vilket mål ni har.

Vh, iö

Statistik vid lyssningstest

Statistik vid lyssningstest

Re: Statistik vid lyssningstest

Re: Statistik vid lyssningstest

Re: Statistik vid lyssningstest

Re: Statistik vid lyssningstest

Re: Statistik vid lyssningstest