Endast för statistikkunniga (F/E-statistik)

av **Morello** » 2007-01-08 14:44

Dr. Svante skrev:
Svante skrev:Kan man lita på de tester som utförts hittills i LTS regi?
Trots det ovanstående är min bedömning att man kan det. Jag kan säga det eftersom jag tror att Ingvar drivs av en uppriktig vilja att undersöka hur apparaterna presterar. Däremot tycker jag att det är tråkigt att man måste lita på min, Ingvars eller någon annans bedömning av det. Det vore bättre om jag kunde lägga fram fakta så att den som begriper statistik själv kan undersöka om data har behandlats vettigt.

av **Kaffekoppen** » 2007-01-08 15:15

Dahlqvist skrev:Men du behöver givetvis inte svara. För att travestera Lundell: ett inställt svar är och också ett svar. /D

Skälet var, precis som jag sa i inlägget innan att det fanns de som inte uppfattat det Svante skrivit på rätt sätt.

Det har funnits mer än nog av misstolkningar och ett rakt svar är mer tydliggörande än större textmassor ibland är.

Frågan är varför du undrar vad som gör det intressant för oss andra att veta hur han ser på saken. Det är väl rätt självklart att ett klargörande leder till mindre misstolkningar.

Din fråga till mig, så här långt i efterhand, där du ber mig klargöra mina motiv är däremot besynnerlig. Den som isåfall skulle ifrågasätta den borde vara Svante om han såg något konstigt i den. Det tror jag inte han gjorde, utan tvärtom tror jag han är väl insatt i motivet till den.

Den här textmassan har väl inte direkt drivit sakfrågan framåt utan bluddrar bara tråden. Därav min önskan att du kunde ställa en fråga som inte har ett jäkla skit med sakfrågan att göra i ett PM om du hade ett personligt intresse av svaret.

En insinuering är också en insinuering min kära Dahlqvist!

av **Thomas_A** » 2007-01-08 15:27

Här är några fler exempel. I detta har jag gjort en liten simulering med slumptal. Den innehåller 20 omgångar med 10-serier. Jag vill se om någon av min slumpgenererade serier ger en signifikant skillnad genom att göra post-hoc tester.

Designen på testet är att använda en serie på 10. Jag lägger också dit ett konditionellt test, fast tvärtom Svantes. Om serien innehåller 3-7 korrekta svar avslutas den vid n=10. Om den således innehåller 8, 9, eller 10 rätt eller 8, 9, eller 10 fel fortsätter den med ytterligare n=10.

Jag testar således alla serier som gjorts under ”testdagen”. Detta blev det dokumenterade resultatet.

1: 6/10
2: 3/10
3: 5/10
4. 2/10 !
5. 6/10, dvs resultatserien från serie 4 kunde inte verifieras. Inte heller totalen 8/20 är signifikant från slumpen.
6. 3/10
7. 6/10
8. 5/10
9. 5/10
10. 7/10
11. 8/10 !
12. 7/10, dvs serien kunde inte verifieras (max 2 fel). Dock blir totalen 15/20 signifikant skild från pi=0.5. Mer om detta längre ner.
13. 6/10
14. 4/10
15. 5/10
16. 7/10
17. 4/10
18. 4/10
19. 4/10
20. 4/10

Summa totalt: 101/200

Totalt från 20 sessioner så fick vi två initiala indikationer på sned proportion, försök 4 och försök 11. I försök 4 blev nästa serie 6/10, vi kan därför glömma den tidigare 2/10-serien. I försök 11 fick vi 8/10 vilket kan indikera en skillnad. Vi kunde dock inte få bättre än 7/10 för nästföljande serie, vilket gör det hela skakigt. Ett sista försök att få denna 20-serie signifikant är att slå ihop dem och vi får 15/20, vilket ger p=0.02. Men är detta sant? Nja, vi måste testa den mot övriga tabeller som vi fått under testet. Vi gör den allra enklaste först, vi testar vår 15/20 resultat mot 10/20 (slump) med en Fishers exakt (vi kan ju också välja nästföljande n=20 i vår serie, men egentligen bör alla data testas i en 2 x n tabell):

Fall 1: våra 15/20 mot 10/20 ger p=0.19. Alltså icke signifkant.
Fall 2: våra 15/20 mot nästföljande 20-serie (vilket är samma 10/20 som i fall 1), p=0.19
Fall 3: Nu börjar vi selektera, aja baja…våra 15/20 mot den sista 20-serien (8/20), p=0.055.
Fall 4: Vi jämför 15/20-serien mot de nästföljande 4 misslyckade tester (ihopslagna) och gör ett chi-2 (ingen tal blir lägre än 5) i en 2 x 5 tabell.. Följande fås: p=0.132 (alltså ej signifikant).

Vilket resultat från vår 20-serie måste vi då ha för att få statistik konfidens mot 10/20 i en Fishers?. Jo vi måste ha minst 18/20 korrekt jämfört med 10/20, dvs antigen 8/10+10/10, 9/10+9/10, eller 10/10+8/10.

Så är det med det.

PS. Ang. en- och tvåsvansade test. I vår hypotes ovan distingerar vi inte från alla fel eller alla rätt vilket i grunden leder till ett tvåsvansat test. Man kan analysera i hur stor grad folk verkligen väljer tvärtom i sina svarsserier. Specar vi H1 till skillnad från pi=0.5 eller ska vi speca den till signifkant bättre än slump (=korrekt angivna svar)? I grund och botten förväntar vi oss korrekta svar (utifrån en träning som gjorts) vilket i de flesta analyser borde rendera ett ensvansat test, ex pi=0.5 mot 0.9. Därför bör man nog alltid redovisa p för både en- och tvåsvansat. För ett ensvansat Fisher räcker det med 17/20 mot 10/20 för att komma till p=0.02. DS

T

av **DQ-20** » 2007-01-08 16:37

Kaffekoppen skrev:
Dahlqvist skrev:Men du behöver givetvis inte svara. För att travestera Lundell: ett inställt svar är och också ett svar. /D

Skälet var, precis som jag sa i inlägget innan att det fanns de som inte uppfattat det Svante skrivit på rätt sätt.

Det har funnits mer än nog av misstolkningar och ett rakt svar är mer tydliggörande än större textmassor ibland är.

Frågan är varför du undrar vad som gör det intressant för oss andra att veta hur han ser på saken. Det är väl rätt självklart att ett klargörande leder till mindre misstolkningar.

Din fråga till mig, så här långt i efterhand, där du ber mig klargöra mina motiv är däremot besynnerlig. Den som isåfall skulle ifrågasätta den borde vara Svante om han såg något konstigt i den. Det tror jag inte han gjorde, utan tvärtom tror jag han är väl insatt i motivet till den.

Den här textmassan har väl inte direkt drivit sakfrågan framåt utan bluddrar bara tråden. Därav min önskan att du kunde ställa en fråga som inte har ett jäkla skit med sakfrågan att göra i ett PM om du hade ett personligt intresse av svaret.

En insinuering är också en insinuering min kära Dahlqvist!

Jag förstår ingenting.

/D

av **DQ-20** » 2007-01-08 17:07

n3mmr skrev:Men jag kanske helt missuppfattar vad konfidens är: Jag tänker mig att konfidensen kommer in, bl a, i prediktion, dvs det är den tilltro man har till att man skulel få samma resultat nästa gång med samma test.

Jag kan då säga att det är en typisk missuppfattning. Konfidens är på det hela taget ett mycket olyckligt begrepp eftersom det, som exemplifieras ovan, lätt leder till begreppet omvänd sannolikhet (typ, "resultaten är 99% säkra). Signifikanstest har inte med tilltro att göra utan med brist på misstro.

Jag har f ö lagt märke till att IÖ oftast använder statistiskt signifikant och inte ordet "konfidens".

Om vi tar f/e-test så innebär en signifikansnivå på p=.05 att vi under upprepad sampling från ett hypotetiskt universum av alla hittills gjorda och icke gjorda försök kommer att uppnå detta eller starkare resultat i 5% av alla försök även om det inte finns någon effekt (dvs. den sk nollhypotesen gäller och proportionen korrekta svar blir 0.5). Vi får alltså veta att ett visst resultat eller skillnad uppstår med en viss frekvens som ett resultat av att vi gör slumpmässiga urval från en oändlig popullation. Om det är just vårt försök som genererats (eller motverkats) av denna slumpmässiga process kan vi inte veta.

Ett signfikanstest ger i isolation ingen indikation för vilken tilltro vi skall sätta till resultaten, ej heller vad vi skall förvänta oss nästa gång. Denna senare typ av sannolikhetsbegrepp brukar kallas subjektiv sannolikhet (sannolikhet tillämpat på enskilda händelser) och bör inte förväxlas med det sannolikhetsbegrepp som bygger på relativ frekvens (vilket är det som är relevant för signifikanstest.)

/D

av **n3mmr** » 2007-01-08 17:25

Dahlqvist skrev:
Om vi tar f/e-test så innebär en signifikansnivå på p=.05 att vi under upprepad sampling får ett hypotetiskt universum av alla hittills gjorda och icke gjorda försök kommer att uppnå detta eller starkare resultat i 5% av alla försök även om det inte finns någon effekt (dvs. den sk nollhypotesen gäller och proportionen korrekta svar blir 0.5).

/D

Det fattas nåt eller några ord i detta stycke. Jag hajar 0...

av **DQ-20** » 2007-01-08 17:57

n3mmr skrev:
Dahlqvist skrev:
Om vi tar f/e-test så innebär en signifikansnivå på p=.05 att vi under upprepad sampling får ett hypotetiskt universum av alla hittills gjorda och icke gjorda försök kommer att uppnå detta eller starkare resultat i 5% av alla försök även om det inte finns någon effekt (dvs. den sk nollhypotesen gäller och proportionen korrekta svar blir 0.5).

/D

Det fattas nåt eller några ord i detta stycke. Jag hajar 0...

Ja, det skall vara "från ett hypotetiskt..." iställer för "får". Solly. Nyckelbegreppen är "hypotetisk oändlig population" och "upprepade urval"

/D

av **Svante** » 2007-01-08 19:02

IngOehman skrev:Oavsett vilket kan man dock säga att Morello kan höra skillnad mellan F och E med en statistisk signifikans >98,4%. I praktiken hade jag inte stoppat serien vid nio dock, men vid 10 eller 11, om du hade fortsatt svara rätt (även om du svarat efter Svante! Tro't eller ej...).

Med viss info känd före testen (exempelvis att det redan finns tecken på att Morello är en god lyssnare, och att det därför är hans svar som räknas) är SS >99,6% för att vi i testen lyckats påvisa att apparaten har en hörbar färgning.

Ok, det här är en bit på väg till att göra det begripligt hur du räknar och det är bra. Kan man inte beskriva metoden i sin helhet kan man i alla fall ge några exempel som här, och åtminstone kolla en del av förfarandet.

Min första fråga, när du säger att konfidensen blir 99,6% om Morello är en god lyssnare, varför betyder det att du kan bortse ifrån Svantes svar? Och om du ändå hade tänkt göra det, varför fick han vara med i testet från början.

Koll:

Jag antar att du räknar ut 99,6% som 1-2/2^9=0,996, dvs dubbelsidigt (både alla rätt och alla fel är ok).

...och 98,4% kom ifrån 1-2/2^7=0.984? Du bortsåg alltså från de svar där Svante svarade först?

En sista fråga, hur med hur stor konfidens kan man säga att apparaten färgar ljudet?

av **n3mmr** » 2007-01-08 19:55

Dahlqvist skrev:
n3mmr skrev:
Dahlqvist skrev:
Om vi tar f/e-test så innebär en signifikansnivå på p=.05 att vi under upprepad sampling får ett hypotetiskt universum av alla hittills gjorda och icke gjorda försök kommer att uppnå detta eller starkare resultat i 5% av alla försök även om det inte finns någon effekt (dvs. den sk nollhypotesen gäller och proportionen korrekta svar blir 0.5).

/D

Det fattas nåt eller några ord i detta stycke. Jag hajar 0...

Ja, det skall vara "från ett hypotetiskt..." iställer för "får". Solly. Nyckelbegreppen är "hypotetisk oändlig population" och "upprepade urval"

/D

Tack!!

Ett inverst mått på misstro!

:-)

av **Svante** » 2007-01-08 21:24

Dahlqvist skrev:Jag kan då säga att det är en typisk missuppfattning. Konfidens är på det hela taget ett mycket olyckligt begrepp eftersom det, som exemplifieras ovan, lätt leder till begreppet omvänd sannolikhet (typ, "resultaten är 99% säkra). Signifikanstest har inte med tilltro att göra utan med brist på misstro. Jag har f ö lagt märke till att IÖ oftast använder statistiskt signifikant och inte ordet "konfidens".

Ja, det där är lite lustigt. Jag brukar konsekvent, tror jag, använda ordet konfidens när jag pratar om just hifilyssningstestarstatistik. Annars gör jag som forskare gör i allmänhet, dvs pratar om signifikans och p-värden.

Jag har egentligen ingen bra förklaring till varför, annat än att det jag läste som ung hifinörd alltid använde begreppet konfidens. Jag tror att jag in nån sorts ambition att vara konsekvent bara har fortsatt så. Det kanske är dumt.

Jag tror ändå att konfidensbegreppet har en fördel för "vanligt folk", det verkar lättare att förstå "99%" säker än "1% osäker". Jag är inte riktigt säker på, just nu iaf, varför "tilltro" skulle vara skilt från "brist på misstro".

Fast jag är övertygad om att Dq har ett dräpande argument :lol:

. Eller så levererade han det redan i just det inlägg som jag citerade. :oops:

av **tvett** » 2007-01-08 21:44

patrick82 skrev:Yes I have made blind tests and scored 99.99%, good enough.

Kan någon förklara för mig som är okunnig om statistik vid blindtest hur många testomgångar det krävs för detta procent-tal.

av **Thomas_A** » 2007-01-08 22:02

tvett skrev:
patrick82 skrev:Yes I have made blind tests and scored 99.99%, good enough.

Kan någon förklara för mig som är okunnig om statistik vid blindtest hur många testomgångar det krävs för detta procent-tal.

Hu, det behövs inte så värst många. Men men...min trovärdighet är inte stor för den killen.

av **Svante** » 2007-01-08 22:50

tvett skrev:
patrick82 skrev:Yes I have made blind tests and scored 99.99%, good enough.

Kan någon förklara för mig som är okunnig om statistik vid blindtest hur många testomgångar det krävs för detta procent-tal.

Som minst?

Bestäm i förväg att du ska lyssna 14 gånger och endast acceptera alla rätt.

Klarar du det blir konfidensen 1-1/2^14=99,994%

Det betyder fortfarande inte att skillnaden är stor. Den blir ju inte större för att man lyssnar fler gånger.

av **tvett** » 2007-01-08 23:03

Svante skrev:Som minst?

Bestäm i förväg att du ska lyssna 14 gånger och endast acceptera alla rätt.

Klarar du det blir konfidensen 1-1/2^14=99,994%

Det betyder fortfarande inte att skillnaden är stor. Den blir ju inte större för att man lyssnar fler gånger.

Misstänker att han inte menar att han hade rätt i 99.99% av fallen :lol:

Så vi pratar alltså om 13 rätt.

Fast på tipset så blir konfidensen 99.9999994% med 13 rätt. :lol:

edit: förtydligar att jag räknat med 1X2

av **Svante** » 2007-01-08 23:05

Thomas_A skrev:Så är det med det.

Hmm. Jag är inte säker på att jag förstår din slutsats.

Om den är som jag tror, så är den att eftersom du har letat efter en falsk signifikans, men inte hittat den, så finns den inte. Eller missförstår jag?

Mitt förslag är annars att göra många fler simuleringar av den sort som du gjorde. I mina simuleringar gör jag typiskt en miljon serier, det är inte särskilt jobbigt för datorn. Då syns påverkan på signifikansen väldigt tydligt.

av **dimitri** » 2007-01-08 23:21

Tvett
Därför att i stryktipset har man 13*3 tabell (oavgjort också) och inte 13*2 tabell.

av **Thomas_A** » 2007-01-08 23:37

Svante skrev:
Thomas_A skrev:Så är det med det.

Hmm. Jag är inte säker på att jag förstår din slutsats.

Om den är som jag tror, så är den att eftersom du har letat efter en falsk signifikans, men inte hittat den, så finns den inte. Eller missförstår jag?

Mitt förslag är annars att göra många fler simuleringar av den sort som du gjorde. I mina simuleringar gör jag typiskt en miljon serier, det är inte särskilt jobbigt för datorn. Då syns påverkan på signifikansen väldigt tydligt.

Jag åskådliggjorde testutfall och posthoc-tester.. Man kan alltså testa styrkan i de fynd man gör om man känner till hur många serier som är gjorda och räknar på hela resultatet. Visst, det kan aldrig bli perfekt, men det är en kontroll mot fishing. Du får gärna göra 1 miljon simuleringar, har inte riktigt den kapaciteten. Utgår du från 1 miljon serier för att "fiska" fram minst 18/20 i rad, testa då hela rasket i en 2 x 1,000,000 tabell.

av **Svante** » 2007-01-08 23:38

Thomas_A skrev:Här är några fler exempel. I detta har jag gjort en liten simulering med slumptal. Den innehåller 20 omgångar med 10-serier. Jag vill se om någon av min slumpgenererade serier ger en signifikant skillnad genom att göra post-hoc tester.

Designen på testet är att använda en serie på 10. Jag lägger också dit ett konditionellt test, fast tvärtom Svantes. Om serien innehåller 3-7 korrekta svar avslutas den vid n=10. Om den således innehåller 8, 9, eller 10 rätt eller 8, 9, eller 10 fel fortsätter den med ytterligare n=10.

Jag testar således alla serier som gjorts under ”testdagen”. Detta blev det dokumenterade resultatet.

1: 6/10
2: 3/10
3: 5/10
4. 2/10 !
5. 6/10, dvs resultatserien från serie 4 kunde inte verifieras. Inte heller totalen 8/20 är signifikant från slumpen.
6. 3/10
7. 6/10
8. 5/10
9. 5/10
10. 7/10
11. 8/10 !
12. 7/10, dvs serien kunde inte verifieras (max 2 fel). Dock blir totalen 15/20 signifikant skild från pi=0.5. Mer om detta längre ner.
13. 6/10
14. 4/10
15. 5/10
16. 7/10
17. 4/10
18. 4/10
19. 4/10
20. 4/10

Summa totalt: 101/200

Totalt från 20 sessioner så fick vi två initiala indikationer på sned proportion, försök 4 och försök 11. I försök 4 blev nästa serie 6/10, vi kan därför glömma den tidigare 2/10-serien. I försök 11 fick vi 8/10 vilket kan indikera en skillnad. Vi kunde dock inte få bättre än 7/10 för nästföljande serie, vilket gör det hela skakigt. Ett sista försök att få denna 20-serie signifikant är att slå ihop dem och vi får 15/20, vilket ger p=0.02. Men är detta sant? Nja, vi måste testa den mot övriga tabeller som vi fått under testet. Vi gör den allra enklaste först, vi testar vår 15/20 resultat mot 10/20 (slump) med en Fishers exakt (vi kan ju också välja nästföljande n=20 i vår serie, men egentligen bör alla data testas i en 2 x n tabell):

Fall 1: våra 15/20 mot 10/20 ger p=0.19. Alltså icke signifkant.
Fall 2: våra 15/20 mot nästföljande 20-serie (vilket är samma 10/20 som i fall 1), p=0.19
Fall 3: Nu börjar vi selektera, aja baja…våra 15/20 mot den sista 20-serien (8/20), p=0.055.
Fall 4: Vi jämför 15/20-serien mot de nästföljande 4 misslyckade tester (ihopslagna) och gör ett chi-2 (ingen tal blir lägre än 5) i en 2 x 5 tabell.. Följande fås: p=0.132 (alltså ej signifikant).

Vilket resultat från vår 20-serie måste vi då ha för att få statistik konfidens mot 10/20 i en Fishers?. Jo vi måste ha minst 18/20 korrekt jämfört med 10/20, dvs antigen 8/10+10/10, 9/10+9/10, eller 10/10+8/10.

Så är det med det.

PS. Ang. en- och tvåsvansade test. I vår hypotes ovan distingerar vi inte från alla fel eller alla rätt vilket i grunden leder till ett tvåsvansat test. Man kan analysera i hur stor grad folk verkligen väljer tvärtom i sina svarsserier. Specar vi H1 till skillnad från pi=0.5 eller ska vi speca den till signifkant bättre än slump (=korrekt angivna svar)? I grund och botten förväntar vi oss korrekta svar (utifrån en träning som gjorts) vilket i de flesta analyser borde rendera ett ensvansat test, ex pi=0.5 mot 0.9. Därför bör man nog alltid redovisa p för både en- och tvåsvansat. För ett ensvansat Fisher räcker det med 17/20 mot 10/20 för att komma till p=0.02. DS

T

Hmm, jag sitter och försöker formulera om din testdesign till mitt språk (i termer av avbrottsvillkor).

Jag slänger ur mig lite antaganden, bara för att vi ska få något att diskutera:

Antag att du i den första serien stannar och anser att du har tillräcklig konfidens vid 10/10, men att du fortsätter till 20 om du har 7 8 eller 9/10. Om du då har 15/20 så anser du att du har konfidens.

I mitt språk blir en sån design 10-20-20-20-20-20.

Om jag simulerar det ger testet ungefär 97,9% konfidens.

av **Thomas_A** » 2007-01-08 23:48

Svante,

testserien stannar endast om man fått tre fel (ensvansad modell) eftersom det är onödigt att fortsätta längre. Har man kommit till 8/10, 9/10 eller 10/10 finns det anledning att upprepa testet. Får man återigen 8/10, 9/10 eller 10/10 är man nåt på spåren.

Alltså är mitt avbrottsvilkor tvärtom ditt förslag. Man stannar vid 10 när felen är för stora, det är ingen större ide att fortsätta. Vid mer än 7 rätt konfirmeras resultatet i en ny serie.

Notera också att jag inte fick statistiskt signifikant vid 15/20, pga av att jag gjort ett urval från 20 st 10-serier.

av **Svante** » 2007-01-09 01:28

Thomas_A skrev:Svante,

testserien stannar endast om man fått tre fel (ensvansad modell) eftersom det är onödigt att fortsätta längre. Har man kommit till 8/10, 9/10 eller 10/10 finns det anledning att upprepa testet. Får man återigen 8/10, 9/10 eller 10/10 är man nåt på spåren.

Alltså är mitt avbrottsvilkor tvärtom ditt förslag. Man stannar vid 10 när felen är för stora, det är ingen större ide att fortsätta. Vid mer än 7 rätt konfirmeras resultatet i en ny serie.

Notera också att jag inte fick statistiskt signifikant vid 15/20, pga av att jag gjort ett urval från 20 st 10-serier.

Ok... Men vad är syftet? Att öka konfidensen, men avbryta om det har gått åt skogen?

Varför ska man sätta just 10 som gräns, varför behövs gränser överhuvudtaget?

Jag är helt med på att man kan bryta om man ser att man inte kommer att uppnå konfidens, och det kan man ofta göra tidigt. Men då måste man ändå redovisa serien som misslyckad.

av **Thomas_A** » 2007-01-09 09:18

Svante skrev:
Thomas_A skrev:Svante,

testserien stannar endast om man fått tre fel (ensvansad modell) eftersom det är onödigt att fortsätta längre. Har man kommit till 8/10, 9/10 eller 10/10 finns det anledning att upprepa testet. Får man återigen 8/10, 9/10 eller 10/10 är man nåt på spåren.

Alltså är mitt avbrottsvilkor tvärtom ditt förslag. Man stannar vid 10 när felen är för stora, det är ingen större ide att fortsätta. Vid mer än 7 rätt konfirmeras resultatet i en ny serie.

Notera också att jag inte fick statistiskt signifikant vid 15/20, pga av att jag gjort ett urval från 20 st 10-serier.

Ok... Men vad är syftet? Att öka konfidensen, men avbryta om det har gått åt skogen?

Varför ska man sätta just 10 som gräns, varför behövs gränser överhuvudtaget?

Jag är helt med på att man kan bryta om man ser att man inte kommer att uppnå konfidens, och det kan man ofta göra tidigt. Men då måste man ändå redovisa serien som misslyckad.

Syftet är att göra testet något känsligare för fynd som 8/10. Korrekt att man måste redovisa misslyckade serier, och jag tycker att man bör fullfölja till 10 ändå (för att kunna ha jäfmörbara serier i beräkningar).

av **n3mmr** » 2007-01-09 11:47

Svante skrev:
Det betyder fortfarande inte att skillnaden är stor. Den blir ju inte större för att man lyssnar fler gånger.

Nej, det förstår vi. Men det måste väl betyda att vi blir säkrare och säkrare i någon mening på att skillnaden faktiskt finns?

Dvs om man ser att någon detekterar skillnaden i ett test + resultat med hög konfidens så är man mer benägen att tro på att skillnaden finns än om konfidensen var låg, eller?

av **DQ-20** » 2007-01-09 15:38

Svante skrev:Fast jag är övertygad om att Dq har ett dräpande argument . Eller så levererade han det redan i just det inlägg som jag citerade.

Dräpande och dräpande. Man kan säkert uttrycka sig på olika sätt men falsifieringtanken utgår ju från en grundläggande misstro mot all kunskap. Mest tycker jag att det är ett kul sätt att uttrycka sig.

Signifikanstest utgår ju oftast från en nollhypotes som får anses vara sann tills vidare. Vi har sedan en alternativ hypotes, t.ex. att det finns en effekt eller skillnad, vilken vi misstror. När graden av misstro sjunker under en viss nivå så förkastar vi nollhypotesen och misstror bara den alternativa hypotesen lite grann. Eller så är det bristen på tilltro till nollhypotesen som får oss att tro att är det inte det ena så är det det andra.

Allvarligt talat så är graden av tilltro vi sätter till ett probabilistiskt resultat en komplicerad process där vi dels tar hänsyn till signifikansnivån i resultatet, men också hur sannolikt vi tycker att resultatet är utifrån vad vi visste tidigare. Det spelar ingen större roll om vi har ett signifikant resultat på 0.1%-nivån om vi tycker att resultatet är mer eller mindre omöjligt. Vi kommer helt enkelt inte att sätta tilltro till osannolika resultat som vi inte kan foga in i övrig kunskapsmassa. Jag ser det alltså som en en baysiansk process. Det är också på den här nivån som jag tycker ordet tilltro (konfidens) kan komma in. Det är när vi med vårt agerande visar att vi har tilltro till ett visst resultat när vi har fogat in det in existerande kunskap och börjar fatta beslut utifrån denna. Observera att jag inte har något emot begreppet konfidensintervall, men det är en annan sak.

Svante skrev:Jag tror ändå att konfidensbegreppet har en fördel för "vanligt folk", det verkar lättare att förstå "99%" säker än "1% osäker". Jag är inte riktigt säker på, just nu iaf, varför "tilltro" skulle vara skilt från "brist på misstro".

Jag försöker själv inte att förklara innebörden av signfikanstest för "vanligt folk" om du med "vanligt folk" menar människor som inte förstår innebörden av signifikanstest. Annars blir det lätt så att man kan tro att resultaten är "99% säkra" eller "1% osäkra" vilket är en feltolkning av begreppet signifikansnivå. Laplace försökte dock övertyga oss om motsatsen och Fisher var ute och vevade med sitt "fiduciary interval". De lyckades dock inte övertyga den statistiska vetenskapen om detta.

Signifikanstest är hopplöst inadekvata för att ta reda på det vi söker, nämligen var som är sant. Men i brist på annat är det det enda vi har.

/D

av **IngOehman** » 2007-01-09 15:40

Är inte helt säker på det jag kommer att skriva nu, men så här ser jag på ordens betydelser:

Statistisk signifikans betyder ju rent sematiskt ungefär "sannolikhet för betydelsefullhet".

Man använder dock i akademiska kretsar ofta begreppet för "risken att felaktigt förkasta nollhypotesen". DET tycker jag är ett omvänt sätt att använda uttrycket.

Jag brukar istället använda det för att ange "chansen att detektionen är signifikant".

Jag menar alltså att bruket av ordet måste bero av sammanhanget*. Därför tycker jag att det bör framgå av sammanhanget vad man talar om. Om man skriver att man gjort en studie med syfte att försöka detektera en apparat, och att man efter studien räknar ut och redovisar att statistiska signifikansen för detektionen är >99% - är det ju detektionen man anger den statistiska signifikansen för - inte för att en nollhypotes oavsiktligt råkar förkastats. Man menar helt enkelt det man säger.

>99% betyder i klartext att den detektion man gjort är sanning i >99% av fallen, statistiskt. Det vill säga att den är osann i <1% (<0,01) av fallen.

Mitt sätt att använda begreppet är inte praxis, men jag tycker det är ett bra sätt! :wink:

Vh, iö

- - - - -

*Jag tycker inte att det är bra att använda begreppet alls, om man inte klargör huruvida det är "detektionen" eller "risken för en falsk detektion" som man redovisar.

PS. Den som tror att den statistiska signifikansen är ett mått på detektionens storlek är helt ute och cyklar, men är det någon som tror det då? Jag har sett att Svante varit inne på att det kan vara ett problem, men jag har så vitt jag vet inte sett något enda fall där jag fått intryck att någon trott något sådant.

av **DQ-20** » 2007-01-09 16:08

IngOehman skrev:Man använder dock i akademiska kretsar ofta begreppet för "risken att felaktigt förkasta nollhypotesen". DET tycker jag är ett omvänt sätt att använda uttrycket.

Ja, det är dessutom fel. Risken för beslutsfel av typen 1 och signifikansnivå är inte alltid identiska.

IngOehman skrev:PS. Den som tror att den statistiska signifikansen är ett mått på detektionens storlek är helt ute och cyklar, men är det någon som tror det då? Jag har sett att Svante varit inne på att det kan vara ett problem, men jag har så vitt jag vet inte sett något enda fall där jag fått intryck att någon trott något sådant.

Min egen erfarenhet är att man genom att trycka extra mycket på att man uppnått en hög signifikansnivå kan få människor att helt bortse från effektstorleken. Det gäller även forskare. Eller kanske i synnerhet dem. Genom att ha stora urval kan även meningslösa skillnader bli statistiskt signifikanta. Och därmed "significant" (=eng. viktiga).

/D

av **Thomas_A** » 2007-01-09 16:19

En viktig information som kan användas för designen är ju vilket förväntat värde man ska räkna på, exempel ett förväntat utfall på pi=1.0 eller 0.9 eller både 0.1 och 0.9 etc.

Gör man en 10-serie och förväntar sig 0.9 så är ju 8, 9, och 10 rätt alla gångbara. För en power på 80% och p>0.01 bör man ha minst n=15 för att särskilja 0.5 och 0.9.

Sen kan man som sagt ha annan information, mätningar mm som kan läggas in i en analys, då blir det mer komplicerat.

Några faktarutor:

http://www.graphpad.com/articles/interp ... p_comp.htm
http://www.graphpad.com/articles/interp ... /power.htm
http://www.graphpad.com/articles/interp ... /bayes.htm

av **IngOehman** » 2007-01-09 16:22

Dahlqvist skrev:
IngOehman skrev:Man använder dock i akademiska kretsar ofta begreppet för "risken att felaktigt förkasta nollhypotesen". DET tycker jag är ett omvänt sätt att använda uttrycket.

Ja, det är dessutom fel. Risken för beslutsfel av typen 1 och signifikansnivå är inte alltid identiska.

Och ändå är det oftast i den bemärkelsen man ser det användas.

Beklagligt.

Dahlqvist skrev:
IngOehman skrev:PS. Den som tror att den statistiska signifikansen är ett mått på detektionens storlek är helt ute och cyklar, men är det någon som tror det då? Jag har sett att Svante varit inne på att det kan vara ett problem, men jag har så vitt jag vet inte sett något enda fall där jag fått intryck att någon trott något sådant.

Min egen erfarenhet är att man genom att trycka extra mycket på att man uppnått en hög signifikansnivå kan få människor att helt bortse från effektstorleken. Det gäller även forskare. Eller kanske i synnerhet dem. Genom att ha stora urval kan även meningslösa skillnader bli statistiskt signifikanta. Och därmed "significant" (=eng. viktiga).

Å tusan.

Om det du skriver är sant är det skrämmande.

Jag har haft turen att missa dessa rapporter. Har aldrig sett några där jag har uppfattat några sammanblandningar mellan felstorlek och detektionssignifikansen. (Många andra häpnadsväckande feltänk har jag sett dock, som varit minst lika vetenskapsvidriga! :wink:

)

Men: Hur löser man problemet? I den akademiska världen borde det vara lätt att lösa - nämligen genom att knäppa de forskare på näsan som inte fattar att de inte får formulera sig så. Finns det någon som kan ta det näsknäppningsuppdraget?

Det känns ju som sådana formuleringar visar på signifikanta brister i det vetenskapliga förståndet/kunskapen, och om det finns forskare som uppvisar sådana brister - hur kan man då vara säker på att inte även granskarna gör det?

Vh, iö

av **b_lindroos** » 2007-01-09 17:25

Dahlqvist skrev:Genom att ha stora urval kan även meningslösa skillnader bli statistiskt signifikanta. Och därmed "significant" (=eng. viktiga)./D

Ja, det där är en omtalad brist i Neyman-Pearson inferensen.

av **dimitri** » 2007-01-09 18:58

Nu tycker jag kanske att självgodhetens lampa börjar lysa onödigt starkt.
Signifikanta skillnader i stora populationer förekommer även om skillnaderna kan vara ytterst små. Icke desto mindre finns de och i förekommande fall skall redovisas. Det är ofta mera värdefullt att hitta signifikanta skillnader i små populationer, det ska alltså inte behövas jätte stora material för att påvisa en skillnad. Så långt överens.
Men det är ett mycket uppmärksammat problem t.ex. inom medicinen. Så jag tror inte att någon av debattörerna behöver oroa sig för att problemet förbises.
Det vanliga är t.ex.:
ett tillstånd som förekommer hos 6 personer av 1000 i befolkningen kan med viss insats, t.ex. ett läkemedel reduceras till att det hittas hos 4 personer per 1000 (om alla 1000 behandlas).
Läkemedelsföretaget går ut med påståendet att läkemedlet kan minska risken för tillståndet med 33%. Det är iofs sant. Men i så fall måste man också redovisa de absoluta talen, inte bara de relativa. Av betydelse är också hur farligt/bagatellartat tillståndet är och hur mycket läkemedlet kostar (och hu farligt läkemedlet i sig kan vara)

av **Morello** » 2007-01-09 19:03

Med 99,9% konfidensnivå har distorsionen ökat pga. den nya transistorn. Den ökade hela en faktor 1/10000.

Någon mer som kikat på mitt exempel?

Svante hade någon fråga till Ingvar vill jag minnas.

Endast för statistikkunniga (F/E-statistik)

Re: Statistik osv

Re: Statistik osv

Re: Statistik osv

Re: Statistik osv

Re: Statistik osv

Re: Statistik osv