Endast för statistikkunniga (F/E-statistik)

av **Mr_Ekan** » 2006-12-22 20:27

Mayro-chan, berätta gärna om dina erfarenheter och intryck av LTS-rekommenderade apparater. Att döma av listade apparater så är F/E-lyssning en genial metod som genererar mkt tillförlitliga resultat (tycker jag). Men inget är ju så bra att det inte kan förbättras; därav denna tråd?

av **Svante** » 2006-12-22 20:35

dimitri skrev:Kan hålla med dig Svante om att KES metod kan vara acceptabel av de skäl du anför. Det är bättre att ha en metod som inte tröttar ut allt för mycket och som används med bibehållen entusiasm, samtidigt som den låter generera pålitliga resultat. Det viktigaste är att säkerställa dubbelblindhetsprincipen och icke kommunikation deltagarna emellan medan testet pågår..

Ja, det där är ofta en brist som jag ser det i mycket av den klassiska statistiken. Jag är ju iofs ingen statistiker, men jag har känslan av att alla statisiska metoder förutsätter att systemet man undersöker är tidsinvariant, dvs att egenskaperna inte ändras över tid. Metoderna säger ofta att en ökad datamängd ger ökad konfidens, men det som sällan är med i den beräkningen är den trötthet som infinner sig hos lyssnarna om man mjölkar mer data ur dem.

Det är förstås mycket svårt att uttrycka denna trötthet i siffror. Den brukar tas om hand med någon sorts intuitivt förnuft av försöksledarna, när de ser att FP blir trötta.

av **Magnuz** » 2006-12-22 20:47

Svante skrev:Metoderna säger ofta att en ökad datamängd ger ökad konfidens, men det som sällan är med i den beräkningen är den trötthet som infinner sig hos lyssnarna om man mjölkar mer data ur dem.

Det där är intressant. Man kunde ju försöka studera om det finns något samband mellan svarens korrekthet och tidpunkten för svarets avgivande.

av **Svante** » 2006-12-22 20:52

Magnuz skrev:
Svante skrev:Metoderna säger ofta att en ökad datamängd ger ökad konfidens, men det som sällan är med i den beräkningen är den trötthet som infinner sig hos lyssnarna om man mjölkar mer data ur dem.

Det där är intressant. Man kunde ju försöka studera om det finns något samband mellan svarens korrekthet och tidpunkten för svarets avgivande.

Mm, och det skulle då ge en trötthetskurva som man kunde applicera på senare lyssningar. Fast gäller samma kurva alla personer? Alla tidpunkter på dygnet? Troligen inte. Det är det som jag tycker är så genialt med att i stället bestämma en konfidens som man tolererar och sedan jobba mot den. Då har man ju optimerat inom lyssningssessionen som pågår just nu, medan den äger rum.

av **IngOehman** » 2006-12-22 21:04

Svante skrev:...Den brukar tas om hand med någon sorts intuitivt förnuft av försöksledarna, när de ser att FP blir trötta.

Intuitivt förnuft är väldigt bra. Det borde användas mera sådant.

Vh, iö

av **Naqref** » 2006-12-22 21:07

Mayro skrev:Man behöver inte vara einstain för att fatta att detta helt enkelt inte KAN stämma... Ren logik är allt som krävs. Samt eget tänkande. Inte ett skit mer eller mindre krävs...

Note från mig utan adminsynvinkel. Vad hände med hörseln? Ska man använda logik för att bedöma produkter främst eller?

Oj jag är nog OT oxå.

av **Thomas_A** » 2006-12-22 22:13

Trötthetssymptomet (som kommer av intensiv koncentration) borde kunna lösas genom att man inte testar så många apparater per tillfälle. Max 2. Man kan alltid ha ett par till vid ett annat tillfälle.

Det jobbiga är ju att lyssna igenom en massa testmusik och träna på plats. Det finns ju alternativ till detta, men kräver lite andra resurser. Exempelvis skulle man kunna spela in före och eftersavsnitt (med antagande att felen i eftersignalen fångas på ett inspelat material) och skicka dem till en lyssnarpanel som får använda dem hur de vill (ABX, ljudkort/dator, hörlurar, sin egen anläggning) för att träna på dem någon månad innan man träffas. Då kan man börja att diskutera vad man tror skulle vara bäst att att testa och gå direkt på detta.

Kanske det blir svårt att anordna då man måste ha apparatur vid två tillfällen, ett när någon spelar in materialet och sedan när man träffas (om man inte vill använda det inspelade materialet igen vid det blinda testet naturligtvis).

av **Svante** » 2006-12-22 22:22

IngOehman skrev:
Svante skrev:...Den brukar tas om hand med någon sorts intuitivt förnuft av försöksledarna, när de ser att FP blir trötta.

Intuitivt förnuft är väldigt bra. Det borde användas mera sådant.

Nja, kanske, fast ibland kan det slå fel, speciellt när det gäller statistik.

Jag menar att man behöver räkna på statistiken för att man ska kunna lita på den. Att intuitionen lätt slår fel. Därför menar jag, att i de fall det går så bör man försöka beräkna vad tex konfidensen egentligen är. Och har man lite svårt att räkna, som jag har, så kan man simulera i stället.

Har du fö funderat på varför projekt som involverar flera personer nästan alltid blir försenade? Jo, det beror på att man är så dålig på att bedömma konjunktiva sannolikheter (enligt säker statistikerkälla).

Det lär ha forskats på just det.

av **Svante** » 2006-12-22 22:28

Thomas_A skrev:Trötthetssymptomet (som kommer av intensiv koncentration) borde kunna lösas genom att man inte testar så många apparater per tillfälle. Max 2. Man kan alltid ha ett par till vid ett annat tillfälle.

Det jobbiga är ju att lyssna igenom en massa testmusik och träna på plats. Det finns ju alternativ till detta, men kräver lite andra resurser. Exempelvis skulle man kunna spela in före och eftersavsnitt (med antagande att felen i eftersignalen fångas på ett inspelat material) och skicka dem till en lyssnarpanel som får använda dem hur de vill (ABX, ljudkort/dator, hörlurar, sin egen anläggning) för att träna på dem någon månad innan man träffas. Då kan man börja att diskutera vad man tror skulle vara bäst att att testa och gå direkt på detta.

Kanske det blir svårt att anordna då man måste ha apparatur vid två tillfällen, ett när någon spelar in materialet och sedan när man träffas (om man inte vill använda det inspelade materialet igen vid det blinda testet naturligtvis).

Jo, allting går med obegränsade arbetsinsatser, men givet att arbetsinsatsen är en begränsad resurs, visst måste det vara klokt att optimera testförfarandet mot en viss konfidens?

Att spela in signalerna kan vara en lösning, men det kräver att apparaten finns tillgänglig för testning åtminstone vid två tillfällen.

av **IngOehman** » 2006-12-22 22:37

Svante skrev:
IngOehman skrev:
Svante skrev:...Den brukar tas om hand med någon sorts intuitivt förnuft av försöksledarna, när de ser att FP blir trötta.

Intuitivt förnuft är väldigt bra. Det borde användas mera sådant.

Nja, kanske, fast ibland kan det slå fel, speciellt när det gäller statistik.

Inte alls! Isåfall tror jag det du tänker på är intuitivt oförnuft.

Det tycker jag borde användas så lite som möjligt. Själv använder jag det aldrig. :wink:

Vh, iö

av **Svante** » 2006-12-22 22:49

IngOehman skrev:Det tycker jag borde användas så lite som möjligt. Själv använder jag det aldrig.

Ja, och däri ligger början till vår konflikt.

av **IngOehman** » 2006-12-22 22:59

Aha - du tycker alltså att intuitivt oförnuft borde användas mera!

Ok, då förstår jag. :wink:

Men jag tänker ändå inte bidra med något.

Vh, iö

av **Svante** » 2006-12-22 23:03

Äh...

av **Thomas_A** » 2006-12-22 23:24

Svante,

ett lyssningstest bör i första hand läggas upp så att det är störst chans att lyckas höra skillnad, innebärande en god träning och selektion av sådana som i träningen verkar höra en skillnad (genom att genomföra blindtester under träningen). Sådana som inte hör skillnad kan ju behöva mer träning eller så är det nåt annat.

I sin enklaste form är det binomial/normaltest som behöver göras. Vill man komplicera testet så måste man ha fler n, för att göra Fishers test och testa observationerna mot varandra. Men det ska inte behövas egentligen.

Jag tycker att sätta krav (dvs "du måste ha xx antal rätt av yy möjliga") är onödigt. Att helt enkelt välja ett mål på 20-25 svar totalt för en session torde vara det allra enklaste (är man 4 lyssnare med 10 omgångar ges maximalt 40 svar). Svar ska ges när en lyssnare är säker eller har en viss aning om vad som är vad. Dock ska man inte vildgissa, då ska man hoppa över en omgång istället och koncentrera sig på nästa. Tappar man koncentrationen efter 4-5 omgångar kan man vila och göra nytt försök exempelvis de två sista. Sen rättar man och gör beräkningar, och kan konstatera resultatet.

av **silvervarg** » 2006-12-23 00:23

Jag tycker att det har framkommit en del kloka synpunkter i debatten.
Farmförallt att de största svagheterna vid testningen troligen inte är statistiken utan andra faktorer. T.ex. olika duktiga lyssnare vid olika tester, trötthetsfaktorer, är det apparat 1 eller 3 som testas denna kväll etc.

Kanske är det viktigare att titta på hur man kan få bättre kontroll på dessa faktorer än exakt hur mätdatat skall tolkas och hur många tester som behövs.
Grunden vid nästan all typ av förbättringsarbete är att först analysera var den största svagheten finns och sedan försöka förbättre där. Ganska logiskt och enkelt om man tänker efter.
Eftersom alla F/E-lyssningar av LTS hittills tydligen har klarat minst 99% signifikans så finns det inte mycket att vinna på detta område, så innan alla övriga områden har gåtts igenom är det inte så vettigt att lägga kraft på att ändra i detta område.

Det största problemet med LTS tester för allmänheten är dock inte testets utformning eller dess statistiska säkerhet, utan att listan med apparater som passerat testet är alldeles för liten och innehåller främst mycket gamla apparater.
Dessutom vore det intressant att veta vilka apparater som har testats.

av **Svante** » 2006-12-23 01:06

silvervarg skrev:Eftersom alla F/E-lyssningar av LTS hittills tydligen har klarat minst 99% signifikans så <snip>...

Det är det jag har ifrågasatt. Med den nuvarande metoden är det mycket svårt att räkna ut vad konfidensen egentligen är.

av **Harryup** » 2006-12-23 09:02

Varför har LTS bara en testgrupp/plats? Om det fanns flera platser skulle resultat kunna ställas mot varandra och man skulle kunna hinna testa fler apparater. Dessutom skull kanske fler medlemmar få pröva och därmed få en insikt i vad betyder det att en apparat färgar. Idag tycker jag det är också en svaghet med proceduren att folk hänvisar till en test med en väldigt skarp gräns färgande - inte bevisat färgande där färgningen kanske inte ens är hörbar under normala omständigheter. Trots det är apparaten utdömd av folk genom hörsägen. Särskilt med avseende på att så pass många apparter blir godkända som inte finns att köpa längre så får listan lite stofil karaktär hur sann listan än är. Därför tycker jag att det skulle vara bättre om man redovisade mer av testade och icke godkända apparater som ändå skulle passa i normala anläggningar under normala betingelser.

av **tvett** » 2006-12-23 09:23

Harryup skrev:Varför har LTS bara en testgrupp/plats? Om det fanns flera platser skulle resultat kunna ställas mot varandra och man skulle kunna hinna testa fler apparater. [...]

JA, varför har LTS inte en hel armé av testare? *ironi*

(Detta ska inte förknippas med det ovanstående, men det har sagts att 1000 apor vid skrivmaskiner skulle kunna med tiden skriva Shakespears samlade verk, vilket har motbevisats med hififorum)

av **Harryup** » 2006-12-23 09:49

Men kanske 3 grupper som inte bestod av apor skulle kunna fungera.

av **Maarten** » 2006-12-23 10:16

Svante!

En hypotetisk fråga, som tydliggör åsiktsskillnaderna:

Du utför test med 3 personer som lyssnar på en och samma apparat. Varje test innehåller 10 svar av vardera personen. Detta test upprepas vid 100 olika tillfällen. Nu har du 3000 svar. En person har svarat rätt alla gånger, dvs 1000 rätt av 1000 möjliga, de andra två 500 fel/500rätt, dvs slumpmässigt.

Jag tycker att den rimliga tolkningen är att en snubbe hör skillnad och de andra inte och dennes serie bör behandlas för sig. Om testet inte hade utförts 100 ggr, utan bara en gång, hade det intuitivt inte känts lika klart att skillnaderna låg hos lyssnaderna. Kanske finns det tråden redovisat en statistikbehandling som lyckas separera skillnader hos testobjekt och hos lyssnare?
Vad säger du eller andra?

av **Thomas_A** » 2006-12-23 10:43

markih skrev:Svante!

En hypotetisk fråga, som tydliggör åsiktsskillnaderna:

Du utför test med 3 personer som lyssnar på en och samma apparat. Varje test innehåller 10 svar av vardera personen. Detta test upprepas vid 100 olika tillfällen. Nu har du 3000 svar. En person har svarat rätt alla gånger, dvs 1000 rätt av 1000 möjliga, de andra två 500 fel/500rätt, dvs slumpmässigt.

Jag tycker att den rimliga tolkningen är att en snubbe hör skillnad och de andra inte och dennes serie bör behandlas för sig. Om testet inte hade utförts 100 ggr, utan bara en gång, hade det intuitivt inte känts lika klart att skillnaderna låg hos lyssnaderna. Kanske finns det tråden redovisat en statistikbehandling som lyckas separera skillnader hos testobjekt och hos lyssnare?
Vad säger du eller andra?

Jodå, detta ger en 2 x n chisquare och är signifikant så det stänker. Ska man dock jämföra två observationer behöver man fler n än 7 för att få power.

Jämför man ratiot 1 mot 0.5 som ovan behövs n=14; jämför man 0.9 mot .5 behövs som tidigare skrivits n=24, för 80% power (vilket är standard i många studier).

Det är därför man i förstudier måste preselektera de bästa lyssnarna. alternativts träna diskutera om vad som är bäst att fokusera på. Exempelvis lyssnas på en kantslag, om det man ska fokusera på är hur rent kantslaget är. Lyssna på om kantslaget är omgivet av något högre brus.

av **Thomas_A** » 2006-12-23 11:23

Det som Svante varit inne på tidigare om att avbryta i "förtid" och att statistiken ändras gäller om man får förhandsinformation. Antag exemplet ovan och man avbryter så fort man vet att man fått ett fel. Då kommer man att selektera fram många fler positiva eftersom man aldrig kommer att få två fel i rad, dock kommer det att hända att man får flera positiva i rad.

3/4
0/1
2/3
0/1
1/2
4/5
0/1
1/2
3/4
2/3
0/1

=

16/27

Vill man ha förhandsinformation måste man slutföra alla tester. Om man dock inte väljer att få förhandsinformation kan man hoppa över så många man känner för och endast svara när "allt faller på plats".

av **Svante** » 2006-12-23 12:16

markih skrev:Svante!

En hypotetisk fråga, som tydliggör åsiktsskillnaderna:

Du utför test med 3 personer som lyssnar på en och samma apparat. Varje test innehåller 10 svar av vardera personen. Detta test upprepas vid 100 olika tillfällen. Nu har du 3000 svar. En person har svarat rätt alla gånger, dvs 1000 rätt av 1000 möjliga, de andra två 500 fel/500rätt, dvs slumpmässigt.

Jag tycker att den rimliga tolkningen är att en snubbe hör skillnad och de andra inte och dennes serie bör behandlas för sig. Om testet inte hade utförts 100 ggr, utan bara en gång, hade det intuitivt inte känts lika klart att skillnaderna låg hos lyssnaderna. Kanske finns det tråden redovisat en statistikbehandling som lyckas separera skillnader hos testobjekt och hos lyssnare?
Vad säger du eller andra?

Ja, det där måste vara supersignifikant. Iofs vill jag gärna veta vad upplägget var från början om jag ska kunna räkna ut exakt vad signifikansen var.

av **Svante** » 2006-12-23 12:44

Thomas_A skrev:Det som Svante varit inne på tidigare om att avbryta i "förtid" och att statistiken ändras gäller om man får förhandsinformation. Antag exemplet ovan och man avbryter så fort man vet att man fått ett fel. Då kommer man att selektera fram många fler positiva eftersom man aldrig kommer att få två fel i rad, dock kommer det att hända att man får flera positiva i rad.

3/4
0/1
2/3
0/1
1/2
4/5
0/1
1/2
3/4
2/3
0/1

=

16/27

Vill man ha förhandsinformation måste man slutföra alla tester. Om man dock inte väljer att få förhandsinformation kan man hoppa över så många man känner för och endast svara när "allt faller på plats".

Hmm, var det där kritik mot "min" metod? I sådana fall måste jag förklara lite till för det är inte så avbrottsvillkoren ser ut:

Jag lyssnar tills jag har fått tillräcklig konfidens alternativt har gjort fler än fler än x fel. Väljer jag designen 7-13-16 försöker jag först få 7 rätt i rad, därefter om jag får ett fel försöker jag få 10 av 11, får jag två fel försöker jag få 14 av 16.

Jag har släppt att beräkna konfidensen (det går iofs, men beräkningen, som jag har gjort den kräver en beräkningsmängd som växer exponentiellt med antalet lyssningar, och det vet vi ju att exponentiell tillväxt är snabb) utan jag simulerar den i stället.

Jag bestämmer alltså avbrottsvilkoren och låter datorn göra en miljon "lyssningar" utan att höra något alls. Datorns svar är alltså helt slumpmässiga. På den miljonen svar råkar några uppfylla villkoren (av en slump), några svar är alltså falkskeligen positiva och genom att räkna dem kan jag få reda på konfidensen jag får med jusgt de avbrottsvillkoren.

Är du med på det?

Hmm, eller är det så att du menar att de data som kommer ur "mitt" sätt att lyssna inte lämpar sig att applicera "din" typ av statistik på? Det kan jag mycket väl tänka mig, eftersom man som du säger selekterar fram fler positiva på det sättet.

Det gäller inte bara mitt sätt utan även LTS sätt, om jag förstår det rätt.

I sådana fall har vi ytterligare ett skäl att bestämma utvärderingsmetoden och gränserna före testet i stället för i efterhand, har jag rätt i det?

Jo, så måste det vara du menar. Det betyder alltså att man förlorar konfidens för långa serier och att serierna behöver vara längre med mitt sätt. Ändå... Fördelen med att man som regel inte behöver de långa serierna utan att man får bryta tidigt tycker jag överväger. Det är ju trots allt så i de flesta fall att en skillnad antingen hörs ganska lätt eller inte alls. Det är bara precis gränsfallen som kräver långa serier för att uppnå konfidens.

Å ena sidan är det då illa att man behöver trötta ut lyssnaren lite mer just när det är som jobbigast (med min metod), å andra sidan är det troligt att man gör flera tester en kväll och fasen vet om man inte i snitt får färre lyssningar innan det där svåra gränsfallet kommer, om man applicerar min metod.

Klurigt det här...

av **dimitri** » 2006-12-23 13:01

Redan i andra inlägget har perstromgren påpekat att ämnet var uppe i tråden
http://www.faktiskt.se/modules.php?name ... ic&t=11616
Det är värt att läsa om den "gamla" tråden, nu med perspektivet från denna tråd.
JAg förstår nu Svantes egentliga agenda i den förra tråden. Det är också mycket lättare att förstå argumentväxling mellan Svante och Ingvar. Båda två visste vad upprinnelsen till Svantes tråd medan vi andra fick agera naiva hjälpsamma statister. Så där i efterhand känner jag mig lite lurad eller som en naiv idiot i och med mitt deltagande i den gamla tråden. Det är faktiskt bättre (för mig) att veta anledningen till frågeställningen så att jag kanske kan bidra med ngt nyttigt.
Det kanske inte är så bra ur ett föreningsperspektiv, jag tror dock, som Candide, att allt som sker det sker till det bästa.

På tal om äkta/matematisk statistiskt expertis. Den finns förvisso. Det kan dock bli kontraproduktivt i vissa sammanhang att anlita denna expertis. En matematisk/teoretisk statistiker måste sättas in i sammanhanget, f/e metodiken och mycket annat. Det tar lång tid att få denna att förstå Svante och Svante att förstå den teoretiska statistikern. Det finns profilerade statistiker, t.ex. inom den epidemiologiska forkningen med dess specifika frågeställningen, t.ex. tidsutdräktens betydelse (Cox regression). Det finns många subspecialiteter inom statistiken- ekonomi, medicin.
Det synes som att flera av deltagarna i tråden besitter tillräckliga kunskaper i statistik och vetenskapsteori för att kunna ha åsikter och idéspåna här i tråden. Främst tänker jag på Herr Dahlqvist.

Edit: Faktum är att det har nog aldrig framgått hururvida Dahlqvist en man eller en kvinna. Om jag hade fel ovan så förlåt mig fru (fröken?) Dahlqvist!

av **patrikf_inaktiv** » 2006-12-23 14:03

Nu har jag mailat Jesper Jerkert och frågat om han vill komma med nån synpunkt om trådens diskussion.

av **dimitri** » 2006-12-23 14:16

patrikf skrev:Nu har jag mailat Jesper Jerkert och frågat om han vill komma med nån synpunkt om trådens diskussion.

Jaha...

O'Toole, förlåt Toole har inte hjälpt

Matts har inte hjälpt

Kanske Jesper hjälper.

Är det inte så att du inte litar på auktoriteter, dvs IÖ?. Men i din strävan att störta honom från den av dig konstruerade piedestalen sätter du andra på piedestaler, också konstruerade av dig.
Lycka till med Jesper dock. Fast för din EGEN skull skulle jag hoppas att även han sviker dig och att du drar rätt slutsats av det.

av **Svante** » 2006-12-23 14:20

dimitri skrev:Redan i andra inlägget har perstromgren påpekat att ämnet var uppe i tråden
http://www.faktiskt.se/modules.php?name ... ic&t=11616
Det är värt att läsa om den "gamla" tråden, nu med perspektivet från denna tråd.
JAg förstår nu Svantes egentliga agenda i den förra tråden.

Nja, den förra tråden hade jag ingen agenda med, den kom till efter en verklig insikt om att något som jag hade trott på i 15 år var fel. Det är sant att den insikten fick mig att vilja förändra mina labbar i min kurs, och även LTS tester och det var också den insikten som fick mig att skriva min artikel i MoLT.

Däremot kan man kanske säga att jag hade en agenda med den här tråden, i den meningen att jag inte avslöjade den ursprungliga upprinnelsen till frågan i första inlägget. Jag var sur och behövde få en neutral syn på om jag var helt ute och cyklade. Nu när jag har lugnat ner mig ser jag gärna att tråden får fortsätta att vrida och vända på de olika statistiska och praktiska överväganden man behöver göra när man lyssningstestar. Jag är ledsen om någon känner sig lurad, kanske speciellt Dahlqvist som jag lurade av uttrycket "muggigt experiment"

dimitri skrev:Det är också mycket lättare att förstå argumentväxling mellan Svante och Ingvar. Båda två visste vad upprinnelsen till Svantes tråd medan vi andra fick agera naiva hjälpsamma statister. Så där i efterhand känner jag mig lite lurad eller som en naiv idiot i och med mitt deltagande i den gamla tråden. Det är faktiskt bättre (för mig) att veta anledningen till frågeställningen så att jag kanske kan bidra med ngt nyttigt.
Det kanske inte är så bra ur ett föreningsperspektiv, jag tror dock, som Candide, att allt som sker det sker till det bästa.

På tal om äkta/matematisk statistiskt expertis. Den finns förvisso. Det kan dock bli kontraproduktivt i vissa sammanhang att anlita denna expertis. En matematisk/teoretisk statistiker måste sättas in i sammanhanget, f/e metodiken och mycket annat. Det tar lång tid att få denna att förstå Svante och Svante att förstå den teoretiska statistikern. Det finns profilerade statistiker, t.ex. inom den epidemiologiska forkningen med dess specifika frågeställningen, t.ex. tidsutdräktens betydelse (Cox regression). Det finns många subspecialiteter inom statistiken- ekonomi, medicin.

Ja, jag har anlitat statistiker ibland. Jag tycker statistik är svårt, det ska medges, och det är alltid en massa farbröders namn som poppar upp när man ska välja analysmetod. Ändå verkar det som att det där med att avbryta en serie när man har fått tillräcklig konfidens är väldigt oortodoxt, trots att det är det som varje normal människa gör när man testar något intuitivt. Ingvar är väl ett exempel på det. Därför finns det kanske skäl att tro att det är en effektiv metod, sett rent evolutionelllt. Därför tycker jag att det är intressant att formalisera även det och försöka ta fram hur stor konfidensen egentligen är. Jag tror att jag kan det om jag bara får designa experimentet.

dimitri skrev:Det synes som att flera av deltagarna i tråden besitter tillräckliga kunskaper i statistik och vetenskapsteori för att kunna ha åsikter och idéspåna här i tråden. Främst tänker jag på Herr Dahlqvist.

Edit: Faktum är att det har nog aldrig framgått hururvida Dahlqvist en man eller en kvinna. Om jag hade fel ovan så förlåt mig fru (fröken?) Dahlqvist!

Ja, Herr Dahlqvist (som jag enligt en hyfsat säker källa vet är en herre) får gärna kommentera. Han brukar vara ganska försiktig med att ge sig in i infekterade trådar, men kanske har den städats upp tillräckligt för en kommentar. Annars uppskattar jag dina och Tomas_As (det där såg trist ut

) bidrag hittills. Och flera andras.

av **Thomas_A** » 2006-12-23 16:35

Svante skrev:
Thomas_A skrev:Det som Svante varit inne på tidigare om att avbryta i "förtid" och att statistiken ändras gäller om man får förhandsinformation. Antag exemplet ovan och man avbryter så fort man vet att man fått ett fel. Då kommer man att selektera fram många fler positiva eftersom man aldrig kommer att få två fel i rad, dock kommer det att hända att man får flera positiva i rad.

3/4
0/1
2/3
0/1
1/2
4/5
0/1
1/2
3/4
2/3
0/1

=

16/27

Vill man ha förhandsinformation måste man slutföra alla tester. Om man dock inte väljer att få förhandsinformation kan man hoppa över så många man känner för och endast svara när "allt faller på plats".

Hmm, var det där kritik mot "min" metod? I sådana fall måste jag förklara lite till för det är inte så avbrottsvillkoren ser ut:

Jag lyssnar tills jag har fått tillräcklig konfidens alternativt har gjort fler än fler än x fel. Väljer jag designen 7-13-16 försöker jag först få 7 rätt i rad, därefter om jag får ett fel försöker jag få 10 av 11, får jag två fel försöker jag få 14 av 16.

Jag har släppt att beräkna konfidensen (det går iofs, men beräkningen, som jag har gjort den kräver en beräkningsmängd som växer exponentiellt med antalet lyssningar, och det vet vi ju att exponentiell tillväxt är snabb) utan jag simulerar den i stället.

Jag bestämmer alltså avbrottsvilkoren och låter datorn göra en miljon "lyssningar" utan att höra något alls. Datorns svar är alltså helt slumpmässiga. På den miljonen svar råkar några uppfylla villkoren (av en slump), några svar är alltså falkskeligen positiva och genom att räkna dem kan jag få reda på konfidensen jag får med jusgt de avbrottsvillkoren.

Är du med på det?

Hmm, eller är det så att du menar att de data som kommer ur "mitt" sätt att lyssna inte lämpar sig att applicera "din" typ av statistik på? Det kan jag mycket väl tänka mig, eftersom man som du säger selekterar fram fler positiva på det sättet.

Det gäller inte bara mitt sätt utan även LTS sätt, om jag förstår det rätt.

I sådana fall har vi ytterligare ett skäl att bestämma utvärderingsmetoden och gränserna före testet i stället för i efterhand, har jag rätt i det?

Jo, så måste det vara du menar. Det betyder alltså att man förlorar konfidens för långa serier och att serierna behöver vara längre med mitt sätt. Ändå... Fördelen med att man som regel inte behöver de långa serierna utan att man får bryta tidigt tycker jag överväger. Det är ju trots allt så i de flesta fall att en skillnad antingen hörs ganska lätt eller inte alls. Det är bara precis gränsfallen som kräver långa serier för att uppnå konfidens.

Å ena sidan är det då illa att man behöver trötta ut lyssnaren lite mer just när det är som jobbigast (med min metod), å andra sidan är det troligt att man gör flera tester en kväll och fasen vet om man inte i snitt får färre lyssningar innan det där svåra gränsfallet kommer, om man applicerar min metod.

Klurigt det här...

Nja, jag har förstått metoden du beskrivit, vad jag menar är att du måste sänka signiifkansen för alla avbrott om man känner till hur man svarat.

Du säger att fördelen med att få veta svaren efter varje omgång är en konfirmation, och att svarsfrekvensen skulle kanske bli bättre med en sådan. Men blir den det? Men den andra metoden kan man välja valfritt om man vill vila en omgång, och satsa på nästa. En sak är också att man kan avbryta och träna igen med kända F och E, och helt enkelt hoppa över omgången och gå på nästa.

En serie behöver inte vara längre än 10, om man är flera som medverkar och har ett mål på 20-25 svar. Har man preselekterat lyssnarna, kanske inte alla är 100% men det spelar inte så stor roll för slutresultatet ändå. Är några 80% korrekta och några 90% så blir slutresultatet i alla fall signifikant.

av **IngOehman** » 2006-12-23 18:01

Svante skrev:
silvervarg skrev:Eftersom alla F/E-lyssningar av LTS hittills tydligen har klarat minst 99% signifikans så <snip>...

Det är det jag har ifrågasatt. Med den nuvarande metoden är det mycket svårt att räkna ut vad konfidensen egentligen är.

Inte alls. Det är lätt att räkna ut om tillräcklig signifikans råder, i varje fall om man hållit i testet och vet hur svaren avgivits.

Att förmedla all den information som insamlats är svårare. Risken att det skall missförstås är påtaglig, vilket är ett bra skäl att fokusera på att förmedla information om apparaterna som testats istället, och i förekommande fall vilken minimumsignifikans (ALLTID större än 99% i LTS tester) som uppnåtts.

Har du ett faktiskt exempel på ett fall där du menar att det inte 99% konfindens uppnåtts? Annat skäl är gissning/spekulation alltså.

Jag har frågat om detta flera gånger, utan att få svar, vilket jag tolkar som att du inte har något sådant exempel. Eftersom det varit mitt ansvar att tillse att tillräcklig statitisk signifikans erhålits har jag tillsett att så skett. Jag tycker det är rimligt att den som antyder att så inte varit fallet, framställer något sakargument för att stödja den antydningen. I synnerhet när utfallet kommer från någon som deltagit i testerna, och som borde kunna redovisa vilken signifikans som förelegat, om den nu varit lägre än 99%.

Vh, iö