Endast för statistikkunniga (F/E-statistik)

Hur funkar tekniken bakom bra hifi?

Moderator: Redaktörer

Kaffekoppen
Inaktiverad
 
Inlägg: 20003
Blev medlem: 2006-01-19

Inläggav Kaffekoppen » 2007-01-06 19:20

Du är rätt söt Svante.

Användarvisningsbild
Svante
Audiot!
 
Inlägg: 37552
Blev medlem: 2004-03-03
Ort: oakustisk

Inläggav Svante » 2007-01-06 19:24

Kaffekoppen skrev:Det ultimata vore ju förståss fortfarande om samma gäng som tidigare fortsatte och gjorde testerna på ett sätt som tilltalade samtliga inblandade och som gjorde att de alla tyckte att det var kul.


Ja, absolut. Ingvar får det att låta som att jag vill rasera det och införa tråktester som ingen vill hålla på med. Faktum är att nästan alla förändringar jag föreslagit bara behöver beröra testledaren, dvs en person som själv inte får delta i (det blinda) lyssnandet. Han får ett annat sätt att tänka, som producerar vetenskapligt acceptabla resultat i stället för att sitta och höfta och avbryta när det känns som att 99% konfidens har uppnåtts.

För lyssnarna blir skillnaden mycket liten. Det är bara det där med samtidigt avgivna svar som märks.
Så länge har jag längat efter att loudness war skulle vara över. Nu börjar jag tro att vi faktiskt är där. Kruxet är att vi förlorade.

Kaffekoppen
Inaktiverad
 
Inlägg: 20003
Blev medlem: 2006-01-19

Inläggav Kaffekoppen » 2007-01-06 19:31

Behöver en testledare egentligen vara så kunnig i själva lyssnandet, eller är det slöseri att ha Ingvar som testledare?

Borde inte ett pucko som jag tex hålla i de delarna och utnyttja Ingvars kunskap som lyssnare?

Användarvisningsbild
Morello
 
Inlägg: 36586
Blev medlem: 2003-05-19
Ort: Stockholm/Täby

Inläggav Morello » 2007-01-06 19:35

Varför inte skriva protokoll så här:

SERIEN JUSTERAD

Svante Morello
1 F R
2 F R
3 F R
4 R R
5 F R
6 F R
7 R R
8 F R
9 R R


R=rätt, F=fel, fetstil=svarade först



Kan någon göra en analys av resultatet? :wink:

Med vilken konfidensnivå kan man göra gällande att jag de facto hörde skillnad på signalerna?

OM testledaren vill bortse från svar som inkommit efter det första är han fri att göra det.
Senast redigerad av Morello 2007-01-06 19:59, redigerad totalt 2 gånger.
Driver: www.sybariteaudio.se
-Innehar F-skattsedel-

”Messen ist Wissen, aber messen ohne Wissen ist kein Wissen”

"Es ist noch kein Meister vom Himmel gefallen"

Användarvisningsbild
Svante
Audiot!
 
Inlägg: 37552
Blev medlem: 2004-03-03
Ort: oakustisk

Inläggav Svante » 2007-01-06 19:54

Morello skrev:Varför inte skriva protokoll så här:

Svante Morello
1 F R
2 F R
3 F R
4 R R
5 F R
6 F R
7 R R
8 F R
9 R F


R=rätt, F=fel, fetstil=svarade först



Kan någon göra en analys av resultatet? :wink:

Med vilken konfidensnivå kan man göra gällande att jag de facto hörde skillnad på signalerna?

OM testledaren vill bortse från svar som inkommit efter det första är han fri att göra det.


Mja en väsentlig del av min kritik är väl just att man inte kan räkna ut konfidensen om man inte vet premisserna. De där som måste bestämmas före lyssningen.
Senast redigerad av Svante 2007-01-06 19:56, redigerad totalt 1 gång.
Så länge har jag längat efter att loudness war skulle vara över. Nu börjar jag tro att vi faktiskt är där. Kruxet är att vi förlorade.

Användarvisningsbild
Morello
 
Inlägg: 36586
Blev medlem: 2003-05-19
Ort: Stockholm/Täby

Inläggav Morello » 2007-01-06 19:56

Testledaren avbröt testet. Någon bestämd längd på serien fanns inte.

Något mer ni undrar? :)
Driver: www.sybariteaudio.se
-Innehar F-skattsedel-

”Messen ist Wissen, aber messen ohne Wissen ist kein Wissen”

"Es ist noch kein Meister vom Himmel gefallen"

Användarvisningsbild
Svante
Audiot!
 
Inlägg: 37552
Blev medlem: 2004-03-03
Ort: oakustisk

Inläggav Svante » 2007-01-06 19:57

Morello skrev:Testledaren avbröt testet. Någon bestämd längd på serien fanns inte.

Något mer ni undrar? :)


Svaret är detsamma.
Så länge har jag längat efter att loudness war skulle vara över. Nu börjar jag tro att vi faktiskt är där. Kruxet är att vi förlorade.

Användarvisningsbild
Haakan_W
HåkanBråkan
 
Inlägg: 9335
Blev medlem: 2004-07-14
Ort: The depths of hell

Inläggav Haakan_W » 2007-01-06 20:01

Svante skrev:
Morello skrev:Testledaren avbröt testet. Någon bestämd längd på serien fanns inte.

Något mer ni undrar? :)


Svaret är detsamma.


sätt reglerna själv och gör en beräkning

Användarvisningsbild
Thomas_A
Mätdoktorn
 
Inlägg: 7496
Blev medlem: 2003-06-14
Ort: Uppsala

Inläggav Thomas_A » 2007-01-06 20:30

Morello har 7/7, Svante 2/2. Att M har svarat först i de allra flesta fall är också en indikation säkerhet, dock bara en indikation.

Sammanlagt 9/9, p-värden finns sen tidigare i tråden.

De som svarat först räknas, övriga svar kan inte garanteras vara oberoende. Ska man göra en individuell analys kan man först göra ett antagande, att de är oberoende av varandra:

Fisher's test mellan Morello och Svante: 8/1 resp 3/6; p=0.04977375565610897, two-tailed. Alltså är det osannolikt (p<0.05) att deras resultat har slumpats fram, även om det är på gränsen (nära 0.05). Det kan vara så att S har svarat tvärtom, men det kan man inte anta i detta fall (n är för litet för att bedöma).

P beräknad på Ms första serie.

Användarvisningsbild
Svante
Audiot!
 
Inlägg: 37552
Blev medlem: 2004-03-03
Ort: oakustisk

Inläggav Svante » 2007-01-06 21:01

Thomas_A skrev:Morello har 7/7, Svante 2/2. Att M har svarat först i de allra flesta fall är också en indikation säkerhet, dock bara en indikation.

Sammanlagt 9/9, p-värden finns sen tidigare i tråden.

De som svarat först räknas, övriga svar kan inte garanteras vara oberoende. Ska man göra en individuell analys kan man först göra ett antagande, att de är oberoende av varandra:

Fisher's test mellan Morello och Svante: 8/1 resp 3/6; p=0.04977375565610897, two-tailed. Alltså är det osannolikt (p<0.05) att deras resultat har slumpats fram, även om det är på gränsen (nära 0.05). Det kan vara så att S har svarat tvärtom, men det kan man inte anta i detta fall (n är för litet för att bedöma).

P beräknad på Ms första serie.


Utgår du ifrån att man i förväg har bestämt att man ska lyssna 9 ggr? Om det hade funnits två Svantar till med liknande resultat, hade p blivit större?
Så länge har jag längat efter att loudness war skulle vara över. Nu börjar jag tro att vi faktiskt är där. Kruxet är att vi förlorade.

Användarvisningsbild
Thomas_A
Mätdoktorn
 
Inlägg: 7496
Blev medlem: 2003-06-14
Ort: Uppsala

Inläggav Thomas_A » 2007-01-06 21:55

Svante skrev:
Thomas_A skrev:Morello har 7/7, Svante 2/2. Att M har svarat först i de allra flesta fall är också en indikation säkerhet, dock bara en indikation.

Sammanlagt 9/9, p-värden finns sen tidigare i tråden.

De som svarat först räknas, övriga svar kan inte garanteras vara oberoende. Ska man göra en individuell analys kan man först göra ett antagande, att de är oberoende av varandra:

Fisher's test mellan Morello och Svante: 8/1 resp 3/6; p=0.04977375565610897, two-tailed. Alltså är det osannolikt (p<0.05) att deras resultat har slumpats fram, även om det är på gränsen (nära 0.05). Det kan vara så att S har svarat tvärtom, men det kan man inte anta i detta fall (n är för litet för att bedöma).

P beräknad på Ms första serie.


Utgår du ifrån att man i förväg har bestämt att man ska lyssna 9 ggr? Om det hade funnits två Svantar till med liknande resultat, hade p blivit större?


Du får förklara närmare vad du menar med två Svantar till, men naturligtvis blir det lägre signifikans om flera personer är med pga kombinatoriken. Ju fler som är med ju större sannolikhet att hitta någon med siffror som Morello av en slump. Detta om man i efterhand selekterar två av fyra med vetskap om resultaten. Väljer några att delta i lyssningen men inte "lämna in" sina resultat kan de aldrig heller medräknas som en till Svante. De som svarat och lämnar in är de som gäller. Icke-resultat kan inte selekteras i efterhand. Jag förväntar mig att dessa två serier inte är i efterhand selekterade serier.

Ang "i förväg bestämt" så antar jag att testseriens resultat inte påverkar testledarens beslut när han ska avbryta, exempelvis genom att inte veta de rätta svaren under testens gång, eller att man bestämt sig för 9 stycken. Det är iofs som jag sagt tidigare väldigt lågt med 9 omgångar. Skulle man tro att testet är styrt efter Morellos svar så kan det inte sägas vara styrt om han har 9/9 rätt vid stoppet (i hans sista exempel).

För övrigt:

Ang. att skilja två personer åt med en förväntad pi=0.5 resp 0.9 krävs n=24 från varje grupp för en power på 80%. Så om man antar att Svante inte är förmögen att höra skillnad (pi=0.5) men M är det (pi=0.9), krävs det alltså n=24 svar från varje. Det faktiska Fisher-resultatet ovan har således låg power, med dessa antaganden.

Användarvisningsbild
n3mmr
 
Inlägg: 7541
Blev medlem: 2005-01-05
Ort: Varande: semester efter semester efter semester

Inläggav n3mmr » 2007-01-06 22:24

Thomas_A skrev:
Svante skrev:
Thomas_A skrev:Morello har 7/7, Svante 2/2. Att M har svarat först i de allra flesta fall är också en indikation säkerhet, dock bara en indikation.

Sammanlagt 9/9, p-värden finns sen tidigare i tråden.

De som svarat först räknas, övriga svar kan inte garanteras vara oberoende. Ska man göra en individuell analys kan man först göra ett antagande, att de är oberoende av varandra:

Fisher's test mellan Morello och Svante: 8/1 resp 3/6; p=0.04977375565610897, two-tailed. Alltså är det osannolikt (p<0.05) att deras resultat har slumpats fram, även om det är på gränsen (nära 0.05). Det kan vara så att S har svarat tvärtom, men det kan man inte anta i detta fall (n är för litet för att bedöma).

P beräknad på Ms första serie.


Utgår du ifrån att man i förväg har bestämt att man ska lyssna 9 ggr? Om det hade funnits två Svantar till med liknande resultat, hade p blivit större?


Du får förklara närmare vad du menar med två Svantar till, men naturligtvis blir det lägre signifikans om flera personer är med pga kombinatoriken. Ju fler som är med ju större sannolikhet att hitta någon med siffror som Morello av en slump. Detta om man i efterhand selekterar två av fyra med vetskap om resultaten. Väljer några att delta i lyssningen men inte "lämna in" sina resultat kan de aldrig heller medräknas som en till Svante. De som svarat och lämnar in är de som gäller. Icke-resultat kan inte selekteras i efterhand. Jag förväntar mig att dessa två serier inte är i efterhand selekterade serier.

Ang "i förväg bestämt" så antar jag att testseriens resultat inte påverkar testledarens beslut när han ska avbryta, exempelvis genom att inte veta de rätta svaren under testens gång, eller att man bestämt sig för 9 stycken. Det är iofs som jag sagt tidigare väldigt lågt med 9 omgångar. Skulle man tro att testet är styrt efter Morellos svar så kan det inte sägas vara styrt om han har 9/9 rätt vid stoppet (i hans sista exempel).

För övrigt:

Ang. att skilja två personer åt med en förväntad pi=0.5 resp 0.9 krävs n=24 från varje grupp för en power på 80%. Så om man antar att Svante inte är förmögen att höra skillnad (pi=0.5) men M är det (pi=0.9), krävs det alltså n=24 svar från varje. Det faktiska Fisher-resultatet ovan har således låg power, med dessa antaganden.


Såvitt jag tolkade Morello så säger han att testledaren avbröt efter 9. Det var inte i förväg bestämt att man skulle köra 9 samples. Testledaren hade löpande kunskap om facit. Testledaren avbryter alltså därför att han tycker testresultatet hittills är utslagsgivande nog.
Om du inte förstår vad författaren skriver kan det vara så att du behöver bli bättre på att läsa.
Självbevarelsedriften säger mig att jag bör uttrycka mig försiktigare på ett sånt här forum.

Användarvisningsbild
Svante
Audiot!
 
Inlägg: 37552
Blev medlem: 2004-03-03
Ort: oakustisk

Inläggav Svante » 2007-01-06 22:28

Thomas_A skrev:Du får förklara närmare vad du menar med två Svantar till,


Nja, jag vet inte egentligen, men det ser ju ut som att "Svante" har svarat tämligen slumpmässigt, men "Morello" har svarat rätt. Två svantar till är alltså två personer som inte hör någon skillnad och ger slumputfall.

Thomas_A skrev:men naturligtvis blir det lägre signifikans om flera personer är med pga kombinatoriken. Ju fler som är med ju större sannolikhet att hitta någon med siffror som Morello av en slump. Detta om man i efterhand selekterar två av fyra med vetskap om resultaten. Väljer några att delta i lyssningen men inte "lämna in" sina resultat kan de aldrig heller medräknas som en till Svante.


Det där är förstås en intressant möjlighet att varje person i efterhand får bestämma om han tycker att gissingarna var så bra att han vill lämna in dem. Utan kännedom om de var bra eller inte förstås.

Thomas_A skrev:De som svarat och lämnar in är de som gäller. Icke-resultat kan inte selekteras i efterhand. Jag förväntar mig att dessa två serier inte är i efterhand selekterade serier.

Ang "i förväg bestämt" så antar jag att testseriens resultat inte påverkar testledarens beslut när han ska avbryta,


Ok. Jag tycker, som jag sa i den här trådens stenålder att det verkar ineffektivt eftersom det oftast är klart vid de allra flesta lyssningar redan efter ett tiotal svar om det går att höra skillnad eller inte. Antingen är det många fel, eller så bara något. I de fallen kan man bryta tidigt om man bara har en metod som tillåter det.

Men nu var det inte det det handlade om här.

Thomas_A skrev:exempelvis genom att inte veta de rätta svaren under testens gång, eller att man bestämt sig för 9 stycken. Det är iofs som jag sagt tidigare väldigt lågt med 9 omgångar. Skulle man tro att testet är styrt efter Morellos svar så kan det inte sägas vara styrt om han har 9/9 rätt vid stoppet (i hans sista exempel).

För övrigt:

Ang. att skilja två personer åt med en förväntad pi=0.5 resp 0.9 krävs n=24 från varje grupp för en power på 80%. Så om man antar att Svante inte är förmögen att höra skillnad (pi=0.5) men M är det (pi=0.9), krävs det alltså n=24 svar från varje. Det faktiska Fisher-resultatet ovan har således låg power, med dessa antaganden.


24 lyssningar skulle behövas? Oj. Menar du 2x12 svar eller 2x24 svar när svaren avges i par som i exemplet?
Så länge har jag längat efter att loudness war skulle vara över. Nu börjar jag tro att vi faktiskt är där. Kruxet är att vi förlorade.

Användarvisningsbild
Thomas_A
Mätdoktorn
 
Inlägg: 7496
Blev medlem: 2003-06-14
Ort: Uppsala

Inläggav Thomas_A » 2007-01-06 23:02

Svante,

jo testar man personer mot varandra för att verkligen säkerställa att de hör olika (exempelvis med en förväntad frekvens på 0.9 och 0.5) behövs n=24 för varje person (om man antar att n är lika för varje grupp) vid 80% power (vilket är vanligt att man väljer). Jag länkade till ett litet online-program för detta tidigare. Om du svarat 4/9 och M 8/9 så kan man inte säga att de två serierna är signifikant skilda (p=0.13).

Och så en fråga. Jag undrar om det är en skillnad om man väljer att avbryta ett test i förtid även om alla svar är rätt?

Man väljer att ha 12 omgångar. Man avbryter efter 10 då testpersonen haft 10 rätt av 10 möjliga. Skiljer sig p åt om man i förväg valt 10 omgångar? Jag tror det endast skiljer sig då man fått ett eller fler fel under testets gång. I Morellos sista exempel hade han 9 av 9 möjliga, det som komplicerar det är Svante's serie, om den möjligen kunnat påverka då hans två förstasvar var korrekta.

Användarvisningsbild
Morello
 
Inlägg: 36586
Blev medlem: 2003-05-19
Ort: Stockholm/Täby

Inläggav Morello » 2007-01-06 23:44

Om Fishers test, som Thomas talar om, kan man läsa här:

http://mathworld.wolfram.com/FishersExactTest.html
Driver: www.sybariteaudio.se
-Innehar F-skattsedel-

”Messen ist Wissen, aber messen ohne Wissen ist kein Wissen”

"Es ist noch kein Meister vom Himmel gefallen"

Användarvisningsbild
Svante
Audiot!
 
Inlägg: 37552
Blev medlem: 2004-03-03
Ort: oakustisk

Inläggav Svante » 2007-01-06 23:50

Thomas_A skrev:Och så en fråga. Jag undrar om det är en skillnad om man väljer att avbryta ett test i förtid även om alla svar är rätt?

Man väljer att ha 12 omgångar. Man avbryter efter 10 då testpersonen haft 10 rätt av 10 möjliga. Skiljer sig p åt om man i förväg valt 10 omgångar? Jag tror det endast skiljer sig då man fått ett eller fler fel under testets gång. I Morellos sista exempel hade han 9 av 9 möjliga, det som komplicerar det är Svante's serie, om den möjligen kunnat påverka då hans två förstasvar var korrekta.


Ja det är väl just det det blir. De serier du kommer att testa p på, dvs de där du har 10/10 kommer att bli ett urval av de tolv och det urvalet är inte slumpmässigt.

Tror jag. Det är nyttigt att diskutera sånt här.
Så länge har jag längat efter att loudness war skulle vara över. Nu börjar jag tro att vi faktiskt är där. Kruxet är att vi förlorade.

Användarvisningsbild
Thomas_A
Mätdoktorn
 
Inlägg: 7496
Blev medlem: 2003-06-14
Ort: Uppsala

Inläggav Thomas_A » 2007-01-06 23:55

Svante,

i ditt papper så har du skrivit fel anser jag. Andelen med tre rätt i rad för provomgång 1, 2, 3 är 4/32 i fem-testserien, vilket ger konfidensen 87.5%, exakt som i fallet med 3-serien. Alla serier kan fortsättas i det oändliga med okända svar, även om man bestämt sig för ett fixed värde.

Användarvisningsbild
Svante
Audiot!
 
Inlägg: 37552
Blev medlem: 2004-03-03
Ort: oakustisk

Inläggav Svante » 2007-01-07 00:32

Thomas_A skrev:Svante,

i ditt papper så har du skrivit fel anser jag. Andelen med tre rätt i rad för provomgång 1, 2, 3 är 4/32 i fem-testserien, vilket ger konfidensen 87.5%, exakt som i fallet med 3-serien. Alla serier kan fortsättas i det oändliga med okända svar, även om man bestämt sig för ett fixed värde.


Nu ska vi se om vi pratar om samma sak till att börja med. Vi talar om tabell 2 i http://user.faktiskt.io/svante/om_blindtester.htm eller hur?

Att avbryta testet (som från början skulle göras 5 lyssningar långt) i läget när vi har nått tre rätt i rad är samma sak som att säga att vi accepterar vilket som helst av utfallen 8, 16, 24, och 32, dvs 4 rader.

Sannolikheten att vi får ett utfall med tre rätt i rad i början av vår 5 lyssningar långa serie är alltså 4/32.

Men det betyder inte att försöket som helhet ger p=4/32. När vi startade försöket så sa vi ju att "vi provar så ser vi om vi får 3 rätt i rad, får vi inte det så fortsätter vi och ser om vi får 4/5".

Det som rör till det är alltså att att vi hade kunnat fortsätta till 5 lyssningar om det hade smugit sig in ett fel bland de tre första. Det är det som kostar konfidens.

Tabellen listar alla möjliga utfall om man har bestämt sig för 5 lyssningar. Av dem skulle vi, med tillåtet avbrott vid tre rätt i rad, godkänna rad 8, 16, 24, 28, 30, 21 och 32. Det är 7 rader.

Man kan se det som tre fall:

1. Om vi tillåter avbrott efter tre rätt, men fortsätter och försöker få 4/5 i annat fall så skulle sannolikheten att vi fick en av de accepterade raderna vara 7/32=0,219.

2. Om vi däremot konsekvent fullföljde testet till 5 lyssningar för att få 4/5 så skulle inte rad 8 godtas. Sannolikheten skulle då bli 6/32=0,188. Rad 8 representerar alltså konfidenskostnaden att avbryta i förtid.

3. Och om vi alltid avbröt testet efter tre lyssningar och krävde alla rätt så skulle vi få 4/32=0,125.

Därför, menar jag, måste man bestämma i förväg vilken försöksdesign man har valt.

Metoden jag föreslår är 1 (fast med högre konfidens). Det finns otaliga varianter att välja på, i mitt förslag som Invar sågade föreslog jag ett som gav rätt hög konfidens. Om man siktar på 99% konfidens kan man tex välja 9-13-17-21 (namngivning analogt med 3-5 i exemplet ovan) och få ungefär 99,2% konfidens och då tillåter man "alla fel" lika gärna som "alla rätt", "högst ett rätt" lika gärna som "högst ett fel" osv.

Det här betyder att de flesta test kan avbrytas efter 9 lyssningar, eftersom man får 9 rätt (eller fel) i rad om det är lätt, och är det svårt så får man ganska snart fler än 3 fel (eller omvänt). Det är bara fallen som ligger precis på gränsen till hörbarhet som behöver köras lite längre än fallet med ett visst förutbestämt antal lyssningar. Tillåter man högst tre fel i en förutbestämd serie klarar man sig med 18 lyssningar i stället för 21. Som jag ser det är det ganska vanligt att man kan avbryta serien före 18 lyssningar i alla fall.

Jag har, som jag sa tidigt i tråden gjort en simulering av tankegångarna i artikeln och de stämmer. Simuleringen presenteras med en serie slumpsvar och de avbrottsvillkor man vill testa. Så tittar programmet på serien och applicerar avbrottsvillkoren på dem och då råkar en liten andel av den miljon tester jag gör bli falskt positiva. Denna andel är p-värdet.

Puh, vad långt det blev...
Så länge har jag längat efter att loudness war skulle vara över. Nu börjar jag tro att vi faktiskt är där. Kruxet är att vi förlorade.

Användarvisningsbild
Thomas_A
Mätdoktorn
 
Inlägg: 7496
Blev medlem: 2003-06-14
Ort: Uppsala

Inläggav Thomas_A » 2007-01-07 01:53

Svante,

jag var för trött för konditional testing. Jag avsåg i första hand mitt eget exempel. Alla serier är ju stickprov, och jag kan inte se något annat att alla korta tester man gör är avbrutna från en längre serie. Det är inte samma sak som konditionella val. Se följande exempel från en och samma person vid olika tillfällen:

10/10,
11/12,
10/10,
10/12,
10/10,
11/12,

Summa: pi=62/66

I desingen har man bestämt sig för n=12 men avslutat vid 10/10 för varje omgång. Felen kan ju inträffa när som helst i serien och det är rätt stor sannolikhet för att man får just 10/10 i rad för pi=62/66.

Äh, glöm det förresten. Jag tar tillbaka mina senaste frågor och påståenden. Jag skulle helst vilja att man inte har några konditionella tester med alls under testets gång, som jag sagt från början. Samt att ha n>20.

Användarvisningsbild
Svante
Audiot!
 
Inlägg: 37552
Blev medlem: 2004-03-03
Ort: oakustisk

Inläggav Svante » 2007-01-07 02:13

Thomas_A skrev:Svante,

jag var för trött för konditional testing.


:D Ja, jag tror att vi har svårt båda två att se varandras tänkesätt.

Thomas_A skrev:Äh, glöm det förresten. Jag tar tillbaka mina senaste frågor och påståenden. Jag skulle helst vilja att man inte har några konditionella tester med alls under testets gång, som jag sagt från början. Samt att ha n>20.


Hehe... Ja, jag kontrar väl med då att jag med "min" metod uppnår 99% konfidens i en stor del av försöken med runt 10 lyssningar. Det är bara när man är precis på gränsen till det hörbara som den uppför sig lite sämre. Metoden är i någon mening optimerad för att ge en viss konfidens, i stället för att välja antal lyssningar och se vilken konfidens man fick.

Jag kan inte se att det är annat än bra att utsätta folk för så få lyssningar som möjligt.
Så länge har jag längat efter att loudness war skulle vara över. Nu börjar jag tro att vi faktiskt är där. Kruxet är att vi förlorade.

Användarvisningsbild
Svante
Audiot!
 
Inlägg: 37552
Blev medlem: 2004-03-03
Ort: oakustisk

Inläggav Svante » 2007-01-07 02:24

Thomas_A skrev:I desingen har man bestämt sig för n=12 men avslutat vid 10/10 för varje omgång.


Ok, om man med det menar att man försöker få 10/12 så har man med min terminologi valt designen 10-11-12, dvs om man har alla rätt vid 10 bryter man, om man har högst ett fel vid 11 bryter man och har man högst två fel vid 12 så bryter man.

En simulering ger att ett sånt test ger konfidensen 96,1% (dubbelsidigt). Det är ekvivalent med att bestämma sig för att köra 12 lyssningar och tillåta högst två fel (eller högst två rätt)

Man kan tom räkna ut konfidensen för det som

1-2*(1+12+12*11/2)/2^12=96,1425%. Hehe, simuleringen stämde.
Så länge har jag längat efter att loudness war skulle vara över. Nu börjar jag tro att vi faktiskt är där. Kruxet är att vi förlorade.

Användarvisningsbild
Thomas_A
Mätdoktorn
 
Inlägg: 7496
Blev medlem: 2003-06-14
Ort: Uppsala

Inläggav Thomas_A » 2007-01-07 09:57

Min tanke var ju att det var ett stickprov vi pratar om och då är alla n man väljer ett avbrott. Ponera följande, man bestämmer sig för följande n=10.

I fall 1 får man 10/10
I fall 2 får man 8/10

10/10 är signifikant skilt från pi=0.5 men inte 8/10.

Man bestämmer sig för att öka n med ytterligare 10 och får:

fall 1: 8/10
fall 2: 10/10

Summar i båda fallen är 18/20 vilket är signifikant skilt från pi=0.5

Nu, skiljer sig p mot en serie av 20 i rad jämfört med ändringen att öka n i strävan att minska risken för fel? Skiljer sig p i de två fallen där man har 18/20 men där den första serien i sig är signifikant skilt från slumpen men där man i första fallet fick ett signifikant utfall och i andra fallet inte fick det.

Det var väl det jag menade med att serierna bara är stickprov ur en längre serie.

I slutändan kanske man gjort 200 tester och fått 181 positiva. Varken 10/10 eller 8/10 skiljer sig mot denna signifikant, men det är väldigt väldigt skilt från 100/200, dvs slumpen.

Användarvisningsbild
Svante
Audiot!
 
Inlägg: 37552
Blev medlem: 2004-03-03
Ort: oakustisk

Inläggav Svante » 2007-01-07 12:02

Thomas_A skrev:Min tanke var ju att det var ett stickprov vi pratar om och då är alla n man väljer ett avbrott. Ponera följande, man bestämmer sig för följande n=10.

I fall 1 får man 10/10
I fall 2 får man 8/10

10/10 är signifikant skilt från pi=0.5 men inte 8/10.

Man bestämmer sig för att öka n med ytterligare 10 och får:

fall 1: 8/10
fall 2: 10/10

Summar i båda fallen är 18/20 vilket är signifikant skilt från pi=0.5

Nu, skiljer sig p mot en serie av 20 i rad jämfört med ändringen att öka n i strävan att minska risken för fel? Skiljer sig p i de två fallen där man har 18/20 men där den första serien i sig är signifikant skilt från slumpen men där man i första fallet fick ett signifikant utfall och i andra fallet inte fick det.

Det var väl det jag menade med att serierna bara är stickprov ur en längre serie.

I slutändan kanske man gjort 200 tester och fått 181 positiva. Varken 10/10 eller 8/10 skiljer sig mot denna signifikant, men det är väldigt väldigt skilt från 100/200, dvs slumpen.


Ah, ok. Stickprov förutsätter ju att det är slumpvis urval av en större datamängd, vilket i sin tur betyder att man vid avbrottet inte får ha kännedom om vilka svar som har avgivits, eftersom det då kan bli en bias i data.

Detsamma gäller om man villkorar att fortsätta göra flera delserier beroende på hur utfallet blev i de tidigare delserierna. Säger man "vi fortsätter eftersom det verkar finnas ett samband som vi inte har visat ännu" så har man ju använt utfallet och därmed gjort ett icke slumpmässigt urval, dvs ett icke representativt stickprov.

Det är denna bias jag försöker hantera, så att jag kan avbryta testet i förtid och ändå veta vilken konfidens jag har.

Om man inte vet något om utfallet och avbryter i förtid så är förstås varje sådan serie ett stickprov, om man inte har kännedom om utfallet i den första serien när man startar den andra. Isf kan serierna slås ihop så som du menar. Men jag tror att du menar att man har kännedom om utfallet i den första när man startar den andra serien, eller? I sådana fall får man en bias och då kan man inte slå ihop serierna rakt av.

Jag tycker Dahlqvists inlägg mycket bra sammanfattar vad jag vill säga:

Dahlqvist skrev:Utan att vara trivial så gäller inte den centrala frågeställningen hur man behandlar matematiken utan vilket utfallsrum man skall räkna på. En utomstående betraktare kan inte skilja IÖ:s anstängningar att öka känsligheten hos experimentet från att post hoc dra nytta av slumpmässiga variationer. Och där i ligger dilemmat.


(Min fetstil)
Så länge har jag längat efter att loudness war skulle vara över. Nu börjar jag tro att vi faktiskt är där. Kruxet är att vi förlorade.

Användarvisningsbild
Thomas_A
Mätdoktorn
 
Inlägg: 7496
Blev medlem: 2003-06-14
Ort: Uppsala

Inläggav Thomas_A » 2007-01-07 12:13

"Säger man "vi fortsätter eftersom det verkar finnas ett samband som vi inte har visat ännu" så har man ju använt utfallet och därmed gjort ett icke slumpmässigt urval, dvs ett icke representativt stickprov. "

Jo men eftersom man inte visat att 10/10 är skilt från 8/10 pga av för låg n så kan man anta att de inte skiljer sig åt signifikant. Vi vill därför öka n för att man i ett Fishers test får en felmarginal som ligger signifikant både mellan två testserier och mot pi=0.5. Alltså måste man besluta i efterhand att fortsätta, i båda fallen.

Användarvisningsbild
Thomas_A
Mätdoktorn
 
Inlägg: 7496
Blev medlem: 2003-06-14
Ort: Uppsala

Inläggav Thomas_A » 2007-01-07 12:16

Inom biologin använder man sig ofta av konsekutivt val eftersom det inte är att välja i efterhand. I ovanstående fall antas de båda serierna vara konsekutiva, alltså ej selekterade i efterhand.

Användarvisningsbild
Svante
Audiot!
 
Inlägg: 37552
Blev medlem: 2004-03-03
Ort: oakustisk

Inläggav Svante » 2007-01-07 12:40

Thomas_A skrev:Jo men eftersom man inte visat att 10/10 är skilt från 8/10 pga av för låg n så kan man anta att de inte skiljer sig åt signifikant.


Nej verkligen inte! Jag har inte visat för dig att min bil är grön. Kan vi då anta att den är det?
Så länge har jag längat efter att loudness war skulle vara över. Nu börjar jag tro att vi faktiskt är där. Kruxet är att vi förlorade.

Användarvisningsbild
Svante
Audiot!
 
Inlägg: 37552
Blev medlem: 2004-03-03
Ort: oakustisk

Inläggav Svante » 2007-01-07 12:42

Thomas_A skrev:Inom biologin använder man sig ofta av konsekutivt val eftersom det inte är att välja i efterhand. I ovanstående fall antas de båda serierna vara konsekutiva, alltså ej selekterade i efterhand.


Ok, det vet jag ju ingenting om, men menar du att man väljer att generera en andra testserie, beroende på utfallet i den första?

I sådana fall vill jag ifrågasätta om de kan betraktas som slumpvisa urval.
Så länge har jag längat efter att loudness war skulle vara över. Nu börjar jag tro att vi faktiskt är där. Kruxet är att vi förlorade.

Användarvisningsbild
Thomas_A
Mätdoktorn
 
Inlägg: 7496
Blev medlem: 2003-06-14
Ort: Uppsala

Inläggav Thomas_A » 2007-01-07 13:37

Svante skrev:
Thomas_A skrev:Inom biologin använder man sig ofta av konsekutivt val eftersom det inte är att välja i efterhand. I ovanstående fall antas de båda serierna vara konsekutiva, alltså ej selekterade i efterhand.


Ok, det vet jag ju ingenting om, men menar du att man väljer att generera en andra testserie, beroende på utfallet i den första?

I sådana fall vill jag ifrågasätta om de kan betraktas som slumpvisa urval.


De måste vara konsekutiva. Välj n=10 och två sessioner. Om du väljer från 10 olika sessioner med arbiträrt val så är det inte slumpmässigt.

Jämför istället att slumpa fram två sessioner, alt slumpa fram den första och sedan alltid välja den i tid nästföljande. Jämför utfallet.
Senast redigerad av Thomas_A 2007-01-07 13:48, redigerad totalt 1 gång.

Användarvisningsbild
Thomas_A
Mätdoktorn
 
Inlägg: 7496
Blev medlem: 2003-06-14
Ort: Uppsala

Inläggav Thomas_A » 2007-01-07 13:47

Svante skrev:
Thomas_A skrev:Jo men eftersom man inte visat att 10/10 är skilt från 8/10 pga av för låg n så kan man anta att de inte skiljer sig åt signifikant.


Nej verkligen inte! Jag har inte visat för dig att min bil är grön. Kan vi då anta att den är det?


Det är just det jag menar med n. Det finns alltid ett konfidensintervall som kan beräknas. Har man fått 8/10 så är det inte signifikant skilt åt varken 5/5 eller 10/10. Hade du istället valt n=24 hade du kunnat säkerställa en skillnad mellan pi=0.5 resp pi=0.9. Jag valde modellen 0.5 och 0.9 då jag fått framfört att det sällan finns gråzoner, alltså antingen hör man det (pi=1.0) eller också så är det ohörbart (pi=0.5), dvs hörbarhetströskeln är brant. Att sätta pi=0.9 är för att när det gränsar till hörbarhet så måste man ändå tillåta några "slarvfel" i bedömningen.

Kaffekoppen
Inaktiverad
 
Inlägg: 20003
Blev medlem: 2006-01-19

Inläggav Kaffekoppen » 2007-01-07 14:05

n=24 låter som lång tid med hög koncentration...

FöregåendeNästa

Återgå till Teknikforum


Vilka är online

Användare som besöker denna kategori: Inga registrerade användare och 22 gäster