Endast för statistikkunniga (F/E-statistik)

Hur funkar tekniken bakom bra hifi?

Moderator: Redaktörer

Användarvisningsbild
Svante
Audiot!
 
Inlägg: 37552
Blev medlem: 2004-03-03
Ort: oakustisk

Endast för statistikkunniga (F/E-statistik)

Inläggav Svante » 2006-12-19 09:43

Ja, i den här tråden vill jag endast ha svar av de som förstår sig på statistik.

Jag vill veta vad nedanstående tester ger för konfidens. Om det inte går eller är för svårt att räkna ut, tala gärna om vad som krävs för att beräkningen ska gå att utföra om ni vet det. Antag en F/E-lyssning. En person som inte deltar i lyssningen sitter och växlar mellan F och E och antecknar resultaten.

Exempel 1:
Antag att en person lyssnar och får 7 rätt i rad. Med hur stor konfidens har man visat att objektet har en hörbar ljudpåverkan?

Exempel 2:
Antag att en person lyssnar och får 8 fel i rad. Med hur stor konfidens har man visat att objektet har en hörbar ljudpåverkan?

Exempel 3:
Antag att fyra personer lyssnar samtidigt och ropar när de tror sig veta om F eller E är inkopplat. När en person har ropat avbryts växlingen och även de andra får avge ett svar om de vill (med kunskap om vad den först personen sagt). En person får 9 rätt i rad. Vid det laget har de tre andra avgivit 1, 3 respektive 5 svar med spridda skurar av rätt och fel. Med hur stor konfidens har man visat att objektet har en hörbar ljudpåverkan?

Exempel 4:
Samma som 3, men den första personen får i stället 9 fel i rad.
Med hur stor konfidens har man visat att objektet har en hörbar ljudpåverkan?

Exempel 5:
Samma förutsättningar som i 3, men nu avger endast två av personerna svar, de två andra avstår. De båda första får 7 rätt i rad, vardera. Med hur stor konfidens har man visat att objektet har en hörbar ljudpåverkan?

Exempel 6:
Antag att en person lyssnar. Han gör flera test, en med basrik musik och två med diskantrik musik. I bastestet och får han 9 rätt i rad, de andra två ger spridda skurar. Med hur stor konfidens har man visat att objektet har en hörbar ljudpåverkan?

Ja, hur blir det? Frågan är högaktuell om nu någon inte trodde det.
Så länge har jag längat efter att loudness war skulle vara över. Nu börjar jag tro att vi faktiskt är där. Kruxet är att vi förlorade.

Användarvisningsbild
PerStromgren
 
Inlägg: 28521
Blev medlem: 2005-03-25
Ort: Karlstad

Inläggav PerStromgren » 2006-12-19 09:58

Har vi inte diskuterat detta förut? ..... Jo, just det, i maj var det:

http://www.faktiskt.se/modules.php?name=Forums&file=viewtopic&t=11616

Och då skrev jag, vilket jag fortfarande står för:
"När jag själv irrade runt på KTH som fjunig teknolog fanns där en hel institution med experter på matematiskt statistik, har ni sparkat ut dom? Om inte har du ju en källa att ösa ur som inte sinar i brådrasket. "

och du skrev:
"Men visst, jag borde knacka på hos dem, det har du nog rätt i."

De var sura och ville inte hjälpa dig? Eller det är mycket skojsigare med oss hifinördar?
... tycker jag!

Per

dimitri
 
Inlägg: 4604
Blev medlem: 2003-09-20
Ort: Götelaborg

Re: Endast för statistikkunniga (F/E-statistik)

Inläggav dimitri » 2006-12-19 11:17

Svante skrev:Ja, i den här tråden vill jag endast ha svar av de som förstår sig på statistik.




En utmanande inledning på frågan. Jag har inga anspråk på att (verkligen) behärska statistiken vilket dock inte hindrar mig att tillämpa olika metoder i min forskning och kasta mig livsföraktande in i din fråga.

Nåväl:
Exempel 1. 7/7 rätt. Underförstått att inga missar har skett innan eller efter. Dvs att sekvensen 7/7 inte är en delsekvens i ett längre försök. I så fall (om man jämför med 3 rätt och 4 fel):
Ger Fisher's exakt 1-tailed p=0,035, 2-tailed 0,070.

Om man däremot jämför med 4 rätt och 3 fel så blir p=0,19, 2-tailed.
Det förefaller helt klart att 7 lyckade (gissningar?) i rad är för få för att dra några växlar gränsande till några växlar.

Exempel 2. 8/8 fel. En kul frågeställning. Först en enkel Fisher exact: vad är det för sannolikhet för att göra 8 fel i rad (gissa fel apparat)
p=0,077 2-tailed, jämfört med att ha 4 fel och 4 rätt.

Lite kul med att ha 7/7 rätt ger lägre p-värde jämfört med den ena av de mest slumpmässiga fördelningar (3/7) jämfört med 8/8 fel jämfört med 4/8 fel. Det här är förstås de små talens fel. 7/7 eller 8/8 eller tom 11/11 kan däremot vara en aptitretare till att anordna en större test.

Är 8/8 fel annorlunda än 8/8 rätt? Ja, om en jägare tar fel 8/8 gånger på vem som är en jaktkompis och en älg. Men om man gissar fel klave eller krona 8/8 så är det ingen skillnad jmfr med att gissa rätt.
Så om en person gissar fel 8/8 gånger i abx test hur kan detta tolkas? På något sätt har personen varit 100% konsekvent. Han skulle kanske gissa fel 32 av 32. Personen uppvisar förmågan att höra något och gör det konsekvent. Han har kanske missuppfattat instruktionerna, kanske utgår felaktigt ifrån att objektet a egentligen är b eller något annat.

Nåväl jag nu trasslat in mig och avslöjat min djupare okunskap, vassego och hugg i!
Måste gå nu. Återkommer.
Senast redigerad av dimitri 2006-12-19 11:55, redigerad totalt 1 gång.
I'm not a complete idiot... Some parts are missing

Användarvisningsbild
silvervarg
 
Inlägg: 1228
Blev medlem: 2005-03-28
Ort: Linköping

Inläggav silvervarg » 2006-12-19 11:45

Jag är inte någon mästare på statistik, men jag håller nog inte helt med Dimitri utan gör ett försök till lekmannatolkning från en som för länge sedan till slut klarade av matstat-kursen.
Antingen så förstås jag inte helt Dimitris svar eller så anser jag att han verkar ha fel eftersom sannorlikheterna verkar alldeles för låga.

Precis som Dimitri så antar jag att det är hela sekvensen som angetts och inga delsekvenser samt att man på förhand har bestämt sekvensens längd.

Exempel 1: 7/7 rätt bör ge 1-0.5^7, dvs ca 99.2% konfidens.

Exempel 2: 8/8 fel. Borde egentligen ge lika stor konfidens som x/x rätt, men om man tar detta i beaktande så sänker man konfidensen för samtliga tester med en faktor 2. Av denna anledning måste man ha med detta innan testet börjar i formlerna.
Således bör man ta en diskussion om exakt vad man har hört och dra lärdom för att sedan kunna göra om testet. Jag anser alltså inte att man har någon användbar information.

Exempel 3: Eftersom de uppenbarligen påverkar varandra genom att få veta varandras svar så kan rimligen bara ett svar per test anses vara användbart, dvs det första svaret. Om vi antar att det första svaret gav 9/9 rätt så har vi 1-0.5^9 i konfidens.

Exempel 4: Samma resonemang som exempel 2.

Exempel 5: Samma resonemang som exempel 3. Dvs 1-0.5^7.

Exempel 6: Jag anser att vi får se dessa som 2 eller möjligen 3 helt separata test. Test 1 har man valt musik som avslöjar problemen i anläggningen, och detta räcker i sig för att ge hög konfidens. Dvs 1-0.5^9.

Användarvisningsbild
Lazyworm
 
Inlägg: 1977
Blev medlem: 2003-10-03

Inläggav Lazyworm » 2006-12-19 13:38

För några år sedan gjorde jag en liten lösning till Johan Holmsäters Hälsoplan studie, denna innebär att personer från ett företag får svara på ca 50st frågor rörande allt från matvanor till rörelsevanor och göra några klassiska tester såsom kolesterol, blodtryck mm mm.

Efter detta så läser Johan av svaren i en rapport över företaget och ser
vilka "kluster" som behöver påverkas och sätter in lämpliga åtgärder.

Ca: 6mån senare gör man om samma test och sen beräknar man med signifikans (T-Test) om det blev en verklig påverkan av gruppen för att motverka långtidssjukskrivningar.

Jag sökte lite nu och läste följande om t-test
"(I en äldre bok använde man t-test på krona och klave, alltså 1 och 0, vilket går utmärkt då antalet är mer än ca: 10 st."

Det borde ju innebära att man kan implementera T-test på F/E lyssningen och beräkna ifall utslaget med signifikans kan bestämmas?

Isf. skulle jag kunna se ifall jag hittar mina gamla SP som skötte uträkningarna så kanske vi kan implementera en liten LTS databas som håller i statistikunderlag ifall detta inte finns redan.

Edit:
Via Johan Holmsäter har jag även haft kontakt med Bengt Saltin som är Professor vid Karolinska sjukhuset och som med en hel del kött på benen skulle kunna svara på vad du är Ute efter ang. statistiken till F/E testningar. Även om hans styrka är inom Fysiologin.

Användarvisningsbild
Morello
 
Inlägg: 36583
Blev medlem: 2003-05-19
Ort: Stockholm/Täby

Inläggav Morello » 2006-12-19 13:48

Naj, T-fördelningen är inte tillämpbar. Det äör fråga om binomialfördelning. Själva frågan gäller dock inte fördelningen, utan handlar mer om testmetodik och hur resultaten skall tolkas.
Driver: www.sybariteaudio.se
-Innehar F-skattsedel-

”Messen ist Wissen, aber messen ohne Wissen ist kein Wissen”

"Es ist noch kein Meister vom Himmel gefallen"

Användarvisningsbild
Svante
Audiot!
 
Inlägg: 37552
Blev medlem: 2004-03-03
Ort: oakustisk

Inläggav Svante » 2006-12-19 13:54

Morello skrev:Naj, T-fördelningen är inte tillämpbar. Det äör fråga om binomialfördelning. Själva frågan gäller dock inte fördelningen, utan handlar mer om testmetodik och hur resultaten skall tolkas.


I förlängningen ja, men just nu vill jag faktiskt veta om det går att räkna ut konfidensen med ovanstående exempel och hur stor den är i sådana fall.

Alltså, givet en att vi antar att vart och ett av exemplen påvisar en hörbar skillnad, hur stor är risken att det i verkligheten inte finns någon skillnad alls.

...och så ett minus det.

...och så är jag förstås intresserad att veta om det finns några förutsättningar som måste vara uppfyllda för att man ska kunna räkna som ni föreslår.
Så länge har jag längat efter att loudness war skulle vara över. Nu börjar jag tro att vi faktiskt är där. Kruxet är att vi förlorade.

Användarvisningsbild
Morello
 
Inlägg: 36583
Blev medlem: 2003-05-19
Ort: Stockholm/Täby

Inläggav Morello » 2006-12-19 14:10

Men vi är väl överens om att det fråga om binomialfördelning?

Några reflektioner:

1. Att godta såväl fel som rätt ger en faktor 2 fler utfall som godkännes. Det måste beaktas.

2. Korrelationen mellan lyssnare som uppstår vid exempel tre är olycklig eftersom man endast genom att anteckna vem som svarade först kan säkerställa att en serie de facto kommer från en och samma person.
Driver: www.sybariteaudio.se
-Innehar F-skattsedel-

”Messen ist Wissen, aber messen ohne Wissen ist kein Wissen”

"Es ist noch kein Meister vom Himmel gefallen"

Användarvisningsbild
Svante
Audiot!
 
Inlägg: 37552
Blev medlem: 2004-03-03
Ort: oakustisk

Inläggav Svante » 2006-12-19 14:24

Morello skrev:Men vi är väl överens om att det fråga om binomialfördelning?


Jadå, men T-testet förutsätter väl normalfördelning och de blir ju rätt lika för stora n, så hemskt olika är de ju inte.
Så länge har jag längat efter att loudness war skulle vara över. Nu börjar jag tro att vi faktiskt är där. Kruxet är att vi förlorade.

Användarvisningsbild
Morello
 
Inlägg: 36583
Blev medlem: 2003-05-19
Ort: Stockholm/Täby

Inläggav Morello » 2006-12-19 14:30

Svante skrev:
Morello skrev:Men vi är väl överens om att det fråga om binomialfördelning?


Jadå, men T-testet förutsätter väl normalfördelning och de blir ju rätt lika för stora n, så hemskt olika är de ju inte.


Japecis, men n är väl inte särskilt stort i vår tillämpning? :)
Driver: www.sybariteaudio.se
-Innehar F-skattsedel-

”Messen ist Wissen, aber messen ohne Wissen ist kein Wissen”

"Es ist noch kein Meister vom Himmel gefallen"

Användarvisningsbild
Svante
Audiot!
 
Inlägg: 37552
Blev medlem: 2004-03-03
Ort: oakustisk

Inläggav Svante » 2006-12-19 14:32

Morello skrev:
Svante skrev:
Morello skrev:Men vi är väl överens om att det fråga om binomialfördelning?


Jadå, men T-testet förutsätter väl normalfördelning och de blir ju rätt lika för stora n, så hemskt olika är de ju inte.


Japecis, men n är väl inte särskilt stort i vår tillämpning? :)


Sant...
Så länge har jag längat efter att loudness war skulle vara över. Nu börjar jag tro att vi faktiskt är där. Kruxet är att vi förlorade.

Användarvisningsbild
IngOehman
 
Inlägg: 48470
Blev medlem: 2003-09-28
Ort: K-PAX via Tellus

Re: Endast för statistikkunniga (F/E-statistik)

Inläggav IngOehman » 2006-12-19 15:15

Svante skrev:Ja, i den här tråden vill jag endast ha svar av de som förstår sig på statistik.

Jag vill veta vad nedanstående tester ger för konfidens. Om det inte går eller är för svårt att räkna ut, tala gärna om vad som krävs för att beräkningen ska gå att utföra om ni vet det. Antag en F/E-lyssning. En person som inte deltar i lyssningen sitter och växlar mellan F och E och antecknar resultaten.

Exempel 1:
Antag att en person lyssnar och får 7 rätt i rad. Med hur stor konfidens har man visat att objektet har en hörbar ljudpåverkan?

Först och främst är det viktigt att notera att "ljudpåverkan" är inte synonymt med "kunna höra vilket alternativ som är E (eller F)" - bara "kunna skilja E från F.

Frågan om skillnad kan påvisas genom att gissa konsekvent, vilket kan ske på två sätt; alla rätt eller alla fel!

7 av 7 ger då 98,4375%

[SS = 1-0,5^(7-1), eller om man föredrar den rakare formeln: 1-(2/2^7)]

Svante skrev:Exempel 2:
Antag att en person lyssnar och får 8 fel i rad. Med hur stor konfidens har man visat att objektet har en hörbar ljudpåverkan?

Med samma motivation som föregående svar: 99,21875%

Svante skrev:Exempel 3:
Antag att fyra personer lyssnar samtidigt och ropar när de tror sig veta om F eller E är inkopplat. När en person har ropat avbryts växlingen och även de andra får avge ett svar om de vill (med kunskap om vad den först personen sagt). En person får 9 rätt i rad. Vid det laget har de tre andra avgivit 1, 3 respektive 5 svar med spridda skurar av rätt och fel. Med hur stor konfidens har man visat att objektet har en hörbar ljudpåverkan?

Nu börjar det bli mera komplicerat att utvecka svaret på frågorna, och det enklaste svarer på frågan är, att beskrivningen ovan inte innehåller tillräckligt mycket information för att man skall kunna svara. Vad betyder exempelvis "spridda skurar"? Är det 1/9 rätt svar, 2/9?, 3/9?... Vem var det som fick 9 rätta svar? Var de en person som svarade först varje gång?

Frågan kan därtill tolkas på olika sätt.

Är frågan om just personen med 9 rätta svar hört skillnad eller bara haft tur?

Är frågan om det är påvisat att någon kan höra skillnaden?

Och så vidare.

Beroende på allt detta kan signifikansen vara allt från hygglig till dålig.

Utan att veta den utelämnade informationen är det orimligt att se utfallet som något annat än en indikation på att man bör fortsätta testen med bara den lyssnare som gissat 9 rätt rad, eller fortsätta för att få mera statistik att räkna på.

Svante skrev:Exempel 4:
Samma som 3, men den första personen får i stället 9 fel i rad.
Med hur stor konfidens har man visat att objektet har en hörbar ljudpåverkan?

Samma svar som 3.

Svante skrev:Exempel 5:
Samma förutsättningar som i 3, men nu avger endast två av personerna svar, de två andra avstår. De båda första får 7 rätt i rad, vardera. Med hur stor konfidens har man visat att objektet har en hörbar ljudpåverkan?

Även här saknas en massa information, men konfidensen blir mellan 98,4375% och 99,9878%, beroende på hur det hela utspelade sig i detalj.

Svante skrev:Exempel 6:
Antag att en person lyssnar. Han gör flera test, en med basrik musik och två med diskantrik musik. I bastestet och får han 9 rätt i rad, de andra två ger spridda skurar. Med hur stor konfidens har man visat att objektet har en hörbar ljudpåverkan?

Information saknas igen. Vad betyder spridda skurar?

Att redovisa resultatet bör ske med utgångspunkt från programmaterialen. Det är nästan nödvändigt att också göra en intelligent bedöming av hur mycket studierna har med varandra att göra. Om exempelvis det använda programmaterialet är båda bas- och diskantrikt, och är samma i alla tre fallen (eller extremt snarlikt) och man bara bett lyssnaren att lyssna efter skillnader i olika register i de två första mot det sista, är testet så klantigt genomfört att det blir praktiskt taget omöjligt att bedöma signifikansen på testen.

Är det helt isolerade företeelser däremot, är det rimligt att ange att skillnad specifikt i basområdet detekterades med en signifikans om 99,609375.

Det är alltid viktigt att minnas att sigifikans är signifikans, och inget annat. Inte ens en signifikans om 99,9999% betyder att det man registrerat behöver vara sant, bara att det är ett sällsynt (en på en miljon) tillfälle, om det inte är det.

Det är också viktigt att minnas varför man gör en studie. Gör man den för att etablera en kunskap kan man ofta ställa helt andra krav på studien, än om man gör den för att kunna publicera sig, kanske för att visa att man behövstar statistiken. I det förstnämnda fallet är det exempelvis rimligt att inkludera inte bara den statistiska signifikansen i bedömningen, utan också felets storlek och korrelation med vad som kan förväntas från överiga iakttagelser.

Om man exempelvis skall undersöka om det går att skilja två lampors färg från varandra, och testen läggs upp således att det bakom en dyker upp en av två glödlampor, och de båda två har brunaktiga nyanser, varav en är aningen mera grönaktig, och den andra aningen mera rödaktig, är det av yttersta vikt att hålla på testen tills tillfyllest (beroden på vilket krav man ställt) signifikant erhållits. Visar det sig att test-tittaren tittar förvånat på testledaren och säger att den ena ju är klargrön, medan den andra är klarröd, kanske det - om endast kunskap är målet - är rimligt att bedöma det meningslöst att fortsätta studien.

Som alltid gäller det att göra intelliganta bedömningar, och så länge studierna görs blint (vilket lamp-exemplet, tro det eller ej, var!*) kan man faktiskt göra oerhört bra bedömnngar innan en statistisker blir nöjd. Blindtestförfarnadet är dock rimligt att inte överge, eftersom man utan detta är potentiellt utsatt för svårbedömbart stark suggestion.


Vh, iö

- - - - -

*Detta sagt till de utan vetenskaplig skolning. Blint betyder ju bara "utan tillgång till facit", inte att man inte ser, i synnerhet inte när studien handlar om vad man ser. :wink:

Överkurs: Det finns massor av saker som man kan addera till sådan här studier för att öka detektionschansen utan att förstöra signifikansen. :P

En av dem är att avbryta tester halvvägs och berätta hur väl folk har gissat hittills.

Ett annat sätt är att starta studien med att lyssna helt öppet, och gärna uppmana alla lyssnare att berätta för varandra vad det upplever sig höra. Inte sällan kan de hjälpa varandra att höra saker som de hade missat om de int fått det påpekat för sig av de som noterade det först.

Som testledare är det naturligtvis viktigt att hålla koll på förloppet under testet, så att signifikansen kan bedömas på ett säkert sätt. Minst lika viktigt är det förstås att inte göra några irrelevant beräkningar i efterhand, såsom att exempelvis beräkna statistiken horisontellt.

En väl upptränad intuition för vilken signifikans olika utfall ger, tillsammans med ett testförfarande som är så "trevligt" för lyssnarna att man kan förlänga testerna ordentligt och således ta höjd med jättemarginaler, för tänkbara testförlopp - är av godo.

Viktligast av allt är att aldrig glömma att det är kunskap man söker. Glömmer man det är det oerghört lätt att åstadkomma fantastisk signifikanta studier, helt utan värde.


Vetenskapens "första tes" (som jag väl nämnt till leda genom åren, och som egentligen inte är en tes, utan en definition/ett axiom) som lyder:

Man kan i bästa fall i ett experiment påvisa kända eller okända egenskaper - men man kan aldrig bevisa frånvaron av okända egenskaper.

Denna tes är oerhört viktig att minnas, men den har många bottnar. Den inte bara berättar om vikten av att inte dra slutsatser från nollresultat (jag har nu bevisat att man inte kan...), den säger också hur viktigt det är att anstränga sig för att undvika nollresultat, genom för oskarpa metoder.

Det är alltför lätt att formulera testsituationer som är publicistiskt och statistiskt godtagbara, men som är bortkastad tid om det är kunskap man är ute efter att framskaffa.
Senast redigerad av IngOehman 2006-12-20 16:26, redigerad totalt 1 gång.
Fd psykoakustikforskare & ordf LTS. Nu akustiker m specialiteten
studiokontrollrum, hemmabiosar & musiklyssnrum. Även Ch. R&D
åt Carlsson och Guru, konsult åt andra + hobbyhögtalartillv (Ino).

Användarvisningsbild
Morello
 
Inlägg: 36583
Blev medlem: 2003-05-19
Ort: Stockholm/Täby

Inläggav Morello » 2006-12-19 16:50

Ingvar skrev:Vetenskapens första test


Vad är det för test? :)
Driver: www.sybariteaudio.se
-Innehar F-skattsedel-

”Messen ist Wissen, aber messen ohne Wissen ist kein Wissen”

"Es ist noch kein Meister vom Himmel gefallen"

Användarvisningsbild
DQ-20
Skum fogare
 
Inlägg: 8579
Blev medlem: 2003-12-03
Ort: ografi

Inläggav DQ-20 » 2006-12-19 16:53

Lazyworm skrev:Jag sökte lite nu och läste följande om t-test
"(I en äldre bok använde man t-test på krona och klave, alltså 1 och 0, vilket går utmärkt då antalet är mer än ca: 10 st."

Det borde ju innebära att man kan implementera T-test på F/E lyssningen och beräkna ifall utslaget med signifikans kan bestämmas?


Man kan i större urval approximera binominalfördelningen med t-fördelningen. Det var viktigare förr när man inte hade datorer. Det är en dåligt tillämpning använda t-fördelningen i detta fall efter a) n är litet vilket ger felskattningen, b) n är så litet att man med miniräknare med lätthet kan räkna ut binominalfördelningen.

/D

Användarvisningsbild
DQ-20
Skum fogare
 
Inlägg: 8579
Blev medlem: 2003-12-03
Ort: ografi

Inläggav DQ-20 » 2006-12-19 16:59

Svante skrev:
Morello skrev:Naj, T-fördelningen är inte tillämpbar. Det äör fråga om binomialfördelning. Själva frågan gäller dock inte fördelningen, utan handlar mer om testmetodik och hur resultaten skall tolkas.


I förlängningen ja, men just nu vill jag faktiskt veta om det går att räkna ut konfidensen med ovanstående exempel och hur stor den är i sådana fall.


Man kan inte säga "i förlängningen", om du med det avser att renodla kalkylen från tolkningen. Redan innan du börjar räkna måste du bestämma vad det är du räknar på. 5 päron + 3 stövlar=8 stycken. Visst, men 8 stycken vaddå? Räkna kan man ju alltid göra.

Har läst igenom Öhmans svar och håller med. Jag skulle dessutom vilja veta varför vi ombetts kommentera dessa muggiga experiment.

/D
Senast redigerad av DQ-20 2006-12-19 17:04, redigerad totalt 1 gång.

Användarvisningsbild
Morello
 
Inlägg: 36583
Blev medlem: 2003-05-19
Ort: Stockholm/Täby

Inläggav Morello » 2006-12-19 17:00

Pojkar, nu tycker jag vi lämnar T-fördelningen och återgår till spörsmålet enligt trådens första inlägg. :)
Driver: www.sybariteaudio.se
-Innehar F-skattsedel-

”Messen ist Wissen, aber messen ohne Wissen ist kein Wissen”

"Es ist noch kein Meister vom Himmel gefallen"

Användarvisningsbild
PerStromgren
 
Inlägg: 28521
Blev medlem: 2005-03-25
Ort: Karlstad

Inläggav PerStromgren » 2006-12-19 17:03

Med en dåres envishet:

Statistics for experimenters : an introduction to design, data analysis, and model building / George E. P. Box, William G. Hunter, J. Stuart Hunter finns i KTHs bibbla, ledig för utlåning.
... tycker jag!

Per

Användarvisningsbild
DQ-20
Skum fogare
 
Inlägg: 8579
Blev medlem: 2003-12-03
Ort: ografi

Inläggav DQ-20 » 2006-12-19 17:07

Morello skrev:Pojkar, nu tycker jag vi lämnar T-fördelningen och återgår till spörsmålet enligt trådens första inlägg. :)


Hurså, känner du dig förfördelad? :)

/D

Användarvisningsbild
Svante
Audiot!
 
Inlägg: 37552
Blev medlem: 2004-03-03
Ort: oakustisk

Inläggav Svante » 2006-12-19 20:26

Ja, ska jag ge mina egna förslag, då:

Svante skrev:Exempel 1:
Antag att en person lyssnar och får 7 rätt i rad. Med hur stor konfidens har man visat att objektet har en hörbar ljudpåverkan?


Om man i förväg har bestämt att man bara ska lyssna 7 ggr och dessutom har bestämt att man bara godtar rättsvar, blir konfidensen 1-1/2^7~99,2%. Har man i förväg bestämt att man även får svara alla fel blir signifikansen 1-2/128~98,4%. (Vad man har bestämt i förväg spelar alltså roll, här och i de kommande exemplen.)

Svante skrev:Exempel 2:
Antag att en person lyssnar och får 8 fel i rad. Med hur stor konfidens har man visat att objektet har en hörbar ljudpåverkan?


Om man i förväg har bestämt att man bara ska lyssna 8 ggr och dessutom har bestämt att man bara godtar rättsvar, blir konfidensen ointressant låg. Har man i förväg bestämt att man även får svara alla fel blir signifikansen 1-2/256~99,2%.

Svante skrev:Exempel 3:
Antag att fyra personer lyssnar samtidigt och ropar när de tror sig veta om F eller E är inkopplat. När en person har ropat avbryts växlingen och även de andra får avge ett svar om de vill (med kunskap om vad den först personen sagt). En person får 9 rätt i rad. Vid det laget har de tre andra avgivit 1, 3 respektive 5 svar med spridda skurar av rätt och fel. Med hur stor konfidens har man visat att objektet har en hörbar ljudpåverkan?

Den här är knepig. Uppenbart har man inte i förväg bestämt hur många lyssningar som ska göras. Inte heller har man bestämt vems serie som ska räknas. Men om vi är lite (för) välvilligt inställda så kan vi se det som att man har bestämt sig i förväg för att lyssna 9 ggr, och att man har kört 4 upprepade försök (de 4 personerna). Förmodligen skulle man ha godtagit även 9 fel i rad. Det enskilda testet som gav 9 av 9 ger då 1-2/2^9=99,6% signifikans. Eftersom testet har körts av 4 personer men de tre andra har misslyckats, så blir totala signifikansen 0,996^4~98,4%.

Det är dock mycket tveksamt att räkna så här. Kanske hade man fortsatt testet om personen hade fått ett felsvar bland de riktiga. Det kostar signifikans. Troligen är alltså signifikansen lägre än 98,4% men det är omöjligt att veta hur mycket lägre.

Svante skrev:
Exempel 4:
Samma som 3, men den första personen får i stället 9 fel i rad.
Med hur stor konfidens har man visat att objektet har en hörbar ljudpåverkan?


Ja, som jag beskrev det ovan blir det samma som i 3, om man antar det jag gjorde där.

Svante skrev:
Exempel 5:
Samma förutsättningar som i 3, men nu avger endast två av personerna svar, de två andra avstår. De båda första får 7 rätt i rad, vardera. Med hur stor konfidens har man visat att objektet har en hörbar ljudpåverkan?


Förmodligen är signifikansen högre än i 3, men hur mycket? Det vet man inte, eftersom man inte har bestämt förutsättningarna i förväg.

Svante skrev:
Exempel 6:
Antag att en person lyssnar. Han gör flera test, en med basrik musik och två med diskantrik musik. I bastestet och får han 9 rätt i rad, de andra två ger spridda skurar. Med hur stor konfidens har man visat att objektet har en hörbar ljudpåverkan?


Konfidensen att objektet har en hörbar påverkan i det enskilda testet är 1-2/2^9~99,6% (godtagande även "alla fel", antagande att man har bestämt i förväg att man ska lyssna just 9 ggr). De tre testerna tillsammans gör att konfidensen faller till 0,996^3~98,8%.

Dahlqvist skrev:Har läst igenom Öhmans svar och håller med. Jag skulle dessutom vilja veta varför vi ombetts kommentera dessa muggiga experiment.
/D


Ja, det kan man undra. Skönt att du säger att det är ett muggigt experiment (som jag antar betyder att du inte gillar designen). Om vi fokuserar på exempel 3-5 så är upplägget väldigt likt det som LTS använder i sina F/E-lyssningar. Man bestämmer alltså INTE före testet hur många lyssningar som ska göras, man tillåter samtidiga svar, och man lyssnar enkelblint. Jag har försökt påtala att detta är dålig försöksdesign eftersom man inte vet vad det ger för konfidens, och eftersom det knappast skulle tillåtas passera i vetenskapliga sammanhang, tex i reviewprocessen till en vetenskaplig tidskrift.

Jag har också försökt få testmetodiken nerskriven så att man kan referera till den och så att alla kan se hur det går till, men fått till svar att han inte vill ha en skendebatt om metodiken (i stället för resultaten, antar jag). Det är vetenskaplig öppenhet, det.

Jag har nu stångat mig såpass blodig mot Ingvars tvärvägran att förändra testet att jag har avsagt mig vidare uppdrag i LTS styrelse. Jag kan inte ställa mig bakom testmetodiken. Jag vill alltså deklarera att LTS F/E-tester inte är Svantegodkända, vad nu det har för värde.

Edit: Jag bara måste visa hur min browser såg ut efter att jag hade skrivit det här inlägget. Titta högst upp... :lol:

Bild
Så länge har jag längat efter att loudness war skulle vara över. Nu börjar jag tro att vi faktiskt är där. Kruxet är att vi förlorade.

Användarvisningsbild
Thomas_A
Mätdoktorn
 
Inlägg: 7496
Blev medlem: 2003-06-14
Ort: Uppsala

Inläggav Thomas_A » 2006-12-20 01:03

En allmän kommentar är att styrkan i ett binomialtest med n=7 inte är stark. 6/7 rätt ger p=0.062 medans 7/7 rätt ger p=0.008. Med endast ett diskret steg mellan icke signifikant till signifikant blir den statistiska styrkan svag.

I ett test bör man ju först träna och sedan välja en person som tycks kunna höra en skillnad i öppet test för en given musik/testsnutt. Den personen får sedan givet exempelvis minst 15 omgångar som kan vara fördelade valfritt i tiden.

I en grupp av fyra, förutsatt att lyssningarna är oberoende måste man summera deras resultat. För att veta om någon i gruppen avviker från slumpen måste man tillgripa någon sorts post-hoc test eller kanske ett fishers exakt test på gruppens resultat med post hoc.

Behöver fräscha upp lite i mina kunskaper märker jag.

Användarvisningsbild
Haakan_W
HåkanBråkan
 
Inlägg: 9335
Blev medlem: 2004-07-14
Ort: The depths of hell

Inläggav Haakan_W » 2006-12-20 01:45

svante hur vill du att lyssningen/testet ska gå till?

Användarvisningsbild
Svante
Audiot!
 
Inlägg: 37552
Blev medlem: 2004-03-03
Ort: oakustisk

Inläggav Svante » 2006-12-20 08:40

Haakan_W skrev:svante hur vill du att lyssningen/testet ska gå till?


Här är förslaget som totalsågades av Ingvar

http://user.faktiskt.io/svante/Forslag_till_LTS_testmetodik.htm

...med inledningen

Huga, nej det där ser inget vidare ut.
Det bygger på en massa antagnaden som i flera fall är direkt felaktiga.


...osv, ni kan väl stilen vid det här laget.
Så länge har jag längat efter att loudness war skulle vara över. Nu börjar jag tro att vi faktiskt är där. Kruxet är att vi förlorade.

Användarvisningsbild
Thomas_A
Mätdoktorn
 
Inlägg: 7496
Blev medlem: 2003-06-14
Ort: Uppsala

Inläggav Thomas_A » 2006-12-20 11:09

Får jag föreslå att ha ett minimum på 25 försök för ett tvåsvansat test. Detta för att Fisher's exakta test ger signifikant skillnad mellan 25/0 till 20/5 i en fyrfältstabell (p=0.05), medans alla svar från 21/4 och bättre inte är signifikant skilt från 25/0 (<p0.05).

Användarvisningsbild
PerStromgren
 
Inlägg: 28521
Blev medlem: 2005-03-25
Ort: Karlstad

Inläggav PerStromgren » 2006-12-20 11:19

Svante,

Jag håller helt med dig, metoden måste dokumenteras innan den används, om den ska kunna litas på. Du gör helt rätt som skriver ned den, och granskar den så att alla kan bli överens. Om IÖ inte gillar vad som står där, be om exakta förändringsförslag, inte bara kommentarer om att det är fel.

Det vore synd om LTS styrelse ska behöva bli av med en duktig ledamot av en sådan anledning.
... tycker jag!

Per

Användarvisningsbild
n3mmr
 
Inlägg: 7541
Blev medlem: 2005-01-05
Ort: Varande: semester efter semester efter semester

Inläggav n3mmr » 2006-12-20 12:13

Svante skrev:Jag har nu stångat mig såpass blodig mot Ingvars tvärvägran att förändra testet att jag har avsagt mig vidare uppdrag i LTS styrelse. Jag kan inte ställa mig bakom testmetodiken. Jag vill alltså deklarera att LTS F/E-tester inte är Svantegodkända, vad nu det har för värde.

Edit: Jag bara måste visa hur min browser såg ut efter att jag hade skrivit det här inlägget. Titta högst upp... :lol:

Bild


Att metodiken inte är Svantegodkänd har ett stort (negativt) värde.

Jag har själv deltagit i tester enligt LTS, och kände mig alltid oerhört besviken över bristen på överensstämmelse mellan den dubbelblinda teorin och den enkelblinda och slarviga verkligheten.

Man slutade inbjuda mig efter ett tag, och jag känner mig lite ledsen över att metodiken inte förbättrats.

N.B. Det var inte så att man slutade inbjuda mig p g a att jag bråkade om metodiken: mina statistikkunskaper var inte sådana att jag tog en debatt om metodik med folk som varit med förr. Snarare var det tillfälligheter, och ev att jag inte hörde skillnader så fort som den mest snabbtjoande.
Om du inte förstår vad författaren skriver kan det vara så att du behöver bli bättre på att läsa.
Självbevarelsedriften säger mig att jag bör uttrycka mig försiktigare på ett sånt här forum.

Användarvisningsbild
Thomas_A
Mätdoktorn
 
Inlägg: 7496
Blev medlem: 2003-06-14
Ort: Uppsala

Inläggav Thomas_A » 2006-12-20 12:21

Jag tänkte mig ett "sign test", där man approximerar en normaldistribution från den diskreta binomialfördelningen (n*pi>5), n>10 för pi=0.5 (slump).

Om svaren är 9/10 blir z´= (0.9-0.5)-(1/(2*10)/sqr((0.9*(1-0.9)/10))=
=3.689; ->p<0.001

Dock för sample size mindre än eller lika med 10 blir p=0.004

Konfidensintervall för den sanna proportionen vid 95% är
0.9+/- 1.96*sqr(0.9*(1-0.9)/10)=
= 0.9 +/- 0.19

Dvs vi kan med 95% sannolikhet säga att den sanna proportionen ligger mellan 0.71-1.09, med förbehållet att proportionen inte kan bli större än 1.

Vet inte om det är riktigt korrekt men jag vill bara poängtera att "sample size" bör vara tillräckligt stort.

Användarvisningsbild
Morgan
 
Inlägg: 2619
Blev medlem: 2004-11-17
Ort: Bollebygd

Inläggav Morgan » 2006-12-20 12:32

Svante, kan du inte vara snäll att ge en exakt beskrivning av hur F/E-lyssningarna går till istället? Som det är nu målar man liksom upp en skräckbild för sitt inre baserad på de halvkvädna visor som du kvider :D och det är liksom omöjligt att bedöma om testerna görs vettigt eller ovettigt!

Ingvars svar ovan är ju insiktsfullt, men samtidigt så är det mycket oroväckande om man begår vissa "standardfel" som att inte på förhand bestämma vilka lyssningsserier man skall använda och vilka utfall som skall tolkas som positiva eller negativa. Därför svävar man i ovisshet om huruvida det är en ansvarsfull statistisk analys och ett vettigt testförfarande eller inte!

Användarvisningsbild
berma
 
Inlägg: 502
Blev medlem: 2003-08-26

Re: Endast för statistikkunniga (F/E-statistik)

Inläggav berma » 2006-12-20 12:37

IngOehman skrev:Det är alltför lätt att formulera testsituationer som är publicistiskt och statistiskt godtagbara, men som är bortkastad tid om det är kunskap man är ute efter att framskaffa.


Om en testsituation inte är publicistiskt och statistiskt godtagbar kan den ifrågasättas, det är ju liksom därför man använder sig av vetenskapliga metoder dvs. för att resultaten inte ska kunna ifrågasättas.

Om upplägget verkligen är som jag gissar:
Att testledaren hela tiden vet vad som är F och E, att testpanelen sitter tillsammans och lyssnar, att växling mellan F och E sker godtyckligt till dess någon i testpanelen påstår sig "höra" något, och då kan kamraterna i testpanelen välja att hålla med eller inte. Och om det inte finns någon förutbestämd testserie.

Med det upplägget kan testerna manipuleras, dvs. om testledaren och någon i panelen vill ha ett visst resultat så kan man troligen också få det. Detta kan också ske omedvetet om testledaren och någon i panelen på förhand gillar eller ogillar ett testobjekt.

Observera att jag inte säger att någon oegentlighet förekommit, men för en 3:e person, vi som bara kan lita på resultaten är det viktigt att testerna sker på ett vederhäftigt och väl beskrivet sätt.

Om så inte är fallet blir ju testerna värdelösa! (för mig)

mvh.

Användarvisningsbild
Thomas_A
Mätdoktorn
 
Inlägg: 7496
Blev medlem: 2003-06-14
Ort: Uppsala

Inläggav Thomas_A » 2006-12-20 13:57

Exempel 3:
Antag att fyra personer lyssnar samtidigt och ropar när de tror sig veta om F eller E är inkopplat. När en person har ropat avbryts växlingen och även de andra får avge ett svar om de vill (med kunskap om vad den först personen sagt). En person får 9 rätt i rad. Vid det laget har de tre andra avgivit 1, 3 respektive 5 svar med spridda skurar av rätt och fel. Med hur stor konfidens har man visat att objektet har en hörbar ljudpåverkan?


Om man ropar när man tror sig veta, och sedan skriftligen anger vad som är vad (utan övrigas insyn) så kan de vara oberoende från varandra. Samtligas resultat ska summeras där n=n´, dvs svar som ej är angivet skall ignoreras. Om de spridda skurarna (n´= 8 ) antas ges 4 korrekta svar blir proportionen totalt:

p=13/17=0.7647

Eftersom n´>10 approximeras normalfördelningen för uträkning av p.

H0=0.5 ger z´= (0.7647-0.5)-(1/(2*17)/sqr((0.7647*(1-0.7647)/17))=
=2.287; ->p=0.025

Trots att några förmodligen gissade blev p<0.05, vilket är gångbart.

Konfidensintervallet vid 95% blir

0.76+/- 1.96*sqr(0.7647*(1-0.7647)/17)=
= 0.76 +/- 0.23



Svante skrev:


Exempel 5:
Samma förutsättningar som i 3, men nu avger endast två av personerna svar, de två andra avstår. De båda första får 7 rätt i rad, vardera. Med hur stor konfidens har man visat att objektet har en hörbar ljudpåverkan?



Förmodligen är signifikansen högre än i 3, men hur mycket? Det vet man inte, eftersom man inte har bestämt förutsättningarna i förväg.


Här kan man bortse från de som inte angivit svar; n=n´

(Liksom man kan bortse från alla andra ute på stan som inte angivit svar.) Är svaren oberoende, alltså att de inte påverkar varandra kalkyleras den utifrån 14 försök, annars endast 7.

Såg att Svante hade n=9 på de spridda skurarna, jag räknade dock på n=8. Principen var viktigast, det är bara att räkna igen.
Senast redigerad av Thomas_A 2006-12-20 14:06, redigerad totalt 1 gång.

Användarvisningsbild
Morello
 
Inlägg: 36583
Blev medlem: 2003-05-19
Ort: Stockholm/Täby

Inläggav Morello » 2006-12-20 14:04

Thomas_A skrev:Om man ropar när man tror sig veta, och sedan skriftligen anger vad som är vad (utan övrigas insyn) så kan de vara oberoende från varandra.




Ja, så skulle man kunna göra, dvs rapportera skriftligt för att undvika korrelation mellan lyssnarna.

En annan lösning skulle kunna vara ett system där varje lyssnare har en knappdosa, som kopplas till gemensam dator eller dyl. för datainsamling och vidare statistisk analys.
Driver: www.sybariteaudio.se
-Innehar F-skattsedel-

”Messen ist Wissen, aber messen ohne Wissen ist kein Wissen”

"Es ist noch kein Meister vom Himmel gefallen"

Nästa

Återgå till Teknikforum


Vilka är online

Användare som besöker denna kategori: Inga registrerade användare och 15 gäster