Endast för statistikkunniga (F/E-statistik)

av **Svante** » 2006-12-22 00:50

Äh jag kan inte hålla mig, jag skriver ner ett exempel på förfarande som jag tycker skulle vara bra. Egentligen är det nog flera eftersom jag lämnar valmöjligheter på några ställen.

1. Ska flera personer lyssna samtidigt?

Ja och nej. Flerlyssning kan vara praktiskt, för då kan man diskutera vad man hör. Det behövs dock en del fiffighet för att man ska kunna undvika kontaminering mellan varandras svar och det kan upplevas som stressande att inte få sköta växlingen mellan stimuli själv.

2. Får de avge svar med kunskap om varandras svar?

Absolut inte. Detta gör att man måste behandla statistiken på ett sätt som tar ner signifikansen rejält.

3. Vem ska växla mellan omkopplarlägena? Hur (AB/ABX)?

Själv föredrar jag att få växla själv, som lyssnare. Vilket omkopplarläge som motsvarar vad måste då slumpas. AB är mitt val, men jag har inget emot att andra använder ABX.

4. Hur ska slumpmomentet genereras (=det som gör att testet blir blint)?

Helst med en apparat som avslöjar i efterhand vilket som var rätt svar.

5. Hur ska resultatet antecknas? Skriver lyssnaren eller försöksledaren?

Spelar inte så stor roll.

6. Bör man få reda på under testets gång, hur det har gått hittills?

Absolut. Det minskar prestationskraven och känslan av osäkerhet. Det kan kännas mycket frustrerande att försöksledaren sitter och tjyvhåller på kunskap om hur dåligt(bra det har gått.

7. Hur bestämmer man när testet ska avbrytas?

Själv förordar jag en serie möjliga avbrottspunkter som bestäms i förväg, tex 11 15 19 22 25 28 32 dvs man får avbryta efter 11 om man har alla rätt, efter 15 med högst ett fel, efter 19 med högst två fel etc. Konfidensen för just denna serie är 99,67% om man även accepterar svarssekvenser av typen "alla fel". Det fina med denna approach är att man inte behöver trötta ut sig med långa sekvenser om det är lätt att höra skillnad och att konfidensen blir välbestämd. Väljer man så hög konfidens som 99,67% så finns det dessutom utrymme för att göra tre serier, alt ha tre lyssnare och ändå få 99% konfidens även om bara en serie ger positivt resultat.

8. När ska avbrottsvillkoren bestämmas. Före eller efter testet? Får man ändra dem under gång?

Före. Nej.

9. Hur stor konfidens behövs? Är konfidensen viktig?

99% är väl rimligt, sammantaget. I vetenskapliga sammanhang brukar konfidenser under 95% inte anses signifikanta. Konfidensen är viktig.

10. Hur ska data behandlas för den valda metoden, dvs hur vet man hur stor konfidens man har fått?

Med metoden att förutbestämma avbrottsvillkoren är databehandlingen lätt.

11. Är det ok att exkludera misslyckade tester?

Nej. De måste rapporteras eftersom de drar ner den totala konfidensen.

12. Vilka konfidenskrav ska man ställa på varje serie om man gör flera; bör de vara högre om man gör flera tester?

Ja. Den sammantagna konfidensen blir (konfidensen för ett försök)^(antal försök).

13. Hur behandlar man data från flera lyssnare? Tex: om en person svarar rätt hela tiden, men de andra ger spridda skurar, kan man titta på bara den som lyckas? Måste statistiken modifieras i sådana fall?

Ja, den måste modifieras. Om tre personer lyssnar samtidigt med min testdesign, så kan svaren ses som tre separata försök. Om en av dem visar positivt utfall så blir total konfidens 0.9967^3=99,0%

Hur man gör tror jag måste bestämmas innan testet. En annan möjlighet är ju att man ser testet som ett enda med ganska många felsvar. En intressant fråga är om man med tidig kunskap om vem som svarar "bäst" får gå in och tysta de "sämsta" så att bara den "bästa fortsätter. Alla svar måste förstås räknas in, dock. Här är jag ute på hal is dock, det blir lätt så med flera lyssnare.

14. Bör man göra pilotlyssningar, dvs öppna lyssningar före det egentliga testet, som inte räknas? När bestämmer man att de inte räknas?

Absolut. Jag skulle säga att de är nödvändiga och det kan tom vara en fördel att göra dem blint. Man måste dock vara väldigt tydlig redan före testet att det är pilotlyssningar och att de inte ska ingå i den statistiska bedömningen.

15. Bör man diskutera upplevda skillnader före testet? Under testet? Efter testet?

Ja, det kan man väl. Risken med diskussioner under testet är att de kan störa.

16. Vem bestämmer vilken kringutrustning (högtalare, programmaterial, CD-spelare etc) som ska användas?

Det är en fråga om sunt förnuft och i viss mån i vilken grad frågeställningen är kontroversiell. En utrustning som är bekant för lyssnaren är nog ofta att föredra.

17. Bör/behöver man söka en förklaring till påvisade hörbara skillnader?

Ja, det tycker jag. Speciellt via mätningar. Man kan lära sig mycket på det, men man behöver förstås ha den kunskap som behövs. Det är bättre att avstå än att spekulera vilt.

18. Hur noga behöver man matcha triviala skillnader såsom nivå/tonkurva?

0,1-0,05 dB är lämpligt. Det är dumt att inte göra detta så noga man förmår.

19. Är det en fördel om metod och rådata redovisas? Detaljerat?

Metod: Absolut! Detta är en av grundbultarna i den vetenskapliga världen. Studier som genomförs ska kunna reproduceras av andra forskare. Det ska finnas information om hur testet utfördes så att vem som helst med tillräcklig kunskap kan reproducera experimentet.

Rådata: Nja, rådata ska bevaras så att man kan leta fram dem vid tvivel. Det är sällan rådata redovisas i forskningsrapporter, däremot redovisas förstås sammanfattningar tex i form av medelvärden eller något annat som är relevant för forskningsfrågan.

20. Finns det någon metod att avgöra hur stor skillnaden är, om den är hörbar?

Nja. Man kan fråga folk om vad de tycker. Med kvalificerat folk blir bedömningen bra, men allt står och faller med lyssnarnas förmåga. Men frågan är viktig och bör absolut behandlas parallellt med den mer strikta statstiska utvärderingen. Man kan också mäta vissa skillnader och genom att läsaren har en uppfattning om hur mycket hörbar skillnad det brukar bli för en viss mätt skillnad kan man kommunicera hur stor skillnaden är på ett ungefär, perceptuellt.

21. Finns det några vetenskapliga krav som saknar betydelse för vanligt folk?

Egentligen inte, om de är relevanta för forskarna. Ett test utan konfidens (tex en öppen lyssning) har ett lika (lågt) värde för vanligt folk som för forskarna.

22. Hur mycket tid kan läggas på varje testning för att det skall vara möjligt att a) få intresserade att genomföra X antal tester per år, b) få tillräckliga data för att kunna dra godtagbara slutsatser och c) Kunna hävda vetenskaplighet

En kväll åt gången. a) Intresserade finns det nog många i hifisverige. b) och c) är samma för mig, och självklart bör lyssnandet minimeras för att undvika uttröttning. Det är väl ett känt faktum (och problem) i alla lyssningstestarsituationer att långa tester drar ner skärpan. Men man måste samtidigt ställa detta mot statistisk signifikans. Denna motsättning gör att man bör optimera mot att få just den signifikans som är den minimala som man accepterar. Därför är det viktigt att veta hur stor signifikans man har.

Ja, det var mina tankar och de vill jag gärna ha debatt omkring. Tomas_A hade en del andra idéer som jag tyckte var intressanta, passar de in i mina frågor ovan?

av **Svante** » 2006-12-22 00:57

berma skrev:hur é léget?
är de här frågorna till för att styra upp LTSś tester eller är det mer generellt?
/berma

Mja, jag kan inte förneka att de från min sida har att göra med uppbrottet från LTS. Jag har länge velat kunna ta en sån här diskussion offentligt och nu är det möjligt. Det är möjligt att man i LTS lyssnar på vad som kommer ur den, det vet inte jag, men mitt motiv är ändå att försöka komma fram till rimliga kriterier via diskussion.

Så se det generellt.

av **Thomas_A** » 2006-12-22 01:05

1. Ska flera personer lyssna samtidigt?

*Om praktiskt möjligt, egentligen inga problem.

2. Får de avge svar med kunskap om varandras svar?

*De får ange svar om de vill men det kan inte räknas in i något statistikt test.

3. Vem ska växla mellan omkopplarlägena? Hur (AB/ABX)?

*Valfritt. Fler möjligheter för lyssnaren så man inte inskränker något är bra.

4. Hur ska slumpmomentet genereras (=det som gör att testet blir blint)?

*Slumpgenerator eller kasta mynt.

5. Hur ska resultatet antecknas? Skriver lyssnaren eller försöksledaren?

*Lättast om försökspersonen skriver om man är flera och att dessa också vill vara med i en slutberäkning. Om det är endast en person som muntligen gör testet kan valfri person anteckna.

6. Bör man få reda på under testets gång, hur det har gått hittills?

Nej, inte om man vill ha valfriheten att hoppa över omgångar. Annars ok, med den nackdelen att man måste tvingas chansa när man misslyckats höra skillnad i en omgång.

7. Hur bestämmer man när testet ska avbrytas?

När man uppnått ett förmodat mål, exempelvis 25 svar.

8. När ska avbrottsvillkoren bestämmas. Före eller efter testet? Får man ändra dem under gång?

*Man kan välja att fortsätta efter 25 förmodade svar, men helst inte bryta innan för att då riskerar man att inte få sina 25 svar.

9. Hur stor konfidens behövs? Är konfidensen viktig?

p<0.05 är ok.

10. Hur ska data behandlas för den valda metoden, dvs hur vet man hur stor konfidens man har fått?

Statistik för enkel proportion skall användas. Binomial, eller approximerad normal för np>5.

11. Är det ok att exkludera misslyckade tester?

Experimentet bör ses som ett för en lyssningssession. Dvs samla data från samtliga. Dock ska överhoppade data i en serie ignoreras, likaså de som inte lämnar in data. Inga inlämnade data ska exkluderas vid den totala beräkningen (sk fishing för att få signifikans) men man kan göra följande post-hoc för att jämföra om testpersonernas svar skiljer sig från varandra.

2 x n Fisher's exact test för samtliga n medverkande
2 x 2 Fishers exact test där man grupperat de som angivit samtliga svar i varje omgång ("säkra lyssnare") och de som valt att hoppa över omgångar ("osäkra lyssnare")

12. Vilka konfidenskrav ska man ställa på varje serie om man gör flera; bör de vara högre om man gör flera tester?

*Utveckla frågan.

13. Hur behandlar man data från flera lyssnare? Tex: om en person svarar rätt hela tiden, men de andra ger spridda skurar, kan man titta på bara den som lyckas? Måste statistiken modifieras i sådana fall?

Gör en total beräkning + ett Fishers.

14. Bör man göra pilotlyssningar, dvs öppna lyssningar före det egentliga testet, som inte räknas? När bestämmer man att de inte räknas?

*Ja.

15. Bör man diskutera upplevda skillnader före testet? Under testet? Efter testet?
16. Vem bestämmer vilken kringutrustning (högtalare, programmaterial, CD-spelare etc) som ska användas?
17. Bör/behöver man söka en förklaring till påvisade hörbara skillnader?
18. Hur noga behöver man matcha triviala skillnader såsom nivå/tonkurva?
19. Är det en fördel om metod och rådata redovisas? Detaljerat?
20. Finns det någon metod att avgöra hur stor skillnaden är, om den är hörbar?
21. Finns det några vetenskapliga krav som saknar betydelse för vanligt folk?
lägger till dem i detta inlägg om de kommer)[/quote]

av **n3mmr** » 2006-12-22 01:22

Svante skrev:Ok, åter till ämnet. Hur ska man göra ett lyssningstest för att både statistiker, lyssnare och frågeställare (= den som söker kunskapen) ska bli nöjda? Bara för att vi ska ha något konkret att utgå ifrån, antag en F/E-lyssning.

Vi har flera frågor som är viktiga. Man kan förstås göra tester utan att utveckla metoden för alla dessa punkter, men jag menar att ju mer man funderar över dem, desto troligare är det att testet visar rätt.

Jag förbereder litegrann och gör varje fråga "bold" redan nu, så blir det lättare att svara.

1. Ska flera personer lyssna samtidigt?

Njae, av sociala och ekonomiska skäl, jo, tyvärr.

2. Får de avge svar med kunskap om varandras svar?

Nej

.
3. Vem ska växla mellan omkopplarlägena? Hur (AB/ABX)?

Nån som inte är där

4. Hur ska slumpmomentet genereras (=det som gör att testet blir blint)?

Av nåt slumpmässigt... :-)

Nåns moster får ställa in en serie omkopplare m h a slantsingling. Och sen ge sig ut på stan, på rea eller nåt, med pengarna hon fick för besväret.

5. Hur ska resultatet antecknas? Skriver lyssnaren eller försöksledaren?

Lyssnaren ska skriva in i en apparat som inte glömmer.

6. Bör man få reda på under testets gång, hur det har gått hittills?

Då ska testet köras om. (tänk er att det faktiskt har en uppträningseffekt att göra så.
då görs inte efterförljande testdel under samma förutsättningar som början.)

7. Hur bestämmer man när testet ska avbrytas?

Måste vara bestämt innan. Måste ha karaktären: Kör N teststeg, come hell or high water. N väljs från konfidenskravet

8. När ska avbrottsvillkoren bestämmas. Före eller efter testet? Får man ändra dem under gång?

Ska bestämmas innan testet. Får inte ändras under gång, om testet ska beaktas.

9. Hur stor konfidens behövs? Är konfidensen viktig?

Behövs??? Hur långt är ett snöre? Hur mycket pengar måste man tjäna?

11. Är det ok att exkludera misslyckade tester?

Förklara närmare vad du menar

12. Vilka konfidenskrav ska man ställa på varje serie om man gör flera; bör de vara högre om man gör flera tester?

Jo, om man vill kunna se sammanfattningen av testerna som en stortest.

13. Hur behandlar man data från flera lyssnare? Tex: om en person svarar rätt hela tiden, men de andra ger spridda skurar, kan man titta på bara den som lyckas? Måste statistiken modifieras i sådana fall?

Då ska man undra över hur dubbelblint det hela är, och jaga dolda agendor...

14. Bör man göra pilotlyssningar, dvs öppna lyssningar före det egentliga testet, som inte räknas? När bestämmer man att de inte räknas?

Jomen, och innan

15. Bör man diskutera upplevda skillnader före testet? Under testet? Efter testet?

Före, efter och mellan testsekvenser

16. Vem bestämmer vilken kringutrustning (högtalare, programmaterial, CD-spelare etc) som ska användas?

IÖ???

Svante???

Fråga nåt som kan besvaras....

17. Bör/behöver man söka en förklaring till påvisade hörbara skillnader?

Nej, men det kanske kan vara skoj

18. Hur noga behöver man matcha triviala skillnader såsom nivå/tonkurva?

Nivå, noga som tusan. Inom ±0.05 db sas det väl.

19. Är det en fördel om metod och rådata redovisas? Detaljerat?

Jomen. jomen

20. Finns det någon metod att avgöra hur stor skillnaden är, om den är hörbar?

Hur stor konfidens som uppnås per lyssnare och för olikla utsnitt av lyssnare

( x av y lyssnare hör skillnad med z % konfidens, x1 av y1 med z1 %...)

21. Finns det några vetenskapliga krav som saknar betydelse för vanligt folk?

Alla krav. Utan undantag. Vanligt folk har ingen aning om vad det innebär att veta nåt eller varför man skulle vilja förstå nåt alls om nånting.

Listan blev visst ganska lång. Jag försökte gruppera dem, men de flätar i varandra så att det blir bara rörigt. De får stå som de är.

Jag ser flera kombinationer av svar på frågorna som kan ge bra testmetoder och det är möjligt att man måste kompromissa för att optimera helheten. Svaren på frågorna gäller alltså just den metod som ni föredrar. Jag har själv ett eller flera egna förslag och andra har kommit upp tidigare i tråden, men innan jag och ni börjar svara på frågorna ovan; finns det fler viktiga frågor? (Jag redigerar och lägger till dem i detta inlägg om de kommer)

av **Svante** » 2006-12-22 01:24

Hmm, det slår mig, Tomas_A, att jag inte är säker på hur du menar att lyssningen ska gå till praktiskt.

Får man höra först F, sedan E eller tvärtom, men endast en gång och ska sedan tala om vilken som är vilken, eller tänker du att man får växla så många gånger man vill innan man avger svar?

av **Svante** » 2006-12-22 01:30

Thomas_A skrev:12. Vilka konfidenskrav ska man ställa på varje serie om man gör flera; bör de vara högre om man gör flera tester?

*Utveckla frågan.

Alltså, tex två lyssningssessioner. Bör man kräva 99,5% konfidens i dem om man strävar efter totalt 99% konfidens? Eller har du nåt magiskt sätt att räkna samman rubbet i en totalanalys som gör att kraven före testet inte behöver ökas till 99,5%?

av **n3mmr** » 2006-12-22 01:30

Svante skrev:Hmm, det slår mig, Tomas_A, att jag inte är säker på hur du menar att lyssningen ska gå till praktiskt.

Mitt bestämda intryck är att det vanligaste problemet kring F/E tester är just denna fråga.

INGEN av er verkar se det som nödvändigt att berätta hur lyssningen skall gå till, dvs hur ser sekvensen av handgrepp ut?

Så, snälla, börja vara lite noggrannare med att ange hur testen ska gå till!

av **Kaffekoppen** » 2006-12-22 01:32

1118. Hur mycket tid kan läggas på varje testning för att det skall vara möjligt att

a) Få intresserade att genomföra X antal tester per år

b) Få tillräckliga data för att kunna dra godtagbara slutsatser

c) Kunna hävda vetenskaplighet

berma,

Resterande tråd handlar enbart om testning i största allmänhet och har ingen koppling till LTS. Däremot är det inget som säger att LTS, liksom alla övriga intresserade av testning kan ha materialet som diskussionsunderlag vid egna sammankomster. Sådanna resultat som erhålls där redovisas för medlemmarna.

Ber resterande Faktisktmedlemmar om ursäkt för att ni tagit del av LTS starka viljor

av **n3mmr** » 2006-12-22 01:35

Kaffekoppen skrev:
Ber resterande Faktisktmedlemmar om ursäkt för att ni tagit del av LTS starka viljor

Båda två, dessutom..... :-)

av **Svante** » 2006-12-22 01:42

n3mmr skrev:
.
3. Vem ska växla mellan omkopplarlägena? Hur (AB/ABX)?

Nån som inte är där

Dubbelblindhet alltså. Mm.

n3mmr skrev:
9. Hur stor konfidens behövs? Är konfidensen viktig?

Behövs??? Hur långt är ett snöre? Hur mycket pengar måste man tjäna?

Ok, hur mycket tycker du är rimligt då, vid en F/E-lyssning på en apparat. Hur hög ska konfidensen vara för att du ska tycka att testets resultat är intressant?

n3mmr skrev:
11. Är det ok att exkludera misslyckade tester?

Förklara närmare vad du menar

Jag gör fyra tester. Först lyckas jag inte uppnå 99%, inte andra eller tredje gången heller. Men fjärde gången, med annan musik går det bra. Är det OK att exkludera de tre första utan att nämna dem?

n3mmr skrev:
13. Hur behandlar man data från flera lyssnare? Tex: om en person svarar rätt hela tiden, men de andra ger spridda skurar, kan man titta på bara den som lyckas? Måste statistiken modifieras i sådana fall?

Då ska man undra över hur dubbelblint det hela är, och jaga dolda agendor...

Mm, det där med dolda agendor är intressant. Frågan är vem som har den. Om försöksledaren har den, så kan han ju göra vad han vill ändå genom att förfalska data. Enda fallet det är riktigt intressant att leta efter dolda agendor är väl om lyssnarna försöker fuska för att lura försöksledaren. Annars får man helt enkelt bedömma författaren och hur trovärdig beskrivningen av testet och resultaten är. Så är det ju liksom alltid.

n3mmr skrev:
16. Vem bestämmer vilken kringutrustning (högtalare, programmaterial, CD-spelare etc) som ska användas?

IÖ???

Svante???

Fråga nåt som kan besvaras....

Nja, alltså, det här är ju en lista över frågor som man bör ställa sig när man utvecklar en metod. Jag menar inte att det finns ett definitivt svar, men själv håller jag nog ändå på att lyssnarens egna anläggning är ett bra val.

n3mmr skrev:
21. Finns det några vetenskapliga krav som saknar betydelse för vanligt folk?

Alla krav. Utan undantag. Vanligt folk har ingen aning om vad det innebär att veta nåt eller varför man skulle vilja förstå nåt alls om nånting.

Nja, fast det betyder väl inte att de saknar betydelse för vanligt folk, även om de inte begriper dem.

av **Svante** » 2006-12-22 01:56

Missade den här.

n3mmr skrev:
20. Finns det någon metod att avgöra hur stor skillnaden är, om den är hörbar?

Hur stor konfidens som uppnås per lyssnare och för olikla utsnitt av lyssnare
( x av y lyssnare hör skillnad med z % konfidens, x1 av y1 med z1 %...)

Nej, det här är tokigt. Signifikansen har endast att göra med hur duktigt testet är på att påvisa skillnaden. Om testet visar en skillnad, hur mycket kan vi lita på att den verkligen finns?

Det är något helt annat än skillnadens storlek. Visserligen kan man förvänta sig att det är svårare att höra en liten skillnad, men saftar vi i med fler lyssningar kan vi få upp konfidensen. Men skillnaden blir ju inte större för det, eller hur?

av **Svante** » 2006-12-22 02:00

Kaffekoppen skrev:Ber resterande Faktisktmedlemmar om ursäkt för att ni tagit del av LTS starka viljor

Ja, jag ska väl göra det jag också då, det är ju inte min mening att förpesta luften här med internt groll, men jag bara kände ett så starkt behov att få ventilera testmetodiken och min roll i den här, må vara att det startade i affekt. Det är inte så ofta det händer, men det gör det förstås inte snyggare.

av **dimitri** » 2006-12-22 02:10

ponera
10 personer deltar i testet. De kommunicerar inte. Det är dubbelblind design, gärna med slumpgenerator med möjlighet att dekoda vad som var vad i efterhand. 32 växlingar.

Nåväl: 9 personer har uppnått resultat icke urskiljbara från rena gisningar
1 person har prickat alla rätt.

Som Svante sa är situationen att betrakta som 10 separata test.
Finns det hörbara skillnader mellan apparat A och B?

Ja. Absolut. Det räcker med att en person har konsekvent prickat rätt förutsatt att serier är långa. Dessutom om man skulle slå ihop allas resultat så ger Fisher signifikans p=0,037 för en 2x2 tabell:

160/160
176/124

Dvs test med 10 pers, 32 växlingar. 9 personer får 16 rätt av 32 var, 1 person får 32 rätt av 32
Dimitri

Nu är det väldigt förenklat. Det är t.ex mkt osannolikt att alla 9 personer som prickar slumpmässigt skulle just få 16 rätt och 16 fel. Men det ändrar inte poängen.

EDIT:
Fel av mig,
tabellen är
160/160
176/144
p= 0,23

(fel huvudräkning, sorry)

av **dimitri** » 2006-12-22 02:21

ursäkta sjabblet

Men ändå poängen är att det räcker med att en person konsekvent prickar rätt i långa serier för att skillnad skall anses föreligga. Men då ska det vara dubbelblint utan möjligheter till fusk.

av **berma** » 2006-12-22 02:28

Kaffekoppen skrev:
berma,

Resterande tråd handlar enbart om testning i största allmänhet och har ingen koppling till LTS. Däremot är det inget som säger att LTS, liksom alla övriga intresserade av testning kan ha materialet som diskussionsunderlag vid egna sammankomster. Sådanna resultat som erhålls där redovisas för medlemmarna.

Man kan alltså inte förvänta sig en öppen debatt om LTSś testmetoder?

hemliga klubben?

av **Svante** » 2006-12-22 02:33

dimitri skrev:ursäkta sjabblet

Men ändå poängen är att det räcker med att en person konsekvent prickar rätt i långa serier för att skillnad skall anses föreligga. Men då ska det vara dubbelblint utan möjligheter till fusk.

Ja det är jag med på. Och nyckelordet här är "långa" tror jag, och serierna behöver bli längre om man ska bibehålla signifikansen med många ickehörande lyssnare.

av **Svante** » 2006-12-22 02:40

berma skrev:
Kaffekoppen skrev:
berma,

Resterande tråd handlar enbart om testning i största allmänhet och har ingen koppling till LTS. Däremot är det inget som säger att LTS, liksom alla övriga intresserade av testning kan ha materialet som diskussionsunderlag vid egna sammankomster. Sådanna resultat som erhålls där redovisas för medlemmarna.

Man kan alltså inte förvänta sig en öppen debatt om LTSś testmetoder?

hemliga klubben?

Ja, nu kan jag inte svara för LTS, men jag tycker absolut att vi ska debattera F/E-lyssning på alla de sätt den kan utföras. Mitt mål är att få fram en metod som är optimal map konfidens (hur mycket man kan lita på satistiken) och upplösning (hur troligt det är att metoden hittar bristerna).

Jag tror annars att kaffekoppen syftar på det sidospår som med viss nödvändighet uppstod ang min och Ingvars oenighet och ev avhopp. Det är avklarat och behöver inte diskuteras mer, för min del iaf.

av **dimitri** » 2006-12-22 02:41

Svante skrev:
dimitri skrev:ursäkta sjabblet

Men ändå poängen är att det räcker med att en person konsekvent prickar rätt i långa serier för att skillnad skall anses föreligga. Men då ska det vara dubbelblint utan möjligheter till fusk.

Ja det är jag med på. Och nyckelordet här är "långa" tror jag, och serierna behöver bli längre om man ska bibehålla signifikansen med många ickehörande lyssnare.

Japp.
Samma förutsättningar som ovan fast serielängden är 100 växlingar
gen en tabell (9 pers får slumpartade resultat, en kammar hem alla 100)

500/500
550/450

ger p=0,028
Faktiskt inte illa.

av **Thomas_A** » 2006-12-22 08:26

Svante skrev:Hmm, det slår mig, Tomas_A, att jag inte är säker på hur du menar att lyssningen ska gå till praktiskt.

Får man höra först F, sedan E eller tvärtom, men endast en gång och ska sedan tala om vilken som är vilken, eller tänker du att man får växla så många gånger man vill innan man avger svar?

Hur många gånger man vill.

av **Thomas_A** » 2006-12-22 08:34

Svante skrev:
Thomas_A skrev:12. Vilka konfidenskrav ska man ställa på varje serie om man gör flera; bör de vara högre om man gör flera tester?

*Utveckla frågan.

Alltså, tex två lyssningssessioner. Bör man kräva 99,5% konfidens i dem om man strävar efter totalt 99% konfidens? Eller har du nåt magiskt sätt att räkna samman rubbet i en totalanalys som gör att kraven före testet inte behöver ökas till 99,5%?

Tja om man gör två sessioner med samma material ska man alltid addera resultaten. Gör man flera sessioner och i efterhand drar den bästa och ignorerar övriga resultat så är det fishing, och man måste öka konfidensen. Samma sak som man drar ut en person av 100 andra i ett försök, sk fishing.

av **Kaffekoppen** » 2006-12-22 10:25

berma skrev:
Kaffekoppen skrev:
berma,

Resterande tråd handlar enbart om testning i största allmänhet och har ingen koppling till LTS. Däremot är det inget som säger att LTS, liksom alla övriga intresserade av testning kan ha materialet som diskussionsunderlag vid egna sammankomster. Sådanna resultat som erhålls där redovisas för medlemmarna.

Man kan alltså inte förvänta sig en öppen debatt om LTSś testmetoder?

hemliga klubben?

:)

Jättehemlig, eller hur. Knappt någon som vet att den finns. Nej, det är naturligtvis så att man kan debattera LTS testmetoder hur fritt och öppet som helst, redan idag är vi hur öppna som helst med hur vi gör.

Däremot sköter vi meningskilljatligheter, interna missförstånd och utveckling av våra metoder internt. Det är som medlem man skall påverka hur vi utvecklas, inte som deltagare i ett diskussionsform. Det är väl rätt självklart för de allra flesta.

Så om du ursäktar, så tycker jag jäkligt illa om dina fåniga insinuationer och förstår inte alls vad din poäng är. Det finns inte en förening i hela världen som inte agerar så, allt från Scouterna till din lokala fotbollsklubb. Det finns en mening med att vara medlem, och det är att man som medlem kan påverka sin förening.

Har du intresse av att påverka hur föreningen arbetar är Du hjärtligt välkommen som medlem. Vi har faktiskt riktigt trevligt

Nu tycker jag vi återgår till tråden - den är intressant!

av **Thomas_A** » 2006-12-22 11:01

Om man så vill kan man testa alla sessioner (uppdelat på exempelvis musikval och apparat) och göra en Fisher's exakt 2 x n test (om n>5 i alla fält, applicera sedvanlig chi-square). Exempel

session 1: 18/4 (test av basregister)
session 2: 12/11 (test av diskantregister)

En ensvansat test ger p=0.035, tvåsvansat p=0.057

Alltså är testet på gränsen till signifikant för att sessionerna i sig är olika. Detta i sig gör att vi inte bör slå ihop dessa grupper vid analys, och vi har också en rationell grund för det eftersom vi testar olika saker.

Har vi tillräckligt med n?

Sample size calculation:

För en proportionsskillnad mellan 0.5 och 0.9 krävs n=24 för båda grupperna vid 80% power.

http://statpages.org/proppowr.html

Vidare gäller binomial/approximerad normal vid test av 1 proportion från observationer mot ett teoretiskt värde (exempel pi=0.5 för slump). För test av flera observationer mot varandra gäller chi-square, eller Fisher's exakta test där n<5 i någon ruta. Det går också att göra en 2 x n tabell, men ju fler jämförelser ju lägre p. Man kan alltid slå ihop data från olika tester för att öka signifikansen i själva testberäkningen om man har en rationell grund för att göra det. Ex vill man se om det är en skillnad mellan personer som alltid anger ett svar mellan individer som hoppar över svar. Man kan ha hypotesen att de som då och då hoppar är sämre att höra skillnad än de som alltid ger svar och vill pröva detta.

av **dimitri** » 2006-12-22 11:10

Håller med dig kk även om du kanske kan ha tolkat Bermas inlägg lite hårt.

Omvänt, bara som en tankeövning, skulle man kunna säga:

"Det är oförskämt av LTS, en förening som har utvecklat en metod, intern budget osv, att profitera på expertisen i ett forum och få gratis råd om hur de av föreningen använda metoder kan förbättras/utvecklas. Det borde betala för det. Det enda acceptabla är att föra denna diskussion internt"

Obs att det var ett hypotetiskt argument för att det är fel att vara öppen.
Vi har haft slitande gräl om LTS's slutenhet osv.

Så,
Det blir alltid fel, vare sig man lever upp till seder rådande i varje förening, som kk nämner ovan, dvs interna diskussioner, eller am man debatterar en fråga öppet. I alla fall när det gäller hela svenska folkets favvo nagel i ögat, LTS.

av **paa** » 2006-12-22 11:38

dimitri skrev:Håller med dig kk även om du kanske kan ha tolkat Bermas inlägg lite hårt.

Omvänt, bara som en tankeövning, skulle man kunna säga:

"Det är oförskämt av LTS, en förening som har utvecklat en metod, intern budget osv, att profitera på expertisen i ett forum och få gratis råd om hur de av föreningen använda metoder kan förbättras/utvecklas. Det borde betala för det. Det enda acceptabla är att föra denna diskussion internt"

Obs att det var ett hypotetiskt argument för att det är fel att vara öppen.
Vi har haft slitande gräl om LTS's slutenhet osv.

Alla kan fråga ett forum till råds, privatpersoner, företag, föreningar, utbildningsinstitut osv. Att någon av dessa skulle betala går helt tvärt emot tanken med öppna internet-forum! Är man inte välkommen med sina frågor skall man stängas av, annars bör man få svar av dom som kan och vill svara.
Det enda fall vi sett hittills, där svar inte varit önskvärt i forumet var väl tentafrågor?

av **berma** » 2006-12-22 11:39

Jag gick igenom Svantes lista och håller nog med honom i det mesta förutom att jag tycker att det är viktigt att även testledaren är ovetande om vad som är ”rätt svar”. En FEX-box där X genereras slumpmässigt och där alla deltagarna får jämföra F och E mot X hur många gånger man vill, om det är flera lyssnare så måste alla anonymt ge ett svar innan nästa X genererats. Om man tycker det är trevligt eller om det tillför kunskap kan man avslöja vad X var innan nästa X.

Men sen är det ju fråga 13 ....

13. Hur behandlar man data från flera lyssnare? Tex: om en person svarar rätt hela tiden, men de andra ger spridda skurar, kan man titta på bara den som lyckas? Måste statistiken modifieras i sådana fall?

Vete f*n, det är något fel på hela upplägget.
Om man tänker tvärt om blir det ju lättare dvs. om man vill testa lyssnarna! Om man tänker sig att E är känd med tex. z% distorsion, då kan man ta in en representativ grupp av befolkningen, exempelvis 1000 20-åriga män och med statistiska metoder räkna fram att w% av alla 20-åriga män kan höra z% distorsion. Då använder vi objektiva instrument för att mäta en okänd storhet, dvs. 20-åriga mäns förmåga att höra z% distorsion! Sen kan man jämföra 20-åriga män med 20-åriga kvinnor och få ny kunskap osv.

Här har vi på något sätt flera okända storheter, dels testobjektet och dels testinstrumentet=lyssnaren.
Om det ska bli nån ordning på det här måste man ju kunna kalibrera instrumentet/lyssnaren!
Jag vet inte om det här är rimligt (tror jag väl egentligen inte), men för att få sitta i testpanelen bör man kanske kvalificera sig genom att med någon överenskommen konfidens kunna detektera ett känt men svårdetekterbart objekt. Och det bör man nog dessutom göra vid varje testtillfälle, man kan ju vara förkyld eller trött så att man en viss kväll inte fungerar så bra som testinstrument.
Det optimala är ju att man med en godtyckligt vald kalibrerad lyssnare alltid ska få samma resultat.

Problemet är ju att tre mindre bra lyssnare ett testtillfälle kan godkänna en mindre bra apparat, medan tre mycket kritiska lyssnare ett annat testtillfälle underkänner en kanske bättre apparat.

Ett annat problem är ju som sagt att nollresultat är ett bra resultat, dvs. man kan bara bevisa att en apparat är dålig. Samtidigt är det ju så att om en lyssnare med hög konfidens kan detektera ett testobjekt så har man ju faktiskt visat att det testobjektet färgar, oavsett hur många som inte klara det. Att bara en klarar det är ju bara ett slags mått på hur svårt det är, eller åtminstone visar det att just det testobjektet färgar väldigt lite.

av **Style** » 2006-12-22 12:04

det som berma tar upp är mycket intressant

det hela handlar om hur generaliserbart ett sånt här test egentligen är när man använder ett icke-kalibrerat instrument (öronen hos en testpanel)

man kan se på det på flera sätt

1, man använder en panel som har visat sig kunna detektera små skillnader mot en normalbefolkning - detta drar med sig en massa strul med tester varje gång och en stor bakomliggande studie som visar hur en normalbefolkning egentligen hör, men ger möjlighet att säga saker i stil med 99% av befolkningen kan inte höra en skillnad mellan F och E för givna maskin med konfidens X

2, man använder sig av ett OSU av befolkningen - det är ju enklare rent procedurmässigt men kräver en krångligare selektionsprocess och en tämöigen stor grupp - förmodligen inte genomförbart - och renderar i att man kan säga saker i stil med: gemene man kan inte höra skillnad mellan F och E för given maskin med X konfidens

Vad vill man egentligen uppnå? Det tycker jag egentligen är en intressantare fråga

av **Kaffekoppen** » 2006-12-22 12:25

berma skrev:Problemet är ju att tre mindre bra lyssnare ett testtillfälle kan godkänna en mindre bra apparat, medan tre mycket kritiska lyssnare ett annat testtillfälle underkänner en kanske bättre apparat.

En mycket stark poäng. Det är ett mycket svårt problem att hantera, det förstår väl alla. Iallafall ser jag det som kanske det största problemet. Därför skall inte enbart en F/E lyssning ligga till grund för annat än just indikationer. Den måste följas upp på flera plan innan man kan tänka sig göra generella slutsatser.

Det är därför viktigt med en kontinuerlig grupp testare och att det slussas in personer i den här gruppen på ett sätt som tillser just kontinuerligheten. Man måste tränas i att höra. Inte det lättaste, och kanske det svåraste. Jag vet inte, eftersom jag tilldags datum inte varit deltagare vid ett testtillfälle.

Man skall även vara medveten om att med tanke på alla faktorer som är inblandade så är resultatet av en F/E lyssning endast applicerbara på just testtillfället. Alla slutsatser som dras av en F/E lyssning måste ha sin utgångspunkt i det. Generella slutsatser av en F/E lyssning måste således följas upp och verifieras med tex mätningar eller uppföljning av apparatens konstruktion - vilket kan ge stöd åt de resultat man uppnått.

Helt klart är detta en poäng tills dess att vi använder oss av kallibrerade elektroniska öron.

av **Thomas_A** » 2006-12-22 12:26

Generellt kan jag tycka att apparater som mätmässigt ligger på gränsen för vad som har detekterats av de allra känsligaste lyssnarna inte behöver avlyssnas. Mätvärden kan ju anges. De som går vidare till lyssning är de vars mätvärden ligger inom kravspecen. Detta för att spara kraften till de mest intressanta alternativen. Det görs kanske till viss del i LTS preselektion av apparater, men jag tror att även apparater med tveksamma mätvärden också avlyssnas.

Exempel på kravgränser är ju max avvikelse i bas, max tonkurveavvikelse även med svår last, maxfall i diskant, distortion, lågnivåsignaler/brus, IM-dist, kompression komplex signal vid hög utnivå, sin2-puls dist.

Just IM-dist med diskantrikt material har jag detekterat med lätthet när jag lyssnat till internt ljudkort med och utan diskant över 18 kHz, dock ej med externt bättre ljudkort. I ABX med inte så speciellt bra hörlurar.

av **Svante** » 2006-12-22 12:36

dimitri skrev:
Svante skrev:
dimitri skrev:ursäkta sjabblet

Men ändå poängen är att det räcker med att en person konsekvent prickar rätt i långa serier för att skillnad skall anses föreligga. Men då ska det vara dubbelblint utan möjligheter till fusk.

Ja det är jag med på. Och nyckelordet här är "långa" tror jag, och serierna behöver bli längre om man ska bibehålla signifikansen med många ickehörande lyssnare.

Japp.
Samma förutsättningar som ovan fast serielängden är 100 växlingar
gen en tabell (9 pers får slumpartade resultat, en kammar hem alla 100)

500/500
550/450

ger p=0,028
Faktiskt inte illa.

Nja... Det här är en intressant diskussion. Alltså p=0,028 betyder att man har detekterat en skillnad och att det är rätt säkert att det är så. Men det faktum att det behövdes 1000 lyssningar för att nå dit betyder antingen att det var ruskigt svårt att höra skillnaden, eller som här att det var ruskigt få som hörde den.

Det är skillnad på signifikans och skillnadens storlek.

Fast det vet du ju, det är ingen kritik alltså, bara en reflexion.

av **Svante** » 2006-12-22 12:39

Thomas_A skrev:
Svante skrev:Hmm, det slår mig, Tomas_A, att jag inte är säker på hur du menar att lyssningen ska gå till praktiskt.

Får man höra först F, sedan E eller tvärtom, men endast en gång och ska sedan tala om vilken som är vilken, eller tänker du att man får växla så många gånger man vill innan man avger svar?

Hur många gånger man vill.

Bra. Anledningen att jag frågar är att detta är en av de vanligaste missförstånden med folk som utför metoden praktiskt för första gången (vilket uppenbarligen inte är du) att man tror att man får en enda växling på sig och ska prestera ett svar efter det. Att kräva det gör testet mycket svårare och man kommer att bli sämre på att detektera en skillnad som i sig kan vara hörbar.