Endast för statistikkunniga (F/E-statistik)

av **Svante** » 2006-12-19 09:43

Ja, i den här tråden vill jag endast ha svar av de som förstår sig på statistik.

Jag vill veta vad nedanstående tester ger för konfidens. Om det inte går eller är för svårt att räkna ut, tala gärna om vad som krävs för att beräkningen ska gå att utföra om ni vet det. Antag en F/E-lyssning. En person som inte deltar i lyssningen sitter och växlar mellan F och E och antecknar resultaten.

Exempel 1:
Antag att en person lyssnar och får 7 rätt i rad. Med hur stor konfidens har man visat att objektet har en hörbar ljudpåverkan?

Exempel 2:
Antag att en person lyssnar och får 8 fel i rad. Med hur stor konfidens har man visat att objektet har en hörbar ljudpåverkan?

Exempel 3:
Antag att fyra personer lyssnar samtidigt och ropar när de tror sig veta om F eller E är inkopplat. När en person har ropat avbryts växlingen och även de andra får avge ett svar om de vill (med kunskap om vad den först personen sagt). En person får 9 rätt i rad. Vid det laget har de tre andra avgivit 1, 3 respektive 5 svar med spridda skurar av rätt och fel. Med hur stor konfidens har man visat att objektet har en hörbar ljudpåverkan?

Exempel 4:
Samma som 3, men den första personen får i stället 9 fel i rad.
Med hur stor konfidens har man visat att objektet har en hörbar ljudpåverkan?

Exempel 5:
Samma förutsättningar som i 3, men nu avger endast två av personerna svar, de två andra avstår. De båda första får 7 rätt i rad, vardera. Med hur stor konfidens har man visat att objektet har en hörbar ljudpåverkan?

Exempel 6:
Antag att en person lyssnar. Han gör flera test, en med basrik musik och två med diskantrik musik. I bastestet och får han 9 rätt i rad, de andra två ger spridda skurar. Med hur stor konfidens har man visat att objektet har en hörbar ljudpåverkan?

Ja, hur blir det? Frågan är högaktuell om nu någon inte trodde det.

av **PerStromgren** » 2006-12-19 09:58

Har vi inte diskuterat detta förut? ..... Jo, just det, i maj var det:

http://www.faktiskt.se/modules.php?name=Forums&file=viewtopic&t=11616

Och då skrev jag, vilket jag fortfarande står för:
"När jag själv irrade runt på KTH som fjunig teknolog fanns där en hel institution med experter på matematiskt statistik, har ni sparkat ut dom? Om inte har du ju en källa att ösa ur som inte sinar i brådrasket. "

och du skrev:
"Men visst, jag borde knacka på hos dem, det har du nog rätt i."

De var sura och ville inte hjälpa dig? Eller det är mycket skojsigare med oss hifinördar?

av **dimitri** » 2006-12-19 11:17

Svante skrev:Ja, i den här tråden vill jag endast ha svar av de som förstår sig på statistik.

En utmanande inledning på frågan. Jag har inga anspråk på att (verkligen) behärska statistiken vilket dock inte hindrar mig att tillämpa olika metoder i min forskning och kasta mig livsföraktande in i din fråga.

Nåväl:
Exempel 1. 7/7 rätt. Underförstått att inga missar har skett innan eller efter. Dvs att sekvensen 7/7 inte är en delsekvens i ett längre försök. I så fall (om man jämför med 3 rätt och 4 fel):
Ger Fisher's exakt 1-tailed p=0,035, 2-tailed 0,070.

Om man däremot jämför med 4 rätt och 3 fel så blir p=0,19, 2-tailed.
Det förefaller helt klart att 7 lyckade (gissningar?) i rad är för få för att dra några växlar gränsande till några växlar.

Exempel 2. 8/8 fel. En kul frågeställning. Först en enkel Fisher exact: vad är det för sannolikhet för att göra 8 fel i rad (gissa fel apparat)
p=0,077 2-tailed, jämfört med att ha 4 fel och 4 rätt.

Lite kul med att ha 7/7 rätt ger lägre p-värde jämfört med den ena av de mest slumpmässiga fördelningar (3/7) jämfört med 8/8 fel jämfört med 4/8 fel. Det här är förstås de små talens fel. 7/7 eller 8/8 eller tom 11/11 kan däremot vara en aptitretare till att anordna en större test.

Är 8/8 fel annorlunda än 8/8 rätt? Ja, om en jägare tar fel 8/8 gånger på vem som är en jaktkompis och en älg. Men om man gissar fel klave eller krona 8/8 så är det ingen skillnad jmfr med att gissa rätt.
Så om en person gissar fel 8/8 gånger i abx test hur kan detta tolkas? På något sätt har personen varit 100% konsekvent. Han skulle kanske gissa fel 32 av 32. Personen uppvisar förmågan att höra något och gör det konsekvent. Han har kanske missuppfattat instruktionerna, kanske utgår felaktigt ifrån att objektet a egentligen är b eller något annat.

Nåväl jag nu trasslat in mig och avslöjat min djupare okunskap, vassego och hugg i!
Måste gå nu. Återkommer.

av **silvervarg** » 2006-12-19 11:45

Jag är inte någon mästare på statistik, men jag håller nog inte helt med Dimitri utan gör ett försök till lekmannatolkning från en som för länge sedan till slut klarade av matstat-kursen.
Antingen så förstås jag inte helt Dimitris svar eller så anser jag att han verkar ha fel eftersom sannorlikheterna verkar alldeles för låga.

Precis som Dimitri så antar jag att det är hela sekvensen som angetts och inga delsekvenser samt att man på förhand har bestämt sekvensens längd.

Exempel 1: 7/7 rätt bör ge 1-0.5^7, dvs ca 99.2% konfidens.

Exempel 2: 8/8 fel. Borde egentligen ge lika stor konfidens som x/x rätt, men om man tar detta i beaktande så sänker man konfidensen för samtliga tester med en faktor 2. Av denna anledning måste man ha med detta innan testet börjar i formlerna.
Således bör man ta en diskussion om exakt vad man har hört och dra lärdom för att sedan kunna göra om testet. Jag anser alltså inte att man har någon användbar information.

Exempel 3: Eftersom de uppenbarligen påverkar varandra genom att få veta varandras svar så kan rimligen bara ett svar per test anses vara användbart, dvs det första svaret. Om vi antar att det första svaret gav 9/9 rätt så har vi 1-0.5^9 i konfidens.

Exempel 4: Samma resonemang som exempel 2.

Exempel 5: Samma resonemang som exempel 3. Dvs 1-0.5^7.

Exempel 6: Jag anser att vi får se dessa som 2 eller möjligen 3 helt separata test. Test 1 har man valt musik som avslöjar problemen i anläggningen, och detta räcker i sig för att ge hög konfidens. Dvs 1-0.5^9.

av **Lazyworm** » 2006-12-19 13:38

För några år sedan gjorde jag en liten lösning till Johan Holmsäters Hälsoplan studie, denna innebär att personer från ett företag får svara på ca 50st frågor rörande allt från matvanor till rörelsevanor och göra några klassiska tester såsom kolesterol, blodtryck mm mm.

Efter detta så läser Johan av svaren i en rapport över företaget och ser
vilka "kluster" som behöver påverkas och sätter in lämpliga åtgärder.

Ca: 6mån senare gör man om samma test och sen beräknar man med signifikans (T-Test) om det blev en verklig påverkan av gruppen för att motverka långtidssjukskrivningar.

Jag sökte lite nu och läste följande om t-test
"(I en äldre bok använde man t-test på krona och klave, alltså 1 och 0, vilket går utmärkt då antalet är mer än ca: 10 st."

Det borde ju innebära att man kan implementera T-test på F/E lyssningen och beräkna ifall utslaget med signifikans kan bestämmas?

Isf. skulle jag kunna se ifall jag hittar mina gamla SP som skötte uträkningarna så kanske vi kan implementera en liten LTS databas som håller i statistikunderlag ifall detta inte finns redan.

Edit:
Via Johan Holmsäter har jag även haft kontakt med Bengt Saltin som är Professor vid Karolinska sjukhuset och som med en hel del kött på benen skulle kunna svara på vad du är Ute efter ang. statistiken till F/E testningar. Även om hans styrka är inom Fysiologin.

av **Morello** » 2006-12-19 13:48

Naj, T-fördelningen är inte tillämpbar. Det äör fråga om binomialfördelning. Själva frågan gäller dock inte fördelningen, utan handlar mer om testmetodik och hur resultaten skall tolkas.

av **Svante** » 2006-12-19 13:54

Morello skrev:Naj, T-fördelningen är inte tillämpbar. Det äör fråga om binomialfördelning. Själva frågan gäller dock inte fördelningen, utan handlar mer om testmetodik och hur resultaten skall tolkas.

I förlängningen ja, men just nu vill jag faktiskt veta om det går att räkna ut konfidensen med ovanstående exempel och hur stor den är i sådana fall.

Alltså, givet en att vi antar att vart och ett av exemplen påvisar en hörbar skillnad, hur stor är risken att det i verkligheten inte finns någon skillnad alls.

...och så ett minus det.

...och så är jag förstås intresserad att veta om det finns några förutsättningar som måste vara uppfyllda för att man ska kunna räkna som ni föreslår.

av **Morello** » 2006-12-19 14:10

Men vi är väl överens om att det fråga om binomialfördelning?

Några reflektioner:

1. Att godta såväl fel som rätt ger en faktor 2 fler utfall som godkännes. Det måste beaktas.

2. Korrelationen mellan lyssnare som uppstår vid exempel tre är olycklig eftersom man endast genom att anteckna vem som svarade först kan säkerställa att en serie de facto kommer från en och samma person.

av **Svante** » 2006-12-19 14:24

Morello skrev:Men vi är väl överens om att det fråga om binomialfördelning?

Jadå, men T-testet förutsätter väl normalfördelning och de blir ju rätt lika för stora n, så hemskt olika är de ju inte.

av **Morello** » 2006-12-19 14:30

Svante skrev:
Morello skrev:Men vi är väl överens om att det fråga om binomialfördelning?

Jadå, men T-testet förutsätter väl normalfördelning och de blir ju rätt lika för stora n, så hemskt olika är de ju inte.

Japecis, men n är väl inte särskilt stort i vår tillämpning?

av **Svante** » 2006-12-19 14:32

Morello skrev:
Svante skrev:
Morello skrev:Men vi är väl överens om att det fråga om binomialfördelning?

Jadå, men T-testet förutsätter väl normalfördelning och de blir ju rätt lika för stora n, så hemskt olika är de ju inte.

Japecis, men n är väl inte särskilt stort i vår tillämpning?

Sant...

av **IngOehman** » 2006-12-19 15:15

Svante skrev:Ja, i den här tråden vill jag endast ha svar av de som förstår sig på statistik.

Jag vill veta vad nedanstående tester ger för konfidens. Om det inte går eller är för svårt att räkna ut, tala gärna om vad som krävs för att beräkningen ska gå att utföra om ni vet det. Antag en F/E-lyssning. En person som inte deltar i lyssningen sitter och växlar mellan F och E och antecknar resultaten.

Exempel 1:
Antag att en person lyssnar och får 7 rätt i rad. Med hur stor konfidens har man visat att objektet har en hörbar ljudpåverkan?

Först och främst är det viktigt att notera att "ljudpåverkan" är inte synonymt med "kunna höra vilket alternativ som är E (eller F)" - bara "kunna skilja E från F.

Frågan om skillnad kan påvisas genom att gissa konsekvent, vilket kan ske på två sätt; alla rätt eller alla fel!

7 av 7 ger då 98,4375%

[SS = 1-0,5^(7-1), eller om man föredrar den rakare formeln: 1-(2/2^7)]

Svante skrev:Exempel 2:
Antag att en person lyssnar och får 8 fel i rad. Med hur stor konfidens har man visat att objektet har en hörbar ljudpåverkan?

Med samma motivation som föregående svar: 99,21875%

Svante skrev:Exempel 3:
Antag att fyra personer lyssnar samtidigt och ropar när de tror sig veta om F eller E är inkopplat. När en person har ropat avbryts växlingen och även de andra får avge ett svar om de vill (med kunskap om vad den först personen sagt). En person får 9 rätt i rad. Vid det laget har de tre andra avgivit 1, 3 respektive 5 svar med spridda skurar av rätt och fel. Med hur stor konfidens har man visat att objektet har en hörbar ljudpåverkan?

Nu börjar det bli mera komplicerat att utvecka svaret på frågorna, och det enklaste svarer på frågan är, att beskrivningen ovan inte innehåller tillräckligt mycket information för att man skall kunna svara. Vad betyder exempelvis "spridda skurar"? Är det 1/9 rätt svar, 2/9?, 3/9?... Vem var det som fick 9 rätta svar? Var de en person som svarade först varje gång?

Frågan kan därtill tolkas på olika sätt.

Är frågan om just personen med 9 rätta svar hört skillnad eller bara haft tur?

Är frågan om det är påvisat att någon kan höra skillnaden?

Och så vidare.

Beroende på allt detta kan signifikansen vara allt från hygglig till dålig.

Utan att veta den utelämnade informationen är det orimligt att se utfallet som något annat än en indikation på att man bör fortsätta testen med bara den lyssnare som gissat 9 rätt rad, eller fortsätta för att få mera statistik att räkna på.

Svante skrev:Exempel 4:
Samma som 3, men den första personen får i stället 9 fel i rad.
Med hur stor konfidens har man visat att objektet har en hörbar ljudpåverkan?

Samma svar som 3.

Svante skrev:Exempel 5:
Samma förutsättningar som i 3, men nu avger endast två av personerna svar, de två andra avstår. De båda första får 7 rätt i rad, vardera. Med hur stor konfidens har man visat att objektet har en hörbar ljudpåverkan?

Även här saknas en massa information, men konfidensen blir mellan 98,4375% och 99,9878%, beroende på hur det hela utspelade sig i detalj.

Svante skrev:Exempel 6:
Antag att en person lyssnar. Han gör flera test, en med basrik musik och två med diskantrik musik. I bastestet och får han 9 rätt i rad, de andra två ger spridda skurar. Med hur stor konfidens har man visat att objektet har en hörbar ljudpåverkan?

Information saknas igen. Vad betyder spridda skurar?

Att redovisa resultatet bör ske med utgångspunkt från programmaterialen. Det är nästan nödvändigt att också göra en intelligent bedöming av hur mycket studierna har med varandra att göra. Om exempelvis det använda programmaterialet är båda bas- och diskantrikt, och är samma i alla tre fallen (eller extremt snarlikt) och man bara bett lyssnaren att lyssna efter skillnader i olika register i de två första mot det sista, är testet så klantigt genomfört att det blir praktiskt taget omöjligt att bedöma signifikansen på testen.

Är det helt isolerade företeelser däremot, är det rimligt att ange att skillnad specifikt i basområdet detekterades med en signifikans om 99,609375.

Det är alltid viktigt att minnas att sigifikans är signifikans, och inget annat. Inte ens en signifikans om 99,9999% betyder att det man registrerat behöver vara sant, bara att det är ett sällsynt (en på en miljon) tillfälle, om det inte är det.

Det är också viktigt att minnas varför man gör en studie. Gör man den för att etablera en kunskap kan man ofta ställa helt andra krav på studien, än om man gör den för att kunna publicera sig, kanske för att visa att man behövstar statistiken. I det förstnämnda fallet är det exempelvis rimligt att inkludera inte bara den statistiska signifikansen i bedömningen, utan också felets storlek och korrelation med vad som kan förväntas från överiga iakttagelser.

Om man exempelvis skall undersöka om det går att skilja två lampors färg från varandra, och testen läggs upp således att det bakom en dyker upp en av två glödlampor, och de båda två har brunaktiga nyanser, varav en är aningen mera grönaktig, och den andra aningen mera rödaktig, är det av yttersta vikt att hålla på testen tills tillfyllest (beroden på vilket krav man ställt) signifikant erhållits. Visar det sig att test-tittaren tittar förvånat på testledaren och säger att den ena ju är klargrön, medan den andra är klarröd, kanske det - om endast kunskap är målet - är rimligt att bedöma det meningslöst att fortsätta studien.

Som alltid gäller det att göra intelliganta bedömningar, och så länge studierna görs blint (vilket lamp-exemplet, tro det eller ej, var!*) kan man faktiskt göra oerhört bra bedömnngar innan en statistisker blir nöjd. Blindtestförfarnadet är dock rimligt att inte överge, eftersom man utan detta är potentiellt utsatt för svårbedömbart stark suggestion.

Vh, iö

- - - - -

*Detta sagt till de utan vetenskaplig skolning. Blint betyder ju bara "utan tillgång till facit", inte att man inte ser, i synnerhet inte när studien handlar om vad man ser. :wink:

Överkurs: Det finns massor av saker som man kan addera till sådan här studier för att öka detektionschansen utan att förstöra signifikansen.

En av dem är att avbryta tester halvvägs och berätta hur väl folk har gissat hittills.

Ett annat sätt är att starta studien med att lyssna helt öppet, och gärna uppmana alla lyssnare att berätta för varandra vad det upplever sig höra. Inte sällan kan de hjälpa varandra att höra saker som de hade missat om de int fått det påpekat för sig av de som noterade det först.

Som testledare är det naturligtvis viktigt att hålla koll på förloppet under testet, så att signifikansen kan bedömas på ett säkert sätt. Minst lika viktigt är det förstås att inte göra några irrelevant beräkningar i efterhand, såsom att exempelvis beräkna statistiken horisontellt.

En väl upptränad intuition för vilken signifikans olika utfall ger, tillsammans med ett testförfarande som är så "trevligt" för lyssnarna att man kan förlänga testerna ordentligt och således ta höjd med jättemarginaler, för tänkbara testförlopp - är av godo.

Viktligast av allt är att aldrig glömma att det är kunskap man söker. Glömmer man det är det oerghört lätt att åstadkomma fantastisk signifikanta studier, helt utan värde.

Vetenskapens "första tes" (som jag väl nämnt till leda genom åren, och som egentligen inte är en tes, utan en definition/ett axiom) som lyder:

Man kan i bästa fall i ett experiment påvisa kända eller okända egenskaper - men man kan aldrig bevisa frånvaron av okända egenskaper.

Denna tes är oerhört viktig att minnas, men den har många bottnar. Den inte bara berättar om vikten av att inte dra slutsatser från nollresultat (jag har nu bevisat att man inte kan...), den säger också hur viktigt det är att anstränga sig för att undvika nollresultat, genom för oskarpa metoder.

Det är alltför lätt att formulera testsituationer som är publicistiskt och statistiskt godtagbara, men som är bortkastad tid om det är kunskap man är ute efter att framskaffa.

av **Morello** » 2006-12-19 16:50

Ingvar skrev:Vetenskapens första test

Vad är det för test?

av **DQ-20** » 2006-12-19 16:53

Lazyworm skrev:Jag sökte lite nu och läste följande om t-test
"(I en äldre bok använde man t-test på krona och klave, alltså 1 och 0, vilket går utmärkt då antalet är mer än ca: 10 st."

Det borde ju innebära att man kan implementera T-test på F/E lyssningen och beräkna ifall utslaget med signifikans kan bestämmas?

Man kan i större urval approximera binominalfördelningen med t-fördelningen. Det var viktigare förr när man inte hade datorer. Det är en dåligt tillämpning använda t-fördelningen i detta fall efter a) n är litet vilket ger felskattningen, b) n är så litet att man med miniräknare med lätthet kan räkna ut binominalfördelningen.

/D

av **DQ-20** » 2006-12-19 16:59

Svante skrev:
Morello skrev:Naj, T-fördelningen är inte tillämpbar. Det äör fråga om binomialfördelning. Själva frågan gäller dock inte fördelningen, utan handlar mer om testmetodik och hur resultaten skall tolkas.

I förlängningen ja, men just nu vill jag faktiskt veta om det går att räkna ut konfidensen med ovanstående exempel och hur stor den är i sådana fall.

Man kan inte säga "i förlängningen", om du med det avser att renodla kalkylen från tolkningen. Redan innan du börjar räkna måste du bestämma vad det är du räknar på. 5 päron + 3 stövlar=8 stycken. Visst, men 8 stycken vaddå? Räkna kan man ju alltid göra.

Har läst igenom Öhmans svar och håller med. Jag skulle dessutom vilja veta varför vi ombetts kommentera dessa muggiga experiment.

/D

av **Morello** » 2006-12-19 17:00

Pojkar, nu tycker jag vi lämnar T-fördelningen och återgår till spörsmålet enligt trådens första inlägg.

av **PerStromgren** » 2006-12-19 17:03

Med en dåres envishet:

Statistics for experimenters : an introduction to design, data analysis, and model building / George E. P. Box, William G. Hunter, J. Stuart Hunter finns i KTHs bibbla, ledig för utlåning.

av **DQ-20** » 2006-12-19 17:07

Morello skrev:Pojkar, nu tycker jag vi lämnar T-fördelningen och återgår till spörsmålet enligt trådens första inlägg.

Hurså, känner du dig förfördelad?

/D

av **Svante** » 2006-12-19 20:26

Ja, ska jag ge mina egna förslag, då:

Svante skrev:Exempel 1:
Antag att en person lyssnar och får 7 rätt i rad. Med hur stor konfidens har man visat att objektet har en hörbar ljudpåverkan?

Om man i förväg har bestämt att man bara ska lyssna 7 ggr och dessutom har bestämt att man bara godtar rättsvar, blir konfidensen 1-1/2^7~99,2%. Har man i förväg bestämt att man även får svara alla fel blir signifikansen 1-2/128~98,4%. (Vad man har bestämt i förväg spelar alltså roll, här och i de kommande exemplen.)

Svante skrev:Exempel 2:
Antag att en person lyssnar och får 8 fel i rad. Med hur stor konfidens har man visat att objektet har en hörbar ljudpåverkan?

Om man i förväg har bestämt att man bara ska lyssna 8 ggr och dessutom har bestämt att man bara godtar rättsvar, blir konfidensen ointressant låg. Har man i förväg bestämt att man även får svara alla fel blir signifikansen 1-2/256~99,2%.

Svante skrev:Exempel 3:
Antag att fyra personer lyssnar samtidigt och ropar när de tror sig veta om F eller E är inkopplat. När en person har ropat avbryts växlingen och även de andra får avge ett svar om de vill (med kunskap om vad den först personen sagt). En person får 9 rätt i rad. Vid det laget har de tre andra avgivit 1, 3 respektive 5 svar med spridda skurar av rätt och fel. Med hur stor konfidens har man visat att objektet har en hörbar ljudpåverkan?

Den här är knepig. Uppenbart har man inte i förväg bestämt hur många lyssningar som ska göras. Inte heller har man bestämt vems serie som ska räknas. Men om vi är lite (för) välvilligt inställda så kan vi se det som att man har bestämt sig i förväg för att lyssna 9 ggr, och att man har kört 4 upprepade försök (de 4 personerna). Förmodligen skulle man ha godtagit även 9 fel i rad. Det enskilda testet som gav 9 av 9 ger då 1-2/2^9=99,6% signifikans. Eftersom testet har körts av 4 personer men de tre andra har misslyckats, så blir totala signifikansen 0,996^4~98,4%.

Det är dock mycket tveksamt att räkna så här. Kanske hade man fortsatt testet om personen hade fått ett felsvar bland de riktiga. Det kostar signifikans. Troligen är alltså signifikansen lägre än 98,4% men det är omöjligt att veta hur mycket lägre.

Svante skrev:
Exempel 4:
Samma som 3, men den första personen får i stället 9 fel i rad.
Med hur stor konfidens har man visat att objektet har en hörbar ljudpåverkan?

Ja, som jag beskrev det ovan blir det samma som i 3, om man antar det jag gjorde där.

Svante skrev:
Exempel 5:
Samma förutsättningar som i 3, men nu avger endast två av personerna svar, de två andra avstår. De båda första får 7 rätt i rad, vardera. Med hur stor konfidens har man visat att objektet har en hörbar ljudpåverkan?

Förmodligen är signifikansen högre än i 3, men hur mycket? Det vet man inte, eftersom man inte har bestämt förutsättningarna i förväg.

Svante skrev:
Exempel 6:
Antag att en person lyssnar. Han gör flera test, en med basrik musik och två med diskantrik musik. I bastestet och får han 9 rätt i rad, de andra två ger spridda skurar. Med hur stor konfidens har man visat att objektet har en hörbar ljudpåverkan?

Konfidensen att objektet har en hörbar påverkan i det enskilda testet är 1-2/2^9~99,6% (godtagande även "alla fel", antagande att man har bestämt i förväg att man ska lyssna just 9 ggr). De tre testerna tillsammans gör att konfidensen faller till 0,996^3~98,8%.

Dahlqvist skrev:Har läst igenom Öhmans svar och håller med. Jag skulle dessutom vilja veta varför vi ombetts kommentera dessa muggiga experiment.
/D

Ja, det kan man undra. Skönt att du säger att det är ett muggigt experiment (som jag antar betyder att du inte gillar designen). Om vi fokuserar på exempel 3-5 så är upplägget väldigt likt det som LTS använder i sina F/E-lyssningar. Man bestämmer alltså INTE före testet hur många lyssningar som ska göras, man tillåter samtidiga svar, och man lyssnar enkelblint. Jag har försökt påtala att detta är dålig försöksdesign eftersom man inte vet vad det ger för konfidens, och eftersom det knappast skulle tillåtas passera i vetenskapliga sammanhang, tex i reviewprocessen till en vetenskaplig tidskrift.

Jag har också försökt få testmetodiken nerskriven så att man kan referera till den och så att alla kan se hur det går till, men fått till svar att han inte vill ha en skendebatt om metodiken (i stället för resultaten, antar jag). Det är vetenskaplig öppenhet, det.

Jag har nu stångat mig såpass blodig mot Ingvars tvärvägran att förändra testet att jag har avsagt mig vidare uppdrag i LTS styrelse. Jag kan inte ställa mig bakom testmetodiken. Jag vill alltså deklarera att LTS F/E-tester inte är Svantegodkända, vad nu det har för värde.

Edit: Jag bara måste visa hur min browser såg ut efter att jag hade skrivit det här inlägget. Titta högst upp... :lol:

av **Thomas_A** » 2006-12-20 01:03

En allmän kommentar är att styrkan i ett binomialtest med n=7 inte är stark. 6/7 rätt ger p=0.062 medans 7/7 rätt ger p=0.008. Med endast ett diskret steg mellan icke signifikant till signifikant blir den statistiska styrkan svag.

I ett test bör man ju först träna och sedan välja en person som tycks kunna höra en skillnad i öppet test för en given musik/testsnutt. Den personen får sedan givet exempelvis minst 15 omgångar som kan vara fördelade valfritt i tiden.

I en grupp av fyra, förutsatt att lyssningarna är oberoende måste man summera deras resultat. För att veta om någon i gruppen avviker från slumpen måste man tillgripa någon sorts post-hoc test eller kanske ett fishers exakt test på gruppens resultat med post hoc.

Behöver fräscha upp lite i mina kunskaper märker jag.

av **Haakan_W** » 2006-12-20 01:45

svante hur vill du att lyssningen/testet ska gå till?

av **Svante** » 2006-12-20 08:40

Haakan_W skrev:svante hur vill du att lyssningen/testet ska gå till?

Här är förslaget som totalsågades av Ingvar

http://user.faktiskt.io/svante/Forslag_till_LTS_testmetodik.htm

...med inledningen

Huga, nej det där ser inget vidare ut.
Det bygger på en massa antagnaden som i flera fall är direkt felaktiga.

...osv, ni kan väl stilen vid det här laget.

av **Thomas_A** » 2006-12-20 11:09

Får jag föreslå att ha ett minimum på 25 försök för ett tvåsvansat test. Detta för att Fisher's exakta test ger signifikant skillnad mellan 25/0 till 20/5 i en fyrfältstabell (p=0.05), medans alla svar från 21/4 och bättre inte är signifikant skilt från 25/0 (<p0.05).

av **PerStromgren** » 2006-12-20 11:19

Svante,

Jag håller helt med dig, metoden måste dokumenteras innan den används, om den ska kunna litas på. Du gör helt rätt som skriver ned den, och granskar den så att alla kan bli överens. Om IÖ inte gillar vad som står där, be om exakta förändringsförslag, inte bara kommentarer om att det är fel.

Det vore synd om LTS styrelse ska behöva bli av med en duktig ledamot av en sådan anledning.

av **n3mmr** » 2006-12-20 12:13

Svante skrev:Jag har nu stångat mig såpass blodig mot Ingvars tvärvägran att förändra testet att jag har avsagt mig vidare uppdrag i LTS styrelse. Jag kan inte ställa mig bakom testmetodiken. Jag vill alltså deklarera att LTS F/E-tester inte är Svantegodkända, vad nu det har för värde.

Edit: Jag bara måste visa hur min browser såg ut efter att jag hade skrivit det här inlägget. Titta högst upp...

Att metodiken inte är Svantegodkänd har ett stort (negativt) värde.

Jag har själv deltagit i tester enligt LTS, och kände mig alltid oerhört besviken över bristen på överensstämmelse mellan den dubbelblinda teorin och den enkelblinda och slarviga verkligheten.

Man slutade inbjuda mig efter ett tag, och jag känner mig lite ledsen över att metodiken inte förbättrats.

N.B. Det var inte så att man slutade inbjuda mig p g a att jag bråkade om metodiken: mina statistikkunskaper var inte sådana att jag tog en debatt om metodik med folk som varit med förr. Snarare var det tillfälligheter, och ev att jag inte hörde skillnader så fort som den mest snabbtjoande.

av **Thomas_A** » 2006-12-20 12:21

Jag tänkte mig ett "sign test", där man approximerar en normaldistribution från den diskreta binomialfördelningen (n*pi>5), n>10 för pi=0.5 (slump).

Om svaren är 9/10 blir z´= (0.9-0.5)-(1/(2*10)/sqr((0.9*(1-0.9)/10))=
=3.689; ->p<0.001

Dock för sample size mindre än eller lika med 10 blir p=0.004

Konfidensintervall för den sanna proportionen vid 95% är
0.9+/- 1.96*sqr(0.9*(1-0.9)/10)=
= 0.9 +/- 0.19

Dvs vi kan med 95% sannolikhet säga att den sanna proportionen ligger mellan 0.71-1.09, med förbehållet att proportionen inte kan bli större än 1.

Vet inte om det är riktigt korrekt men jag vill bara poängtera att "sample size" bör vara tillräckligt stort.

av **Morgan** » 2006-12-20 12:32

Svante, kan du inte vara snäll att ge en exakt beskrivning av hur F/E-lyssningarna går till istället? Som det är nu målar man liksom upp en skräckbild för sitt inre baserad på de halvkvädna visor som du kvider

och det är liksom omöjligt att bedöma om testerna görs vettigt eller ovettigt!

Ingvars svar ovan är ju insiktsfullt, men samtidigt så är det mycket oroväckande om man begår vissa "standardfel" som att inte på förhand bestämma vilka lyssningsserier man skall använda och vilka utfall som skall tolkas som positiva eller negativa. Därför svävar man i ovisshet om huruvida det är en ansvarsfull statistisk analys och ett vettigt testförfarande eller inte!

av **berma** » 2006-12-20 12:37

IngOehman skrev:Det är alltför lätt att formulera testsituationer som är publicistiskt och statistiskt godtagbara, men som är bortkastad tid om det är kunskap man är ute efter att framskaffa.

Om en testsituation inte är publicistiskt och statistiskt godtagbar kan den ifrågasättas, det är ju liksom därför man använder sig av vetenskapliga metoder dvs. för att resultaten inte ska kunna ifrågasättas.

Om upplägget verkligen är som jag gissar:
Att testledaren hela tiden vet vad som är F och E, att testpanelen sitter tillsammans och lyssnar, att växling mellan F och E sker godtyckligt till dess någon i testpanelen påstår sig "höra" något, och då kan kamraterna i testpanelen välja att hålla med eller inte. Och om det inte finns någon förutbestämd testserie.

Med det upplägget kan testerna manipuleras, dvs. om testledaren och någon i panelen vill ha ett visst resultat så kan man troligen också få det. Detta kan också ske omedvetet om testledaren och någon i panelen på förhand gillar eller ogillar ett testobjekt.

Observera att jag inte säger att någon oegentlighet förekommit, men för en 3:e person, vi som bara kan lita på resultaten är det viktigt att testerna sker på ett vederhäftigt och väl beskrivet sätt.

Om så inte är fallet blir ju testerna värdelösa! (för mig)

mvh.

av **Thomas_A** » 2006-12-20 13:57

Exempel 3:
Antag att fyra personer lyssnar samtidigt och ropar när de tror sig veta om F eller E är inkopplat. När en person har ropat avbryts växlingen och även de andra får avge ett svar om de vill (med kunskap om vad den först personen sagt). En person får 9 rätt i rad. Vid det laget har de tre andra avgivit 1, 3 respektive 5 svar med spridda skurar av rätt och fel. Med hur stor konfidens har man visat att objektet har en hörbar ljudpåverkan?

Om man ropar när man tror sig veta, och sedan skriftligen anger vad som är vad (utan övrigas insyn) så kan de vara oberoende från varandra. Samtligas resultat ska summeras där n=n´, dvs svar som ej är angivet skall ignoreras. Om de spridda skurarna (n´= 8 ) antas ges 4 korrekta svar blir proportionen totalt:

p=13/17=0.7647

Eftersom n´>10 approximeras normalfördelningen för uträkning av p.

H0=0.5 ger z´= (0.7647-0.5)-(1/(2*17)/sqr((0.7647*(1-0.7647)/17))=
=2.287; ->p=0.025

Trots att några förmodligen gissade blev p<0.05, vilket är gångbart.

Konfidensintervallet vid 95% blir

0.76+/- 1.96*sqr(0.7647*(1-0.7647)/17)=
= 0.76 +/- 0.23

Svante skrev:

Exempel 5:
Samma förutsättningar som i 3, men nu avger endast två av personerna svar, de två andra avstår. De båda första får 7 rätt i rad, vardera. Med hur stor konfidens har man visat att objektet har en hörbar ljudpåverkan?

Förmodligen är signifikansen högre än i 3, men hur mycket? Det vet man inte, eftersom man inte har bestämt förutsättningarna i förväg.

Här kan man bortse från de som inte angivit svar; n=n´

(Liksom man kan bortse från alla andra ute på stan som inte angivit svar.) Är svaren oberoende, alltså att de inte påverkar varandra kalkyleras den utifrån 14 försök, annars endast 7.

Såg att Svante hade n=9 på de spridda skurarna, jag räknade dock på n=8. Principen var viktigast, det är bara att räkna igen.

av **Morello** » 2006-12-20 14:04

Thomas_A skrev:Om man ropar när man tror sig veta, och sedan skriftligen anger vad som är vad (utan övrigas insyn) så kan de vara oberoende från varandra.

Ja, så skulle man kunna göra, dvs rapportera skriftligt för att undvika korrelation mellan lyssnarna.

En annan lösning skulle kunna vara ett system där varje lyssnare har en knappdosa, som kopplas till gemensam dator eller dyl. för datainsamling och vidare statistisk analys.

av **Svante** » 2006-12-20 14:21

Morgan skrev:Svante, kan du inte vara snäll att ge en exakt beskrivning av hur F/E-lyssningarna går till istället? Som det är nu målar man liksom upp en skräckbild för sitt inre baserad på de halvkvädna visor som du kvider och det är liksom omöjligt att bedöma om testerna görs vettigt eller ovettigt!

"halvkvädna visor..." :lol:

Jaja...

Morgan skrev:Ingvars svar ovan är ju insiktsfullt, men samtidigt så är det mycket oroväckande om man begår vissa "standardfel" som att inte på förhand bestämma vilka lyssningsserier man skall använda och vilka utfall som skall tolkas som positiva eller negativa. Därför svävar man i ovisshet om huruvida det är en ansvarsfull statistisk analys och ett vettigt testförfarande eller inte!

Svante skrev: En person som inte deltar i lyssningen sitter och växlar mellan F och E och antecknar resultaten.
Flera, tex fyra, personer lyssnar samtidigt och ropar när de tror sig veta om F eller E är inkopplat. När en person har ropat avbryts växlingen och även de andra får avge ett svar om de vill (med kunskap om vad den först personen sagt).

...är nog en hyfsat bra beskrivning av lyssningssituationen. Försöksledaren skriver ner avgivna svar i kolumner, en per person, och sedan utvärderas lappen under gång av försöksledaren och testet avbryts när man tycker att tillräcklig signifikans uppnåtts. Eventuellt fortsätter man om någon tycker att man ska det.

av **Thomas_A** » 2006-12-20 14:23

Exempel 6:
Antag att en person lyssnar. Han gör flera test, en med basrik musik och två med diskantrik musik. I bastestet och får han 9 rätt i rad, de andra två ger spridda skurar. Med hur stor konfidens har man visat att objektet har en hörbar ljudpåverkan?

Har man 3 x 9 omgångar = 27 där en omgång ger 9/9 och de andra antas ge 9/18 blir proportionen

18/27=0.666

H0=0.5 ger z´= (0.666-0.5)-(1/(2*27)/sqr((0.666*(1-0.666)/27))=
=1.6248; ->p=0.1

Dock har testet ett inbyggt fel eftersom om man gör en AB mellan en 1 kHz och 2 kHz ton och sedan bygger på detta med ett test på nivåskillnadsdetektion av 0.001 dB så jämför man äpplen med päron.

av **Thomas_A** » 2006-12-20 14:28

Svante skrev:
Morgan skrev:Svante, kan du inte vara snäll att ge en exakt beskrivning av hur F/E-lyssningarna går till istället? Som det är nu målar man liksom upp en skräckbild för sitt inre baserad på de halvkvädna visor som du kvider och det är liksom omöjligt att bedöma om testerna görs vettigt eller ovettigt!

"halvkvädna visor..." Jaja...

Morgan skrev:Ingvars svar ovan är ju insiktsfullt, men samtidigt så är det mycket oroväckande om man begår vissa "standardfel" som att inte på förhand bestämma vilka lyssningsserier man skall använda och vilka utfall som skall tolkas som positiva eller negativa. Därför svävar man i ovisshet om huruvida det är en ansvarsfull statistisk analys och ett vettigt testförfarande eller inte!

Svante skrev: En person som inte deltar i lyssningen sitter och växlar mellan F och E och antecknar resultaten.
Flera, tex fyra, personer lyssnar samtidigt och ropar när de tror sig veta om F eller E är inkopplat. När en person har ropat avbryts växlingen och även de andra får avge ett svar om de vill (med kunskap om vad den först personen sagt).

...är nog en hyfsat bra beskrivning av lyssningssituationen. Försöksledaren skriver ner avgivna svar i kolumner, en per person, och sedan utvärderas lappen under gång av försöksledaren och testet avbryts när man tycker att tillräcklig signifikans uppnåtts. Eventuellt fortsätter man om någon tycker att man ska det.

Genom att dela ut lapparna till försökspersonerna blir det bättre. Icke angivna svar ignoreras. Antar man 4 i panelen och i snitt 5/10 svar per person skulle det bli n´=20.

av **Thomas_A** » 2006-12-20 14:39

By the way:

http://web.archive.org/web/200402232344 ... layers.htm

Double-blind test of two CD players reveals audible difference

John Stalberg, Thomas Akerlund, and Mikael Sundman

Background

The purpose of this test was to investigate whether modern CD players sound different or not.
This is a controversial issue as there is little or no scientific evidence that CD players are
audibly different. A previous test have shown that the first CD player imported to the US,
the 14-bit Phillips CD player CD100, was audibly different to a Sony player
(www.oakland.edu/?arlst/abx_cd.htm). The score was 67% correct guesses with a p lower
than 0.005. Other modern CD players did not show any audible difference.
These results were published in PSACS Sound Bytes Vol. 7 No. 1, 1996.
The Swedish Sound Audio Technical Society has previously been able to distinguish CD players
in blind tests, but the result has not been confirmed in any double blind test.
The result from the present study showed that there indeed is a significant and
audible difference between two specific CD players. Thus, the notion that all CD players
sound the same is not correct. Another conclusion is that changing CD players in an upgrade
path indeed may have a purpose Рi.e. to get a better sounding system.
However, there is little information of which CD players that sound poor and which sound good,
and for the consumer to know this, an extensive testing must be performed.

Material and methods

Reference system. The reference system consisted of Sentec SC9 pre-amplifier,
four NAD 208 Power amplifers (2 x 280 Watt/8 Ohm for each amplifier), INO Audio r 56 speakers
and 4 INO Audio profundus Z-4 subs, and Sentec DiAna DA converter.
Each item has been selected as be the most audible transparent for music and test signals
(i.e. uncoloured sound) using a Ңefore-afterӠtest(i.e. signals pass trough without
audible change of the pattern/waveform). The listening room is damped for early reflections,
and reproduce a frequency response of 20-20000 Hz within 1 dB limits (at listening position).
Max SPL is around 137 dB at 17 Hz.

Test objects. A Denon DCD 655 and a Harman Kardon HD7600 CD player with variable analogue output
were chosen as test objects. The output level of the Harman Kardon CDP was adjusted
to match the Denon at a dB level of ?0.01 dB using a oscilloscope and a 1 kHz Hz test signal,
as measured from the output of the pre-amplifier.
Listeners. Thomas Akerlund (1), Mikael Sundman (2) John Stalberg (3).
Both persons 2 and 3 are musicians and audio recording specialists and are very well trained
listeners, and familiar with both the reference system and the test objects.
Person 1 has limited or no previous experience of the reference system or the test objects.

Test procedure. All listeners were given a training session for about one to two hours.
First, the Harman Kardon CD player was auditioned and compared against the reference DA converter
and its character was noted. After a positive result in blind conditions with the
two different tests objects, they were chosen. Starting the DBT, one person (3)
tossed a coin ten times and wrote down the order on a paper, while the other two persons were
in another room. He made all the switches and was not visible or made any noise to the
test persons during the entire test. The CD players and the back of the preamplifier were
hidden with blankets. The test signal was two identical (verified by data analysis) copies
of a drum session. Each of these was set on repeat on the CD players, with exact matching of
length. For each test, one person made the switching and the other person made the listening
test. The switcher started to switch from CD (neutral) to either Aux 2 (CD player X) or
Aux 3 (CD player Y), without saying anything to the listener. Then the test was continued
with 5-10 seconds of listening at each input with about 1 second delay at neutral,
i.e. a test order of e.g. X - neutral РY Рnetrual РX etc. Since the sound of the CD players
were not synchronised the length of the listening period varied randomly during the test.
This procedure did cause some confusion, since it was not always obvious if a switching had
occurred and made it more difficult for the listener. Nevertheless, when the listener decided
which sound that related to which test object, the switcher noted which input he had chosen,
and the test result was written down. One person (1) conducted six listening trials,
and there was a switch between these two for the remaining four test, i.e. person 1 became
the switcher and person 2 the listener. After ten trials the result was compared to the written
scheme as made from person 3. After this, a second listening test with three trials was conducted
with person 3 as listener, 1 as switcher and 2 as the coin flipper.

Results and discussion

Training session. In the initial training session all listeners concluded that the Harman Kardon
CD player was very similar to the DiAna reference DA converter. A somewhat higher impact in drums
and a little brighter sound than the DiAna was noted.
When the Denon CD player was tested against the Harman Kardon, it became evident that the
Denon CD player had a brighter sound as noted on drums and background noise from the
recording(the noise produced by the CD players was never at audible levels).
Test person 1 was not as familiar with critical listening as person 2 and 3,
and had no previous listening experience with the test objects, although he also noted a
difference when these were tested. The listening session was ended with single blind guesses,
in which most cases were correct (Ÿ0%).

DBT session. The final result from the DBT tests was that 11 out 13 trials were correct.
This corresponds to 85% (p=0.01) correct choices, which is significantly different from
random choice. The two faulty choices came from person 1, who was not as familiar with the system
and had less training than the other two. Also, person 1 suffered from some listening fatigue
after the training session, and may have scored better with a different outlay of the experiment.
For example, listener 1 could have borrowed and listened to the CD players for a while,
before the test was done. The conclusion was however, that there is a 99% probability that the
CD players were audibly different.

av **Thomas_A** » 2006-12-20 14:44

För ovanstående test är det några missar, bla att vi borde gjort det med en extern D/A kopplad för att unvika synkproblemet.

Vi gjorde detta dock för en amerikans publik och vi hade en person på g från USA för att medverka, men så blev det inte. Därav ville vi använda "kända" spelare och inte Sentec DiAna som inte direkt är välkänd där borta.

Nummer 2 är att vi borde gjort fler omgångar, minst 20.

T

av **Thomas_A** » 2006-12-20 16:11

Till sist skulle jag vilja tillägga att ett bygge av en ABX-komparator inte borde vara så svårt och att det skulle vara mycket enklare att genomföra testerna. I LTS regi kanske den skulle heta FEX-komparator.

av **Morello** » 2006-12-20 16:31

I dagsläget finns en FE-testutrustning(som jag byggde under sommaren 2006) som innehåller allt man behöver för test (försteg, differentiell ingång, trimpottar osv). På fronten finns en vippomkopplare(som driver ett relä) med vilken man väljer F eller E-signal. På bakpanelen finns ett 1/4"-tele-uttag för extern trigger, vilket kan vara en slumpgenerator tex.

Är det något sådant du tänker på?

av **Thomas_A** » 2006-12-20 17:11

Låter som en sån apparat, dock har en ABX tre omkopplingar. Den kända A, den kända B (vilket kan vara F och E) samt en okänd X (som slumpmässigt är antingen A/B eller om man så vill F/E mellan varje omgång).

Fördelen att en vridomkopplare med X i mitten samt A och B ovan/nedan är att man snabbt kan skifta mellan X-A och X-B för direkta jämförelser. Stora nackdelar med AB:

1. I ett AB-test är båda okända och man har ingen direkt jämförelse under testets gång vad som är vad. Det kan leda till att en eller flera gör 8 fel istället för 8 rätt vid en ev hörselskillnad, vilket gör att den summariska statistiken från fler testpersoner blir en soppa.

2. Hörselminnet är kort. Det kan leda till förvirring under testet där enskilda av misstag blandar ihop hur A och B en gång lät och byter så att säga sin preferens för vad som är A och B. Blir också en soppa.

av **PerStromgren** » 2006-12-20 17:22

F/E-lyssningen är väl utformad som en A/B-lyssning, inte en A/B/X-lyssning, väl? Jag tror att X:et skulle tillföra en massa även i F/E-fallet.

av **IngOehman** » 2006-12-20 17:22

Har precis upptäckt hur den här tråden har utvecklat sig efter att jag gjorde ett inlägg i den (som ingen i sak tycks kritisera med avseende av de statstiska signifikanserna).

Blir förstås ledsen över att se att den testmetod som använts genom alla år presenteras på ett förvrängt sätt här i en tråd på faktiskt, där väl det värsta är att det antyds att så korta serier som i exemplen har använts. Inte i det ursprungliga inlägget, men senare...

Blir ledsen även över att se att mitt inlägg misstolkas, således att någon (berma) försöker få det att verka som om jag menat att vetenskaplighet inte är viktigt

, när det jag skrev bara var att om man har att välja mellan antingen:

1. En komplicerad modell som ger snabba resultat, är enkel att använda och som ger fantastisk detektionsförmåga, men som är svår att beskriva,

och:

2. En enkel modell att beskiva, som ger dålig detektionsförmåga,

(både ger samma statistika signifikans)

så bör man välja den förstnämnda när man primärt är ute efter att skaffa sig kunskap om testobjektet.

Nollresultat är förvisso vetenskapligt korrekt på alla sätt, men det ökar inte ens kunskaper om testobjektet, och att testmetodiken är svår att beskriva spelar ingen roll när syftet med testerna inte är att beskriva dem metodologiskt, utan att knna beskriva apparaterna som undergått dem.

Att fokusera på att möjliggöra för alla i F/E-lyssningen inblandade att prestera sitt yttersta, är därför fundamentalt. Att göra det lätt att beskriva en procedur, som dock allför ofta eller rent av alltid ger nollresultat, är att helt missa målet. Verkligheten ligger förstås alltid någonstans mitt emellan dessa ytterligheter, men ambitionen bör alltid (enligt min uppfattning) vara att göra testen meningsfull.

Allra tristast tycker jag det är att se att innehåll i ett email jag skickat i en intern diskussion inom styrelsen (som inte ens borde ha skett vie email, utan på ett möte) läggas ut på en diskussiontråd, dessutom klippt ur sitt sammanhang!

Oavsett vilket har jag ställt min plats till förfogande i LTS.

Det skall vara kul att hålla på, annars kan det kvitta, sjöng galenskaparna.

Att bli offentligt avrättat för den insats man försökt bidra med genom åren för att göra testerna både vetenskapliga och kraftfulla detektionsmässigt, är inte kul. Att det dessutom sker baserat på schablonartade framställningar med korta serier och antydningar om att det inte säkerställts tillräcklig signifikans (vilket inte alls överensstämmer med hur det gått till i verkligheten) är INTE kul alls, och då kan det, som nämnts, kvitta.

Det måste vara kul - och om inte själva arbetet är det, så i varje fall måste det finnas en känsla av att det arbete man lägger ned uppskattas.

Det känslan får inte jag när till och med styrelsemedlemmar lämnar den interna diskussionen, och går istället till angrepp på offentliga internetfora.

Vh, iö

av **IngOehman** » 2006-12-20 17:30

Thomas_A skrev:Till sist skulle jag vilja tillägga att ett bygge av en ABX-komparator inte borde vara så svårt och att det skulle vara mycket enklare att genomföra testerna. I LTS regi kanske den skulle heta FEX-komparator.

Det är just försök med dylik metod som resulterade i att jag valde en annan. :wink:

Det skiljde en del på detektionströskeln.

De allra skickligaste lyssnarna, när de hade sina bästa dagar, förmådde nå ned till ungefär samma tröskel med FEX - men "lika bra" är sämre än bättre. I synnerhet när det bara är ibland.

Dessutom tar ett FEX-test (där bara en lyssnare i taget kan lyssna, om det utförst på normalt sätt) oerhört mycket längre tid att genomföra. Det är redan som det är svårt att hinna med allt vi vill testa.

Vh, iö

av **berma** » 2006-12-20 18:06

IngOehman skrev:
Blir ledsen även över att se att mitt inlägg misstolkas, således att någon (berma) försöker få det att verka som om jag menat att vetenskaplighet inte är viktigt , när det jag skrev bara var att om man har att välja mellan antingen:

1. En komplicerad modell som ger snabba resultat, är enkel att använda och som ger fantastisk detektionsförmåga, men som är svår att beskriva,

och:

2. En enkel modell att beskiva, som ger dålig detektionsförmåga,

(både ger samma statistika signifikans)

Vh, iö

Kan ni inte beskriva hur ni gör eller hur ni räknar så kan ju ingen utomstående bedöma eller upprepa era tester, då landar det ju bara i er trovärdighet, eg. att ni lovar att det har skett på ett vederhäftigt sätt.

Det känns faktiskt inte särskilt vetenskapligt.

mvh.

av **IngOehman** » 2006-12-20 18:22

Underligt citat du fick till där... Du klippte innan jag avslutat meningen.

Men visst, självklart bygger det på förtroende. Så är det ju nästan alltid
när man väljer någon till en post. Saknas det förtroendet - alltså att jag
säkerställer att en tillfyllest signifikans hålles - så bör jag inte få behålla
det ansvaret.

Konsekvensen är att jag bör avgår - vilket redan skett.

Ok? Problem fixed!

Vh, iö

- - - - -

PS. Det här funkar ju precis som inom politiken - sänk någons
förtroende med hjälp av offentlig kritik, och hoppas på att det
får dem att tappa lusten så till den milda grad att de inte orkar
försvara sig, utan väljer att avgå istället.

av **Morgan** » 2006-12-20 18:38

IngOehman skrev:Underligt citat du fick till där... Du klippte innan jag avslutat meningen.

Men visst, och saknas det förtroendet - att jag säkerställer att en tillfyllest
signifikans hålles - så bör jag inte få det ansvaret.

Konsekvensen är att jag bör avgår - vilket redan skett.

Ok?

Vh, iö

Vilken trist utveckling det blev på den här tråden! :cry:

Det är skittrist att det bara kommer en massa halvkvädna antydningar om hur metoden ser ut, som av allt att döma är konstruerade för att överdriva eventuella problem bortom alla proportioner.

Jag är säker på att alla skulle ha fullt förtroende för att metoden ger en signifikansnivå som är tillfyllest, om bara metoden redovisades i sin fulla glans! Det bör till sist inte handla om förtroende för enskilda personer, utan om förtroende för att den valda metoden är bra, anser jag.

Det finns ett enkelt sätt att ställa saker tillrätta: Redovisa metoden öppet (ett krav jag tycker är rimligt att alltid ställa - när det gäller LTS eller Stereophile eller Astra Zeneca eller vem som helst som hävdar något) och visa med hjälp av kall matematisk statistik att metoden är tillfyllest!

Varför redovisas inte metoden öppet?

av **IngOehman** » 2006-12-20 18:39

Det finns inget hemligt med "metoden", men exakt hur det går till är svårt både att förklara och att inse utan att närvara själv. I varje fall om man har ambitionen att absolut ingen skall missförstå något. Dessutom är inte någon specifik metod fastslagen. Den kan variera inom vida ramar, med målet att minimera detektionströskeln.

Att försöka beskriva den i varje liten psykologisk detalj (för det är ju till stor del sådant som är poängen - detektionströsklarna påverkas otroligt av vilken testsituation lyssnarna tvingas in i. Trivselaspekternas analys är kruxet med att få en riktigt bra testmetod) och orsaken till dem, det känns dödsförraktande, minst sagt.

Inte minst när man ser vilka debatter som uppstår till och med när de som rimligtivs borde veta hur det går till (Svante) är inblandade.

Detta är ett typfall av sådana frågor som inte lämpar sig för "hantering medels internet-diskussion". Avsevärt mycket mer än hälften (eller >90%?) av kritiken är baserad på felaktig information, som i sin tur sprungar ur korrekt information (verkligheten själv rent av) som förvrängts på grund av sin svårbegriplighet!

Att tro att det går att förklara något med bokstäver, som tydligen är så svårt att begripa att det missförstås av dem som varit med och haft förstahandsinformation, är minst sagt optimistiskt...

Thomas_A skrev:Genom att dela ut lapparna till försökspersonerna blir det bättre. Icke angivna svar ignoreras. Antar man 4 i panelen och i snitt 5/10 svar per person skulle det bli n´=20.

Även det är provat, och det är orsaken till att vi inte gjort så.

Vh, iö

av **berma** » 2006-12-20 18:45

IngOehman skrev:Underligt citat du fick till där... Du klippte innan jag avslutat meningen.

Men visst, självklart bygger det på förtroende. Så är det ju nästan
alltid när man väljer någon till en post. Saknas det förtroendet - att
jag säkerställer att en tillfyllest signifikans hålles - så bör jag inte få
behålla det ansvaret.

Konsekvensen är att jag bör avgår - vilket redan skett.

Ok?

Vh, iö

- - - - -

PS. Det här funkar ju precis som inom politiken - sänk någons
förtroende med hjälp av offentlig kritik, och hoppas på att det
får dem att tappa lusten så till den milda grad att de inte orkar
försvara sig, utan väljer att avgå istället.

Nja, altså jag har respekt för din kompetens och ävern LTS's integritet, dvs. jag tror fortfarande på de resultat ni kommit fram till.

men, om ni har en metod som är bättre an ABX tester så är det väl intressant för alla om den beskrivs. Och det är just för att behålla trovärdigheten det är viktigt att testmetoderna redovisas öppet.

Jag är inte med i LTS och kan ju egentligen inte ha någon åsikt om du ska avgå eller sitta kvar, men jag tycker det tråkigt om det måste gå så långt.

mvh.

av **DQ-20** » 2006-12-20 18:57

berma skrev:Kan ni inte beskriva hur ni gör eller hur ni räknar så kan ju ingen utomstående bedöma eller upprepa era tester, då landar det ju bara i er trovärdighet, eg. att ni lovar att det har skett på ett vederhäftigt sätt.

Det känns faktiskt inte särskilt vetenskapligt.

mvh.

Problemet kan väl sammanfattas med: det är inte lönt att förklara något för någon som ingenting begriper. Att utveckla testmetoder som utnyttjar fackkunskap och erfarenhet hos testledare och försökpersoner och att utveckla metoder som alla kan använda om man bara läser bruksanvisningen på paketet är två skilda saker. Förlitar man till viss del på fackkunskap så blir det svårt att förklara för utomstående på grund av det stora hoppet i kunskapsnivå. Det är t.e.x därför det är skillnad på personlighetstest som personalassistent kör på sin dator och på personlighetstest som det sitter en forskare i psykologi och bedömer. Det är därför vi får träffa en doktor och inte ett vårdbiträde med ett datorprogram. Fackkunskap kan inte läggas på burk hur som helst. Jag tycker att hela sifferexercisen leder fel. Jag kan ha vissa invändningar i om detaljer i det statistiska tänkandet men bara för att jag själv använder statistik i arbetet betyder ju inte att jag kan sätta upp "state of the art" lyssningstester om så mitt liv hängde på det. Det svåra är att utveckla själva metoden för insamling av data, inte att beräkna signifikans. Det gäller allt från medicinska studier till lyssningstest: som man ropar får man svar. Och just vad gäller datainsamling råder det här en fullständig obalans i diskussionen.

Vetenskap förutsätter visserligen någon form av kritiskt förhållningsätt, men det handlar också om att kunna lita på varandra. Även om vi här skulle kunna komma fram till olika statistiska beräkningsmetoder och testförfaranden så finns det få som är i stånd att bedöma helheten. Jag föreställer mig att det finns många faktorer som kan påverkar känsligheten i ett lyssningstest liksom olika felkällor. Jag har ingen aning. Och det är här fackkunskapen kommer in. Lång erfarenhet och träning kan inte enkelt traderas utan förblir ofta "tyst" kunskap. Diskusioner om 7 eller 11 i rad blir ytliga och missar mer grundläggande frågor om själva mätinstrumentet. Det är som att mäta med en voltmeter som hela tiden ger olika värde och sedan föra in detta i ett diagram och sedan utropa: jag är till 95 % säker att det är över 200 volt i ledningen. Men man måste mäta 25 gånger i rad annars kan man inte vara riktigt säker. Bzzzt.

Den mycket förbryllande animositeten mellan Svante och Ingvar tycker jag för övrigt kan utredas via andra kanaler än foruminlägg. Har aldrig fungerat för känsligt läge och kommer aldrig att göra det heller.

/Dahlqvist

av **IngOehman** » 2006-12-20 19:38

Jag håller nog med om varenda liten detalj av det ovanstående!

(Om jag förstod allt alldeles rätt, vilket jag i varje fall upplevde att jag gjorde.)

Kan tillägga att jag håller Svante för en av de trevligaste personer jag känner. Det är delvis därför det här offentlig-angreppet förbryllar mig.

berma skrev:Nja, altså jag har respekt för din kompetens och ävern LTS's integritet, dvs. jag tror fortfarande på de resultat ni kommit fram till.

Tack. Skönt att det finns en person som har förtroende.

berma skrev:men, om ni har en metod som är bättre an ABX tester så är det väl intressant för alla om den beskrivs.

Om jag trodde att det var möjligt utan att drabbas av en oänligt lång diskussion som drivs av missförstånd, ja - då hade det varit det.

berma skrev:Och det är just för att behålla trovärdigheten det är viktigt att testmetoderna redovisas öppet.

Ja, kanske i teorin, men när jag drabbas av missförtroende till och med från delar av tekniska sektionen, från någon som deltagit i testerna, så känns det inte som om förtroende handlar om information.

Jag kan inte nog informera hur jag har betraktat statistiken, och sett till att ta höjd för alla de osäkerhetsfaktorer (som inte är alls så osäkra som man kan tro, det handlar bara om att se helheten) som riskerar att nagga på marginalerna. Jag har klargjort proportionerna som behövs för att kunna tillåta långa och elastiska serier (det vill säga maximal frihet i exekverandet av testerna), men mötts av misstroende.

Trots kontrollräkningar från invändaren, har det visat sig att mina redovisningar av nödvändiga marginaler (för att säkerställa statistisk signifikans vid flexiblare utförande av testet) har hållit granskningen (vilket förstås inte var någon överraskning för mig). Signifikansen sjunker inte alls till 50% (eller "till noll", som han sade :wink:

) när man tar höjd för att kunna fortsätta en initial serie om 8 lyssningar, om man inte lyckas träffa in en rimlig serie. Som jag hävdade, handlar det om några enstaka extra konsekventa svar för att ta höjd för "fri fortsättning".

Hursomhelst: När man misslyckas med att falsifiera saker, brukar man upphöra med kritiken, i varje fall ur just den angreppsvinkeln. Det hade jag väntat mig även i detta fall.

berma skrev:Jag är inte med i LTS och kan ju egentligen inte ha någon åsikt om du ska avgå eller sitta kvar, men jag tycker det tråkigt om det måste gå så långt.

Det tycker jag också, men att stanna kvar känns ännu tråkigare.

Som sagt: Det skall vara kul - annars kan det kvitta.

Vh, iö

av **grannilsson** » 2006-12-20 20:18

IngOehman skrev:
Oavsett vilket har jag ställt min plats till förfogande i LTS.
Det skall vara kul att hålla på, annars kan det kvitta, sjöng galenskaparna.

Vore tråkigt Ingvar om det blev så, hoppas verkligen inte det blir en realitet,
jag är i varje fall den andra på att skriva under på att jag har fullt förtroende för din kompetens inom Audio området såväl tekniskt som praktiskt här på Faktiskt och inom LTS vilket har/är en ynnest att ta del av.
Vh Göran Nilsson

av **Thomas_A** » 2006-12-20 20:21

IngOehman skrev:
Thomas_A skrev:Till sist skulle jag vilja tillägga att ett bygge av en ABX-komparator inte borde vara så svårt och att det skulle vara mycket enklare att genomföra testerna. I LTS regi kanske den skulle heta FEX-komparator.

Det är just försök med dylik metod som resulterade i att jag valde en annan.

Det skiljde en del på detektionströskeln.

De allra skickligaste lyssnarna, när de hade sina bästa dagar, förmådde nå ned till ungefär samma tröskel med FEX - men "lika bra" är sämre än bättre. I synnerhet när det bara är ibland.

Dessutom tar ett FEX-test (där bara en lyssnare i taget kan lyssna, om det utförst på normalt sätt) oerhört mycket längre tid att genomföra. Det är redan som det är svårt att hinna med allt vi vill testa.

Vh, iö

Ingvar, jag vet inte om det är du eller jag som missförstår. Ett före och eftertest kan ju göras med följande:

1. Inlyssning.
2. Randomiserad ordning F och E, där båda är okända för lyssnarskaran.

eller

1. Inlyssning.
2. Randomiserad ordning på X, med kända F och E för varje omgång. Valfritt antal jämförelser mellan X och de kända F och E innan bestämmer vad som är X.

Båda metoderna kan användas för en stor lyssnarskara om man önskar.

Thomas_A skrev:
Genom att dela ut lapparna till försökspersonerna blir det bättre. Icke angivna svar ignoreras. Antar man 4 i panelen och i snitt 5/10 svar per person skulle det bli n´=20.

Även det är provat, och det är orsaken till att vi inte gjort så.

Om det är själva nedskrivandet som är problemet/distraktionen istället för att direkt säga resultatet så kan man istället låta någon annan göra det, men då blir det ju en och samma person som ska svarat. Att låta andra svara efter det att någon hört den första tar ju bort oberoendet. Jag förstår iofs inte varför det ska skilja i detektionströskel om man säger svaret resp skriver det.

av **BACH** » 2006-12-20 20:40

Det här var verkligen väldigt tråkigt!

Jag har stort förtroende för både Svante och Ingvar och jag tycker inte att någon av dem skall hoppa av från LTS!!!

Vh

av **nolimitsoya** » 2006-12-20 21:17

+1 BACH.

av **PerStromgren** » 2006-12-20 21:31

Men vi som inte har några personliga intressen, såsom kompis till Svante eller Ingvar, kan inte vi få reda på hur F/E-lyssning är tänkt att fungera? Är det bara Ingvar som bestämmer hur metoden fungerar?

Jag är (inte längre) medlem av LTS, men har ändå intresse av denna metod. Var kan jag få reda på hur den fungerar? Är det hemligt? Troligen inte. Måste man stryka någon medhårs för att få reda på detta?

Jag får en otäck känsla av att kontrahenterna samlar poäng genom att ge upp offentligt. Hoppas att jag har fel.

av **Svante** » 2006-12-20 21:41

Jag ska sammanfatta varför jag lade ut det här på forumet. Jag inser att det kan tolkas som ett desperat utfall av en rättshaverist. Men jag ska försöka förklara.

Jag har ända sedan mitt första F/E-testet i LTS haft synpunkter på hur det utförs. Jag har försökt framföra det vid ett flertal diskussioner vid och efter de möten vi har haft. Inför den senaste lyssningen trodde jag att vi hade en överenskommelse om hur testet skulle ändras för att bli mer vetenskapligt, men det visade sig att jag hade tokfel. Alltför mycket tid togs från lyssningen till metoddiskussioner och vi enades till sist om att göra på det gamla sättet och ta diskussionen vid ett annat tillfälle.

Efter lyssningen skrev jag ihop förslaget till ny metod, den som jag länkade till ovan, men Ingvar tog fram yxan (och då vet ni hur det kan låta). Jag blev både förbannad och ledsen över tonen och andemeningen i den sågningen. Det är sällan jag blir riktigt arg på någon, men här blev jag det.

Mitt intryck är att Ingvar inte vill att någon ska peta i metoderna som han har utvecklat under x år (och därför måste vara perfekta (?)). Att jag också har ägnat mig åt blindtester, både yrkesmässigt och privat, spelar liksom ingen roll. F/E-lyssningen som den görs i LTS är en helig ko för honom som han vill ha full kontroll över. Det fick mig att fundera på vad jag egentligen kan bidra med i LTS, och kvar blev intet om jag inte får vara med och förändra. Min enda funktion skulle vara som alibi för LTS vetenskaplighet och det kan jag som ni förstår inte ställa upp på.

I och med det så känner jag mig också tvungen att berätta offentligt att jag inte står bakom den statistiska behandling som görs vid F/E-lyssningarna. Att jag inte kan fungera som alibi. Och ska jag berätta det med någon trovärdighet så måste jag ju berätta hur lyssningarna går till. Det är så ruskigt synd att Ingvar vägrar att ta det där sista lilla steget som skulle göra metoden acceptabel. Det är skitsnack att det skulle vara svårt att förklara hur det går till, det är bara en dålig ursäkt för att slippa redovisa det. Det är rätt enkelt att beskriva, egentligen. Det enda som är svårt är att få reda på vilken signifikans det egentligen blev.

av **patrikf_inaktiv** » 2006-12-20 21:57

Svante, kan du be Jesper Jerkert att kika på detta, om ni har nån kontakt?
Han brukar vara bra på att reda ut sånt här.

av **Sanny_X** » 2006-12-20 21:59

Svante

Hade det inte varit bätre att ta detta på ett LTS-möte eller på något annat sätt lösa tvisten inom föreningen? Detta gynnar inte föreningen.

av **nolimitsoya** » 2006-12-20 22:06

Jag tycker nog det är bättre att visa öppet att man är oense, om man är det.

av **Harryup** » 2006-12-20 22:09

Jag tycker att svagheten med metoden inte är testförfarandet utan andrahandstolkningen. Många säger att den apparaten är inte bra för den färgar ljudet utan att ha en aning om hur färgningen lät eller om den ens skulle vara upptäckbar på en mer normal anläggning vid normal lyssningsnivå. Färgat kontra ofärgat vid testögonblicket borde inte graderas som kasst eller godkännt om man inte har förståt under vilka omständigheter felet kan detekteras under vanlig musiklyssning.

av **Sanny_X** » 2006-12-20 22:10

Öppet för föreningens medlemmar, det håller jag med om.

Men för utomstående...? Testerna görs ju för medlemmarna.

av **Svante** » 2006-12-20 22:17

Sanny_X skrev:Svante

Hade det inte varit bätre att ta detta på ett LTS-möte eller på något annat sätt lösa tvisten inom föreningen? Detta gynnar inte föreningen.

Du ska veta att jag har försökt.

av **Sanny_X** » 2006-12-20 22:18

OK, mer än jag visste.

av **Thomas_A** » 2006-12-20 22:52

En sista kommentar ang. signifikanser. P-värdet för 9 rätt av 9 möjliga är 0.002, vilket innebär att av 1000 försök kommer detta resultat i snitt uppkomma 2 gånger.

I en grupp försök på 100 uppkommer den i snitt 0.2 gånger, och i en grupp på 10 0.02 gånger. Ur en grupp på 5 människor är sannolikheten att den uppkommer 0.01.

Fortfarande under 0.05 alltså.

För 7/7 blir värdet 0.008, ur en grupp med 5 personer som gör ett test blir det 0.04. Dvs den börjar gränsa det som är vetenskapligt acceptabelt.

av **n3mmr** » 2006-12-20 23:00

Thomas_A skrev:Låter som en sån apparat, dock har en ABX tre omkopplingar. Den kända A, den kända B (vilket kan vara F och E) samt en okänd X (som slumpmässigt är antingen A/B eller om man så vill F/E mellan varje omgång).

Fördelen att en vridomkopplare med X i mitten samt A och B ovan/nedan är att man snabbt kan skifta mellan X-A och X-B för direkta jämförelser. Stora nackdelar med AB:

1. I ett AB-test är båda okända och man har ingen direkt jämförelse under testets gång vad som är vad. Det kan leda till att en eller flera gör 8 fel istället för 8 rätt vid en ev hörselskillnad, vilket gör att den summariska statistiken från fler testpersoner blir en soppa.

2. Hörselminnet är kort. Det kan leda till förvirring under testet där enskilda av misstag blandar ihop hur A och B en gång lät och byter så att säga sin preferens för vad som är A och B. Blir också en soppa.

Det ska väl knappast vara preferenser man letar efter?? Se mer i nästa inlägg..

av **Svante** » 2006-12-20 23:02

patrikf skrev:Svante, kan du be Jesper Jerkert att kika på detta, om ni har nån kontakt?
Han brukar vara bra på att reda ut sånt här.

Haha, ja Jesper har ju intresserat sig en hel del för pseudovetenskap, men inte är det så illa i det här fallet. Alltså, man ska inte jämföra LTS F/E-tester med tarotkort eller nåt annat sånt om nu nån trodde att jag menade det. De är bättre än de flesta tester som görs, förmodligen bättre än samtliga andra hifiblaskor. Det är lätt att tappa proportionerna i såna här debatter.

av **patrikf_inaktiv** » 2006-12-20 23:07

Svante, jag tänkte mest på att JJ verkar vara bra på att hitta brister i metodik och statistiska resonemang samt att han verkar engagera sig när det finns tveksamheter.

av **n3mmr** » 2006-12-20 23:16

Så vitt jag förstått IÖ så söker han helst svaret på flera frågor.

Inldeningsvis vill han veta

1. Kan man (eller någon) höra skillnad mellan F och E? (Dvs egentligen nöjer han sig med svaret på "Hur troligt är det att det finns en hörbar förändring".)

omedelbart kommer steg

2. Hur svårt är det att höra skillnaden?

Sen vill han gärna föra detta vidare genom att söka samma svar för olika ljud med klokt vald karakteristik, så att man täcker in "en hel del olika ljud man brukar se som olika typer", men viktigast "En hel del olika ljud vars särskillnad underlättar detektion, karakterisering och identifikation av skillnadens egenskaper".

Han vill idealiskt kunna säga nåt i stil med en lista av påståenden som "skillnaden yttrade sig som <förändring> i <del av ljud>".
T ex "Det blev lite ljusare", "det bler lite brusigare" eller vad man kan komma på att lyssnarna upptäcker.

så det tillkommer frågan:

3. Vad är det för skillnader man hör?

och kanske i förlängningen

4. Hur allvarlig är färgningen p g a skillnaden? och i idealfallet

5. Vad ska man tro på för anledning till skillnaden, och hur åtgärdar man den?

(Nästa inlägg tar upp hur svaret på fråga 1 söks)

av **Svante** » 2006-12-20 23:26

n3mmr skrev:1. Kan man (eller någon) höra skillnad mellan F och E? (Dvs egentligen nöjer han sig med svaret på "Hur troligt är det att det finns en hörbar förändring".)
2. Hur svårt är det att höra skillnaden?
3. Vad är det för skillnader man hör?
4. Hur allvarlig är färgningen p g a skillnaden? och i idealfallet
5. Vad ska man tro på för anledning till skillnaden, och hur åtgärdar man den?

Jajustdet, och den här tråden/mina anmärkningar handlar enbart om 1.

Ska man vara noga så är allt annat OT.

Mina invändningar gäller att man inte riktigt vet hur stor risken är att man finner en skillnad som inte finns, egentligen.

De övriga punkterna är också viktiga och bör, liksom den första, behandlas med så stor omsorg som man har ork/förmåga till.

av **dimitri** » 2006-12-20 23:32

patrikf skrev:Svante, jag tänkte mest på att JJ verkar vara bra på att hitta brister i metodik och statistiska resonemang samt att han verkar engagera sig när det finns tveksamheter.

två frågeställningar.
A: metoden i sig
B: Utvärderinen av metoden.

Båda aspekterna är viktiga. Metoden kan vara hur bra som helst men om den statistiska utvärderingenn fallerar (eller anses fallera) så bör den rättas till.

Frågan är således
Är f/e metoden något att bygga vidare på?
om ja; kan utvärderingeringen skärpas?

Utvärderingen kan ALLTID skärpas.
1: är det nödvändigt?
2: är det önskvärt?

Låt mig säga så här:
LTS och dess f/e metodik är den enda, DEN ENDA, nu tillgängliga objektiva metodiken att värdera apparater. Nyktert och utan jäv.
Den måste bestå-utvecklas-förbättras.
Det kan vara så att metodiken har en större chans att få hifiallmänhetens tilltro utan Svante och Ingvar vid spakarna. OAVSETT hur rätt i sak dessa två må ha i sak.

Jag är inte medlem. Icke desto mindre tycker jag att LTS tillför en befriande (och nödvändig) frisk fläkt i den inhemska debatten.

Jag har också ett stort förtroende för Svante och Ingvar.
Det hindrar emellertid inte att det kan vara uppfriskande, förnyande, konstruktivt att nya krafter kommer in. De gamla krafterna ska inte känna sig kastade på soptippen.

av **n3mmr** » 2006-12-20 23:34

F/E-lyssning söker alltså svaret på

n3mmr skrev:1. Kan man (eller någon) höra skillnad mellan F och E? (Dvs egentligen nöjer han sig med svaret på "Hur troligt är det att det finns en hörbar förändring".)

omedelbart kommer steg

2. Hur svårt är det att höra skillnaden?

Lyssnaren bör då ges två signaler om vilka han vet att antingen är båda F eller också är den ena F och den andra E.

Intutivt tycker jag det borde vara egalt om fallet "samma signal" alltid är "Båda är F" eller om det också kan vara "Båda är E".

Sen kan det ju vara lättare i ett enskilt fall att höra skillnad om E kommer efter F eller kanske tvärtom. Men ordningen kan ju fås att vara E->F omväxlande med F->E i alla fall, om man lyssnar lite fram och tillbaka.

Det borde vara enklare, och helt OK för undersökningen om man alltid vet att "detta är F" om den ena signalen.

Om den andra signalen skall man då inte veta om den är F eller E.

Dvs in i apparaten som väljer (kan ju vara IÖ med en omkopplarlåda... och munkavle.... :-)

) skickas F resp E. I apparaten liksätts nivåerna från F och E så noga det bara går. Ur apparaten kommer en F-signal, och en X-signal, där X på slump är F eller E.

Sen ombeds lyssnaren avgöra om X är samma som F eller inte.

Är detta rätt?

av **Thomas_A** » 2006-12-20 23:44

n3mmr skrev:
Thomas_A skrev:Låter som en sån apparat, dock har en ABX tre omkopplingar. Den kända A, den kända B (vilket kan vara F och E) samt en okänd X (som slumpmässigt är antingen A/B eller om man så vill F/E mellan varje omgång).

Fördelen att en vridomkopplare med X i mitten samt A och B ovan/nedan är att man snabbt kan skifta mellan X-A och X-B för direkta jämförelser. Stora nackdelar med AB:

1. I ett AB-test är båda okända och man har ingen direkt jämförelse under testets gång vad som är vad. Det kan leda till att en eller flera gör 8 fel istället för 8 rätt vid en ev hörselskillnad, vilket gör att den summariska statistiken från fler testpersoner blir en soppa.

2. Hörselminnet är kort. Det kan leda till förvirring under testet där enskilda av misstag blandar ihop hur A och B en gång lät och byter så att säga sin preferens för vad som är A och B. Blir också en soppa.

Det ska väl knappast vara preferenser man letar efter?? Se mer i nästa inlägg..

Håller med om att ordvalet var fel, men i ett sådant test måste ljudminnet komma ihåg hur skillnaden yttrade sig vid inlyssningen. Är skillnaden mycket liten är det alltid bra att få möjlighet till en omedelbar repetition av hur F och E låter, inbyggt och helt valbart i varje omgång. Att jag skrev "preferens" har att göra med att 30-60 minuter eller längre efter inlyssning fortfarande måste ha skillnaden "i huvudet".

När Ingvar skrev om F/E så avsågs vad jag förstår i första hand att den är känsligare pga av man jämför före och eftersignal och inte två apparater med varandra. Man testar alltså en apparats färgningsegenskaper, och dessutom kan man testa apparater vid både hög och låg belastning eller utnivå och samtidigt ha en behaglig lyssningsnivå vid testet. Det kan man inte vid en konventionell A/B.

Om själva testningsförfarandet (ABX, AB) vid ett F/E har det inte skrivits så mycket om här, och heller inte om dessa skulle ha signifikant olika detektionsgrad. Jag har inte alls svårt att förstå F/Es fördelar jämfört med A/B, men jag har inte hört några direkta argument för att FEX skulle vara sämre än F/E. FEX borde vara känsligare, med de argument som framförts. Motargument kanske finns men jag vet inte om några.

av **Svante** » 2006-12-20 23:48

dimitri skrev:Låt mig säga så här:
LTS och dess f/e metodik är den enda, DEN ENDA, nu tillgängliga objektiva metodiken att värdera apparater. Nyktert och utan jäv.
Den måste bestå-utvecklas-förbättras.
Det kan vara så att metodiken har en större chans att få hifiallmänhetens tilltro utan Svante och Ingvar vid spakarna. OAVSETT hur rätt i sak dessa två må ha i sak.

Ja, håller med till fullo. Jag hoppas att kvarvarande styrelsen fortsätter testa apparater och utveckla metoden.

Och alla andra, faktiskt. Det är inte svårt att F/E-testa, speciellt inte om LTS kunde göra en liten manual på hur deras tester går till.

av **n3mmr** » 2006-12-20 23:49

Svante skrev:
n3mmr skrev:1. Kan man (eller någon) höra skillnad mellan F och E? (Dvs egentligen nöjer han sig med svaret på "Hur troligt är det att det finns en hörbar förändring".)

Jajustdet, och den här tråden/mina anmärkningar handlar enbart om 1.

Ska man vara noga så är allt annat OT.

Njae, jag håller med dig men ändå inte: Det är ev inte OT, därför att IÖ förefaller mig hävda att hur svaret på 1 söks och hur diskussionen kring detta sökande bedrivs kan påverka vilka möjligheter man har att veta nåt om vad man hörde.

Jag håller inte med honom om det.

Men att han hävdar det gör övriga frågor till on-topic, t v.

Jag tycker att en korrekt designad presentationsutrustning med en korrekt designad datainsamlingsteknik borde underlätta sökandet av "den underliggande verkligheten".
I den designen ingår rimligen en vetenskaplig diskussion, i första steg, och ständigt återkommande efter varje ny erfarenhet av metoden.

Sen vill jag påminna IÖ om hans egenproklamerade insikt om att det inte alltid är tvås fel att två träter.

av **Svante** » 2006-12-20 23:54

n3mmr skrev:Men att han hävdar det gör övriga frågor till on-topic, t v.

Ja, ok, det är kanske dumt av mig att försöka hindra tråden från att sväva bort från det jag ville, nämligen konfidens i F/E-tester och varför jag inte kan stå bakom LTS metod (för att räkna ut konfidensen). Jag bara ser hur ämnet kan komma att drunkna i en rökridå av annat. Men jag inser att jag inte kan bestämma det, så kör på.

av **Svante** » 2006-12-21 00:01

Jag kanske ska förtydliga en sak i min beskrivning av testerna. I LTS-versionen sitter försöksledaren och växlar på en omkopplare. Signalen är typiskt en kort snutt av en CD-skiva som har visat sig särskilt avslöjande, CD-spelaren sätts på repetering av denna snutt, och i varje repetering växlar försöksledaren på omkopplaren.

Man kan alltså "följa med" ett par växlingar och tänka "före-efter-före-efter..." och se om intrycket stämmer i varje växling för att till sist bestämma sig och ropa till "före" (eller "efter"). Då slutar försöksledaren växla och antecknar om svaret var rätt eller fel.

Sen får, och detta är problematiskt, även andra lyssnare instämma eller motsäga den första som svarade, och även detta antecknas.

av **silvervarg** » 2006-12-21 00:04

Svante: ...Alltså, man ska inte jämföra LTS F/E-tester med tarotkort eller nåt annat sånt om nu nån trodde att jag menade det. De är bättre än de flesta tester som görs, förmodligen bättre än samtliga andra hifiblaskor. Det är lätt att tappa proportionerna i såna här debatter.

Först och främst håller jag med Svante om att LTE F/E-tester är de mest trovärdiga tester som jag har sett resultat från. Jag hoppas att de skall förbli minst lika trovärdiga som de hittills har varit.

Svante föreslår förändringar i metoden i ett försök att öka testernas trovärdighet. I och för sig ett lovvärt initiativ om det har goda chanser att lyckas.
Just nu ser det ut som stor risk att både Svante och Ingvar lämnar skeppet i vredesmod. Ett sådant förfarande anser jag skulle skada LTS F/E tester otroligt mycket mer än att fortsätta med nuvarande metod även om den möjligen har brister.
Det gäller att se till helheten och inte bara till detaljerna.
Tester genomförs till stor del pga eldsjälar som utför ideellt arbete. Om man kräver att pressa in saker som gör detta arbete betydligt tråkigare så kommer eldsjälarna försvinna och då blir inget arbete utfört.
Jag jobbar och har jobbat mycket ideellt (dock inte med HiFi anknytning) och har sett liknande problem vid flertalet tillfällen.
Visst måste man sätta gränser om något är totalt galet, och man får gärna försöka påverka (helst med eget arbete och engagemang) för att att förbättra saker. När man däremot ställer hårt mot hårt i en känslomässig situation så bör man vara beredd att ta eventuella konsekvenser på ett ansvarsfullt sätt.

Jag känner varken Svante eller Ingvar och diskussioner på Forum tenderar att missa några viktiga saker, som t.ex. känslor och vill därför inte dra några slutsatser av era utspel i denna tråd. Däremot hoppas jag att ni läser detta inlägg och begrundar vad som är bäst för LTS (som jag tror att ni båda har ett hjärta som klappar för).
Dessutom vill jag uppmana er att prata direkt med varandra (möjligen per telefon) för att försöka lösa eran personliga dispyt i detta ärende.

av **Svante** » 2006-12-21 00:06

Ang AB och ABX:

Jag har aldrig förstått poängen med ABX, jag tycker det verkar jobbigt att jämföra två jämförelser med varandra, men inser att en del tycker att det är enklare. Eftersom jag inte heller ser något metodologiskt problem med ABX, annat än att det kräver en aningen annorlunda utrustning, så kan jag inte säga att den ena är bättre än den andra.

Man kan välja det man vill, helt enkelt, tycker jag.

av **n3mmr** » 2006-12-21 00:10

Svante skrev:
n3mmr skrev:Men att han hävdar det gör övriga frågor till on-topic, t v.

Ja, ok, det är kanske dumt av mig att försöka hindra tråden från att sväva bort från det jag ville, nämligen konfidens i F/E-tester och varför jag inte kan stå bakom LTS metod (för att räkna ut konfidensen). Jag bara ser hur ämnet kan komma att drunkna i en rökridå av annat. Men jag inser att jag inte kan bestämma det, så kör på.

Ursäkta, Svante, jag missade smileyn.

Det är OT att ta upp de andra aspekterna annat än i nåt slags "metakonsekvensdiskussion". Det är inte dumt att försöka hindra utsvävningar, i stort ialla fall.

Jag önskar att vi nu kan återgå till att tala om hur konfidensen påverkas av metodval, samt hur man väljer en lämplig metod för just fråga 1 (och kanske delvis fråga 2) med hänsyn till att den inte ska vara för tung, enkel att repetera samt inte hindra kunskapsinhämtning i de övriga avseendena.

(Pust puh, vilket hemskt språk..)

Dessutom hoppas jag att det i framtiden kan bli verkligt dubbelblint.

av **n3mmr** » 2006-12-21 00:18

Svante skrev:Ang AB och ABX:

Jag har aldrig förstått poängen med ABX, jag tycker det verkar jobbigt att jämföra två jämförelser med varandra, men inser att en del tycker att det är enklare. Eftersom jag inte heller ser något metodologiskt problem med ABX, annat än att det kräver en aningen annorlunda utrustning, så kan jag inte säga att den ena är bättre än den andra.

Man kan välja det man vill, helt enkelt, tycker jag.

Jag har alltid undrat varför man inte faktiskt testar direkt det man säger sig vilja testa, nämligen om det finns en skillnad?

Dvs Spela upp X resp Y. två svar kan ges: X=Y eller X<>Y.

Två fall finns: (X=F, Y=F) resp (X=F, Y=E)

Vari ligger nackdelen med denna metod??

av **Thomas_A** » 2006-12-21 00:19

Svante skrev:Ang AB och ABX:

Jag har aldrig förstått poängen med ABX, jag tycker det verkar jobbigt att jämföra två jämförelser med varandra, men inser att en del tycker att det är enklare. Eftersom jag inte heller ser något metodologiskt problem med ABX, annat än att det kräver en aningen annorlunda utrustning, så kan jag inte säga att den ena är bättre än den andra.

Man kan välja det man vill, helt enkelt, tycker jag.

Poängen med en ABX är ganska uppenbar eftersom hörselminnet är kort. Att man missar en del skillnader pga av detta är uppenbart, vid musiklyssning är ju upplevelsen i samma stund man hör ljudet.

Att först jämföra A med B hur många gångar jag vill. Vilken är skillnaden och vad ska jag specifikt lyssna till? Sedan A med X, hur mycket man vill. Hör jag samma skillnad? Sedan B med X, hur mycket man vill. Hör jag skillnad? Och sedan kunna repetera det hela hur många gångar man vill, innan man anger vad X är.

I ett AB kan man visserligen detektera skillnaden men det finns en risk för felval då man inte har direkt access till det kända A och B när processen är blindad. ABX ger möjligheten att direkt kontrollera vilken förändring som tillhörde A eller B.

av **Svante** » 2006-12-21 00:21

silvervarg skrev:Däremot hoppas jag att ni läser detta inlägg och begrundar vad som är bäst för LTS (som jag tror att ni båda har ett hjärta som klappar för).
Dessutom vill jag uppmana er att prata direkt med varandra (möjligen per telefon) för att försöka lösa eran personliga dispyt i detta ärende.

Jadå, jag läser. Men även om vi skulle lösa just det som har hänt så ser jag ingen återvändo för mig själv till LTS styrelse. Det går liksom inte oavsett om Ingvar låter sig övertalas tillbaka eller inte. Smällen och insikten var för hård. Och jag är både glad och ledsen för det. Jag är glad för att jag äntligen kan berätta öppet om min kritik mot testet, jag har länge velat öppna upp verksamheten men mött motstånd. Jag är ledsen bla för att det kommer att innebära mindre deltagande i hifisverige.

Men det där var OT.

av **Svante** » 2006-12-21 00:23

n3mmr skrev:
Svante skrev:Ang AB och ABX:

Jag har aldrig förstått poängen med ABX, jag tycker det verkar jobbigt att jämföra två jämförelser med varandra, men inser att en del tycker att det är enklare. Eftersom jag inte heller ser något metodologiskt problem med ABX, annat än att det kräver en aningen annorlunda utrustning, så kan jag inte säga att den ena är bättre än den andra.

Man kan välja det man vill, helt enkelt, tycker jag.

Jag har alltid undrat varför man inte faktiskt testar direkt det man säger sig vilja testa, nämligen om det finns en skillnad?

Dvs Spela upp X resp Y. två svar kan ges: X=Y eller X<>Y.

Två fall finns: (X=F, Y=F) resp (X=F, Y=E)

Vari ligger nackdelen med denna metod??

Nackdelen ligger i att man snarare kommer att mäta upp folks benägenhet att lita på sin förmåga. De kan alltid välja att säga att det inte finns någon skillnad. Den som gärna fegar kommer att behöva mer skillnad för att våga säga att den finns.

Om man tvingar folk att välja så gör de så gott de kan och då får man reda på hur bra de kan.

av **Svante** » 2006-12-21 00:27

Thomas_A skrev:Poängen med en ABX är ganska uppenbar eftersom hörselminnet är kort. Att man missar en del skillnader pga av detta är uppenbart, vid musiklyssning är ju upplevelsen i samma stund man hör ljudet.

Hehe, ja jag vill som sagt inte tvinga någon att använda AB, men det ovanstående tycker jag just är ett argument för AB, inte ABX. I ABX måste man ju jämföra två jämförelser med varandra. Är X likare A än det är likt B?

av **n3mmr** » 2006-12-21 00:28

Svante skrev:
silvervarg skrev:Däremot hoppas jag att ni läser detta inlägg och begrundar vad som är bäst för LTS (som jag tror att ni båda har ett hjärta som klappar för).
Dessutom vill jag uppmana er att prata direkt med varandra (möjligen per telefon) för att försöka lösa eran personliga dispyt i detta ärende.

Jadå, jag läser. Men även om vi skulle lösa just det som har hänt så ser jag ingen återvändo för mig själv till LTS styrelse. Det går liksom inte oavsett om Ingvar låter sig övertalas tillbaka eller inte. Smällen och insikten var för hård. Och jag är både glad och ledsen för det. Jag är glad för att jag äntligen kan berätta öppet om min kritik mot testet, jag har länge velat öppna upp verksamheten men mött motstånd. Jag är ledsen bla för att det kommer att innebära mindre deltagande i hifisverige.

Men det där var OT.

Det där var sorgligt att höra. Du är inte ensam om att ha reagerat på liknande sätt, om det kan vara nån tröst.

Starta en egen vetenskaplig hifi-tidning, vetja! Acta Audiotechnica Scandinavica..

Jag skulle prenumerera, helt klart. Jag skämtar, kanske, men bara lite...

av **berma** » 2006-12-21 00:30

Den kritik som jag tycker man kan rikta mot LTS metodik.

1. Testledaren vet hela tiden vad som är F eller E, testledaren kan då medvetet eller omedvetet påverka testpanelen.
2. Testpanelen vet hela tiden vad andra i testpanelen ”hör”, man kan således påverka varandra, medvetet eller omedvetet.
3. Det är inte i förväg bestämt hur eller när man fått ett resultat , dvs. hur långa testserierna ska vara eller vid vilken konfidensnivå man ska stanna.
4. Metoden finns inte beskriven så den går därför inte att kritisera eller ens förbättra,
5. Det finns tydligen inte ens någon av alla accepterad matematik för att utvärdera resultaten.
6. Det finns ingen möjlighet för en utomstående att värdera resultaten pga #4.

Detta bara för att detektera om det finns en hörbar skillnad mellan F och E, om man sedan ska utvärdera VAD det är man hör, ... ja då..

Om metoden i sig ska diskuteras här tycker jag att Svantes förslag är en mycket bra utgångspunkt, och även de inlägg som Tomas_A gjort.

nu ska jag nog inte lägga mig i det här mer.
ha det
och God Jul

av **Thomas_A** » 2006-12-21 00:32

Svante skrev:
n3mmr skrev:
Svante skrev:Ang AB och ABX:

Jag har aldrig förstått poängen med ABX, jag tycker det verkar jobbigt att jämföra två jämförelser med varandra, men inser att en del tycker att det är enklare. Eftersom jag inte heller ser något metodologiskt problem med ABX, annat än att det kräver en aningen annorlunda utrustning, så kan jag inte säga att den ena är bättre än den andra.

Man kan välja det man vill, helt enkelt, tycker jag.

Jag har alltid undrat varför man inte faktiskt testar direkt det man säger sig vilja testa, nämligen om det finns en skillnad?

Dvs Spela upp X resp Y. två svar kan ges: X=Y eller X<>Y.

Två fall finns: (X=F, Y=F) resp (X=F, Y=E)

Vari ligger nackdelen med denna metod??

Nackdelen ligger i att man snarare kommer att mäta upp folks benägenhet att lita på sin förmåga. De kan alltid välja att säga att det inte finns någon skillnad. Den som gärna fegar kommer att behöva mer skillnad för att våga säga att den finns.

Om man tvingar folk att välja så gör de så gott de kan och då får man reda på hur bra de kan.

Ovanstående metod är inte bra pga av att den inte har någon känd jämförelse. Dock ska man aldrig tvinga någon att svara vid ett test, utan folk svarar endast om de är säkra eller tror sig veta. Bedömer man att man gissar, ska man hoppa över omgången och försöka på nästa. Frågan man ställer sig är hur pass säker man ska vara för att bedöma att man ska svara? Jo man testar och övar helt enkelt för att kunna få ett mått på vad man ska gå efter. Att de som övat också är skickligare är ju vetenskapligt visat.

av **Svante** » 2006-12-21 00:37

Ähvafasen...

Jag tar och lägger upp manus till artikeln jag skrev i MoLT nummer 1 i år. Där kan man läsa om hur man gör för att kunna avbryta lyssningsserier i förtid om man får tillräckligt många rättsvar och ändå bibehålla hög konfidens.

http://user.faktiskt.io/svante/om_blindtester.htm

av **n3mmr** » 2006-12-21 00:38

Thomas_A skrev:
Svante skrev:
n3mmr skrev:
Svante skrev:Ang AB och ABX:

Jag har aldrig förstått poängen med ABX, jag tycker det verkar jobbigt att jämföra två jämförelser med varandra, men inser att en del tycker att det är enklare. Eftersom jag inte heller ser något metodologiskt problem med ABX, annat än att det kräver en aningen annorlunda utrustning, så kan jag inte säga att den ena är bättre än den andra.

Man kan välja det man vill, helt enkelt, tycker jag.

Jag har alltid undrat varför man inte faktiskt testar direkt det man säger sig vilja testa, nämligen om det finns en skillnad?

Dvs Spela upp X resp Y. två svar kan ges: X=Y eller X<>Y.

Två fall finns: (X=F, Y=F) resp (X=F, Y=E)

Vari ligger nackdelen med denna metod??

Nackdelen ligger i att man snarare kommer att mäta upp folks benägenhet att lita på sin förmåga. De kan alltid välja att säga att det inte finns någon skillnad. Den som gärna fegar kommer att behöva mer skillnad för att våga säga att den finns.

Om man tvingar folk att välja så gör de så gott de kan och då får man reda på hur bra de kan.

Ovanstående metod är inte bra pga av att den inte har någon känd jämförelse. Dock ska man aldrig tvinga någon att svara vid ett test, utan folk svarar endast om de är säkra eller tror sig veta. Bedömer man att man gissar, ska man hoppa över omgången och försöka på nästa. Frågan man ställer sig är hur pass säker man ska vara för att bedöma att man ska svara? Jo man testar och övar helt enkelt för att kunna få ett mått på vad man ska gå efter. Att de som övat också är skickligare är ju vetenskapligt visat.

Har den ju! Man vet ju att X alltid är F.

av **Thomas_A** » 2006-12-21 00:49

Svante skrev:
Thomas_A skrev:Poängen med en ABX är ganska uppenbar eftersom hörselminnet är kort. Att man missar en del skillnader pga av detta är uppenbart, vid musiklyssning är ju upplevelsen i samma stund man hör ljudet.

Hehe, ja jag vill som sagt inte tvinga någon att använda AB, men det ovanstående tycker jag just är ett argument för AB, inte ABX. I ABX måste man ju jämföra två jämförelser med varandra. Är X likare A än det är likt B?

Men i ett AB har du inget jämförelsematerial. Du kanske detekterar en skillnad men du kan inte säkert säga vilken som är F och E eftersom hörselminnet glömt detta.

av **Thomas_A** » 2006-12-21 00:52

n3mmr skrev:
Thomas_A skrev:
Svante skrev:
n3mmr skrev:
Svante skrev:Ang AB och ABX:

Jag har aldrig förstått poängen med ABX, jag tycker det verkar jobbigt att jämföra två jämförelser med varandra, men inser att en del tycker att det är enklare. Eftersom jag inte heller ser något metodologiskt problem med ABX, annat än att det kräver en aningen annorlunda utrustning, så kan jag inte säga att den ena är bättre än den andra.

Man kan välja det man vill, helt enkelt, tycker jag.

Jag har alltid undrat varför man inte faktiskt testar direkt det man säger sig vilja testa, nämligen om det finns en skillnad?

Dvs Spela upp X resp Y. två svar kan ges: X=Y eller X<>Y.

Två fall finns: (X=F, Y=F) resp (X=F, Y=E)

Vari ligger nackdelen med denna metod??

Nackdelen ligger i att man snarare kommer att mäta upp folks benägenhet att lita på sin förmåga. De kan alltid välja att säga att det inte finns någon skillnad. Den som gärna fegar kommer att behöva mer skillnad för att våga säga att den finns.

Om man tvingar folk att välja så gör de så gott de kan och då får man reda på hur bra de kan.

Ovanstående metod är inte bra pga av att den inte har någon känd jämförelse. Dock ska man aldrig tvinga någon att svara vid ett test, utan folk svarar endast om de är säkra eller tror sig veta. Bedömer man att man gissar, ska man hoppa över omgången och försöka på nästa. Frågan man ställer sig är hur pass säker man ska vara för att bedöma att man ska svara? Jo man testar och övar helt enkelt för att kunna få ett mått på vad man ska gå efter. Att de som övat också är skickligare är ju vetenskapligt visat.

Har den ju! Man vet ju att X alltid är F.

Jag menade ett fullständigt jämförelsematerial. Det går ju inte att jämföra F mot E om man så önskar.

av **IngOehman** » 2006-12-21 01:32

Svante skrev:Men även om vi skulle lösa just det som har hänt så ser jag ingen återvändo för mig själv till LTS styrelse. Det går liksom inte oavsett om Ingvar låter sig övertalas tillbaka eller inte. Smällen och insikten var för hård. Och jag är både glad och ledsen för det. Jag är glad för att jag äntligen kan berätta öppet om min kritik mot testet, jag har länge velat öppna upp verksamheten men mött motstånd. Jag är ledsen bla för att det kommer att innebära mindre deltagande i hifisverige.

Men det där var OT.

Min inställning är, om jag förstår dig rätt, den rakt motsatta:

Jag kan endast tänka mig ett fortsätt deltagandet i LTS' styrelse om vi kan lösa detta och du omvärderar din egen inställning till avhoppet.

Du måste vara med, annars är det helt otänkbart för mig att vara det.

För att jag skall kunna vara med måste det ju finnas ett förtroende, och ett större misstroende än ditt avhopp och kritiken du framför här på faktiskt kan jag knappast tänka mig.

Mest är jag förvånad dock, eftersom vi på förra mötet (efter att du hade räknat på saken) tycktes vara överens om att den höjd jag alltid genom åren taget för att tillse tillfyllset signifikans, hade goda marginaler. Och nu denna massiva kritik?

Vh, iö

av **IngOehman** » 2006-12-21 02:46

n3mmr skrev:...därför att IÖ förefaller mig hävda att hur svaret på 1 söks och hur diskussionen kring detta sökande bedrivs kan påverka vilka möjligheter man har att veta nåt om vad man hörde.

Jag håller inte med honom om det.

Bra, det gör nog inte jag heller.

I varje fall om din hypotes om vad jag hävdat är så felaktig som jag uppfattar den.

Eller också missförstår jag dig. Du är inte speciellt tydlig.

Om du menar, att jag menar, att man inte skall be försökspersonerna exempelvis lösa korsord samtidigt som de skall detektera på gränsen till hörbara fel, så har du rätt i att jag menar det - men då förstår jag inte varför du inte håller med mig om det.

Vh, iö

av **Kaffekoppen** » 2006-12-21 04:06

Svante och Ingvar,

vi hörs senare idag!

Sov gott.

av **Thomas_A** » 2006-12-21 09:02

Svante skrev:Ähvafasen...

Jag tar och lägger upp manus till artikeln jag skrev i MoLT nummer 1 i år. Där kan man läsa om hur man gör för att kunna avbryta lyssningsserier i förtid om man får tillräckligt många rättsvar och ändå bibehålla hög konfidens.

http://user.faktiskt.io/svante/om_blindtester.htm

En omedelbar kommentar. Designen att få veta hur många rätt man har under testets gång och sedan bestämma om man vill fortsätta etc förstår jag inte. Det är bättre att bestämma ett antal omgångar och ett antal personer och inte berätta under testets gång hur det går utan rätta svaren efter testet. Då spelar det ingen roll om man har missing data; uteblivna svar ignoreras.

av **Svante** » 2006-12-21 10:02

IngOehman skrev:
Svante skrev:Men även om vi skulle lösa just det som har hänt så ser jag ingen återvändo för mig själv till LTS styrelse. Det går liksom inte oavsett om Ingvar låter sig övertalas tillbaka eller inte. Smällen och insikten var för hård. Och jag är både glad och ledsen för det. Jag är glad för att jag äntligen kan berätta öppet om min kritik mot testet, jag har länge velat öppna upp verksamheten men mött motstånd. Jag är ledsen bla för att det kommer att innebära mindre deltagande i hifisverige.

Men det där var OT.

Min inställning är, om jag förstår dig rätt, den rakt motsatta:

Jag kan endast tänka mig ett fortsätt deltagandet i LTS' styrelse om vi kan lösa detta och du omvärderar din egen inställning till avhoppet.

Du måste vara med, annars är det helt otänkbart för mig att vara det.

Ja, det är just det här manipulativa som gör att jag inte vill vara med. Du lägger bollen (skenbart) hos mig, som om det hänger det på mig om LTS ska fortsätta finnas eller inte. Men svaret är alltså nej. Valet om du ska fortsätta är fortfarande ditt.

Du har ett jobb framför dig att föra in öppenhet i LTS F/E-lyssnande. I det kommer det att uppstå diskussioner och de kommer att vara jobbiga ibland, men när man väl har tagit sig igenom den proceduren, med vilja att förändra, så har man en mycket bättre metod. Det jobbet får du och de andra i styrelsen fixa själva. Ni får gärna fråga mig om det är något ni undrar över, men arbetet är ert.

Jag ser fram emot det metoddokument som beskriver hur LTS framtida F/E-lyssningar ska gå till.

av **Svante** » 2006-12-21 10:11

Thomas_A skrev:
Svante skrev:Ähvafasen...

Jag tar och lägger upp manus till artikeln jag skrev i MoLT nummer 1 i år. Där kan man läsa om hur man gör för att kunna avbryta lyssningsserier i förtid om man får tillräckligt många rättsvar och ändå bibehålla hög konfidens.

http://user.faktiskt.io/svante/om_blindtester.htm

En omedelbar kommentar. Designen att få veta hur många rätt man har under testets gång och sedan bestämma om man vill fortsätta etc förstår jag inte. Det är bättre att bestämma ett antal omgångar och ett antal personer och inte berätta under testets gång hur det går utan rätta svaren efter testet. Då spelar det ingen roll om man har missing data; uteblivna svar ignoreras.

Problemet med den approachen är att man tvingas till många fler (sa du 25?) lyssningar än vad som för det mesta behövs. Statistiken i artikeln håller (även om du inte förstår den :wink:

), jag har gjort ett program som simulerar metoden (som jag länkade till ovan).

Programmet gör helt slumpmässiga serier och applicerar avbrottskriterierna på dem. Sedan är det bara att räkna hur stor andel av dem som (falskeligen) gav positivt utfall. Gör man en miljon sådana serier i datorn så kommer man mycket nära den verkliga konfidensen.

Det fina med att simulera är att man ser direkt om man har tänkt fel eller inte (tro mig, det har hänt :oops:

).

...och det fina med metoden är att man inte tröttar ut lyssnarna i onödan.

av **Vee-Eight** » 2006-12-21 11:24

Svante, Öhman:

Är inte det här en diskussion ni två skulle kunna ta över en kaffe istället? Ett forum i allmänhet, detta i synnerhet, är inte rätt ställe för undvikande av missförstånd.

m.v.h.

V8, dubbelnegationernas okrönte.

av **Thomas_A** » 2006-12-21 11:25

Svante skrev:
Thomas_A skrev:
Svante skrev:Ähvafasen...

Jag tar och lägger upp manus till artikeln jag skrev i MoLT nummer 1 i år. Där kan man läsa om hur man gör för att kunna avbryta lyssningsserier i förtid om man får tillräckligt många rättsvar och ändå bibehålla hög konfidens.

http://user.faktiskt.io/svante/om_blindtester.htm

En omedelbar kommentar. Designen att få veta hur många rätt man har under testets gång och sedan bestämma om man vill fortsätta etc förstår jag inte. Det är bättre att bestämma ett antal omgångar och ett antal personer och inte berätta under testets gång hur det går utan rätta svaren efter testet. Då spelar det ingen roll om man har missing data; uteblivna svar ignoreras.

Problemet med den approachen är att man tvingas till många fler (sa du 25?) lyssningar än vad som för det mesta behövs. Statistiken i artikeln håller (även om du inte förstår den ), jag har gjort ett program som simulerar metoden (som jag länkade till ovan).

Programmet gör helt slumpmässiga serier och applicerar avbrottskriterierna på dem. Sedan är det bara att räkna hur stor andel av dem som (falskeligen) gav positivt utfall. Gör man en miljon sådana serier i datorn så kommer man mycket nära den verkliga konfidensen.

Det fina med att simulera är att man ser direkt om man har tänkt fel eller inte (tro mig, det har hänt ).

...och det fina med metoden är att man inte tröttar ut lyssnarna i onödan.

Nej, man måste inte ta till fler, men fler gör att man kan approximera normalfördelning. Man kan räkna på konfidensintervall baserat på detta, dvs inom vilken range den sanna proportionen svar ligger. Om den kalkylerade sanna proprotionsrangen ligger mellan 0.7-1 vid 95% signifikans så innebär det 7-10 rätt av 10 (där de diskreta proportionerna 7/10 och 8/10 i sig inte är signifikanta), medans vid n= 30 ligger den signifikanta svaren inom proportionsgränserna (21-30 rätt av 30).

Men det verkar helt onödigt att sänka signifikansen genom att visa resultaten, tillåta val och avbryta i förtid. Det är bättre att bestämma sig för ett mål, exempelvis 20 svar totalt. Då kan man från 4 personer och 10 omgångar få 20 svar om man räknar med 50% bortfall av svaren. Fler är bättre. Man kan alltid tillåta ett val efter att de 10 omgångarna är körda med frågan om det är någon som vill fortsätta. Utan att visa svaren naturligtvis. Bedömningen om man vill fortsätta eller ej beror ju på personen själv om man känner att man lätt skulle klara några till utan att bli trött etc.

av **Frutti** » 2006-12-21 11:31

Vee-Eight skrev:Svante, Öhman:

Är inte det här en diskussion ni två skulle kunna ta över en kaffe istället? Ett forum i allmänhet, detta i synnerhet, är inte rätt ställe för undvikande av missförstånd.

Bara lite nyfiken. Säger du sånt här som admin eller som dig själv?

av **IngOehman** » 2006-12-21 11:36

Svante skrev:
IngOehman skrev:
Svante skrev:Men även om vi skulle lösa just det som har hänt så ser jag ingen återvändo för mig själv till LTS styrelse. Det går liksom inte oavsett om Ingvar låter sig övertalas tillbaka eller inte. Smällen och insikten var för hård. Och jag är både glad och ledsen för det. Jag är glad för att jag äntligen kan berätta öppet om min kritik mot testet, jag har länge velat öppna upp verksamheten men mött motstånd. Jag är ledsen bla för att det kommer att innebära mindre deltagande i hifisverige.

Men det där var OT.

Min inställning är, om jag förstår dig rätt, den rakt motsatta:

Jag kan endast tänka mig ett fortsätt deltagandet i LTS' styrelse om vi kan lösa detta och du omvärderar din egen inställning till avhoppet.

Du måste vara med, annars är det helt otänkbart för mig att vara det.

Ja, det är just det här manipulativa som gör att jag inte vill vara med. Du lägger bollen (skenbart) hos mig, som om det hänger det på mig om LTS ska fortsätta finnas eller inte. Men svaret är alltså nej. Valet om du ska fortsätta är fortfarande ditt.

Manipulativt? Jag är bara ärlig, och säger hur jag ser på det.

Tycker du att det är fel att jag berättar hur jag känner? Ja kan tillägga att jag inte tycker att det är helt sjysst att sitta i en styrelse, kritisera sina medarbetare så till den milda grad (offentligt) att de inte tycker det är roligt längre - och sedan själv hoppa av.

Du tycker inte att det blir lite "mission accomplished" av det?

Svante skrev:Du har ett jobb framför dig att föra in öppenhet i LTS F/E-lyssnande. I det kommer det att uppstå diskussioner och de kommer att vara jobbiga ibland, men när man väl har tagit sig igenom den proceduren, med vilja att förändra, så har man en mycket bättre metod.

Jag har inga invändningar mot metoden som den varit sedan 1980 ungefär, jag ser ingenting som kan bli bättre med den.

Dessutom är jag inte med i LTS styrelse längre. Om du är det vet jag inte, men det var du när jag hoppade av.

Svante skrev:Det jobbet får du och de andra i styrelsen fixa själva. Ni får gärna fråga mig om det är något ni undrar över, men arbetet är ert.

Som sagt, när jag hoppade av verksamheten var du kvar, och om du verkar för andras avhopp så bör du vara beredd att ta över jobbet. Annars är det enda du åstadkommit att ta död på LTS.

Svante skrev:Jag ser fram emot det metoddokument som beskriver hur LTS framtida F/E-lyssningar ska gå till.

Ok.

Vi får väl se om något skriver ett sådant.

Hade jag varit kvar i verksamheten så skulle jag prioriterat att skriva artiklar om testobjekten, alltså om olika apparater och hur de beter sig. Tycker det är det som tjänar medlemmarna bäst. Det är en prioritering som känns rimlig tycker jag, för detta är i´´eellt arbete och det är svårt nog att få det gjort.

Det som jag tycker behöver sägas om själva testmetoden är sagt - det är en metod där man i blindlyssning jämför in- och utsignal från en apparat, efter att niväerna har matchats bättre än 0,05 dB. Vi strävar alltid efter en statistisk signifikans bättre än 99%. Utförandet i övrigt är maximalt flexibelt således att testförfarandet kan anpassas och ge lägsta möjliga detektionströskel, vilka fel man än söker.

Vill man veta mera så kan man läsa artikeln om F/E-lyssning som publicerades i jag tror det var MoLt nummer 1-1991.

Vh, iö

av **Svante** » 2006-12-21 11:42

Vee-Eight skrev:Svante, Öhman:

Är inte det här en diskussion ni två skulle kunna ta över en kaffe istället? Ett forum i allmänhet, detta i synnerhet, är inte rätt ställe för undvikande av missförstånd.

m.v.h.

V8, dubbelnegationernas okrönte.

Nja, mitt mål med den här diskussionen är inte att lösa något med Ingvar. Jag ville dels tala om hur LTS F/E-lyssningar går till, vilket är avklarat nu och deklarera min skepsis, sen vill jag ha en diskussion om hur man kan och bör designa en F/E-lyssning.

Det verkar finnas flera alternativ och det är ju spännande.

av **Vee-Eight** » 2006-12-21 11:42

Frutti skrev:
Vee-Eight skrev:Svante, Öhman:

Är inte det här en diskussion ni två skulle kunna ta över en kaffe istället? Ett forum i allmänhet, detta i synnerhet, är inte rätt ställe för undvikande av missförstånd.

Bara lite nyfiken. Säger du sånt här som admin eller som dig själv?

Både som mig själv och admin, på sätt och vis. En känsla jag har är att detta är ett spörsmål man bör diskutera IRL för att undvika missförstånd, annars har vi två avhopp i onödan om de nu inte redan har skett. Det är också trist med upprörda känslor och den irrationalitet som följer därav.

Allt detta är av intresse för mina båda roller.

av **Kaffekoppen** » 2006-12-21 11:47

Svante,

Din strävan mot öppenhet och metodbeskrivning stöds helhjärtat av mig.

Din metod för att verka för det stöds inte av mig. Särskilt inte som nyligen avgången styrelsemedlem. Det är förresten oerhört tråkigt att motsättningar i en av styrelsens tillsatta arbetsgrupper offentliggörs, oavsett den goda intentionen. Jag är en person som starkt står för öppenhet och spårbarhet, men just att ta styrelsens interna arbete till offentligheten har ingen större påverkan än att tidigare framkomna resultat kan komma att ifrågasättas.

Det är, som jag ser det, inte din målsättning, utan tvärtom säkerställa att framtida testningar inte på något vis kan ifrågasättas. Det är en målsättning som jag delar och ser som mycket viktig. Jag delar inte Ingvars syn på att det är en fråga om trovärdighet. Testreultaten själva måste stå för den trovärdigheten, även om vi skall verka för att föreningens trovärdighet alltid skall vara klanderfri. Om ett testresultat ifrågasätts måste det vara metoden som ifrågasätts och aldrig de personer som testar!! Ifrågasätts metoden får vi fråga oss hur vi hanterar det då.

Din kunskap och din delaktighet i styrelsen är mycket mer vidsträkt än att begränsas till tekniksektionen. Du kommer vara saknad på en mängd områden. Så saknad att jag hoppas vi kan gå vidare från det här som en stärkt grupp. Motsättningar uppstår och är inte alltid så oöverkommliga som man först tror! Både du och Ingvar har betytt mycket för föreningen, mycket mer än ni själva kanske inser.

Som inadjungerad i styrelsen, och totalt utan något att säga till om annat än som observatör vill jag be dig avstå från fler kommentarer om föreningens interna arbete innan den här frågan är ordentligt utredd. Det här är just nu en situation som resterande styrelse inte varit delaktig i, utan som eskalerade vid senaste testtillfället. Du må anse att så inte är fallet, men det ber jag dig ta internt.

Att styrelsen ibland har gravt skillda åsikter är inte en motsättning för att fungera, utan skapar en dynamik och en strävan framåt som är bra. Det bidrar till att man utvecklas och blir bättre. Att förändra och förbättra strävar vi alla efter, men vi har inte alltid samma ögon. Det är besvärligt att omdana och förändra sig ibland, och ibland går det på tok för långsamt. Det behövs både pådrivare och bromsklossar i en organisation. Båda har sina mycket berättigade kvalifikationer. Nu vill jag inte karaktärisera någon av er för pådrivare eller bromskloss, men det kan nog kännas så ibland för inblandade. Jag har hittills försökt hålla mig relativt passiv, men det finns ett antal punkter jag kommer föra fram som jag tror ytterliggare kommer effektivisera och göra styrelsearbetet mer givande.

Du har en stark poäng i det du påtalar, men vi bör nog nyansera det lite.

Har du i något fall där du deltagit lämnat en testning med funderingar om man vid det enskillda tillfället kommit till en falsifierad slutsats?

Kontentan av det här inlägget är att jag vill påtala din mycket stora betydelse för styrelsen utan att i detalj gå in på det jag observerat. Jag vill lika väl påtala att jag hoppas du tänker om, så som den rationella person du är. Jag hade ett samtal med Ingvar om det här och jag ser, utan problem, att det här som hänt är något vi kan gå stärkta ur. Det är en process som startats nu, osett att det är på ett beklagligt sätt som ger förutsättningar till en diskussion på ett högre plan.

Välkommen tillbaka båda två. Vi är större än det här.

av **Svante** » 2006-12-21 11:59

Kaffekoppen:

Det är ett emotionellt initerat, men rationellt fattat beslut.

Jag tar fasta på det där om internt arbete, förutom just min kritik och behandling av LTS F/E-lyssning, den tycker jag måste diskuteras.

Det kommer ett PM.

av **Kaffekoppen** » 2006-12-21 12:09

Jag är en person som tycker om att dricka thé och äta en god smörgås Svante. Det kallas fika och är riktigt populärt i andra delar av landet. Jag tycker att vi prövar den metoden! Skicka gärna med lite kontaktinformation i ditt PM!

Det som är rationellt för dig kan vara irrationellt för mig. Hoppas på klarhet i ditt PM.

Och tro, för guds skull inte att jag ger upp dig så här lätt. Det finns fler vägar att gå än just du kan se nu.

av **IngOehman** » 2006-12-21 12:17

Svante skrev:Nja, mitt mål med den här diskussionen är inte att lösa något med Ingvar.

Det tycker jag är mycket synd.

Mitt förslag är att Svante tar uppdraget som chef för tekniksektionen. Då kan han både ändra testmetodiken, ta ansvar för att tester blir utförda och tillse att de sker i enlighet med hans instruktioner, och förstås även offentligt berätta om hur metodiken ser ut.

Vh, iö

av **Kaffekoppen** » 2006-12-21 12:19

Vill bara försiktigt påtala att det aldrig får vara så att testarnas integritet ger legitimitet till uppkomna resultat. Såväl Svante yrkesroll som Ingvars kunskap, liksom övriga i tekniksektionen skall aldrig behöva känna att de som individer är en garant för de resultat som framkommer. Det är resultaten i sig och metodiken som skall stå för legitimiteten. I en perfekt värld.

Det finns vägar dit. Tro mig. Alla inblandade.

av **IngOehman** » 2006-12-21 12:25

Ok, jag ser fram emot att lyssna på ditt förslag. Mer än så lovar jag inte.

Vh, iö

av **Kaffekoppen** » 2006-12-21 12:33

IngOehman skrev:
Svante skrev:Nja, mitt mål med den här diskussionen är inte att lösa något med Ingvar.

Det tycker jag är mycket synd.

Mitt förslag är att Svante tar uppdraget som chef för tekniksektionen. Då kan han både ändra testmetodiken, ta ansvar för att tester blir utförda och tillse att de sker i enlighet med hans instruktioner, och förstås även offentligt berätta om hur metodiken ser ut.

Vh, iö

Hur föreningen löser sitt interna arbete och förslag på hur det kan se ut är en fråga vi tar internt.

Att Svante inte vill lösa något med dig här är ju självklart. Hans agenda är att testmetoden förbättras ytterliggare. Det är mer centralt än hur du ser på hans utspel eller reagerar på hans kritik.

Men det är okej, när det gäller SAKFRÅGOR är det okej att ha olika syn och upplevelse. Ni är ju goa gubbar båda två iallafall!

Jag får även be dig Ingvar att ta det fortsatta samtalet internt.

av **Kaffekoppen** » 2006-12-21 12:34

IngOehman skrev:Ok, jag ser fram emot att lyssna på ditt förslag. Mer än så lovar jag inte.

Vh, iö

Att lyssna är en förutsättning. Det tackar jag dig för.

av **phon** » 2006-12-21 13:14

A propos ingenting, egentligen, när kommer nästa MoLT? :roll:

av **PekkaJohansson** » 2006-12-21 13:34

Trycks enligt de senaste uppgifterna den här veckan, och är förhoppningsvis i brevlådan i nästa! Kan också meddela, när ämnet ändå är på tapeten, att nr 4 närmar sig färdigstadiet.

Med vänlig hälsning

Pekka

av **n3mmr** » 2006-12-21 13:36

Thomas_A skrev:[

Jag menade ett fullständigt jämförelsematerial. Det går ju inte att jämföra F mot E om man så önskar.

I vilket läge anser du att man skall använda referensen??

I inledande träning?

Man avbryter testserien (ev berättar man då hur det har gått, ev inte) och använder nästa slumpade val enbart som en "system check" med resulterande träning.
Sen återupptar man testserien och kör den färdigt enligt designvalet?

Nåt annat sätt? T ex atyt ständigt jämföra med båda?

Man kan ju enkelt kombinera en F-X-test enligt min design med avbrott för system check om man har en ABX-box (helst en AXB, menar jag nog) men under testserien bara använder AX (eller XB) med A=F, X=FellerE, B=E

av **Thomas_A** » 2006-12-21 14:12

n3mmr skrev:
Thomas_A skrev:[

Jag menade ett fullständigt jämförelsematerial. Det går ju inte att jämföra F mot E om man så önskar.

I vilket läge anser du att man skall använda referensen??

I inledande träning?

Man avbryter testserien (ev berättar man då hur det har gått, ev inte) och använder nästa slumpade val enbart som en "system check" med resulterande träning.
Sen återupptar man testserien och kör den färdigt enligt designvalet?

Nåt annat sätt? T ex atyt ständigt jämföra med båda?

Man kan ju enkelt kombinera en F-X-test enligt min design med avbrott för system check om man har en ABX-box (helst en AXB, menar jag nog) men under testserien bara använder AX (eller XB) med A=F, X=FellerE, B=E

Man ska använda kända F och E både vid träning (naturligtvis) men också ges möjligheten att när som helst kunna jämföra kända F mot E under hela testproceduren. Alla inskränkningar försvårar för lyssnaren. Om det är ett praktiskt problem att man ska använda papper och penna skulle man som Morello säger använda tryckknappar eller så ropar man svaret och någon annan antecknar. Dock måste svaren från dem som hört den första ignoreras. Annars kan man inte med 100% säga att svaren är obeoende från varandra. Man kan tänka sig att underlätta ytterligare genom att ha både kända F och E och två dolda F och E, för att kunna göra alla möjliga typer av jämförelser.

av **phon** » 2006-12-21 14:14

Pecka, tack.

av **Sanny_X** » 2006-12-21 17:02

PekkaJohansson skrev:Trycks enligt de senaste uppgifterna den här veckan, och är förhoppningsvis i brevlådan i nästa! Kan också meddela, när ämnet ändå är på tapeten, att nr 4 närmar sig färdigstadiet.

Va?

Har det utkommit 2 MOLT under 2006?

Jag har inte fått något ex alls.

Vam är registrator nu?

av **Kaffekoppen** » 2006-12-21 17:16

Alexi

Nummer tre kommer strax...

av **Sanny_X** » 2006-12-21 17:52

Tack för hjälpen.

Alexi har PM.

av **Svante** » 2006-12-21 23:05

Ok, åter till ämnet. Hur ska man göra ett lyssningstest för att både statistiker, lyssnare och frågeställare (= den som söker kunskapen) ska bli nöjda? Bara för att vi ska ha något konkret att utgå ifrån, antag en F/E-lyssning.

Vi har flera frågor som är viktiga. Man kan förstås göra tester utan att utveckla metoden för alla dessa punkter, men jag menar att ju mer man funderar över dem, desto troligare är det att testet visar rätt.

Jag förbereder litegrann och gör varje fråga "bold" redan nu, så blir det lättare att svara.

1. Ska flera personer lyssna samtidigt?
2. Får de avge svar med kunskap om varandras svar?
3. Vem ska växla mellan omkopplarlägena? Hur (AB/ABX)?
4. Hur ska slumpmomentet genereras (=det som gör att testet blir blint)?
5. Hur ska resultatet antecknas? Skriver lyssnaren eller försöksledaren?
6. Bör man få reda på under testets gång, hur det har gått hittills?
7. Hur bestämmer man när testet ska avbrytas?
8. När ska avbrottsvillkoren bestämmas. Före eller efter testet? Får man ändra dem under gång?
9. Hur stor konfidens behövs? Är konfidensen viktig?
10. Hur ska data behandlas för den valda metoden, dvs hur vet man hur stor konfidens man har fått?
11. Är det ok att exkludera misslyckade tester?
12. Vilka konfidenskrav ska man ställa på varje serie om man gör flera; bör de vara högre om man gör flera tester?
13. Hur behandlar man data från flera lyssnare? Tex: om en person svarar rätt hela tiden, men de andra ger spridda skurar, kan man titta på bara den som lyckas? Måste statistiken modifieras i sådana fall?
14. Bör man göra pilotlyssningar, dvs öppna lyssningar före det egentliga testet, som inte räknas? När bestämmer man att de inte räknas?
15. Bör man diskutera upplevda skillnader före testet? Under testet? Efter testet?
16. Vem bestämmer vilken kringutrustning (högtalare, programmaterial, CD-spelare etc) som ska användas?
17. Bör/behöver man söka en förklaring till påvisade hörbara skillnader?
18. Hur noga behöver man matcha triviala skillnader såsom nivå/tonkurva?
19. Är det en fördel om metod och rådata redovisas? Detaljerat?
20. Finns det någon metod att avgöra hur stor skillnaden är, om den är hörbar?
21. Finns det några vetenskapliga krav som saknar betydelse för vanligt folk?
22. Hur mycket tid kan läggas på varje testning för att det skall vara möjligt att a) få intresserade att genomföra X antal tester per år, b) få tillräckliga data för att kunna dra godtagbara slutsatser och c) Kunna hävda vetenskaplighet

Listan blev visst ganska lång. :oops:

Jag försökte gruppera dem, men de flätar i varandra så att det blir bara rörigt. De får stå som de är.

Jag ser flera kombinationer av svar på frågorna som kan ge bra testmetoder och det är möjligt att man måste kompromissa för att optimera helheten. Svaren på frågorna gäller alltså just den metod som ni föredrar. Jag har själv ett eller flera egna förslag och andra har kommit upp tidigare i tråden, men innan jag och ni börjar svara på frågorna ovan; finns det fler viktiga frågor? (Jag redigerar och lägger till dem i detta inlägg om de kommer)

av **Mr_Ekan** » 2006-12-21 23:44

Betr statistik

Jag har basal kunskap i statistik. En av de viktigare orsakerna att jag överhuvudtaget begriper någonting om statistik är Professor Kerstin Vännman vid Luleå tekniska Universitet. Om det råder oklarheter kring de statistiska aspekterna av F/E-lyssning så föreslår jag att LTS sammanfattar ett antal kärnfrågaor och vänder sig till Kerstin. Hon nås på kerstin.vannman@ltu.se. Hon kommer garanterat ta sig an frågorna och bidra med ett oberoende utlåtande.

Finns det oklarheter så bör dessa redas ut eftersom den statistiska databehandlingen är en faktor som bidrar till F/E-metodens validitet.

Betr bråket
LTS utan IÖ? Tillåt mig småle

. Hur gick det att hålla sig ifrån faktiskt.se? LTS utan IÖ vore som lussekatter utan saffran = blaha. Svante, du vet för mycket för att få lämna.

Vh

av **berma** » 2006-12-22 00:43

hur é léget?
är de här frågorna till för att styra upp LTSś tester eller är det mer generellt?
/berma

av **Svante** » 2006-12-22 00:50

Äh jag kan inte hålla mig, jag skriver ner ett exempel på förfarande som jag tycker skulle vara bra. Egentligen är det nog flera eftersom jag lämnar valmöjligheter på några ställen.

1. Ska flera personer lyssna samtidigt?

Ja och nej. Flerlyssning kan vara praktiskt, för då kan man diskutera vad man hör. Det behövs dock en del fiffighet för att man ska kunna undvika kontaminering mellan varandras svar och det kan upplevas som stressande att inte få sköta växlingen mellan stimuli själv.

2. Får de avge svar med kunskap om varandras svar?

Absolut inte. Detta gör att man måste behandla statistiken på ett sätt som tar ner signifikansen rejält.

3. Vem ska växla mellan omkopplarlägena? Hur (AB/ABX)?

Själv föredrar jag att få växla själv, som lyssnare. Vilket omkopplarläge som motsvarar vad måste då slumpas. AB är mitt val, men jag har inget emot att andra använder ABX.

4. Hur ska slumpmomentet genereras (=det som gör att testet blir blint)?

Helst med en apparat som avslöjar i efterhand vilket som var rätt svar.

5. Hur ska resultatet antecknas? Skriver lyssnaren eller försöksledaren?

Spelar inte så stor roll.

6. Bör man få reda på under testets gång, hur det har gått hittills?

Absolut. Det minskar prestationskraven och känslan av osäkerhet. Det kan kännas mycket frustrerande att försöksledaren sitter och tjyvhåller på kunskap om hur dåligt(bra det har gått.

7. Hur bestämmer man när testet ska avbrytas?

Själv förordar jag en serie möjliga avbrottspunkter som bestäms i förväg, tex 11 15 19 22 25 28 32 dvs man får avbryta efter 11 om man har alla rätt, efter 15 med högst ett fel, efter 19 med högst två fel etc. Konfidensen för just denna serie är 99,67% om man även accepterar svarssekvenser av typen "alla fel". Det fina med denna approach är att man inte behöver trötta ut sig med långa sekvenser om det är lätt att höra skillnad och att konfidensen blir välbestämd. Väljer man så hög konfidens som 99,67% så finns det dessutom utrymme för att göra tre serier, alt ha tre lyssnare och ändå få 99% konfidens även om bara en serie ger positivt resultat.

8. När ska avbrottsvillkoren bestämmas. Före eller efter testet? Får man ändra dem under gång?

Före. Nej.

9. Hur stor konfidens behövs? Är konfidensen viktig?

99% är väl rimligt, sammantaget. I vetenskapliga sammanhang brukar konfidenser under 95% inte anses signifikanta. Konfidensen är viktig.

10. Hur ska data behandlas för den valda metoden, dvs hur vet man hur stor konfidens man har fått?

Med metoden att förutbestämma avbrottsvillkoren är databehandlingen lätt.

11. Är det ok att exkludera misslyckade tester?

Nej. De måste rapporteras eftersom de drar ner den totala konfidensen.

12. Vilka konfidenskrav ska man ställa på varje serie om man gör flera; bör de vara högre om man gör flera tester?

Ja. Den sammantagna konfidensen blir (konfidensen för ett försök)^(antal försök).

13. Hur behandlar man data från flera lyssnare? Tex: om en person svarar rätt hela tiden, men de andra ger spridda skurar, kan man titta på bara den som lyckas? Måste statistiken modifieras i sådana fall?

Ja, den måste modifieras. Om tre personer lyssnar samtidigt med min testdesign, så kan svaren ses som tre separata försök. Om en av dem visar positivt utfall så blir total konfidens 0.9967^3=99,0%

Hur man gör tror jag måste bestämmas innan testet. En annan möjlighet är ju att man ser testet som ett enda med ganska många felsvar. En intressant fråga är om man med tidig kunskap om vem som svarar "bäst" får gå in och tysta de "sämsta" så att bara den "bästa fortsätter. Alla svar måste förstås räknas in, dock. Här är jag ute på hal is dock, det blir lätt så med flera lyssnare.

14. Bör man göra pilotlyssningar, dvs öppna lyssningar före det egentliga testet, som inte räknas? När bestämmer man att de inte räknas?

Absolut. Jag skulle säga att de är nödvändiga och det kan tom vara en fördel att göra dem blint. Man måste dock vara väldigt tydlig redan före testet att det är pilotlyssningar och att de inte ska ingå i den statistiska bedömningen.

15. Bör man diskutera upplevda skillnader före testet? Under testet? Efter testet?

Ja, det kan man väl. Risken med diskussioner under testet är att de kan störa.

16. Vem bestämmer vilken kringutrustning (högtalare, programmaterial, CD-spelare etc) som ska användas?

Det är en fråga om sunt förnuft och i viss mån i vilken grad frågeställningen är kontroversiell. En utrustning som är bekant för lyssnaren är nog ofta att föredra.

17. Bör/behöver man söka en förklaring till påvisade hörbara skillnader?

Ja, det tycker jag. Speciellt via mätningar. Man kan lära sig mycket på det, men man behöver förstås ha den kunskap som behövs. Det är bättre att avstå än att spekulera vilt.

18. Hur noga behöver man matcha triviala skillnader såsom nivå/tonkurva?

0,1-0,05 dB är lämpligt. Det är dumt att inte göra detta så noga man förmår.

19. Är det en fördel om metod och rådata redovisas? Detaljerat?

Metod: Absolut! Detta är en av grundbultarna i den vetenskapliga världen. Studier som genomförs ska kunna reproduceras av andra forskare. Det ska finnas information om hur testet utfördes så att vem som helst med tillräcklig kunskap kan reproducera experimentet.

Rådata: Nja, rådata ska bevaras så att man kan leta fram dem vid tvivel. Det är sällan rådata redovisas i forskningsrapporter, däremot redovisas förstås sammanfattningar tex i form av medelvärden eller något annat som är relevant för forskningsfrågan.

20. Finns det någon metod att avgöra hur stor skillnaden är, om den är hörbar?

Nja. Man kan fråga folk om vad de tycker. Med kvalificerat folk blir bedömningen bra, men allt står och faller med lyssnarnas förmåga. Men frågan är viktig och bör absolut behandlas parallellt med den mer strikta statstiska utvärderingen. Man kan också mäta vissa skillnader och genom att läsaren har en uppfattning om hur mycket hörbar skillnad det brukar bli för en viss mätt skillnad kan man kommunicera hur stor skillnaden är på ett ungefär, perceptuellt.

21. Finns det några vetenskapliga krav som saknar betydelse för vanligt folk?

Egentligen inte, om de är relevanta för forskarna. Ett test utan konfidens (tex en öppen lyssning) har ett lika (lågt) värde för vanligt folk som för forskarna.

22. Hur mycket tid kan läggas på varje testning för att det skall vara möjligt att a) få intresserade att genomföra X antal tester per år, b) få tillräckliga data för att kunna dra godtagbara slutsatser och c) Kunna hävda vetenskaplighet

En kväll åt gången. a) Intresserade finns det nog många i hifisverige. b) och c) är samma för mig, och självklart bör lyssnandet minimeras för att undvika uttröttning. Det är väl ett känt faktum (och problem) i alla lyssningstestarsituationer att långa tester drar ner skärpan. Men man måste samtidigt ställa detta mot statistisk signifikans. Denna motsättning gör att man bör optimera mot att få just den signifikans som är den minimala som man accepterar. Därför är det viktigt att veta hur stor signifikans man har.

Ja, det var mina tankar och de vill jag gärna ha debatt omkring. Tomas_A hade en del andra idéer som jag tyckte var intressanta, passar de in i mina frågor ovan?

av **Svante** » 2006-12-22 00:57

berma skrev:hur é léget?
är de här frågorna till för att styra upp LTSś tester eller är det mer generellt?
/berma

Mja, jag kan inte förneka att de från min sida har att göra med uppbrottet från LTS. Jag har länge velat kunna ta en sån här diskussion offentligt och nu är det möjligt. Det är möjligt att man i LTS lyssnar på vad som kommer ur den, det vet inte jag, men mitt motiv är ändå att försöka komma fram till rimliga kriterier via diskussion.

Så se det generellt.

av **Thomas_A** » 2006-12-22 01:05

1. Ska flera personer lyssna samtidigt?

*Om praktiskt möjligt, egentligen inga problem.

2. Får de avge svar med kunskap om varandras svar?

*De får ange svar om de vill men det kan inte räknas in i något statistikt test.

3. Vem ska växla mellan omkopplarlägena? Hur (AB/ABX)?

*Valfritt. Fler möjligheter för lyssnaren så man inte inskränker något är bra.

4. Hur ska slumpmomentet genereras (=det som gör att testet blir blint)?

*Slumpgenerator eller kasta mynt.

5. Hur ska resultatet antecknas? Skriver lyssnaren eller försöksledaren?

*Lättast om försökspersonen skriver om man är flera och att dessa också vill vara med i en slutberäkning. Om det är endast en person som muntligen gör testet kan valfri person anteckna.

6. Bör man få reda på under testets gång, hur det har gått hittills?

Nej, inte om man vill ha valfriheten att hoppa över omgångar. Annars ok, med den nackdelen att man måste tvingas chansa när man misslyckats höra skillnad i en omgång.

7. Hur bestämmer man när testet ska avbrytas?

När man uppnått ett förmodat mål, exempelvis 25 svar.

8. När ska avbrottsvillkoren bestämmas. Före eller efter testet? Får man ändra dem under gång?

*Man kan välja att fortsätta efter 25 förmodade svar, men helst inte bryta innan för att då riskerar man att inte få sina 25 svar.

9. Hur stor konfidens behövs? Är konfidensen viktig?

p<0.05 är ok.

10. Hur ska data behandlas för den valda metoden, dvs hur vet man hur stor konfidens man har fått?

Statistik för enkel proportion skall användas. Binomial, eller approximerad normal för np>5.

11. Är det ok att exkludera misslyckade tester?

Experimentet bör ses som ett för en lyssningssession. Dvs samla data från samtliga. Dock ska överhoppade data i en serie ignoreras, likaså de som inte lämnar in data. Inga inlämnade data ska exkluderas vid den totala beräkningen (sk fishing för att få signifikans) men man kan göra följande post-hoc för att jämföra om testpersonernas svar skiljer sig från varandra.

2 x n Fisher's exact test för samtliga n medverkande
2 x 2 Fishers exact test där man grupperat de som angivit samtliga svar i varje omgång ("säkra lyssnare") och de som valt att hoppa över omgångar ("osäkra lyssnare")

12. Vilka konfidenskrav ska man ställa på varje serie om man gör flera; bör de vara högre om man gör flera tester?

*Utveckla frågan.

13. Hur behandlar man data från flera lyssnare? Tex: om en person svarar rätt hela tiden, men de andra ger spridda skurar, kan man titta på bara den som lyckas? Måste statistiken modifieras i sådana fall?

Gör en total beräkning + ett Fishers.

14. Bör man göra pilotlyssningar, dvs öppna lyssningar före det egentliga testet, som inte räknas? När bestämmer man att de inte räknas?

*Ja.

15. Bör man diskutera upplevda skillnader före testet? Under testet? Efter testet?
16. Vem bestämmer vilken kringutrustning (högtalare, programmaterial, CD-spelare etc) som ska användas?
17. Bör/behöver man söka en förklaring till påvisade hörbara skillnader?
18. Hur noga behöver man matcha triviala skillnader såsom nivå/tonkurva?
19. Är det en fördel om metod och rådata redovisas? Detaljerat?
20. Finns det någon metod att avgöra hur stor skillnaden är, om den är hörbar?
21. Finns det några vetenskapliga krav som saknar betydelse för vanligt folk?
lägger till dem i detta inlägg om de kommer)[/quote]

av **n3mmr** » 2006-12-22 01:22

Svante skrev:Ok, åter till ämnet. Hur ska man göra ett lyssningstest för att både statistiker, lyssnare och frågeställare (= den som söker kunskapen) ska bli nöjda? Bara för att vi ska ha något konkret att utgå ifrån, antag en F/E-lyssning.

Vi har flera frågor som är viktiga. Man kan förstås göra tester utan att utveckla metoden för alla dessa punkter, men jag menar att ju mer man funderar över dem, desto troligare är det att testet visar rätt.

Jag förbereder litegrann och gör varje fråga "bold" redan nu, så blir det lättare att svara.

1. Ska flera personer lyssna samtidigt?

Njae, av sociala och ekonomiska skäl, jo, tyvärr.

2. Får de avge svar med kunskap om varandras svar?

Nej

.
3. Vem ska växla mellan omkopplarlägena? Hur (AB/ABX)?

Nån som inte är där

4. Hur ska slumpmomentet genereras (=det som gör att testet blir blint)?

Av nåt slumpmässigt... :-)

Nåns moster får ställa in en serie omkopplare m h a slantsingling. Och sen ge sig ut på stan, på rea eller nåt, med pengarna hon fick för besväret.

5. Hur ska resultatet antecknas? Skriver lyssnaren eller försöksledaren?

Lyssnaren ska skriva in i en apparat som inte glömmer.

6. Bör man få reda på under testets gång, hur det har gått hittills?

Då ska testet köras om. (tänk er att det faktiskt har en uppträningseffekt att göra så.
då görs inte efterförljande testdel under samma förutsättningar som början.)

7. Hur bestämmer man när testet ska avbrytas?

Måste vara bestämt innan. Måste ha karaktären: Kör N teststeg, come hell or high water. N väljs från konfidenskravet

8. När ska avbrottsvillkoren bestämmas. Före eller efter testet? Får man ändra dem under gång?

Ska bestämmas innan testet. Får inte ändras under gång, om testet ska beaktas.

9. Hur stor konfidens behövs? Är konfidensen viktig?

Behövs??? Hur långt är ett snöre? Hur mycket pengar måste man tjäna?

11. Är det ok att exkludera misslyckade tester?

Förklara närmare vad du menar

12. Vilka konfidenskrav ska man ställa på varje serie om man gör flera; bör de vara högre om man gör flera tester?

Jo, om man vill kunna se sammanfattningen av testerna som en stortest.

13. Hur behandlar man data från flera lyssnare? Tex: om en person svarar rätt hela tiden, men de andra ger spridda skurar, kan man titta på bara den som lyckas? Måste statistiken modifieras i sådana fall?

Då ska man undra över hur dubbelblint det hela är, och jaga dolda agendor...

14. Bör man göra pilotlyssningar, dvs öppna lyssningar före det egentliga testet, som inte räknas? När bestämmer man att de inte räknas?

Jomen, och innan

15. Bör man diskutera upplevda skillnader före testet? Under testet? Efter testet?

Före, efter och mellan testsekvenser

16. Vem bestämmer vilken kringutrustning (högtalare, programmaterial, CD-spelare etc) som ska användas?

IÖ???

Svante???

Fråga nåt som kan besvaras....

17. Bör/behöver man söka en förklaring till påvisade hörbara skillnader?

Nej, men det kanske kan vara skoj

18. Hur noga behöver man matcha triviala skillnader såsom nivå/tonkurva?

Nivå, noga som tusan. Inom ±0.05 db sas det väl.

19. Är det en fördel om metod och rådata redovisas? Detaljerat?

Jomen. jomen

20. Finns det någon metod att avgöra hur stor skillnaden är, om den är hörbar?

Hur stor konfidens som uppnås per lyssnare och för olikla utsnitt av lyssnare

( x av y lyssnare hör skillnad med z % konfidens, x1 av y1 med z1 %...)

21. Finns det några vetenskapliga krav som saknar betydelse för vanligt folk?

Alla krav. Utan undantag. Vanligt folk har ingen aning om vad det innebär att veta nåt eller varför man skulle vilja förstå nåt alls om nånting.

Listan blev visst ganska lång. Jag försökte gruppera dem, men de flätar i varandra så att det blir bara rörigt. De får stå som de är.

Jag ser flera kombinationer av svar på frågorna som kan ge bra testmetoder och det är möjligt att man måste kompromissa för att optimera helheten. Svaren på frågorna gäller alltså just den metod som ni föredrar. Jag har själv ett eller flera egna förslag och andra har kommit upp tidigare i tråden, men innan jag och ni börjar svara på frågorna ovan; finns det fler viktiga frågor? (Jag redigerar och lägger till dem i detta inlägg om de kommer)

av **Svante** » 2006-12-22 01:24

Hmm, det slår mig, Tomas_A, att jag inte är säker på hur du menar att lyssningen ska gå till praktiskt.

Får man höra först F, sedan E eller tvärtom, men endast en gång och ska sedan tala om vilken som är vilken, eller tänker du att man får växla så många gånger man vill innan man avger svar?

av **Svante** » 2006-12-22 01:30

Thomas_A skrev:12. Vilka konfidenskrav ska man ställa på varje serie om man gör flera; bör de vara högre om man gör flera tester?

*Utveckla frågan.

Alltså, tex två lyssningssessioner. Bör man kräva 99,5% konfidens i dem om man strävar efter totalt 99% konfidens? Eller har du nåt magiskt sätt att räkna samman rubbet i en totalanalys som gör att kraven före testet inte behöver ökas till 99,5%?

av **n3mmr** » 2006-12-22 01:30

Svante skrev:Hmm, det slår mig, Tomas_A, att jag inte är säker på hur du menar att lyssningen ska gå till praktiskt.

Mitt bestämda intryck är att det vanligaste problemet kring F/E tester är just denna fråga.

INGEN av er verkar se det som nödvändigt att berätta hur lyssningen skall gå till, dvs hur ser sekvensen av handgrepp ut?

Så, snälla, börja vara lite noggrannare med att ange hur testen ska gå till!

av **Kaffekoppen** » 2006-12-22 01:32

1118. Hur mycket tid kan läggas på varje testning för att det skall vara möjligt att

a) Få intresserade att genomföra X antal tester per år

b) Få tillräckliga data för att kunna dra godtagbara slutsatser

c) Kunna hävda vetenskaplighet

berma,

Resterande tråd handlar enbart om testning i största allmänhet och har ingen koppling till LTS. Däremot är det inget som säger att LTS, liksom alla övriga intresserade av testning kan ha materialet som diskussionsunderlag vid egna sammankomster. Sådanna resultat som erhålls där redovisas för medlemmarna.

Ber resterande Faktisktmedlemmar om ursäkt för att ni tagit del av LTS starka viljor

av **n3mmr** » 2006-12-22 01:35

Kaffekoppen skrev:
Ber resterande Faktisktmedlemmar om ursäkt för att ni tagit del av LTS starka viljor

Båda två, dessutom..... :-)

av **Svante** » 2006-12-22 01:42

n3mmr skrev:
.
3. Vem ska växla mellan omkopplarlägena? Hur (AB/ABX)?

Nån som inte är där

Dubbelblindhet alltså. Mm.

n3mmr skrev:
9. Hur stor konfidens behövs? Är konfidensen viktig?

Behövs??? Hur långt är ett snöre? Hur mycket pengar måste man tjäna?

Ok, hur mycket tycker du är rimligt då, vid en F/E-lyssning på en apparat. Hur hög ska konfidensen vara för att du ska tycka att testets resultat är intressant?

n3mmr skrev:
11. Är det ok att exkludera misslyckade tester?

Förklara närmare vad du menar

Jag gör fyra tester. Först lyckas jag inte uppnå 99%, inte andra eller tredje gången heller. Men fjärde gången, med annan musik går det bra. Är det OK att exkludera de tre första utan att nämna dem?

n3mmr skrev:
13. Hur behandlar man data från flera lyssnare? Tex: om en person svarar rätt hela tiden, men de andra ger spridda skurar, kan man titta på bara den som lyckas? Måste statistiken modifieras i sådana fall?

Då ska man undra över hur dubbelblint det hela är, och jaga dolda agendor...

Mm, det där med dolda agendor är intressant. Frågan är vem som har den. Om försöksledaren har den, så kan han ju göra vad han vill ändå genom att förfalska data. Enda fallet det är riktigt intressant att leta efter dolda agendor är väl om lyssnarna försöker fuska för att lura försöksledaren. Annars får man helt enkelt bedömma författaren och hur trovärdig beskrivningen av testet och resultaten är. Så är det ju liksom alltid.

n3mmr skrev:
16. Vem bestämmer vilken kringutrustning (högtalare, programmaterial, CD-spelare etc) som ska användas?

IÖ???

Svante???

Fråga nåt som kan besvaras....

Nja, alltså, det här är ju en lista över frågor som man bör ställa sig när man utvecklar en metod. Jag menar inte att det finns ett definitivt svar, men själv håller jag nog ändå på att lyssnarens egna anläggning är ett bra val.

n3mmr skrev:
21. Finns det några vetenskapliga krav som saknar betydelse för vanligt folk?

Alla krav. Utan undantag. Vanligt folk har ingen aning om vad det innebär att veta nåt eller varför man skulle vilja förstå nåt alls om nånting.

Nja, fast det betyder väl inte att de saknar betydelse för vanligt folk, även om de inte begriper dem.

av **Svante** » 2006-12-22 01:56

Missade den här.

n3mmr skrev:
20. Finns det någon metod att avgöra hur stor skillnaden är, om den är hörbar?

Hur stor konfidens som uppnås per lyssnare och för olikla utsnitt av lyssnare
( x av y lyssnare hör skillnad med z % konfidens, x1 av y1 med z1 %...)

Nej, det här är tokigt. Signifikansen har endast att göra med hur duktigt testet är på att påvisa skillnaden. Om testet visar en skillnad, hur mycket kan vi lita på att den verkligen finns?

Det är något helt annat än skillnadens storlek. Visserligen kan man förvänta sig att det är svårare att höra en liten skillnad, men saftar vi i med fler lyssningar kan vi få upp konfidensen. Men skillnaden blir ju inte större för det, eller hur?

av **Svante** » 2006-12-22 02:00

Kaffekoppen skrev:Ber resterande Faktisktmedlemmar om ursäkt för att ni tagit del av LTS starka viljor

Ja, jag ska väl göra det jag också då, det är ju inte min mening att förpesta luften här med internt groll, men jag bara kände ett så starkt behov att få ventilera testmetodiken och min roll i den här, må vara att det startade i affekt. Det är inte så ofta det händer, men det gör det förstås inte snyggare.

av **dimitri** » 2006-12-22 02:10

ponera
10 personer deltar i testet. De kommunicerar inte. Det är dubbelblind design, gärna med slumpgenerator med möjlighet att dekoda vad som var vad i efterhand. 32 växlingar.

Nåväl: 9 personer har uppnått resultat icke urskiljbara från rena gisningar
1 person har prickat alla rätt.

Som Svante sa är situationen att betrakta som 10 separata test.
Finns det hörbara skillnader mellan apparat A och B?

Ja. Absolut. Det räcker med att en person har konsekvent prickat rätt förutsatt att serier är långa. Dessutom om man skulle slå ihop allas resultat så ger Fisher signifikans p=0,037 för en 2x2 tabell:

160/160
176/124

Dvs test med 10 pers, 32 växlingar. 9 personer får 16 rätt av 32 var, 1 person får 32 rätt av 32
Dimitri

Nu är det väldigt förenklat. Det är t.ex mkt osannolikt att alla 9 personer som prickar slumpmässigt skulle just få 16 rätt och 16 fel. Men det ändrar inte poängen.

EDIT:
Fel av mig,
tabellen är
160/160
176/144
p= 0,23

(fel huvudräkning, sorry)

av **dimitri** » 2006-12-22 02:21

ursäkta sjabblet

Men ändå poängen är att det räcker med att en person konsekvent prickar rätt i långa serier för att skillnad skall anses föreligga. Men då ska det vara dubbelblint utan möjligheter till fusk.

av **berma** » 2006-12-22 02:28

Kaffekoppen skrev:
berma,

Resterande tråd handlar enbart om testning i största allmänhet och har ingen koppling till LTS. Däremot är det inget som säger att LTS, liksom alla övriga intresserade av testning kan ha materialet som diskussionsunderlag vid egna sammankomster. Sådanna resultat som erhålls där redovisas för medlemmarna.

Man kan alltså inte förvänta sig en öppen debatt om LTSś testmetoder?

hemliga klubben?

av **Svante** » 2006-12-22 02:33

dimitri skrev:ursäkta sjabblet

Men ändå poängen är att det räcker med att en person konsekvent prickar rätt i långa serier för att skillnad skall anses föreligga. Men då ska det vara dubbelblint utan möjligheter till fusk.

Ja det är jag med på. Och nyckelordet här är "långa" tror jag, och serierna behöver bli längre om man ska bibehålla signifikansen med många ickehörande lyssnare.

av **Svante** » 2006-12-22 02:40

berma skrev:
Kaffekoppen skrev:
berma,

Resterande tråd handlar enbart om testning i största allmänhet och har ingen koppling till LTS. Däremot är det inget som säger att LTS, liksom alla övriga intresserade av testning kan ha materialet som diskussionsunderlag vid egna sammankomster. Sådanna resultat som erhålls där redovisas för medlemmarna.

Man kan alltså inte förvänta sig en öppen debatt om LTSś testmetoder?

hemliga klubben?

Ja, nu kan jag inte svara för LTS, men jag tycker absolut att vi ska debattera F/E-lyssning på alla de sätt den kan utföras. Mitt mål är att få fram en metod som är optimal map konfidens (hur mycket man kan lita på satistiken) och upplösning (hur troligt det är att metoden hittar bristerna).

Jag tror annars att kaffekoppen syftar på det sidospår som med viss nödvändighet uppstod ang min och Ingvars oenighet och ev avhopp. Det är avklarat och behöver inte diskuteras mer, för min del iaf.

av **dimitri** » 2006-12-22 02:41

Svante skrev:
dimitri skrev:ursäkta sjabblet

Men ändå poängen är att det räcker med att en person konsekvent prickar rätt i långa serier för att skillnad skall anses föreligga. Men då ska det vara dubbelblint utan möjligheter till fusk.

Ja det är jag med på. Och nyckelordet här är "långa" tror jag, och serierna behöver bli längre om man ska bibehålla signifikansen med många ickehörande lyssnare.

Japp.
Samma förutsättningar som ovan fast serielängden är 100 växlingar
gen en tabell (9 pers får slumpartade resultat, en kammar hem alla 100)

500/500
550/450

ger p=0,028
Faktiskt inte illa.

av **Thomas_A** » 2006-12-22 08:26

Svante skrev:Hmm, det slår mig, Tomas_A, att jag inte är säker på hur du menar att lyssningen ska gå till praktiskt.

Får man höra först F, sedan E eller tvärtom, men endast en gång och ska sedan tala om vilken som är vilken, eller tänker du att man får växla så många gånger man vill innan man avger svar?

Hur många gånger man vill.

av **Thomas_A** » 2006-12-22 08:34

Svante skrev:
Thomas_A skrev:12. Vilka konfidenskrav ska man ställa på varje serie om man gör flera; bör de vara högre om man gör flera tester?

*Utveckla frågan.

Alltså, tex två lyssningssessioner. Bör man kräva 99,5% konfidens i dem om man strävar efter totalt 99% konfidens? Eller har du nåt magiskt sätt att räkna samman rubbet i en totalanalys som gör att kraven före testet inte behöver ökas till 99,5%?

Tja om man gör två sessioner med samma material ska man alltid addera resultaten. Gör man flera sessioner och i efterhand drar den bästa och ignorerar övriga resultat så är det fishing, och man måste öka konfidensen. Samma sak som man drar ut en person av 100 andra i ett försök, sk fishing.

av **Kaffekoppen** » 2006-12-22 10:25

berma skrev:
Kaffekoppen skrev:
berma,

Resterande tråd handlar enbart om testning i största allmänhet och har ingen koppling till LTS. Däremot är det inget som säger att LTS, liksom alla övriga intresserade av testning kan ha materialet som diskussionsunderlag vid egna sammankomster. Sådanna resultat som erhålls där redovisas för medlemmarna.

Man kan alltså inte förvänta sig en öppen debatt om LTSś testmetoder?

hemliga klubben?

:)

Jättehemlig, eller hur. Knappt någon som vet att den finns. Nej, det är naturligtvis så att man kan debattera LTS testmetoder hur fritt och öppet som helst, redan idag är vi hur öppna som helst med hur vi gör.

Däremot sköter vi meningskilljatligheter, interna missförstånd och utveckling av våra metoder internt. Det är som medlem man skall påverka hur vi utvecklas, inte som deltagare i ett diskussionsform. Det är väl rätt självklart för de allra flesta.

Så om du ursäktar, så tycker jag jäkligt illa om dina fåniga insinuationer och förstår inte alls vad din poäng är. Det finns inte en förening i hela världen som inte agerar så, allt från Scouterna till din lokala fotbollsklubb. Det finns en mening med att vara medlem, och det är att man som medlem kan påverka sin förening.

Har du intresse av att påverka hur föreningen arbetar är Du hjärtligt välkommen som medlem. Vi har faktiskt riktigt trevligt

Nu tycker jag vi återgår till tråden - den är intressant!

av **Thomas_A** » 2006-12-22 11:01

Om man så vill kan man testa alla sessioner (uppdelat på exempelvis musikval och apparat) och göra en Fisher's exakt 2 x n test (om n>5 i alla fält, applicera sedvanlig chi-square). Exempel

session 1: 18/4 (test av basregister)
session 2: 12/11 (test av diskantregister)

En ensvansat test ger p=0.035, tvåsvansat p=0.057

Alltså är testet på gränsen till signifikant för att sessionerna i sig är olika. Detta i sig gör att vi inte bör slå ihop dessa grupper vid analys, och vi har också en rationell grund för det eftersom vi testar olika saker.

Har vi tillräckligt med n?

Sample size calculation:

För en proportionsskillnad mellan 0.5 och 0.9 krävs n=24 för båda grupperna vid 80% power.

http://statpages.org/proppowr.html

Vidare gäller binomial/approximerad normal vid test av 1 proportion från observationer mot ett teoretiskt värde (exempel pi=0.5 för slump). För test av flera observationer mot varandra gäller chi-square, eller Fisher's exakta test där n<5 i någon ruta. Det går också att göra en 2 x n tabell, men ju fler jämförelser ju lägre p. Man kan alltid slå ihop data från olika tester för att öka signifikansen i själva testberäkningen om man har en rationell grund för att göra det. Ex vill man se om det är en skillnad mellan personer som alltid anger ett svar mellan individer som hoppar över svar. Man kan ha hypotesen att de som då och då hoppar är sämre att höra skillnad än de som alltid ger svar och vill pröva detta.

av **dimitri** » 2006-12-22 11:10

Håller med dig kk även om du kanske kan ha tolkat Bermas inlägg lite hårt.

Omvänt, bara som en tankeövning, skulle man kunna säga:

"Det är oförskämt av LTS, en förening som har utvecklat en metod, intern budget osv, att profitera på expertisen i ett forum och få gratis råd om hur de av föreningen använda metoder kan förbättras/utvecklas. Det borde betala för det. Det enda acceptabla är att föra denna diskussion internt"

Obs att det var ett hypotetiskt argument för att det är fel att vara öppen.
Vi har haft slitande gräl om LTS's slutenhet osv.

Så,
Det blir alltid fel, vare sig man lever upp till seder rådande i varje förening, som kk nämner ovan, dvs interna diskussioner, eller am man debatterar en fråga öppet. I alla fall när det gäller hela svenska folkets favvo nagel i ögat, LTS.

av **paa** » 2006-12-22 11:38

dimitri skrev:Håller med dig kk även om du kanske kan ha tolkat Bermas inlägg lite hårt.

Omvänt, bara som en tankeövning, skulle man kunna säga:

"Det är oförskämt av LTS, en förening som har utvecklat en metod, intern budget osv, att profitera på expertisen i ett forum och få gratis råd om hur de av föreningen använda metoder kan förbättras/utvecklas. Det borde betala för det. Det enda acceptabla är att föra denna diskussion internt"

Obs att det var ett hypotetiskt argument för att det är fel att vara öppen.
Vi har haft slitande gräl om LTS's slutenhet osv.

Alla kan fråga ett forum till råds, privatpersoner, företag, föreningar, utbildningsinstitut osv. Att någon av dessa skulle betala går helt tvärt emot tanken med öppna internet-forum! Är man inte välkommen med sina frågor skall man stängas av, annars bör man få svar av dom som kan och vill svara.
Det enda fall vi sett hittills, där svar inte varit önskvärt i forumet var väl tentafrågor?

av **berma** » 2006-12-22 11:39

Jag gick igenom Svantes lista och håller nog med honom i det mesta förutom att jag tycker att det är viktigt att även testledaren är ovetande om vad som är ”rätt svar”. En FEX-box där X genereras slumpmässigt och där alla deltagarna får jämföra F och E mot X hur många gånger man vill, om det är flera lyssnare så måste alla anonymt ge ett svar innan nästa X genererats. Om man tycker det är trevligt eller om det tillför kunskap kan man avslöja vad X var innan nästa X.

Men sen är det ju fråga 13 ....

13. Hur behandlar man data från flera lyssnare? Tex: om en person svarar rätt hela tiden, men de andra ger spridda skurar, kan man titta på bara den som lyckas? Måste statistiken modifieras i sådana fall?

Vete f*n, det är något fel på hela upplägget.
Om man tänker tvärt om blir det ju lättare dvs. om man vill testa lyssnarna! Om man tänker sig att E är känd med tex. z% distorsion, då kan man ta in en representativ grupp av befolkningen, exempelvis 1000 20-åriga män och med statistiska metoder räkna fram att w% av alla 20-åriga män kan höra z% distorsion. Då använder vi objektiva instrument för att mäta en okänd storhet, dvs. 20-åriga mäns förmåga att höra z% distorsion! Sen kan man jämföra 20-åriga män med 20-åriga kvinnor och få ny kunskap osv.

Här har vi på något sätt flera okända storheter, dels testobjektet och dels testinstrumentet=lyssnaren.
Om det ska bli nån ordning på det här måste man ju kunna kalibrera instrumentet/lyssnaren!
Jag vet inte om det här är rimligt (tror jag väl egentligen inte), men för att få sitta i testpanelen bör man kanske kvalificera sig genom att med någon överenskommen konfidens kunna detektera ett känt men svårdetekterbart objekt. Och det bör man nog dessutom göra vid varje testtillfälle, man kan ju vara förkyld eller trött så att man en viss kväll inte fungerar så bra som testinstrument.
Det optimala är ju att man med en godtyckligt vald kalibrerad lyssnare alltid ska få samma resultat.

Problemet är ju att tre mindre bra lyssnare ett testtillfälle kan godkänna en mindre bra apparat, medan tre mycket kritiska lyssnare ett annat testtillfälle underkänner en kanske bättre apparat.

Ett annat problem är ju som sagt att nollresultat är ett bra resultat, dvs. man kan bara bevisa att en apparat är dålig. Samtidigt är det ju så att om en lyssnare med hög konfidens kan detektera ett testobjekt så har man ju faktiskt visat att det testobjektet färgar, oavsett hur många som inte klara det. Att bara en klarar det är ju bara ett slags mått på hur svårt det är, eller åtminstone visar det att just det testobjektet färgar väldigt lite.

av **Style** » 2006-12-22 12:04

det som berma tar upp är mycket intressant

det hela handlar om hur generaliserbart ett sånt här test egentligen är när man använder ett icke-kalibrerat instrument (öronen hos en testpanel)

man kan se på det på flera sätt

1, man använder en panel som har visat sig kunna detektera små skillnader mot en normalbefolkning - detta drar med sig en massa strul med tester varje gång och en stor bakomliggande studie som visar hur en normalbefolkning egentligen hör, men ger möjlighet att säga saker i stil med 99% av befolkningen kan inte höra en skillnad mellan F och E för givna maskin med konfidens X

2, man använder sig av ett OSU av befolkningen - det är ju enklare rent procedurmässigt men kräver en krångligare selektionsprocess och en tämöigen stor grupp - förmodligen inte genomförbart - och renderar i att man kan säga saker i stil med: gemene man kan inte höra skillnad mellan F och E för given maskin med X konfidens

Vad vill man egentligen uppnå? Det tycker jag egentligen är en intressantare fråga

av **Kaffekoppen** » 2006-12-22 12:25

berma skrev:Problemet är ju att tre mindre bra lyssnare ett testtillfälle kan godkänna en mindre bra apparat, medan tre mycket kritiska lyssnare ett annat testtillfälle underkänner en kanske bättre apparat.

En mycket stark poäng. Det är ett mycket svårt problem att hantera, det förstår väl alla. Iallafall ser jag det som kanske det största problemet. Därför skall inte enbart en F/E lyssning ligga till grund för annat än just indikationer. Den måste följas upp på flera plan innan man kan tänka sig göra generella slutsatser.

Det är därför viktigt med en kontinuerlig grupp testare och att det slussas in personer i den här gruppen på ett sätt som tillser just kontinuerligheten. Man måste tränas i att höra. Inte det lättaste, och kanske det svåraste. Jag vet inte, eftersom jag tilldags datum inte varit deltagare vid ett testtillfälle.

Man skall även vara medveten om att med tanke på alla faktorer som är inblandade så är resultatet av en F/E lyssning endast applicerbara på just testtillfället. Alla slutsatser som dras av en F/E lyssning måste ha sin utgångspunkt i det. Generella slutsatser av en F/E lyssning måste således följas upp och verifieras med tex mätningar eller uppföljning av apparatens konstruktion - vilket kan ge stöd åt de resultat man uppnått.

Helt klart är detta en poäng tills dess att vi använder oss av kallibrerade elektroniska öron.

av **Thomas_A** » 2006-12-22 12:26

Generellt kan jag tycka att apparater som mätmässigt ligger på gränsen för vad som har detekterats av de allra känsligaste lyssnarna inte behöver avlyssnas. Mätvärden kan ju anges. De som går vidare till lyssning är de vars mätvärden ligger inom kravspecen. Detta för att spara kraften till de mest intressanta alternativen. Det görs kanske till viss del i LTS preselektion av apparater, men jag tror att även apparater med tveksamma mätvärden också avlyssnas.

Exempel på kravgränser är ju max avvikelse i bas, max tonkurveavvikelse även med svår last, maxfall i diskant, distortion, lågnivåsignaler/brus, IM-dist, kompression komplex signal vid hög utnivå, sin2-puls dist.

Just IM-dist med diskantrikt material har jag detekterat med lätthet när jag lyssnat till internt ljudkort med och utan diskant över 18 kHz, dock ej med externt bättre ljudkort. I ABX med inte så speciellt bra hörlurar.

av **Svante** » 2006-12-22 12:36

dimitri skrev:
Svante skrev:
dimitri skrev:ursäkta sjabblet

Men ändå poängen är att det räcker med att en person konsekvent prickar rätt i långa serier för att skillnad skall anses föreligga. Men då ska det vara dubbelblint utan möjligheter till fusk.

Ja det är jag med på. Och nyckelordet här är "långa" tror jag, och serierna behöver bli längre om man ska bibehålla signifikansen med många ickehörande lyssnare.

Japp.
Samma förutsättningar som ovan fast serielängden är 100 växlingar
gen en tabell (9 pers får slumpartade resultat, en kammar hem alla 100)

500/500
550/450

ger p=0,028
Faktiskt inte illa.

Nja... Det här är en intressant diskussion. Alltså p=0,028 betyder att man har detekterat en skillnad och att det är rätt säkert att det är så. Men det faktum att det behövdes 1000 lyssningar för att nå dit betyder antingen att det var ruskigt svårt att höra skillnaden, eller som här att det var ruskigt få som hörde den.

Det är skillnad på signifikans och skillnadens storlek.

Fast det vet du ju, det är ingen kritik alltså, bara en reflexion.

av **Svante** » 2006-12-22 12:39

Thomas_A skrev:
Svante skrev:Hmm, det slår mig, Tomas_A, att jag inte är säker på hur du menar att lyssningen ska gå till praktiskt.

Får man höra först F, sedan E eller tvärtom, men endast en gång och ska sedan tala om vilken som är vilken, eller tänker du att man får växla så många gånger man vill innan man avger svar?

Hur många gånger man vill.

Bra. Anledningen att jag frågar är att detta är en av de vanligaste missförstånden med folk som utför metoden praktiskt för första gången (vilket uppenbarligen inte är du) att man tror att man får en enda växling på sig och ska prestera ett svar efter det. Att kräva det gör testet mycket svårare och man kommer att bli sämre på att detektera en skillnad som i sig kan vara hörbar.

av **Kaffekoppen** » 2006-12-22 12:41

dimitri skrev:Vi har haft slitande gräl om LTS's slutenhet osv.

Jag tror det kan bero på, iallafall till viss del, att LTS inte alltid framställt sig som så ödmjuka som medlemmarna är. Medlemmarna i LTS tycker ju det här med ljud och ljudåtergivning är så kul och arbetar på så många plan för att sprida kunskap. Det är därför många av oss återfinns här.

I vissa falanger så är det inte populärt om man ger råd som motsäger branchens vilja att sälja utrustning, som medvetet, eller omedvetet inte levererar de resultat som påstås. De gillar helt enkelt inte oss.

Men inte undantagslöst, det finns branchfolk som är medlemmar och som tycker det är viktigt med opartisk och relevant granskning och som har som mål att leverera absolut rätt sak till rätt kund. Det är kul

Däremot är det jäkligt kul när man kan hjälpa någon till mer välljud på ett enkelt och kostnadseffektivt sätt. Det beröm och den uppskattning man får är värt 100 gånger mer än okvädesord och där man från initierade håll i branchen försöker misstänkliggöra det föreningen gör.

Just vad det gäller F/E testning så är våra metoder med lyssning och mätning vi använder i dag accepterade av ett antal väldigt stora elektronikföretag. Det finns hör och häpna ett väldigt högt ansett företag som ändrat sin konstruktion efter våra tester. Mer kan jag inte säga idag eftersom fler tester skall genomföras.

Jag tror på ett ödmjukare LTS, även om det ibland är svårt att vara ödmjuk när man bemöts på flera fronter av en lobbyerande branch.

Medlemsaktiviteterna vi har idag är oerhört omtyckta och populära. Efter hårt arbete verkar vår publikation MoLT komma på banan och står inför ett lyft. Engagerade och drivande medlemmar lyfter föreningen. Det känns om om vi är på rätt väg.

Jag ber berma om ursäkt om han tycker jag tolkade hans inlägg väl hårt. Han är välkommen i föreningen när som helst

ps. Svante, ber om ursäkt för kapningen av tråden. åter igen, tillbaka till den intressanta disskussionen!!

av **Svante** » 2006-12-22 13:04

berma skrev:
Problemet är ju att tre mindre bra lyssnare ett testtillfälle kan godkänna en mindre bra apparat, medan tre mycket kritiska lyssnare ett annat testtillfälle underkänner en kanske bättre apparat.

Absolut, och detta gäller vid alla lyssningstester. Alltså även öppna tester, men där drunknar problemet bland andra som är mycket större. Det är viktigt att fundera över det här, men det är lika viktigt att inse att det inte har att göra med enbart F/E-lyssning.

Vid F/E-lyssning har man eliminerat många av de stora felkällorna men alla fel går inte att eliminera. När man tror att det finns skillnader i en population av lyssnare är statistikerns ansats ofta att ta till ett väldigt stort antal lyssnare som är representativa för populationen. Det kan man göra, men det blir väldigt kostsamt att genomföra.

En mer framkomlig väg är att ha en panel med erkänt "goda öron"; detta gör att antalet lyssningar som behöver genomföras blir hanterbart, men betyder samtidigt att resultatet gäller just de lyssnarna. Det blir till sist en förtroendefråga, speciellt när man misslyckas med att detektera en apparat. Rent praktiskt är det ju de som betyder något, det är ju de apparaterna som är intressantast.

Resonemanget gäller fö inte bara lyssnarna utan även programmaterialet och kringutrustningen.

...och ändå ska man inte glömma bort att detta är det bästa man kan göra. Andra metoder (tex öppen lyssning) tillför fel, men tar inte bort några av dessa.

av **berma** » 2006-12-22 15:02

Även om F/E-tester, med sina uppenbara brister, är det bästa sättet vi har idag att för att utröna om en apparat är dålig behöver det ju inte betyda att man stannar där. F/E-test är ju en hyfsat kraftfull metod för att visa att en apparat inte förvränger signalen hörbart, en svaghet är ju att man inte kan få ett mätetal på hur stor förvrängningen är då man väl detekterar en apparat.

På 70-talet försökte man ju hitta nya mätmetoder för att mäta på förstärkare, TIM, DIM, SID och allt vad de hette förutom då THD och IM. Ett sätt att försöka få mer objektiva mätmetoder kanske kan vara att mha. F/E-test försöka hitta tröskelvärden för sådant man kan mäta elektriskt.

Svante, skulle det kunna vara en uppgift för någon doktorand eller ex-jobbare?

av **dimitri** » 2006-12-22 15:17

Svante skrev:
Nja... Det här är en intressant diskussion. Alltså p=0,028 betyder att man har detekterat en skillnad och att det är rätt säkert att det är så. Men det faktum att det behövdes 1000 lyssningar för att nå dit betyder antingen att det var ruskigt svårt att höra skillnaden, eller som här att det var ruskigt få som hörde den.

Det är skillnad på signifikans och skillnadens storlek.

Fast det vet du ju, det är ingen kritik alltså, bara en reflexion.

Just därför tycker jag att skillnaden kan anses vara påvisad om enbart en enda deltagare har prickat rätt i en tillräckligt lång serie, egentligen utan att behöva beräkna sannolikheten för slumpmässig signifikans genom att slå ihop allas resultat.
Exemplet var snarare menat som ett kuriosum att visa att vid serier på 100 ( tillräckligt långa serier) kan en enda deltagare av 10 se till att resultatet ändå blir signifikant inom 95%-ig konfidens. Men det viktiga är att skillnaden hörs, även om det bara är en av 10 som hör dessa.
Man skulle då också fråga sig hur viktiga dessa skillnader är när bara en av 10 vana lyssnare hör dessa.

av **Nattlorden** » 2006-12-22 15:24

dimitri skrev:Man skulle då också fråga sig hur viktiga dessa skillnader är när bara en av 10 vana lyssnare hör dessa.

Fortfarande viktiga! Det finns en nivå under medvetet hörande som man är påverkad av också... som bara ger en allmän känsla utan att man kan sätta fingern på det.

av **Bamsefar** » 2006-12-22 15:27

Hmmm....

Svante, är detta upptackten till hur högtalartävligen skall utvärderas eller ?

av **Svante** » 2006-12-22 15:29

berma skrev:Även om F/E-tester, med sina uppenbara brister, är det bästa sättet vi har idag att för att utröna om en apparat är dålig behöver det ju inte betyda att man stannar där. F/E-test är ju en hyfsat kraftfull metod för att visa att en apparat inte förvränger signalen hörbart, en svaghet är ju att man inte kan få ett mätetal på hur stor förvrängningen är då man väl detekterar en apparat.

På 70-talet försökte man ju hitta nya mätmetoder för att mäta på förstärkare, TIM, DIM, SID och allt vad de hette förutom då THD och IM. Ett sätt att försöka få mer objektiva mätmetoder kanske kan vara att mha. F/E-test försöka hitta tröskelvärden för sådant man kan mäta elektriskt.

Svante, skulle det kunna vara en uppgift för någon doktorand eller ex-jobbare?

Ja, det är ju den andra vägen att gå, att mäta fysiskt vad som har hänt med signalen. Jag har tom för mig att det har gjorts försök som innehåller en modell av den mänskliga hörseln som ger en siffra (eller möjligen flera) som motsvarar hörselintrycket ur någon aspekt. Det fina med en sådan modell är att den existerar som ett datorprogram och man kan få ett svar från den för ett givet stimulus inom en mycket kort tid. Det gör att modellen kan ingå i en optimeringsprocedur och man kan snabbt komma fram till någonting som är optimalt. Utan att man gör en massa lyssningstester. Jag tror att det här användes för att optimera snålkodare till telefoni.

Det uppenbara problemet med en sån här approach är att allting står och faller med modellens akuratess. Är modellen lite fel, så kommer resultatet av optimeringen att innehålla det felet.

Att mäta THD och allt vad det nu kan vara har samma problem, men också samma förtjänster. Det blir objektiva siffror som är mycket lättare att reproducera, och kan mätas snabbare utan jobbiga lyssningstest men det är inte säkert exakt vad resultaten betyder för hörbarheten.

Nu behöver inte det ena utesluta det andra, och bäst av allt är ju om man gör båda delarna, kanske lyckas man tom förklara de hörbara förändringarna med mätningar. Och som jag skrev i min MoLT-artikel; det är fint det.

Jag skulle väldigt gärna sätta en doktorand på det här, men jag tror att finansieringen skulle vara ett problem. Det är inte lätt att få pengar för psykoakustisk forskning idag. Och jag tror att en exjobbare inte skulle hinna mer än att sätta sig in i vad alla andra har gjort, som du säger bedrevs det en hel del forskning på 70-talet.

av **Svante** » 2006-12-22 15:38

Bamsefar skrev:Hmmm....

Svante, är detta upptackten till hur högtalartävligen skall utvärderas eller ?

..fast högtalare är ganska svåra att F/E-testa. Iofs rör mycket av diskussionen blindtest överhuvudtaget. Men det här med statistiken är ju bara relevant om man är tveksam till om det finns en skillnad överhuvudtaget. Inte för att jag vill nedvärdera tävlingsbidragen, men jag kan lova att alla kommer att gå att skilja från varandra, även blint. Det intressanta är väl att få fram vilket som låter bäst, och den utvärderingen måste vara subjektiv. Men blind.

av **Bamsefar** » 2006-12-22 15:49

Svante skrev:Inte för att jag vill nedvärdera tävlingsbidragen, men jag kan lova att alla kommer att gå att skilja från varandra, även blint. Det intressanta är väl att få fram vilket som låter bäst, och den utvärderingen måste vara subjektiv. Men blind.

Exakt, jag misstänker att de kommer att skilja sig åt...

...men hur jag ensam (!) skall fixa blindtest vete f*n rent utsagt

av **Kaffekoppen** » 2006-12-22 15:52

Jag kan hjälpa till

Någon som vill ha mitt kontonummer ?

av **Svante** » 2006-12-22 16:47

Nuskavise, det verkar finnas två metoder här som ger en beräkningsbar signifikans och de skulle jag vilja jämföra.

Med den ena, som väl är standardmetoden när det gäller sån här utvärdering bestämmer man först hur många svar man ska avkräva lyssnarna med ledning av någon sorts hypotes om hur många som kommer att behövas. Man tar gärna i lite extra så att man inte får en signifikans precis på marginalen. Man lyssnar och avger det förutbestämda antalet svar och tittar först i efterhand på svaren och kollar om de gav signifikans. Efter avbrutet test får man inte fortsätta.

Den andra metoden är inte riktigt lika vanlig, men redan Karl-Erik Ståhl använde den i början av 80-talet när han ordnade lyssningstest i MoLT med sin AB-låda. Den går ut på att man bestämmer en konfidens man vill uppnå, och så avbryter man testet när den är uppnådd. Det finns en bortre gräns för hur många lyssningar man får göra och når man den så har man misslyckats med att påvisa skillnaden. KES använde designan 7-13-16, dvs man fick avbryta efter 7 rätt i rad, 13 svar med högst ett fel, eller 16 svar med högst 2 fel. Nådde man någon av dessa brytpunkter fick man 99% konfidens.

Frågan är vilken metod som är bäst. Jag röstar på den andra, eftersom den tröttar ut lyssnaren precis så mycket som det behövs för att nå konfidensen. Risken är att man missar poängen om man tvingar fram 25 svar; risken är stor att man blir så trött att de sista svaren blir fel bara pga tröttheten. Dessutom bygger den första på en förkunskap om hur svårt det kommer att bli. Den behöver man inte med den andra metoden.

Vad tycker ni? Vad finns det för fördelar med den första metoden som jag inte ser?

av **Mayro_inaktiv** » 2006-12-22 17:11

med den resultatlisa LTS uppvisar här http://www.lts.a.se/teknik/rekommenderat.html
så kan sk "tester" helt o hållet skrotas i LTS regi anser jag. Logiken att dom skall anses ens snudda vid trovärdighet är totalt uteslutet.

Så starta att före ni "gör om något" att skapa ens en metod värd namnet. .. Det vore sabla mycket bättre..

av **Morello** » 2006-12-22 17:14

Vilken brandfackla Ni kastar in, Mayro.

Har du inte något mer sakligt att bjuda oss på så här innan julhelgen? :wink:

av **Kaffekoppen** » 2006-12-22 17:16

Mayro skrev:med den resultatlisa LTS uppvisar här http://www.lts.a.se/teknik/rekommenderat.html
så kan sk "tester" helt o hållet skrotas i LTS regi anser jag. Logiken att dom skall anses ens snudda vid trovärdighet är totalt uteslutet.

Så starta att före ni "gör om något" att skapa ens en metod värd namnet. .. Det vore sabla mycket bättre..

Jag kan ödmjukt säga att det sker mer än du vet

Jag kan lika ödmjukt säga att LTS borde, och kommer göra om sin hemsida alldeles radikalt

av **Sanny_X** » 2006-12-22 17:18

Kaffekoppen skrev:LTS borde, och kommer göra om sin hemsida alldeles radikalt

Vad bra.

Senaste MOLT en; nr3 2004...

av **Mayro_inaktiv** » 2006-12-22 17:25

Kaffekoppen skrev:
Mayro skrev:med den resultatlisa LTS uppvisar här http://www.lts.a.se/teknik/rekommenderat.html
så kan sk "tester" helt o hållet skrotas i LTS regi anser jag. Logiken att dom skall anses ens snudda vid trovärdighet är totalt uteslutet.

Så starta att före ni "gör om något" att skapa ens en metod värd namnet. .. Det vore sabla mycket bättre..

Jag kan ödmjukt säga att det sker mer än du vet

Jag kan lika ödmjukt säga att LTS borde, och kommer göra om sin hemsida alldeles radikalt

nu var det inte hemsidan det gällde utan sakerna som denna urbota osannolika sk testmetod tagit fram som rekomenderade kaffekoppen..

Sådan medioker lresultat ista kan ingen hemsida i världen göra om till mer än det är oavsett utseende.. DVS totalt ej trovärdig..

Man behöver inte vara einstain för att fatta att detta helt enkelt inte KAN stämma... Ren logik är allt som krävs. Samt eget tänkande. Inte ett skit mer eller mindre krävs... :wink:

edit.
Men för jag inte "tror" blint på tomtar o troll" så får ni ju göra detta för mig. Så inga problem alls. Och diskutionen behöver inte fortsätta här. Ni vill "tro" och detta är ok för mig.. Inga problem alls..

tro försätter ju berg har man hört... :lol:

Så lämnar jag tråden nu..På så vid slipper ni troende bli sura alternativt surare än ni redan ev blitt på nig.. :wink:

..

av **Morello** » 2006-12-22 17:30

Mayro,

Kan du inte exmplifiera och förklara mer i detalj vad du menar?

av **Frutti** » 2006-12-22 17:35

Mayro: Eftersom den här tråden handlar om luckor i metoden och du påstår dig hittat luckor i den med ren logik så kanske du sakligt kan beskriva dem? Det skulle nog alla tjäna på. Annars kanske en annan tråd vore lämplig för dina sågningar?

av **Kaffekoppen** » 2006-12-22 17:36

Jag håller med dig om att listan är gammal. Den borde, och kommer uppdateras. Därav är hemsidan dålig ur informationssynpunkt/köpråd idag. Det säger ju inget om produkternas egenskaper i sig. De produkter som ligger där har påvisat sig klara de kriterier som föreningen ställer. Du må ha andra kriterier, vilket är troligt med tanke på den utrustning Du använder idag.

Det har, och kommer göras tester på annan utrustning som är köpbar idag. En av de senaste testerna som genomförts fick ett helt fantastiskt mottagande av tillverkaren. Ett resultat som inte är offentliggjort än.

Nu tycker jag att vi återgår till den metodgenomgång som här sker urtråden utan att disskutera saker som handlar om allt annat än det tråden är skapd för.

Du är välkommen att framföra dina synpunkter på föreningen i andra sammanhang. Låt oss inte störa den här tråden utan ge Svante det utrymme den förtjänar. Vi är många som läser den med intresse.

av **Maarten** » 2006-12-22 17:41

Mayro, please!

Det är alltid lika trist när kritiken är osaklig, oavsett var den kommer från. :wink:

Du har i mina ögon visat ointresse för att försöka sätta dig in och förstå hur metoden fungerar. Att döma ut metoden pga de resultat de visar, är en av två möjliga tolkningar. Den andra, och i mina ögon korrekta tolkningen är att de flesta (alla?) andra metoder dras med så stora brister att de inte kan ses som ett seriöst alternativ om man vill veta hur en produkt påverkar hörbart.

Det som avhandlas är statistik och detaljer vid praktiskt utförande, ingen kritik mot Före/Efter-metoden som princip efter vad jag kunnat se.

Tyvärr lade mig nu i debatten och jag drar mig lika fort ur. Jag önskar bara att debatten inte kidnappas via osakliga inlägg. Hoppas moderatorer har ögonen öppna och styr upp osakligheter, så att saklig diskussion kan fortgå.

God Jul!

av **Vee-Eight** » 2006-12-22 17:55

markih skrev:
Det som avhandlas är statistik och detaljer vid praktiskt utförande, ingen kritik mot Före/Efter-metoden som princip efter vad jag kunnat se.

Tyvärr lade mig nu i debatten och jag drar mig lika fort ur. Jag önskar bara att debatten inte kidnappas via osakliga inlägg. Hoppas moderatorer har ögonen öppna och styr upp osakligheter, så att saklig diskussion kan fortgå.

Kritik mot de enskild apparat på listan (om man tycker de låter kass) kan man givetvis skriva om i en ny tråd, antingen här eller ännu bättre på LTS eget forum. Har man synpunkter på och tankar kring metodens statistiska beskaffenhet eller dylikt så är det bara att skriva på i tråden.

av **Thomas_A** » 2006-12-22 18:05

Mayro skrev:
Kaffekoppen skrev:
Mayro skrev:med den resultatlisa LTS uppvisar här http://www.lts.a.se/teknik/rekommenderat.html
så kan sk "tester" helt o hållet skrotas i LTS regi anser jag. Logiken att dom skall anses ens snudda vid trovärdighet är totalt uteslutet.

Så starta att före ni "gör om något" att skapa ens en metod värd namnet. .. Det vore sabla mycket bättre..

Jag kan ödmjukt säga att det sker mer än du vet

Jag kan lika ödmjukt säga att LTS borde, och kommer göra om sin hemsida alldeles radikalt

nu var det inte hemsidan det gällde utan sakerna som denna urbota osannolika sk testmetod tagit fram som rekomenderade kaffekoppen..

Sådan medioker lresultat ista kan ingen hemsida i världen göra om till mer än det är oavsett utseende.. DVS totalt ej trovärdig..

Man behöver inte vara einstain för att fatta att detta helt enkelt inte KAN stämma... Ren logik är allt som krävs. Samt eget tänkande. Inte ett skit mer eller mindre krävs...

edit.
Men för jag inte "tror" blint på tomtar o troll" så får ni ju göra detta för mig. Så inga problem alls. Och diskutionen behöver inte fortsätta här. Ni vill "tro" och detta är ok för mig.. Inga problem alls..

tro försätter ju berg har man hört...

Så lämnar jag tråden nu..På så vid slipper ni troende bli sura alternativt surare än ni redan ev blitt på nig.. ..

Mayro,

du kanske kan bidra till varför denna lista är av rekommenderade apparater inte är trovärdig. Metodmässigt finns det ingen som kommer i närheten av bättre, och vill du dissa produkterna så måste du göra det utifrån blinda test F/E-test. Annars blir dina kommentarer bara "preferenser" vilket är ointressant för den rekommenderade-listan.

av **Mayro_inaktiv** » 2006-12-22 18:23

"blinda" eller "förblindade" inte bara på ett sätt ser jag. :lol:

S

amt logik verkar inte vara er paradgren direkt här.. inte direkt eget kritiskt tänkande heller.. Läs för fasiken bara listan och använd era fina hjärnceller nu pojkar...Såååå otroligt svårt bör det inte ens vara för era intiligenta hjärnhalvor att för en gång skulle tänka LOGISKT och inte inskolat tankesätt enbart...vet ni ens vad en orimlighet är?? Fattar ni att man via logik kan under en lång period av år som tex under LTS tiden via logik och fakta av framtagna testresultat utläsa att er metod ÄR orimlig helt enkelt..

herregudars då vilken soppa detta är så fort man säger ett ord ni bara inte kan fatta inebörden i. ordet "orimlighet"...

edit.
Men för jag inte "tror" blint på tomtar o troll" så får ni ju göra detta för mig. Så inga problem alls. Och diskutionen behöver inte fortsätta här. Ni vill "tro" och detta är ok för mig.. Inga problem alls..

tro försätter ju berg har man hört...

Så lämnar jag tråden nu..På så vid slipper ni troende bli sura alternativt surare än ni redan ev blitt på nig.. ..

Så fattar ni ev i alla fall det jag skrev tydligt o klart på slutet..jag markerade för säkerhets skull tydligt också slutet..

av **dimitri** » 2006-12-22 18:25

Kan hålla med dig Svante om att KES metod kan vara acceptabel av de skäl du anför. Det är bättre att ha en metod som inte tröttar ut allt för mycket och som används med bibehållen entusiasm, samtidigt som den låter generera pålitliga resultat. Det viktigaste är att säkerställa dubbelblindhetsprincipen och icke kommunikation deltagarna emellan medan testet pågår..
Trots allt är det ju så att f/e test används inom LTS och för LTS. Ingen annan. Vill man ha synpunkter får man ha det som LTS medlem, speciellt om synpunkterna är kritiska. (nu kastar Dimitri sten i glashuset såsom en icke LTS medlem).
Svante, har du gått ur LTS eller "bara" ur styrelsen? Det finns en teknisk sektion inom LTS om jag kommer ihåg rätt. Har du tackat nej till att vara där?

av **Svante** » 2006-12-22 18:38

dimitri skrev:Kan hålla med dig Svante om att KES metod kan vara acceptabel av de skäl du anför. Det är bättre att ha en metod som inte tröttar ut allt för mycket och som används med bibehållen entusiasm, samtidigt som den låter generera pålitliga resultat. Det viktigaste är att säkerställa dubbelblindhetsprincipen och icke kommunikation deltagarna emellan medan testet pågår..
Trots allt är det ju så att f/e test används inom LTS och för LTS. Ingen annan. Vill man ha synpunkter får man ha det som LTS medlem, speciellt om synpunkterna är kritiska. (nu kastar Dimitri sten i glashuset såsom en icke LTS medlem).
Svante, har du gått ur LTS eller "bara" ur styrelsen? Det finns en teknisk sektion inom LTS om jag kommer ihåg rätt. Har du tackat nej till att vara där?

LTS använder F/E-lyssning, men det gör även andra. Möjligen kallas det inte F/E-lyssning jämt, det är vanligt att det kallas A/B-test i stället, eller bara blindtest. Jag har själv drivit en labb som heter "lyssningstest" sedan 1991 i min kurs. Egentligen så är det en F/E-lyssning som är snarlik LTS variant. Det är mest hur man behandlar data som skiljer metoderna åt och en del med dubbelblindhet och slumpgenerering.

Som jag ser det finns det väl inget hinder att diskutera vilken metod som helst för blinda lyssningstester här inklusive LTS. Möjligen indikerar titeln att de ska vara just F/E-tester.

Jag har lämnat styrelsen men är kvar i LTS.

av **Magnuz** » 2006-12-22 18:39

Mayro skrev:Så lämnar jag tråden nu..På så vid slipper ni troende bli sura alternativt surare än ni redan ev blitt på nig.. ..

Fega inte ur nu. Om det nu är så orimligt och ologiskt som du säger kan det väl inte vara så svårt för dig att förklara på vilket sätt?

av **IngOehman** » 2006-12-22 19:10

berma skrev:F/E-test är ju en hyfsat kraftfull metod för att visa att en apparat inte förvränger signalen hörbart...

Fel.

Jag orkar inte dra vetenskapens första tes ännu en gång, men de som vill kan nog hitta den.

För det specifika fallet får den till följd att: Man kan (med någon statistisk signifikans) ibland påvisa en förvrängning, men kan aldrig påvisa frånvaron av förvrängning - bara konstatera oförmåga att (under de rådande omständigheterna) ha lyckats detektera någon.

Förresten heter det F/E-lyssning, för det har jag bestämt. Som uppfinnare brukar man ju få ge namn åt metoder.

berma skrev:...en svaghet är ju att man inte kan få ett mätetal på hur stor förvrängningen är då man väl detekterar en apparat.

Det är inte en svaghet jämfört med de "konkurrerande" helt subjektiva metoderna, tvärtom!

Med F/E-lyssning kan man i varje fall göra att försök att beskriva en detekterad färgnings storlek. Använder man den stora tryffelskalan och det därtill höriga metodprotokollet* går det till och med utmärkt att få ett mätetal, som blir förvånansvärt upprepbart från gång till gång.

Med konventionella lyssningsmetoder blir det bara gissningar, så svaga att det inte är ovanligt att lyssnarna anger sig uppleva stora färgningar från apparater som de inte F/E-lyssning inte lyckas detektera någon färgning ifrån alla, eller att en apparat med i F/E-lyssning mycket lätt uppfattbara färgningar, beskriv som oerhört ofärgande.

Det är helt enkelt omöjligt att skilja en apparats insats från kedjans totalinverkan, med andra mettoder än F/E-lyssning.

I övrigt är det intressant (och lite skrämmande) att se hur mycket åsikter om metoder, detektionseffektivitet och statistik som råder. Det är uppenbart att det finns bättre sätt att skaffa sig vetenskapligt pålitliga och detektionsmässigt kraftfulla metoder, än att fråga vad folk tycker och tror om olika testmetoder...

Demokrati är liksom inte en applicerbar metod för att finna svar på objektiva förhållanden. Det borde framgå av de partiellt motstridiga åsikterna som redovisats, om inte annat.

Skall blir intressant att följa utvecklingen av LTS apparattester.

(Även jag har lämnat styrelsen (före Svante) men är kvar som medlem i LTS.)

Vh, iö

- - - - -

*En metod som jag utvecklade jag tror det var 1979, och som jag använt för den egna apparatutvecklingen, men aldrig för apparattester inom LTS. Tryffelskalan är ett oerhört kraftfullt sätt att jämföra subjektiviteter (den stora alltså, den för objektiviserbra subjektiviteter. Den lilla är bara till för rena subjektiviteter).

av **berma** » 2006-12-22 19:34

Suck, jo IÖ jag känner till vetenskapens första tes, om du läser ett inlägg jag gjort tidigare har jag kommenterat just det.
Men jag uttryckte mig naturligtvis slarvigt jag medger det.
Det jag menar är att vid det läge där man nätt och jämt kan detektera något vid en f/e-lyssning bör man också kunna mäta en förvrängning, då skulle man också kunna få ett mått på när en förvrängning är hörbar.
Jag menar att om ,man kan höra en förvrängning/färgning kan man också mäta den.
f/e-lyssning skulle kunna var ett sätt att lista ut vad/hur man ska mäta.

av **Johan_Lindroos** » 2006-12-22 19:45

berma skrev:Suck, jo IÖ jag känner till vetenskapens första tes, om du läser ett inlägg jag gjort tidigare har jag kommenterat just det.
Men jag uttryckte mig naturligtvis slarvigt jag medger det.
Det jag menar är att vid det läge där man nätt och jämt kan detektera något vid en f/e-lyssning bör man också kunna mäta en förvrängning, då skulle man också kunna få ett mått på när en förvrängning är hörbar.
Jag menar att om ,man kan höra en förvrängning/färgning kan man också mäta den.
f/e-lyssning skulle kunna var ett sätt att lista ut vad/hur man ska mäta.

Javisst Berma, sådant gör vi alltid i samband med apparattesterna.

Det finns en del gränser där man med uppmätta värden kan säga att åtminstone om apparaten har mer dist/mer frekvensgångsavvikelser/etc, så ger den garanterat hörbarhet i F/E-lyssningstest av erfarenheter från tidiagare F/E-lyssningar på andra objekt.

Men om den (t.ex.) distar extremt lågt, så kan det vara så att det är något annat som "spökar" och man kan inte med bara mätningar påvisa "subjektiv transparens", eftersom det strider mot vetenskapens första tes, o.s.v.

Thomas_A var inne på samma frågeställning, och detta är möjligtvis svar även till honom.

Hälsningar Johan, åtminstone en kvarvarande i LTS styrelse :wink:

av **Svante** » 2006-12-22 20:18

IngOehman skrev:I övrigt är det intressant (och lite skrämmande) att se hur mycket åsikter om metoder, detektionseffektivitet och statistik som råder. Det är uppenbart att det finns bättre sätt att skaffa sig vetenskapligt pålitliga och detektionsmässigt kraftfulla metoder, än att fråga vad folk tycker och tror om olika testmetoder...

Jaså? Jag tycker det är en mycket fruktsam debatt där för- och nackdelar för olika metoder vägs mot varandra. Man kan se en debatt som ett sätt att tillsammans komma fram till något gemensamt men då är det förstås givet att det finns olika åsikter på vägen. Men om alla parter ger och tar så kan man vara ganska säker på att det man enas om på slutet är väl utrett och det bästa möjliga. Det måste förstås finnas en viss kunskap hos debattörerna, men jag har ofta imponerats av vilka resurser det finns här på Faktiskt, så jag tycker det känns rätt bra.

av **Mr_Ekan** » 2006-12-22 20:27

Mayro-chan, berätta gärna om dina erfarenheter och intryck av LTS-rekommenderade apparater. Att döma av listade apparater så är F/E-lyssning en genial metod som genererar mkt tillförlitliga resultat (tycker jag). Men inget är ju så bra att det inte kan förbättras; därav denna tråd?

av **Svante** » 2006-12-22 20:35

dimitri skrev:Kan hålla med dig Svante om att KES metod kan vara acceptabel av de skäl du anför. Det är bättre att ha en metod som inte tröttar ut allt för mycket och som används med bibehållen entusiasm, samtidigt som den låter generera pålitliga resultat. Det viktigaste är att säkerställa dubbelblindhetsprincipen och icke kommunikation deltagarna emellan medan testet pågår..

Ja, det där är ofta en brist som jag ser det i mycket av den klassiska statistiken. Jag är ju iofs ingen statistiker, men jag har känslan av att alla statisiska metoder förutsätter att systemet man undersöker är tidsinvariant, dvs att egenskaperna inte ändras över tid. Metoderna säger ofta att en ökad datamängd ger ökad konfidens, men det som sällan är med i den beräkningen är den trötthet som infinner sig hos lyssnarna om man mjölkar mer data ur dem.

Det är förstås mycket svårt att uttrycka denna trötthet i siffror. Den brukar tas om hand med någon sorts intuitivt förnuft av försöksledarna, när de ser att FP blir trötta.

av **Magnuz** » 2006-12-22 20:47

Svante skrev:Metoderna säger ofta att en ökad datamängd ger ökad konfidens, men det som sällan är med i den beräkningen är den trötthet som infinner sig hos lyssnarna om man mjölkar mer data ur dem.

Det där är intressant. Man kunde ju försöka studera om det finns något samband mellan svarens korrekthet och tidpunkten för svarets avgivande.

av **Svante** » 2006-12-22 20:52

Magnuz skrev:
Svante skrev:Metoderna säger ofta att en ökad datamängd ger ökad konfidens, men det som sällan är med i den beräkningen är den trötthet som infinner sig hos lyssnarna om man mjölkar mer data ur dem.

Det där är intressant. Man kunde ju försöka studera om det finns något samband mellan svarens korrekthet och tidpunkten för svarets avgivande.

Mm, och det skulle då ge en trötthetskurva som man kunde applicera på senare lyssningar. Fast gäller samma kurva alla personer? Alla tidpunkter på dygnet? Troligen inte. Det är det som jag tycker är så genialt med att i stället bestämma en konfidens som man tolererar och sedan jobba mot den. Då har man ju optimerat inom lyssningssessionen som pågår just nu, medan den äger rum.

av **IngOehman** » 2006-12-22 21:04

Svante skrev:...Den brukar tas om hand med någon sorts intuitivt förnuft av försöksledarna, när de ser att FP blir trötta.

Intuitivt förnuft är väldigt bra. Det borde användas mera sådant.

Vh, iö

av **Naqref** » 2006-12-22 21:07

Mayro skrev:Man behöver inte vara einstain för att fatta att detta helt enkelt inte KAN stämma... Ren logik är allt som krävs. Samt eget tänkande. Inte ett skit mer eller mindre krävs...

Note från mig utan adminsynvinkel. Vad hände med hörseln? Ska man använda logik för att bedöma produkter främst eller?

Oj jag är nog OT oxå.

av **Thomas_A** » 2006-12-22 22:13

Trötthetssymptomet (som kommer av intensiv koncentration) borde kunna lösas genom att man inte testar så många apparater per tillfälle. Max 2. Man kan alltid ha ett par till vid ett annat tillfälle.

Det jobbiga är ju att lyssna igenom en massa testmusik och träna på plats. Det finns ju alternativ till detta, men kräver lite andra resurser. Exempelvis skulle man kunna spela in före och eftersavsnitt (med antagande att felen i eftersignalen fångas på ett inspelat material) och skicka dem till en lyssnarpanel som får använda dem hur de vill (ABX, ljudkort/dator, hörlurar, sin egen anläggning) för att träna på dem någon månad innan man träffas. Då kan man börja att diskutera vad man tror skulle vara bäst att att testa och gå direkt på detta.

Kanske det blir svårt att anordna då man måste ha apparatur vid två tillfällen, ett när någon spelar in materialet och sedan när man träffas (om man inte vill använda det inspelade materialet igen vid det blinda testet naturligtvis).

av **Svante** » 2006-12-22 22:22

IngOehman skrev:
Svante skrev:...Den brukar tas om hand med någon sorts intuitivt förnuft av försöksledarna, när de ser att FP blir trötta.

Intuitivt förnuft är väldigt bra. Det borde användas mera sådant.

Nja, kanske, fast ibland kan det slå fel, speciellt när det gäller statistik.

Jag menar att man behöver räkna på statistiken för att man ska kunna lita på den. Att intuitionen lätt slår fel. Därför menar jag, att i de fall det går så bör man försöka beräkna vad tex konfidensen egentligen är. Och har man lite svårt att räkna, som jag har, så kan man simulera i stället.

Har du fö funderat på varför projekt som involverar flera personer nästan alltid blir försenade? Jo, det beror på att man är så dålig på att bedömma konjunktiva sannolikheter (enligt säker statistikerkälla).

Det lär ha forskats på just det.

av **Svante** » 2006-12-22 22:28

Thomas_A skrev:Trötthetssymptomet (som kommer av intensiv koncentration) borde kunna lösas genom att man inte testar så många apparater per tillfälle. Max 2. Man kan alltid ha ett par till vid ett annat tillfälle.

Det jobbiga är ju att lyssna igenom en massa testmusik och träna på plats. Det finns ju alternativ till detta, men kräver lite andra resurser. Exempelvis skulle man kunna spela in före och eftersavsnitt (med antagande att felen i eftersignalen fångas på ett inspelat material) och skicka dem till en lyssnarpanel som får använda dem hur de vill (ABX, ljudkort/dator, hörlurar, sin egen anläggning) för att träna på dem någon månad innan man träffas. Då kan man börja att diskutera vad man tror skulle vara bäst att att testa och gå direkt på detta.

Kanske det blir svårt att anordna då man måste ha apparatur vid två tillfällen, ett när någon spelar in materialet och sedan när man träffas (om man inte vill använda det inspelade materialet igen vid det blinda testet naturligtvis).

Jo, allting går med obegränsade arbetsinsatser, men givet att arbetsinsatsen är en begränsad resurs, visst måste det vara klokt att optimera testförfarandet mot en viss konfidens?

Att spela in signalerna kan vara en lösning, men det kräver att apparaten finns tillgänglig för testning åtminstone vid två tillfällen.

av **IngOehman** » 2006-12-22 22:37

Svante skrev:
IngOehman skrev:
Svante skrev:...Den brukar tas om hand med någon sorts intuitivt förnuft av försöksledarna, när de ser att FP blir trötta.

Intuitivt förnuft är väldigt bra. Det borde användas mera sådant.

Nja, kanske, fast ibland kan det slå fel, speciellt när det gäller statistik.

Inte alls! Isåfall tror jag det du tänker på är intuitivt oförnuft.

Det tycker jag borde användas så lite som möjligt. Själv använder jag det aldrig. :wink:

Vh, iö

av **Svante** » 2006-12-22 22:49

IngOehman skrev:Det tycker jag borde användas så lite som möjligt. Själv använder jag det aldrig.

Ja, och däri ligger början till vår konflikt.

av **IngOehman** » 2006-12-22 22:59

Aha - du tycker alltså att intuitivt oförnuft borde användas mera!

Ok, då förstår jag. :wink:

Men jag tänker ändå inte bidra med något.

Vh, iö

av **Svante** » 2006-12-22 23:03

Äh...

av **Thomas_A** » 2006-12-22 23:24

Svante,

ett lyssningstest bör i första hand läggas upp så att det är störst chans att lyckas höra skillnad, innebärande en god träning och selektion av sådana som i träningen verkar höra en skillnad (genom att genomföra blindtester under träningen). Sådana som inte hör skillnad kan ju behöva mer träning eller så är det nåt annat.

I sin enklaste form är det binomial/normaltest som behöver göras. Vill man komplicera testet så måste man ha fler n, för att göra Fishers test och testa observationerna mot varandra. Men det ska inte behövas egentligen.

Jag tycker att sätta krav (dvs "du måste ha xx antal rätt av yy möjliga") är onödigt. Att helt enkelt välja ett mål på 20-25 svar totalt för en session torde vara det allra enklaste (är man 4 lyssnare med 10 omgångar ges maximalt 40 svar). Svar ska ges när en lyssnare är säker eller har en viss aning om vad som är vad. Dock ska man inte vildgissa, då ska man hoppa över en omgång istället och koncentrera sig på nästa. Tappar man koncentrationen efter 4-5 omgångar kan man vila och göra nytt försök exempelvis de två sista. Sen rättar man och gör beräkningar, och kan konstatera resultatet.

av **silvervarg** » 2006-12-23 00:23

Jag tycker att det har framkommit en del kloka synpunkter i debatten.
Farmförallt att de största svagheterna vid testningen troligen inte är statistiken utan andra faktorer. T.ex. olika duktiga lyssnare vid olika tester, trötthetsfaktorer, är det apparat 1 eller 3 som testas denna kväll etc.

Kanske är det viktigare att titta på hur man kan få bättre kontroll på dessa faktorer än exakt hur mätdatat skall tolkas och hur många tester som behövs.
Grunden vid nästan all typ av förbättringsarbete är att först analysera var den största svagheten finns och sedan försöka förbättre där. Ganska logiskt och enkelt om man tänker efter.
Eftersom alla F/E-lyssningar av LTS hittills tydligen har klarat minst 99% signifikans så finns det inte mycket att vinna på detta område, så innan alla övriga områden har gåtts igenom är det inte så vettigt att lägga kraft på att ändra i detta område.

Det största problemet med LTS tester för allmänheten är dock inte testets utformning eller dess statistiska säkerhet, utan att listan med apparater som passerat testet är alldeles för liten och innehåller främst mycket gamla apparater.
Dessutom vore det intressant att veta vilka apparater som har testats.

av **Svante** » 2006-12-23 01:06

silvervarg skrev:Eftersom alla F/E-lyssningar av LTS hittills tydligen har klarat minst 99% signifikans så <snip>...

Det är det jag har ifrågasatt. Med den nuvarande metoden är det mycket svårt att räkna ut vad konfidensen egentligen är.

av **Harryup** » 2006-12-23 09:02

Varför har LTS bara en testgrupp/plats? Om det fanns flera platser skulle resultat kunna ställas mot varandra och man skulle kunna hinna testa fler apparater. Dessutom skull kanske fler medlemmar få pröva och därmed få en insikt i vad betyder det att en apparat färgar. Idag tycker jag det är också en svaghet med proceduren att folk hänvisar till en test med en väldigt skarp gräns färgande - inte bevisat färgande där färgningen kanske inte ens är hörbar under normala omständigheter. Trots det är apparaten utdömd av folk genom hörsägen. Särskilt med avseende på att så pass många apparter blir godkända som inte finns att köpa längre så får listan lite stofil karaktär hur sann listan än är. Därför tycker jag att det skulle vara bättre om man redovisade mer av testade och icke godkända apparater som ändå skulle passa i normala anläggningar under normala betingelser.

av **tvett** » 2006-12-23 09:23

Harryup skrev:Varför har LTS bara en testgrupp/plats? Om det fanns flera platser skulle resultat kunna ställas mot varandra och man skulle kunna hinna testa fler apparater. [...]

JA, varför har LTS inte en hel armé av testare? *ironi*

(Detta ska inte förknippas med det ovanstående, men det har sagts att 1000 apor vid skrivmaskiner skulle kunna med tiden skriva Shakespears samlade verk, vilket har motbevisats med hififorum)

av **Harryup** » 2006-12-23 09:49

Men kanske 3 grupper som inte bestod av apor skulle kunna fungera.

av **Maarten** » 2006-12-23 10:16

Svante!

En hypotetisk fråga, som tydliggör åsiktsskillnaderna:

Du utför test med 3 personer som lyssnar på en och samma apparat. Varje test innehåller 10 svar av vardera personen. Detta test upprepas vid 100 olika tillfällen. Nu har du 3000 svar. En person har svarat rätt alla gånger, dvs 1000 rätt av 1000 möjliga, de andra två 500 fel/500rätt, dvs slumpmässigt.

Jag tycker att den rimliga tolkningen är att en snubbe hör skillnad och de andra inte och dennes serie bör behandlas för sig. Om testet inte hade utförts 100 ggr, utan bara en gång, hade det intuitivt inte känts lika klart att skillnaderna låg hos lyssnaderna. Kanske finns det tråden redovisat en statistikbehandling som lyckas separera skillnader hos testobjekt och hos lyssnare?
Vad säger du eller andra?

Endast för statistikkunniga (F/E-statistik)

Endast för statistikkunniga (F/E-statistik)

Re: Endast för statistikkunniga (F/E-statistik)

Re: Endast för statistikkunniga (F/E-statistik)

Re: Endast för statistikkunniga (F/E-statistik)

En korrekt F/E-test??

Re: En korrekt F/E-test??

Statistik osv

Re: Statistik osv

Re: Statistik osv

Re: Statistik osv

Re: Statistik osv

Re: Statistik osv

Re: Statistik osv

Re: Statistik osv

Re: Statistik osv

Re: Statistik osv