Moderator: Redaktörer
dimitri skrev:Kan hålla med dig Svante om att KES metod kan vara acceptabel av de skäl du anför. Det är bättre att ha en metod som inte tröttar ut allt för mycket och som används med bibehållen entusiasm, samtidigt som den låter generera pålitliga resultat. Det viktigaste är att säkerställa dubbelblindhetsprincipen och icke kommunikation deltagarna emellan medan testet pågår..
Svante skrev:Metoderna säger ofta att en ökad datamängd ger ökad konfidens, men det som sällan är med i den beräkningen är den trötthet som infinner sig hos lyssnarna om man mjölkar mer data ur dem.
Magnuz skrev:Svante skrev:Metoderna säger ofta att en ökad datamängd ger ökad konfidens, men det som sällan är med i den beräkningen är den trötthet som infinner sig hos lyssnarna om man mjölkar mer data ur dem.
Det där är intressant. Man kunde ju försöka studera om det finns något samband mellan svarens korrekthet och tidpunkten för svarets avgivande.
Svante skrev:...Den brukar tas om hand med någon sorts intuitivt förnuft av försöksledarna, när de ser att FP blir trötta.
Mayro skrev:Man behöver inte vara einstain för att fatta att detta helt enkelt inte KAN stämma... Ren logik är allt som krävs. Samt eget tänkande. Inte ett skit mer eller mindre krävs...
IngOehman skrev:Svante skrev:...Den brukar tas om hand med någon sorts intuitivt förnuft av försöksledarna, när de ser att FP blir trötta.
Intuitivt förnuft är väldigt bra. Det borde användas mera sådant.
Thomas_A skrev:Trötthetssymptomet (som kommer av intensiv koncentration) borde kunna lösas genom att man inte testar så många apparater per tillfälle. Max 2. Man kan alltid ha ett par till vid ett annat tillfälle.
Det jobbiga är ju att lyssna igenom en massa testmusik och träna på plats. Det finns ju alternativ till detta, men kräver lite andra resurser. Exempelvis skulle man kunna spela in före och eftersavsnitt (med antagande att felen i eftersignalen fångas på ett inspelat material) och skicka dem till en lyssnarpanel som får använda dem hur de vill (ABX, ljudkort/dator, hörlurar, sin egen anläggning) för att träna på dem någon månad innan man träffas. Då kan man börja att diskutera vad man tror skulle vara bäst att att testa och gå direkt på detta.
Kanske det blir svårt att anordna då man måste ha apparatur vid två tillfällen, ett när någon spelar in materialet och sedan när man träffas (om man inte vill använda det inspelade materialet igen vid det blinda testet naturligtvis).
Svante skrev:IngOehman skrev:Svante skrev:...Den brukar tas om hand med någon sorts intuitivt förnuft av försöksledarna, när de ser att FP blir trötta.
Intuitivt förnuft är väldigt bra. Det borde användas mera sådant.
Nja, kanske, fast ibland kan det slå fel, speciellt när det gäller statistik.
IngOehman skrev:Det tycker jag borde användas så lite som möjligt. Själv använder jag det aldrig.![]()
![]()
silvervarg skrev:Eftersom alla F/E-lyssningar av LTS hittills tydligen har klarat minst 99% signifikans så <snip>...
Harryup skrev:Varför har LTS bara en testgrupp/plats? Om det fanns flera platser skulle resultat kunna ställas mot varandra och man skulle kunna hinna testa fler apparater. [...]
markih skrev:Svante!
En hypotetisk fråga, som tydliggör åsiktsskillnaderna:
Du utför test med 3 personer som lyssnar på en och samma apparat. Varje test innehåller 10 svar av vardera personen. Detta test upprepas vid 100 olika tillfällen. Nu har du 3000 svar. En person har svarat rätt alla gånger, dvs 1000 rätt av 1000 möjliga, de andra två 500 fel/500rätt, dvs slumpmässigt.
Jag tycker att den rimliga tolkningen är att en snubbe hör skillnad och de andra inte och dennes serie bör behandlas för sig. Om testet inte hade utförts 100 ggr, utan bara en gång, hade det intuitivt inte känts lika klart att skillnaderna låg hos lyssnaderna. Kanske finns det tråden redovisat en statistikbehandling som lyckas separera skillnader hos testobjekt och hos lyssnare?
Vad säger du eller andra?
markih skrev:Svante!
En hypotetisk fråga, som tydliggör åsiktsskillnaderna:
Du utför test med 3 personer som lyssnar på en och samma apparat. Varje test innehåller 10 svar av vardera personen. Detta test upprepas vid 100 olika tillfällen. Nu har du 3000 svar. En person har svarat rätt alla gånger, dvs 1000 rätt av 1000 möjliga, de andra två 500 fel/500rätt, dvs slumpmässigt.
Jag tycker att den rimliga tolkningen är att en snubbe hör skillnad och de andra inte och dennes serie bör behandlas för sig. Om testet inte hade utförts 100 ggr, utan bara en gång, hade det intuitivt inte känts lika klart att skillnaderna låg hos lyssnaderna. Kanske finns det tråden redovisat en statistikbehandling som lyckas separera skillnader hos testobjekt och hos lyssnare?
Vad säger du eller andra?
Thomas_A skrev:Det som Svante varit inne på tidigare om att avbryta i "förtid" och att statistiken ändras gäller om man får förhandsinformation. Antag exemplet ovan och man avbryter så fort man vet att man fått ett fel. Då kommer man att selektera fram många fler positiva eftersom man aldrig kommer att få två fel i rad, dock kommer det att hända att man får flera positiva i rad.
3/4
0/1
2/3
0/1
1/2
4/5
0/1
1/2
3/4
2/3
0/1
=
16/27
Vill man ha förhandsinformation måste man slutföra alla tester. Om man dock inte väljer att få förhandsinformation kan man hoppa över så många man känner för och endast svara när "allt faller på plats".
patrikf skrev:Nu har jag mailat Jesper Jerkert och frågat om han vill komma med nån synpunkt om trådens diskussion.
dimitri skrev:Redan i andra inlägget har perstromgren påpekat att ämnet var uppe i tråden
http://www.faktiskt.se/modules.php?name ... ic&t=11616
Det är värt att läsa om den "gamla" tråden, nu med perspektivet från denna tråd.
JAg förstår nu Svantes egentliga agenda i den förra tråden.
dimitri skrev:Det är också mycket lättare att förstå argumentväxling mellan Svante och Ingvar. Båda två visste vad upprinnelsen till Svantes tråd medan vi andra fick agera naiva hjälpsamma statister. Så där i efterhand känner jag mig lite lurad eller som en naiv idiot i och med mitt deltagande i den gamla tråden. Det är faktiskt bättre (för mig) att veta anledningen till frågeställningen så att jag kanske kan bidra med ngt nyttigt.
Det kanske inte är så bra ur ett föreningsperspektiv, jag tror dock, som Candide, att allt som sker det sker till det bästa.
På tal om äkta/matematisk statistiskt expertis. Den finns förvisso. Det kan dock bli kontraproduktivt i vissa sammanhang att anlita denna expertis. En matematisk/teoretisk statistiker måste sättas in i sammanhanget, f/e metodiken och mycket annat. Det tar lång tid att få denna att förstå Svante och Svante att förstå den teoretiska statistikern. Det finns profilerade statistiker, t.ex. inom den epidemiologiska forkningen med dess specifika frågeställningen, t.ex. tidsutdräktens betydelse (Cox regression). Det finns många subspecialiteter inom statistiken- ekonomi, medicin.
dimitri skrev:Det synes som att flera av deltagarna i tråden besitter tillräckliga kunskaper i statistik och vetenskapsteori för att kunna ha åsikter och idéspåna här i tråden. Främst tänker jag på Herr Dahlqvist.
Edit: Faktum är att det har nog aldrig framgått hururvida Dahlqvist en man eller en kvinna. Om jag hade fel ovan så förlåt mig fru (fröken?) Dahlqvist!
Svante skrev:Thomas_A skrev:Det som Svante varit inne på tidigare om att avbryta i "förtid" och att statistiken ändras gäller om man får förhandsinformation. Antag exemplet ovan och man avbryter så fort man vet att man fått ett fel. Då kommer man att selektera fram många fler positiva eftersom man aldrig kommer att få två fel i rad, dock kommer det att hända att man får flera positiva i rad.
3/4
0/1
2/3
0/1
1/2
4/5
0/1
1/2
3/4
2/3
0/1
=
16/27
Vill man ha förhandsinformation måste man slutföra alla tester. Om man dock inte väljer att få förhandsinformation kan man hoppa över så många man känner för och endast svara när "allt faller på plats".
Hmm, var det där kritik mot "min" metod? I sådana fall måste jag förklara lite till för det är inte så avbrottsvillkoren ser ut:
Jag lyssnar tills jag har fått tillräcklig konfidens alternativt har gjort fler än fler än x fel. Väljer jag designen 7-13-16 försöker jag först få 7 rätt i rad, därefter om jag får ett fel försöker jag få 10 av 11, får jag två fel försöker jag få 14 av 16.
Jag har släppt att beräkna konfidensen (det går iofs, men beräkningen, som jag har gjort den kräver en beräkningsmängd som växer exponentiellt med antalet lyssningar, och det vet vi ju att exponentiell tillväxt är snabb) utan jag simulerar den i stället.
Jag bestämmer alltså avbrottsvilkoren och låter datorn göra en miljon "lyssningar" utan att höra något alls. Datorns svar är alltså helt slumpmässiga. På den miljonen svar råkar några uppfylla villkoren (av en slump), några svar är alltså falkskeligen positiva och genom att räkna dem kan jag få reda på konfidensen jag får med jusgt de avbrottsvillkoren.
Är du med på det?
Hmm, eller är det så att du menar att de data som kommer ur "mitt" sätt att lyssna inte lämpar sig att applicera "din" typ av statistik på? Det kan jag mycket väl tänka mig, eftersom man som du säger selekterar fram fler positiva på det sättet.
Det gäller inte bara mitt sätt utan även LTS sätt, om jag förstår det rätt.
I sådana fall har vi ytterligare ett skäl att bestämma utvärderingsmetoden och gränserna före testet i stället för i efterhand, har jag rätt i det?
Jo, så måste det vara du menar. Det betyder alltså att man förlorar konfidens för långa serier och att serierna behöver vara längre med mitt sätt. Ändå... Fördelen med att man som regel inte behöver de långa serierna utan att man får bryta tidigt tycker jag överväger. Det är ju trots allt så i de flesta fall att en skillnad antingen hörs ganska lätt eller inte alls. Det är bara precis gränsfallen som kräver långa serier för att uppnå konfidens.
Å ena sidan är det då illa att man behöver trötta ut lyssnaren lite mer just när det är som jobbigast (med min metod), å andra sidan är det troligt att man gör flera tester en kväll och fasen vet om man inte i snitt får färre lyssningar innan det där svåra gränsfallet kommer, om man applicerar min metod.
Klurigt det här...
Svante skrev:silvervarg skrev:Eftersom alla F/E-lyssningar av LTS hittills tydligen har klarat minst 99% signifikans så <snip>...
Det är det jag har ifrågasatt. Med den nuvarande metoden är det mycket svårt att räkna ut vad konfidensen egentligen är.
Användare som besöker denna kategori: Inga registrerade användare och 19 gäster