Hur kan lyssning bli objektiv??

av **Naqref** » 2010-12-03 13:33

Almen skrev:Det är inte möjligtvis så att du själv har F/E-lyssnat det...?

Nej sånt är för jemrans tråkigt. Bättre om någon annan gör det.

av **petersteindl** » 2010-12-03 14:33

Kronkan skrev:
Johan_Lindroos skrev:
Kronkan skrev:...

Det som dock kan oroa är att testarna kan vara vem som helst i en förening. Det kan ju slumpa sig så att de med lägre förmåga att höra infinner sig. Då kan man ju komma till slutsatsen att anläggningen inte färgar fast en annan grupp skulle komma till en annan slutsats. Så det kan finnas sådana och andra felkällor i metoden.

...

Jag klipper ut ovanstående ur ditt inlägg för jag tänkte att jag har några saker att delge som kan vara av intresse för flera.

Genom åren har medlemmarna i LTS testpanel kommit att utgöra en mindre skara av människor som genom upprepade lyssningstester har visat sig kunna prestera bra under långa tider samt vid olika tilläflllen. Men självklart är man inte mer än människa och kan således ha en dålig dag också, detta kanske gäller i genomsnitt en deltagare per lyssningskväll. Denna person kanske då visar på slumpmässiga resultat, eller kanske inte hör någon skillnad och kanske då inte avger några svar.

Men vi försöker också bjuda in nya lyssningsdeltagare för att se om panelen kan förbättras, och även för att fler ska kunna förstå hur dessa lyssningstester går till. Dock har det visat sig att om det är för många deltagare blir det bara en enda soppa av alltihop, för det blir alltför socialt helt enkelt, och för många underliga frågor. 1 - 2 nya deltagare går dock bra att hantera. En total mängd lyssnare på säg kanske 6 - 8 personer är vad jag ser som maximalt lämpligt.

Flera som deltagit i LTS lyssningspanel har även varit med som lyssnare i europeiska lyssningstester där SR och SVT har varit samordnare för de svenska lyssningstesterna. Dessa tester har bl a varit av ljudkodare för surroundljud, och för digitalradio. SR har då rapporterat att lyssnare från LTS har presterat osedvanligt väl i dessa tester. Dåliga lyssnare som ger alltför spridda omdömen undantas i slutsammanställningen. Sådana här lyssningstetser nyttjar i allmänhet s k "expert listeners", vilket då LTS lyssningspanel anses tillhöra. Vanliga lyssnare brukar anses tillhöra gruppen "non expert listeners". Vanliga lyssnare kan också bli "expert listeners" om de får genomgå träning (och har fullgod hörsel), men det tar förstås tid, och tid är normalt en bristvara idag.

Som sammanfattning ville jag alltså säga att LTS lyssnarpanel i praktiken kan sägas ha god lyssnarförmåga som det är idag.

Jag betvilar inte ett dugg att standarden är hög och att man kommer fram till resultat kring frågeställningen - hur skapa en transparant ljudkälla.

Fast när jag läser diskussionen i tråden tror jag att ni som sysslar med denna form av undersökningar skall fundera igenom några frågeställningar.

Själva grunder (tror jag) är att ni har en grupp personer som skall uttala sig om de kan höra någon färgning i en speciell apparat. Personerna är ingen sampling/urval. De är så att säga själva mätinstrumentet.

Om gruppen är ett utval så skall statistiska metoder användas för att säkerställa att urvalet är representativt och en metod för att beräkna singnifikans skall också användas. Men det är ju inte detta som ni gör.

Ni är själva mätinstrumentet. Skall man skapa ett mätinstrument så måste man fundera på hur man skall mäta det som man avser mäta och man måste också fundera på mätnoggranheten.

Men detta verkar ju vara specialfallens specialfall.

Ibland får jag svårt att förstå logiken i de olika resonemangen i avseende om man ser på gruppen som ett sampel/urval eller om det är ett mätinstrument.

Om jag förstår den grundläggande frågeställningen så används personerna som mätinstrument. Och då behöver man vara klar över detta så att man kan skapa det instrument som man vill ha

JAg är inte kritisk utan försöker bara förstå men blir så att säga osäker.

kronkan, gå in på denna sida http://user.faktiskt.io/svante/om_blindtester.htm
Jag rekommenderar att printa hela sidan som Svante har skrivit. Det är mycket bra skrivet och förklarar begreppen på ett utomordentligt bra sätt. Det belyser också problematiken på ett bra och pedagogiskt sätt. I A4 blir det 9 sidor, men det är inte svår läsning och det är en del bilder och tabeller. Lycka till

Jag vill också poängtera säga att det finns olika testmetoder och valet av testmetod måste bero av vad man egentligen vill få fram av testen och av vilka resurser man förfogar över. Har man inte vetenskapliga resurser i tillräcklig mängd där även tid ingår så har man inte och då blir kostymen mindre, men då kan man ändå utföra testen på bästa möjliga sätt med så liknande metodik som möjligt för att få en vetenskaplig prägel på testförfarandet. Ambitionen och resurserna drar ofta åt varsitt håll och då får man optimera sin kompromiss. Resultatet bör dock också redovisas på lämpligt sätt och en tests svagheter bör belysas fullt ut och speciellt om testen anses vara kontroversiell. Till skillnad mot vad man kanske kan tro, så ökar transparens i kommunikation mot yttervärlden faktiskt trovärdheten och inte tvärtom. All mörkning skapar oro och ger frågeställningar.

Svantes dokument är ett föredöme i att förklara vad Svante vill uppnå med LTS FE-lyssning. Frågan är om det beaktas av samtliga inblandade. En person som var med i styrelsen och vid FE-lyssning tycker inte det. Åtminstone har jag förstått det så. Det är Piotr och han har en tråd i ämnet på detta forum. OBS, jag ser inte Piotr som en LTS-antagonist utan snarast tvärtom. Jag tror egentligen inte att LTS har så många fiender som de själva tror de har, men däremot finns det många som ställer sig undrande.

Svantes dokument är ett bra exempel på ett öppet och ärligt svar till undrande. Må denna Svantes andemening vila över LTS och deras tester samt i deras kommunikation, men då behövs nog den omkopplingsbox som Svante och Morello så förtjänstfullt har jobbat med under längre tid. Vad jag förstår så har boxen ännu inte monterats och tagits i bruk och Morello har hoppat av styrelsen i LTS.

Här är ett litet axplock från Svantes sida:

Svante skrev: Flera lyssnare
Ibland är man fler än en person som lyssnar. Det är då viktigt att inte låta dem avge varsitt svar om de vet vad de andra svarar. Det finns ju en risk att omdömena färgas av varandra, speciellt om det finns en stark/ledande personlighet bland lyssnarna. Det är lätt att avfärda misstankar om sådana beroenden som larviga, eller rentav kränkande, men om man vill påstå att beroendena inte finns så måste man visa att de inte gör det. Detta är oftast mycket svårt. För att undvika all sådan tveksamhet bör därför all möjlighet till oönskat beroende mellan svaren undvikas, finns det risk för ”läckage” kommer testets trovärdighet att kunna ifrågasättas och kunna antas bero på ett antal svårkontrollerbara sociala faktorer.

Däremot kan man gärna göra testet i grupp och diskutera ljudkvaliteten med varandra, det kan hjälpa lyssnarna att fokusera på de hörbara skillnaderna. Lyssnar man i grupp bör man dock antingen endast låta en person avge svar, eller avge svaren i konsensus, dvs man enas om ett enda svar efter varje lyssning. Högst ett svar per lyssning, alltså.

Måste man alltid göra det så där vetenskapligt och krångligt
Nej, det måste man ju inte, men ska man göra anspråk på att testa för att kunna påstå något som är sant i en oomkullrunkelig vetenskaplig mening, så måste man det. Det finns förstås tillfällen när ovetenskapliga tester kan vara väldigt informativa. Ofta är det också det enda som är praktiskt möjligt. Man kan och bör också använda öppna tester som pilotexperiment för att hitta intressanta frågeställningar att undersöka på riktigt med ett mer formellt lyssningstest. Det är ju ganska jobbigt att göra lyssningstester på ett riktigt sätt och därför kan öppna tester med fördel användas som en grovsållning. Men resultaten av sådana kan inte betraktas som säkerställda.

Kortmanual
Här följer en checklista som man kan använda vid lyssningstester med någorlunda höga krav på vetenskaplighet.

1. Bekanta dig med utrustningen.

2. Mät och justera nivåskillnaden så att den blir mindre än 0,1 dB, det motsvarar en spänningsskillnad på knappt 1,2%.

3. Lyssna fram en låt eller en testsignal som du tror provocerar fram skillnaden i ett öppet pilottest. Du kan även lyssna blint, utan att börja det formella testet, ibland kan blindtestning göra det lättare att fokusera på enbart ljudet. Dessa lyssningar får inte användas i testresultatet. Diskutera gärna ljudintrycken med eventuella andra lyssnare.

4. Välj en testdesign, tex 7-13-16, som ger möjlighet till 99 % konfidens. Gör du fler än 5 serier kommer totala konfidensen att vara under 95%.

5. Bestäm att ”nu börjar testet”. Misslyckas du måste testserien antecknas som misslyckad och redovisas. Det gäller speciellt om du gör många tester.

6. Byt inte testdesign utan att börja på en ny testserie och behandla inte gamla data med alternativa testdesigner.

7. Var observant på risken för åsiktsläckage om ni lyssnar flera personer samtidigt.

8. Kom ihåg att du bara kan bevisa eller misslyckas med att bevisa att det finns en hörbar skillnad. Du kan inte bevisa att det inte finns någon hörbar skillnad.

Det finns inga restriktioner på hur lång tid de olika momenten får ta.

Sammanfattning
Blinda lyssningstester är ett utmärkt sätt att undersöka om en apparat påverkar ljudet hörbart. I de fall en hörbar påverkan finns kan de också användas för att värdera påverkan. Om man vill göra ett seriöst lyssningstest för att i vetenskaplig mening kunna uttala sig om en eventuell skillnad så måste det utföras blint. Det ska dessutom utföras så att man får tillräckligt hög konfidens. Blindtester är aningen jobbiga att ordna, men gör att man kan uttala sig med större pondus om hur saker och ting verkligen är.

Svante Granqvist

Det där med att testet inte kan bevisa att det inte finns någon hörbar skillnad är det många som glömmer i debatten. Dock är det kanske den enskilt viktigaste biten i FE-testen att fundera över.

Jag vill som avslut säga att personligen skulle jag sträva efter ett något annat upplägg och annan metodik vid FE-lyssning. Jag är dock inte säker på att jag skulle lyckas med att få önskvärt signifikativt resultat, men om det gick så skulle det som DQ-20 kallar för statistisk power finnas med i högre utsträckning än vad det gör nu, så att den inte behöver betecknas som usel

och jag skulle definitivt även försöka förbättra testets känslighet. Om det går att förena återstår att se.

MvH
Peter

av **sprudel** » 2010-12-03 15:26

DQ-20 skrev:
Almen skrev:KarlXII: Du kanske kommer ihåg den här tråden? Mycket matnyttigt från Svante, DQ-20 och dimitri, där.

Fan, den tråden (nåja, mina inlägg i alla fall) är ju fortfarande asgrym. Ni kan lägga ned med en gång: allt är redan sagt.

/DQ-20

Bifall!

Ett av inläggen är verkligen intressant ur flera aspekter. Förstår att du är nöjd med det.

Jag fick läsa flera gånger och uppskattade nivån. Kul utmaning. Tack!

av **DQ-20** » 2010-12-03 17:01

petersteindl skrev:men om det gick så skulle det som DQ-20 kallar för statistisk power finnas med i högre utsträckning än vad det gör nu, så att den inte behöver betecknas som usel och jag skulle definitivt även försöka förbättra testets känslighet. Om det går att förena återstår att se.

MvH
Peter

Nu var det ju jag som sa "usel" så jag kanske skall precisera det.

Powerberäkningar utgår från a) signifikansnivå, b) antal försök, och c) förväntad effekt. Förväntad effekt är i detta fall andel rätta/felaktiga svar i en serie. Om man förväntar sig "alla rätt" eller "alla fel" duger nästan vilket test som helst för att ge tillräcklig power (=sannolikheten att med ett visst statistiskt test "upptäcka" en sann effekt). Om man däremot kommer ned på lägre andelar, säg kanske bara 80% rätta/felaktiga svar så blir det genast svårare. Kontentan blir att om man a) har test med hög signifikansnivå och b) korta serier (lågt n) så måste man ha höga förväntningar på metodens förmåga att generera stor andel rätta svar för att testets statistiska känslighet skall kunna bibehållas.

/DQ-20

av **Kronkan** » 2010-12-03 17:42

petersteindl skrev:
Kronkan skrev:
Johan_Lindroos skrev:
Kronkan skrev:...

Det som dock kan oroa är att testarna kan vara vem som helst i en förening. Det kan ju slumpa sig så att de med lägre förmåga att höra infinner sig. Då kan man ju komma till slutsatsen att anläggningen inte färgar fast en annan grupp skulle komma till en annan slutsats. Så det kan finnas sådana och andra felkällor i metoden.

...

Jag klipper ut ovanstående ur ditt inlägg för jag tänkte att jag har några saker att delge som kan vara av intresse för flera.

Genom åren har medlemmarna i LTS testpanel kommit att utgöra en mindre skara av människor som genom upprepade lyssningstester har visat sig kunna prestera bra under långa tider samt vid olika tilläflllen. Men självklart är man inte mer än människa och kan således ha en dålig dag också, detta kanske gäller i genomsnitt en deltagare per lyssningskväll. Denna person kanske då visar på slumpmässiga resultat, eller kanske inte hör någon skillnad och kanske då inte avger några svar.

Men vi försöker också bjuda in nya lyssningsdeltagare för att se om panelen kan förbättras, och även för att fler ska kunna förstå hur dessa lyssningstester går till. Dock har det visat sig att om det är för många deltagare blir det bara en enda soppa av alltihop, för det blir alltför socialt helt enkelt, och för många underliga frågor. 1 - 2 nya deltagare går dock bra att hantera. En total mängd lyssnare på säg kanske 6 - 8 personer är vad jag ser som maximalt lämpligt.

Flera som deltagit i LTS lyssningspanel har även varit med som lyssnare i europeiska lyssningstester där SR och SVT har varit samordnare för de svenska lyssningstesterna. Dessa tester har bl a varit av ljudkodare för surroundljud, och för digitalradio. SR har då rapporterat att lyssnare från LTS har presterat osedvanligt väl i dessa tester. Dåliga lyssnare som ger alltför spridda omdömen undantas i slutsammanställningen. Sådana här lyssningstetser nyttjar i allmänhet s k "expert listeners", vilket då LTS lyssningspanel anses tillhöra. Vanliga lyssnare brukar anses tillhöra gruppen "non expert listeners". Vanliga lyssnare kan också bli "expert listeners" om de får genomgå träning (och har fullgod hörsel), men det tar förstås tid, och tid är normalt en bristvara idag.

Som sammanfattning ville jag alltså säga att LTS lyssnarpanel i praktiken kan sägas ha god lyssnarförmåga som det är idag.

Jag betvilar inte ett dugg att standarden är hög och att man kommer fram till resultat kring frågeställningen - hur skapa en transparant ljudkälla.

Fast när jag läser diskussionen i tråden tror jag att ni som sysslar med denna form av undersökningar skall fundera igenom några frågeställningar.

Själva grunder (tror jag) är att ni har en grupp personer som skall uttala sig om de kan höra någon färgning i en speciell apparat. Personerna är ingen sampling/urval. De är så att säga själva mätinstrumentet.

Om gruppen är ett utval så skall statistiska metoder användas för att säkerställa att urvalet är representativt och en metod för att beräkna singnifikans skall också användas. Men det är ju inte detta som ni gör.

Ni är själva mätinstrumentet. Skall man skapa ett mätinstrument så måste man fundera på hur man skall mäta det som man avser mäta och man måste också fundera på mätnoggranheten.

Men detta verkar ju vara specialfallens specialfall.

Ibland får jag svårt att förstå logiken i de olika resonemangen i avseende om man ser på gruppen som ett sampel/urval eller om det är ett mätinstrument.

Om jag förstår den grundläggande frågeställningen så används personerna som mätinstrument. Och då behöver man vara klar över detta så att man kan skapa det instrument som man vill ha

JAg är inte kritisk utan försöker bara förstå men blir så att säga osäker.

kronkan, gå in på denna sida http://user.faktiskt.io/svante/om_blindtester.htm
Jag rekommenderar att printa hela sidan som Svante har skrivit. Det är mycket bra skrivet och förklarar begreppen på ett utomordentligt bra sätt. Det belyser också problematiken på ett bra och pedagogiskt sätt. I A4 blir det 9 sidor, men det är inte svår läsning och det är en del bilder och tabeller. Lycka till

Jag vill också poängtera säga att det finns olika testmetoder och valet av testmetod måste bero av vad man egentligen vill få fram av testen och av vilka resurser man förfogar över. Har man inte vetenskapliga resurser i tillräcklig mängd där även tid ingår så har man inte och då blir kostymen mindre, men då kan man ändå utföra testen på bästa möjliga sätt med så liknande metodik som möjligt för att få en vetenskaplig prägel på testförfarandet. Ambitionen och resurserna drar ofta åt varsitt håll och då får man optimera sin kompromiss. Resultatet bör dock också redovisas på lämpligt sätt och en tests svagheter bör belysas fullt ut och speciellt om testen anses vara kontroversiell. Till skillnad mot vad man kanske kan tro, så ökar transparens i kommunikation mot yttervärlden faktiskt trovärdheten och inte tvärtom. All mörkning skapar oro och ger frågeställningar.

Svantes dokument är ett föredöme i att förklara vad Svante vill uppnå med LTS FE-lyssning. Frågan är om det beaktas av samtliga inblandade. En person som var med i styrelsen och vid FE-lyssning tycker inte det. Åtminstone har jag förstått det så. Det är Piotr och han har en tråd i ämnet på detta forum. OBS, jag ser inte Piotr som en LTS-antagonist utan snarast tvärtom. Jag tror egentligen inte att LTS har så många fiender som de själva tror de har, men däremot finns det många som ställer sig undrande.

Svantes dokument är ett bra exempel på ett öppet och ärligt svar till undrande. Må denna Svantes andemening vila över LTS och deras tester samt i deras kommunikation, men då behövs nog den omkopplingsbox som Svante och Morello så förtjänstfullt har jobbat med under längre tid. Vad jag förstår så har boxen ännu inte monterats och tagits i bruk och Morello har hoppat av styrelsen i LTS.

Här är ett litet axplock från Svantes sida:
Svante skrev: Flera lyssnare
Ibland är man fler än en person som lyssnar. Det är då viktigt att inte låta dem avge varsitt svar om de vet vad de andra svarar. Det finns ju en risk att omdömena färgas av varandra, speciellt om det finns en stark/ledande personlighet bland lyssnarna. Det är lätt att avfärda misstankar om sådana beroenden som larviga, eller rentav kränkande, men om man vill påstå att beroendena inte finns så måste man visa att de inte gör det. Detta är oftast mycket svårt. För att undvika all sådan tveksamhet bör därför all möjlighet till oönskat beroende mellan svaren undvikas, finns det risk för ”läckage” kommer testets trovärdighet att kunna ifrågasättas och kunna antas bero på ett antal svårkontrollerbara sociala faktorer.

Däremot kan man gärna göra testet i grupp och diskutera ljudkvaliteten med varandra, det kan hjälpa lyssnarna att fokusera på de hörbara skillnaderna. Lyssnar man i grupp bör man dock antingen endast låta en person avge svar, eller avge svaren i konsensus, dvs man enas om ett enda svar efter varje lyssning. Högst ett svar per lyssning, alltså.

Måste man alltid göra det så där vetenskapligt och krångligt
Nej, det måste man ju inte, men ska man göra anspråk på att testa för att kunna påstå något som är sant i en oomkullrunkelig vetenskaplig mening, så måste man det. Det finns förstås tillfällen när ovetenskapliga tester kan vara väldigt informativa. Ofta är det också det enda som är praktiskt möjligt. Man kan och bör också använda öppna tester som pilotexperiment för att hitta intressanta frågeställningar att undersöka på riktigt med ett mer formellt lyssningstest. Det är ju ganska jobbigt att göra lyssningstester på ett riktigt sätt och därför kan öppna tester med fördel användas som en grovsållning. Men resultaten av sådana kan inte betraktas som säkerställda.

Kortmanual
Här följer en checklista som man kan använda vid lyssningstester med någorlunda höga krav på vetenskaplighet.

1. Bekanta dig med utrustningen.

2. Mät och justera nivåskillnaden så att den blir mindre än 0,1 dB, det motsvarar en spänningsskillnad på knappt 1,2%.

3. Lyssna fram en låt eller en testsignal som du tror provocerar fram skillnaden i ett öppet pilottest. Du kan även lyssna blint, utan att börja det formella testet, ibland kan blindtestning göra det lättare att fokusera på enbart ljudet. Dessa lyssningar får inte användas i testresultatet. Diskutera gärna ljudintrycken med eventuella andra lyssnare.

4. Välj en testdesign, tex 7-13-16, som ger möjlighet till 99 % konfidens. Gör du fler än 5 serier kommer totala konfidensen att vara under 95%.

5. Bestäm att ”nu börjar testet”. Misslyckas du måste testserien antecknas som misslyckad och redovisas. Det gäller speciellt om du gör många tester.

6. Byt inte testdesign utan att börja på en ny testserie och behandla inte gamla data med alternativa testdesigner.

7. Var observant på risken för åsiktsläckage om ni lyssnar flera personer samtidigt.

8. Kom ihåg att du bara kan bevisa eller misslyckas med att bevisa att det finns en hörbar skillnad. Du kan inte bevisa att det inte finns någon hörbar skillnad.

Det finns inga restriktioner på hur lång tid de olika momenten får ta.

Sammanfattning
Blinda lyssningstester är ett utmärkt sätt att undersöka om en apparat påverkar ljudet hörbart. I de fall en hörbar påverkan finns kan de också användas för att värdera påverkan. Om man vill göra ett seriöst lyssningstest för att i vetenskaplig mening kunna uttala sig om en eventuell skillnad så måste det utföras blint. Det ska dessutom utföras så att man får tillräckligt hög konfidens. Blindtester är aningen jobbiga att ordna, men gör att man kan uttala sig med större pondus om hur saker och ting verkligen är.

Svante Granqvist

Det där med att testet inte kan bevisa att det inte finns någon hörbar skillnad är det många som glömmer i debatten. Dock är det kanske den enskilt viktigaste biten i FE-testen att fundera över.

Jag vill som avslut säga att personligen skulle jag sträva efter ett något annat upplägg och annan metodik vid FE-lyssning. Jag är dock inte säker på att jag skulle lyckas med att få önskvärt signifikativt resultat, men om det gick så skulle det som DQ-20 kallar för statistisk power finnas med i högre utsträckning än vad det gör nu, så att den inte behöver betecknas som usel och jag skulle definitivt även försöka förbättra testets känslighet. Om det går att förena återstår att se.

MvH
Peter

Tacksam för genomarbetat svar. Vill bara återigen påpeka att jag inte är fientlig eller ens undrande. Tror mig förstå ambitionen med den ”transparanta uppspelningen”. Dock själv mera en enligt IÖ:s termer en illusionist (inslag av).

Tror också säkert att ni kan nå resultat med den metod ni använder. Men tycker att det blir en del underligheter. Dessa underligheter kanske kan åstadkomma ett resultat men det blir på ett krokigt sätt. Jag är medveten om att jag kan ha fel men ändå relativivt övertygad om att det finns en kullebytta i metoden.

Men ni arbetar som om det vore en urvalsundersökning. Men så kan det väl inte vara? Håller ni på att undersöka om medlemmar i er förening kan höra färgningar i olika apparater. Detta är ett helt annat studieobjekt än att studera om apparater färgar.

Min uppfattning är att det är lånat statiska verktyg och metoder från urvalsundersökningsmetoderna. Klart att man får resultat. Resultatet kan nog påverkas. Kan det vara så att det släpps igenom apparater som egentligen borde falla i prövningen? Eller tvärtom?

Urvalsundesökningar skall signingfikansberäknas. Finns det inget urval kan jag inte se att det är lämpligt att beräkna signifikanser. Signifikanser används väl för att beräkna hur urvalet förhåller sig till den grupp som urvalet tillhör.

Det blir andra metoder om man vänder på det och ser på gruppen som en mätapparat.

Så ser jag fortfarande på det och egentligen ytterligare stärkt i min uppfattning.

Men om det finns dolda trådar som behandlar ämnet faller direkt tanken på ett vetenskapligt förhållningssätt. En liten reflektion. Men det tror jag inte på att det är tanken.

Allra bästa hälsningar till er alla som har musiklyssnande som nöje.

av **DQ-20** » 2010-12-03 17:56

Kronkan skrev:Min uppfattning är att det är lånat statiska verktyg och metoder från urvalsundersökningsmetoderna. Klart att man får resultat. Resultatet kan nog påverkas. Kan det vara så att det släpps igenom apparater som egentligen borde falla i prövningen? Eller tvärtom?

Urvalsundesökningar skall signingfikansberäknas. Finns det inget urval kan jag inte se att det är lämpligt att beräkna signifikanser. Signifikanser används väl för att beräkna hur urvalet förhåller sig till den grupp som urvalet tillhör.

Det blir andra metoder om man vänder på det och ser på gruppen som en mätapparat.

Så ser jag fortfarande på det och egentligen ytterligare stärkt i min uppfattning.

Din uppfattning är felaktig. Det finns nämligen ett urval och en population. Statistiska beräkningar är därför tillämpliga. Såhär är det: När man gör experiment vars utfall man vill pröva statistiskt måste man konstruera en "hypotetisk oändlig population" av experiment som man gör ett urval ur. Detta urval är de experiment man verkligen gör. Man beräknar sedan på vanligt sätt signifikansnivåer osv. De resultat man sedan får är sedan statistiskt generaliserbara till den hypotetiska oändliga populationen av experiment. Huruvida experimentet är giltigt för något fenomen utanför själva testsituationen är inte en statistisk fråga.

/DQ-20

av **IngOehman** » 2010-12-03 18:52

DQ-20 skrev:
IngOehman skrev:Till DQ-20 vill jag dock ställa en fråga: -Är du med på att dessa tre frågor
är olika:

-Kan någon detektera den här apparaten? (med något programmaterial)

-Kan de flesta detektera den här apparaten? (med normalt programmaterial)

-Kan alla detektera den här apparaten? (med vilket programmaterial som helst)

Jag är helt på vad du menar. Jag är väl förtrogen med dina (och LTS) mål. Jag har alla MoLt sedan 1991 och följt och tagit intryck av debatterna på faktiskt.se. Vad jag vänder mig mot i Almens text är att den är för allmänt hållen och riktar (som jag uppfattade det) in sig på de statistiska beräkningarna. Och jag finner inget i statistiken som stödjer hans påstående. Det är helt enkelt för kategoriskt. Men om man tar hänsyn till metodiken, själva mätinstrumentet, och hur den fungerar hamnar saken i en annan dager och det som Almen skriver blir (med vissa förtydliganden) sant. Jag lämnade också en brasklapp om detta i mitt tidigare inlägg.

Man kan se det så här. Varje "serie" är ett urval från en oändlig teoretisk population av försök (F eller E). För att besvara fråga 1 samplar man från en population (A), för att besvara fråga 2 från en annan (B) och för att besvara fråga 3 från en tredje (C). Om man utökar antalet urval från t.ex. population B och C (obs! Detta är inte naturliga populationer utan fortfarande oändliga teoretiska populationer av försök) för att besvara fråga 1, i hopp om att vinna statistisk känslighet, så gör man helt enkelt fel.

Den akademiska forskningen har vissa krav på upprepbarhet och dokumentation som inte har med sanningshalten i enskilda resultat att göra utan som är till för att forskarsamhället skall fungera utan att man måste ha subjektiv tilltro till en viss forskares förmåga att göra rätt. Svantes arbete med att utveckla (eller "förändra" om man är mindre positivt inställd) LTS metod ser jag mot bakgrund av hans egna krav på genomsiktlighet och upprepbarhet, akademiker som han är. Visst kan det finnas en trade-off mellan upprepbarhet (som i att ANDRA skall kunna upprepa testet) och testets känslighet men den avvägningen är subjektiv och måste relateras till undersökarens mål och förmåga.

/DQ-20

Den sista meningen är den bästa jag läst i den här tråden hittills. Jag är glad
över det rådande samförståndet, och delar dina synpunkter ned till minsta
detalj även om allt det andra du skrev.

Balansgången är subjektiv, och jag säger inte att alla måste vara överens
om den, men jag kan ju bara argumentera för min egen uppfattning där-
vidlag - och jag är glad att det finns i varje fall fyra personer mig själv in-
räknad, som förstått det jag skriver. Kanske många flera.

En annan intressant infallsvinkel är att man kan hålla med mig och förstå
det jag skrivit, hålla med utan att förstå, tycka annorlunda och ha förstått.
och tycka annorlunda utan att ha förstått. Den sista är dock problematiskt
eftersom den som känner så kan lura sig själv.

JAG tycker det är viktigare att ha en metod som ger möjlighet för detek-
tion som närmar sig gränsen för människans förmåga - än att förenkla
proceduren för att göra metoden enklare att förklara för dem som inte
behärskar/har tillräckliga kunskaper i ämnet. JAG tycker också att det är
bättre att använda elitlyssnare (söka svar på fråga 1) och acceptera att
resultatet blir svårt att repetera för dem som drar ihop en grupp normal-
lyssnare (vilket inte ger några svar på fråga 1).

Någon annan kan ha en helt annan uppfattning, och det är helt okej.

Men jag ser inget större värde i en blindlyssningsmetod som missar karak-
tärer som många hör i helt öppna lyssningar. Det gör bara blindlyssning-
arna precis så löjliga och meningslösa som många av antagonisterna redan
tycker - i synnerhet när de kombineras med människor som inte förstått
den första vetenskapliga tesen, och tror att ett nollresultat är en frisedel
för apparaten...

Antagonisterna har helt enkelt rätt, om blindlyssningarna reduceras till att
bli av normal standard.

Därför har jag aldrig varit intresserad av att syssla med blinda studier som
missar en massa saker som har hörbar inverkan i verkligheten. Men andra
får gärna ägna sig åt dem, och låta nollresultaten hagla, som sedan tolkas
som =ofärgande...

Det ger legitima skäl att ifrågasätta trovärdigheten av resultat som
inkluderar ovetenskapliga påståenden som ofärgande.

- - -

Vilket osökt för mig att fundera på det absurda i att försöka stämpla en
metod med begrepp som "trovärdig". Alla metoder, liksom metodernas
resultat (vetenskapligt rapporterade) har en hel rad med egenskaper, men
trovärfighet/otrovärdighet är inte en av den.

Det är viktigt att förstå att trovärdighet inte är en egenskap hos någon
metod eller ett resultat, utan det är en egenskap/känsla, som tillhör en
person som försöker relatera till metoden, med eller utan insikt om den
och med eller utan grundläggande kunskaper.

Huruvida en metod är trovärdig (i någon medvetande) behöver inte ha
något överhuvudtaget med dess kvaliteter att göra.

Att tala om att en metod inte är trovärdig, i betydelsen att man inte själv
förstår den tillräckligt bra för att kunna göra relevanta bedömningar av
resultatet, är inte bra språkbruk. Trovärdighet är subjektivt, och kan vara
villkorat kunskap. Att deklarera att man inte är intresserad av statistik,
men ändå klaga att man inte förstår när man måste begripa statistisken
för att kunna förstå, går liksom inte ihop.

Vh, iö

av **sprudel** » 2010-12-03 19:04

Citat:

Den akademiska forskningen har vissa krav på upprepbarhet och dokumentation som inte har med sanningshalten i enskilda resultat att göra utan som är till för att forskarsamhället skall fungera utan att man måste ha subjektiv tilltro till en viss forskares förmåga att göra rätt. Svantes arbete med att utveckla (eller "förändra" om man är mindre positivt inställd) LTS metod ser jag mot bakgrund av hans egna krav på genomsiktlighet och upprepbarhet, akademiker som han är. Visst kan det finnas en trade-off mellan upprepbarhet (som i att ANDRA skall kunna upprepa testet) och testets känslighet men den avvägningen är subjektiv och måste relateras till undersökarens mål och förmåga.

Det här kan man tydligen ta som stöd både för det ena och andra, beroende på målsättning förstås.

av **PerStromgren** » 2010-12-03 19:06

DQ-20 skrev:Visst kan det finnas en trade-off mellan upprepbarhet (som i att ANDRA skall kunna upprepa testet) och testets känslighet men den avvägningen är subjektiv och måste relateras till undersökarens mål och förmåga.

/DQ-20

IngOehman skrev:Den sista meningen är den bästa jag läst i den här tråden hittills. Jag är glad
över det rådande samförståndet, och delar dina synpunkter ned till minsta
detalj även om allt det andra du skrev.

[...]

JAG tycker det är viktigare att ha en metod som ger möjlighet för detek-
tion som närmar sig gränsen för människans förmåga - än att förenkla
proceduren för att göra metoden enklare att förklara för dem som inte
behärskar/har tillräckliga kunskaper i ämnet.

Menar du alltså att du offrar upprepbarhet?

av **sprudel** » 2010-12-03 19:12

Ett antal inlägg har producerats där ett genomgående argument har lytt:

"Du har inte förstått vad F/E-lyssning (ibland F/E-test) är."

Kanske det kunde vara på sin plats att de som envist hävdat detta i diskussioner nu förklarar hur det fungerar.

Tack på förhand.

av **Laila** » 2010-12-03 19:37

Själv så dricker jag vatten f.n.

av **sprudel** » 2010-12-03 19:50

Laila skrev:Själv så dricker jag vatten f.n.

Is, min vän. Is!

28 grader minus i Hemsedal.

Coolt!

av **DQ-20** » 2010-12-03 20:08

perstromgren skrev:Menar du alltså att du offrar upprepbarhet?

Frågan väl ställd till IÖ men jag vill inflika att jag egentligen menade reproducerbarhet när jag skrev upprepbarhet (om man skall köra med rätt terminologi).

/DQ-20

av **DQ-20** » 2010-12-03 20:09

sprudel skrev:Det här kan man tydligen ta som stöd både för det ena och andra, beroende på målsättning förstås.

Correctomundo.

/DQ-20

av **petersteindl** » 2010-12-03 20:10

sprudel skrev:Ett antal inlägg har producerats där ett genomgående argument har lytt:

"Du har inte förstått vad F/E-lyssning (ibland F/E-test) är."

Kanske det kunde vara på sin plats att de som envist hävdat detta i diskussioner nu förklarar hur det fungerar.

Tack på förhand.

Sprudel, jag rekommenderar detta.

petersteindl skrev:... gå in på denna sida http://user.faktiskt.io/svante/om_blindtester.htm
Jag rekommenderar att printa hela sidan som Svante har skrivit. Det är mycket bra skrivet och förklarar begreppen på ett utomordentligt bra sätt. Det belyser också problematiken på ett bra och pedagogiskt sätt. I A4 blir det 9 sidor, men det är inte svår läsning och det är en del bilder och tabeller. Lycka till ...

Har du läst det Svante skriver? Om inte, så rekommenderar jag att det läses

MvH
Peter

av **Kronkan** » 2010-12-03 22:40

DQ-20 skrev:
Kronkan skrev:Min uppfattning är att det är lånat statiska verktyg och metoder från urvalsundersökningsmetoderna. Klart att man får resultat. Resultatet kan nog påverkas. Kan det vara så att det släpps igenom apparater som egentligen borde falla i prövningen? Eller tvärtom?

Urvalsundesökningar skall signingfikansberäknas. Finns det inget urval kan jag inte se att det är lämpligt att beräkna signifikanser. Signifikanser används väl för att beräkna hur urvalet förhåller sig till den grupp som urvalet tillhör.

Det blir andra metoder om man vänder på det och ser på gruppen som en mätapparat.

Så ser jag fortfarande på det och egentligen ytterligare stärkt i min uppfattning.

Din uppfattning är felaktig. Det finns nämligen ett urval och en population. Statistiska beräkningar är därför tillämpliga. Såhär är det: När man gör experiment vars utfall man vill pröva statistiskt måste man konstruera en "hypotetisk oändlig population" av experiment som man gör ett urval ur. Detta urval är de experiment man verkligen gör. Man beräknar sedan på vanligt sätt signifikansnivåer osv. De resultat man sedan får är sedan statistiskt generaliserbara till den hypotetiska oändliga populationen av experiment. Huruvida experimentet är giltigt för något fenomen utanför själva testsituationen är inte en statistisk fråga.

/DQ-20

Nej jag delar inte din uppfattning om att det finns ett urval. då måste ni berätta för mig hur urvalet är gjord. Ett urval måste ske ur en population på ett bestämt sätt så att urvalet är represantivt för populatioen. Detta torde vara grundläggande. Det går inte att beräkna signifikans om man inte kan välja metod för att beräkna den. JAg kan inte längre vilken metod som skall väljas i vilket fall men har hittat ett exempel som jag anser kan belysa situationen
På grund av ringrostigheten med statistik och vetenskaplig vill jag korrigera mig något men inte i mitt grundläggande antagande.

Tar ett exempel ur den engelska versionen av wikipedia. Sök på Significance.

The following example is summarized from Fisher, and is known as the Lady tasting tea example.[5] Fisher thoroughly explained his method in a proposed experiment to test a Lady's claimed ability to determine the means of tea preparation by taste. The article is less than 10 pages in length and is notable for its simplicity and completeness regarding terminology, calculations and design of the experiment. The example is loosely based on an event in Fisher's life. The Lady proved him wrong.[6]
1. The null hypothesis was that the Lady had no such ability.
2. The test statistic was a simple count of the number of successes in 8 trials.
3. The distribution associated with the null hypothesis was the binomial distribution familiar from coin flipping experiments.
4. The critical region was the single case of 8 successes in 8 trials based on a conventional probability criterion (< 5%).
5. Fisher asserted that no alternative hypothesis was (ever) required.
If and only if the 8 trials produced 8 successes was Fisher willing to reject the null hypothesis – effectively acknowledging the Lady's ability with > 98% confidence (but without quantifying her ability). Fisher later discussed the benefits of more trials and repeated tests.

Problemet är att damen redan påstod att hon hade kompetensen. Hon kunde också visa med stor sannolikhet att hon hade denna kompetens.

Men hur är det med gruppen som skall bedöma om apparaten färgar. Hur utvecklar de kompetensen att höra på den specifika apparaten. Får de en chans att att utveckla kompetens att lyssna just på den apparat som sakll testas. Jag tycker att det inte finns några hinder att på alla sätt utveckla deras kompetens. Om de utvecklar förmågan under testets gång kan man aldrig nå signifikant nivå. Men efter attt de utveckalt kompetensen kan man ju utföra ett blindtest eventullet ett dubbelbindtest

Sedan kommer problemet vad som anses som att man dedikerar en färgning.Är det på gruppnivå eller räcker det med att en kan visa på tillräcklig nivå att han/hon kan dedikera skillnaden

Det är också lite tveksamt att bedömmar gruppens kompetens kan ändras även om den kan anses som hög men hur hög.

För mig tycks metoden leda till att det går att säga att en speciell apparat färgar men metoden leder till svårigheter att bestämma att det är ofärgat.

av **Kronkan** » 2010-12-03 22:51

Johan_Lindroos skrev:
Kronkan skrev:Jag betvilar inte ett dugg att standarden är hög och att man kommer fram till resultat kring frågeställningen - hur skapa en transparant ljudkälla.

Fast när jag läser diskussionen i tråden tror jag att ni som sysslar med denna form av undersökningar skall fundera igenom några frågeställningar.

Själva grunder (tror jag) är att ni har en grupp personer som skall uttala sig om de kan höra någon färgning i en speciell apparat. Personerna är ingen sampling/urval. De är så att säga själva mätinstrumentet.

Om gruppen är ett utval så skall statistiska metoder användas för att säkerställa att urvalet är representativt och en metod för att beräkna singnifikans skall också användas. Men det är ju inte detta som ni gör.

Ni är själva mätinstrumentet. Skall man skapa ett mätinstrument så måste man fundera på hur man skall mäta det som man avser mäta och man måste också fundera på mätnoggranheten.

Men detta verkar ju vara specialfallens specialfall.

Ibland får jag svårt att förstå logiken i de olika resonemangen i avseende om man ser på gruppen som ett sampel/urval eller om det är ett mätinstrument.

Om jag förstår den grundläggande frågeställningen så används personerna som mätinstrument. Och då behöver man vara klar över detta så att man kan skapa det instrument som man vill ha

JAg är inte kritisk utan försöker bara förstå men blir så att säga osäker.

Få se nu om jag förstår dig rätt...

LTS är inte intresserade av att studera huruvida "non expert listerners" kan höra skillnad på olika apparater. Om man skulle ta med sådana lyssnare skulle det förmodligen bli så att det blir fler apparater som skull passera nålsögat och kunna sägas vara "icke detekterade".

Men man kan få dåliga resultat (nollresultat) även om man har expertlyssnare. Man kan t ex ha råkat välja okritiskt lyssningsmaterial. Man kan ha en för dålig uppslepningsmiljö (även om det inte är jättekristiskt har det visat sig) t ex att starka lågfrekventa ljudtryck inte kanskapas. Så det är väldigt många ställen där man kan misslayckas.

Var det detta du tänkte på el dyl?

Ja precis så tycker jag att metoden verkar vara dåligt normerad och kalibrerad. Tekniskt tvekar jag inte på att detär en intressant väg för att finna t det transparanta ljudet för de som strävar dit. Men mätnoggranheten kan nog vara lite tveksam.

av **n3mmr** » 2010-12-03 22:56

Kronkan skrev:
För mig tycks metoden leda till att det går att säga att en speciell apparat färgar men metoden leder till svårigheter att bestämma att det är ofärgat.

Jo, det är ett problem, om det är en induktivt positivistisk metod att anhängiggöra en noll-hypotes man söker.

Men det gör man inte.

Vad man kan göra är att diskutera hur troligt det är att ett noll-resultat kan utvidgas till en allmän alternativhypotes.

Alltså: om man inte lyckas hitta nån individ, eller hittar väldigt få individer, som säkert kan detektera en färgning, så kan man göra en rimlighetsanalys kring hur allvarlig en ev existerande färgning är.

Längre än så kommer man inte, och det inbillar man sig inte heller.

av **dimitri** » 2010-12-03 23:04

Kronkan skrev:... ...
För mig tycks metoden leda till att det går att säga att en speciell apparat färgar men metoden leder till svårigheter att bestämma att det är ofärgat.

Det är (ungefär*) det som metodens tillskyndare hävdat hela tiden! Bra jobbat.

*det är inte bara svårt att utsluta färgning, det är rent av omöjligt.

av **DQ-20** » 2010-12-03 23:15

Kronkan skrev:Nej jag delar inte din uppfattning om att det finns ett urval. då måste ni berätta för mig hur urvalet är gjord. Ett urval måste ske ur en population på ett bestämt sätt så att urvalet är represantivt för populatioen. Detta torde vara grundläggande. Det går inte att beräkna signifikans om man inte kan välja metod för att beräkna den. JAg kan inte längre vilken metod som skall väljas i vilket fall men har hittat ett exempel som jag anser kan belysa situationen
På grund av ringrostigheten med statistik och vetenskaplig vill jag korrigera mig något men inte i mitt grundläggande antagande.

Tar ett exempel ur den engelska versionen av wikipedia. Sök på Significance.

The following example is summarized from Fisher, and is known as the Lady tasting tea example.[5] Fisher thoroughly explained his method in a proposed experiment to test a Lady's claimed ability to determine the means of tea preparation by taste. The article is less than 10 pages in length and is notable for its simplicity and completeness regarding terminology, calculations and design of the experiment. The example is loosely based on an event in Fisher's life. The Lady proved him wrong.[6]
1. The null hypothesis was that the Lady had no such ability.
2. The test statistic was a simple count of the number of successes in 8 trials.
3. The distribution associated with the null hypothesis was the binomial distribution familiar from coin flipping experiments.
4. The critical region was the single case of 8 successes in 8 trials based on a conventional probability criterion (< 5%).
5. Fisher asserted that no alternative hypothesis was (ever) required.
If and only if the 8 trials produced 8 successes was Fisher willing to reject the null hypothesis – effectively acknowledging the Lady's ability with > 98% confidence (but without quantifying her ability). Fisher later discussed the benefits of more trials and repeated tests.

Lustigt att du skulle ta R A Fisher som exempel. Det var nämligen han som stipulerade att det är just en hypotetisk oändlig population (med en känd fördelning) som man måste kunna konstruera innan man börjar räkna signifikans i experiment. I det berömda te-testet (pun intended) är det den hypotetiska mängden te-test som damen gjort, kommer att göra samt aldrig kommer att göra men kunde ha gjort... Från denna population/mängd/fördelning drar man sedan slumpmässigt ett urval av te-test, nämligen de som verkligen görs. Sedan är det bara att räkna på. Om du verkligen hade läst Fisher hade du vetat detta. För övrigt känns det som att du driver med mig lite. Gör du det?

/DQ-20

av **Laila** » 2010-12-03 23:33

För en som ju har "hela" 10(universitets)p i "pop-corns" med kolasmak
-statistik så känns det inte alls som att Kronkan är på drivhumör, snarare
ett visst skrivhumör, . . men jag kan ju naturligtvis(även i detta fall ) ha fel . . .
:oops:

av **Nattlorden** » 2010-12-03 23:40

dimitri skrev:
Kronkan skrev:... ...
För mig tycks metoden leda till att det går att säga att en speciell apparat färgar men metoden leder till svårigheter att bestämma att det är ofärgat.

Det är (ungefär*) det som metodens tillskyndare hävdat hela tiden! Bra jobbat.

*det är inte bara svårt att utsluta färgning, det är rent av omöjligt.

Därför kanske man skall hålla sig till något som är bevisat färgat, men med en väldigt svårfunnen sådan, helst i ett område man inte tänker nyttja.

av **IngOehman** » 2010-12-04 00:18

perstromgren skrev:
DQ-20 skrev:Visst kan det finnas en trade-off mellan upprepbarhet (som i att ANDRA skall kunna upprepa testet) och testets känslighet men den avvägningen är subjektiv och måste relateras till undersökarens mål och förmåga.

/DQ-20

IngOehman skrev:Den sista meningen är den bästa jag läst i den här tråden hittills. Jag är glad
över det rådande samförståndet, och delar dina synpunkter ned till minsta
detalj även om allt det andra du skrev.

[...]

JAG tycker det är viktigare att ha en metod som ger möjlighet för detek-
tion som närmar sig gränsen för människans förmåga - än att förenkla
proceduren för att göra metoden enklare att förklara för dem som inte
behärskar/har tillräckliga kunskaper i ämnet.

Menar du alltså att du offrar upprepbarhet?

För att kunna svara på den frågan, är det viktigt att veta om den
som ställer frågan har förstått skillnaden mellan de tre frågor som
jag skissade tidigare, som man kan tänka sig att man har målet att
besvara när man gör en studie av den sort som en F/E-lyssning är.

Nu vet jag inte om du förstått det, men mitt svar i det följande, är
baserat på att du har det.

Om man vill veta hur högt någon kan hoppa (över en ribba som någon
lagt upp mellan två stolpar) kan man utgå ifrån människor som tillhör
eliten med avseende på att hoppa högt, och så arrangerar man en
studie (vi kan kalla den för en "höjdhoppstävling" bara för att göra lik-
nelsen riktigt lätt att fatta - eftersom den pekar på något som faktiskt
händer i verklighetend då, då och då) där man registrerar resultatet.

Låt oss säga att resultatet blir att någon hoppade 2,38 meter.

Vad kan man dra för slutsatser av det (det är nu vetenskapen kommer
in, för som jag skrivit många gånger tidigare i den här tråden har meto-
der INGENTING med vetenskap att göra - men i förekommande fall med
akademisk praxis att göra, vilket INTE är synonymt med vetenskap. Jag
undrar om fler än 5 som läser på faktiskt har förstått detta?

Att döma
av inläggen ser det ut som om det är en vanlig tro att det finns "veten-
skapliga" och "ovetenskapliga metoder". Det är lite oroande, eftersom
ALLA studier (oavsett hur de är gjorda) är utsättbara för vetenskaplig
analys, även om inte alla ger resultat skiljd från nollresultat), undrar då
vän av ordning?

Jo:

1. Att någon kan hoppa 2,38 meter!

2. Att någon eller flera kan tänkas kunna hoppa högre än 2,38, en
annan dag.

3. Att någon eller flera kan ha hoppat högre även tidigare.

4. Att det är troligt att den som inte ens förstått vad studien försökte
besvara för fråga, kommer att ha MYCKET svårt att repetera resultatet.

Den som inte förstått frågan och därför gör ett urval, säg 20 personer,
ur normalpopuationen, och ber dem hoppa, kommer inte att komma i
närheten av att få veta i vilken härad gränsen för den fråga som JAG
ställde, går.

Däremot kanske de får veta att det är möjligt att hoppa 1,3 meter, och
att de flesta klarar 80 cm. (Eller nå´t.)

- - -

Förstår du mitt svar?

Är det detta du kallar att "offra upprepbarheten" (repeterbarheten) så
är mitt svar JA.

Men om du menar att jag skulle offrar möjligheten för den som förstått
vilken frågan som studien försöker besvara, att upprepa studien, så är
däremot svaret NEJ.

Jag har INTE offrat någon repeterbarhet, bara låtit bli att anpassa stu-
dien till en annan fråga än den som intresserar mig (vilket man kan göra
för att möjliggöra att studien kan repeteras ÄVEN av dem som inte har
de grundläggande förutsättningarna att kunna förstå att olika upplagda
studier svarar på olika frågor).

Den som förstått frågan kan repetera studien och förväntas få liknande
resultat - givet att de har tillgång till all hårdvara, såsom en bra arena,
bra skor åt dem som hoppar, en entusiastisk publik som hjälper atlet-
erna att prestera, och så förstås några av de bästa på att hoppa, som
finns att uppbåda.

Det vill säga lämpligt programmaterial, bra lyssningsutrustning, en bra
stämning och metod som genom sitt upplägg ökar oddsen att lyssnarna
presterar i närheten av sin kapacitet, och förstås - elitlyssnare.

Ok?

Vh, iö

av **Thomas_A** » 2010-12-04 00:27

Detta är en typisk decemberdiskussion.

av **Laila** » 2010-12-04 00:32

Aha, är det då som pickup-nördarna vaknar ? :wink:

av **Kronkan** » 2010-12-04 00:47

DQ-20 skrev:
Kronkan skrev:Nej jag delar inte din uppfattning om att det finns ett urval. då måste ni berätta för mig hur urvalet är gjord. Ett urval måste ske ur en population på ett bestämt sätt så att urvalet är represantivt för populatioen. Detta torde vara grundläggande. Det går inte att beräkna signifikans om man inte kan välja metod för att beräkna den. JAg kan inte längre vilken metod som skall väljas i vilket fall men har hittat ett exempel som jag anser kan belysa situationen
På grund av ringrostigheten med statistik och vetenskaplig vill jag korrigera mig något men inte i mitt grundläggande antagande.

Tar ett exempel ur den engelska versionen av wikipedia. Sök på Significance.

The following example is summarized from Fisher, and is known as the Lady tasting tea example.[5] Fisher thoroughly explained his method in a proposed experiment to test a Lady's claimed ability to determine the means of tea preparation by taste. The article is less than 10 pages in length and is notable for its simplicity and completeness regarding terminology, calculations and design of the experiment. The example is loosely based on an event in Fisher's life. The Lady proved him wrong.[6]
1. The null hypothesis was that the Lady had no such ability.
2. The test statistic was a simple count of the number of successes in 8 trials.
3. The distribution associated with the null hypothesis was the binomial distribution familiar from coin flipping experiments.
4. The critical region was the single case of 8 successes in 8 trials based on a conventional probability criterion (< 5%).
5. Fisher asserted that no alternative hypothesis was (ever) required.
If and only if the 8 trials produced 8 successes was Fisher willing to reject the null hypothesis – effectively acknowledging the Lady's ability with > 98% confidence (but without quantifying her ability). Fisher later discussed the benefits of more trials and repeated tests.

Lustigt att du skulle ta R A Fisher som exempel. Det var nämligen han som stipulerade att det är just en hypotetisk oändlig population (med en känd fördelning) som man måste kunna konstruera innan man börjar räkna signifikans i experiment. I det berömda te-testet (pun intended) är det den hypotetiska mängden te-test som damen gjort, kommer att göra samt aldrig kommer att göra men kunde ha gjort... Från denna population/mängd/fördelning drar man sedan slumpmässigt ett urval av te-test, nämligen de som verkligen görs. Sedan är det bara att räkna på. Om du verkligen hade läst Fisher hade du vetat detta. För övrigt känns det som att du driver med mig lite. Gör du det?

/DQ-20

Absolut inte. Jag har inget otalt med dig. Jag har inget otalt medLTSäven omjagkan tydcka att en del anhängare snurrar runt i cyberrymden är för grunda. Men du är uppenbarligen inte för grund.

av **IngOehman** » 2010-12-04 01:00

Kronkan skrev:
Johan_Lindroos skrev:
Kronkan skrev:Jag betvilar inte ett dugg att standarden är hög och att man kommer fram till resultat kring frågeställningen - hur skapa en transparant ljudkälla.

Fast när jag läser diskussionen i tråden tror jag att ni som sysslar med denna form av undersökningar skall fundera igenom några frågeställningar.

Själva grunder (tror jag) är att ni har en grupp personer som skall uttala sig om de kan höra någon färgning i en speciell apparat. Personerna är ingen sampling/urval. De är så att säga själva mätinstrumentet.

Om gruppen är ett utval så skall statistiska metoder användas för att säkerställa att urvalet är representativt och en metod för att beräkna singnifikans skall också användas. Men det är ju inte detta som ni gör.

Ni är själva mätinstrumentet. Skall man skapa ett mätinstrument så måste man fundera på hur man skall mäta det som man avser mäta och man måste också fundera på mätnoggranheten.

Men detta verkar ju vara specialfallens specialfall.

Ibland får jag svårt att förstå logiken i de olika resonemangen i avseende om man ser på gruppen som ett sampel/urval eller om det är ett mätinstrument.

Om jag förstår den grundläggande frågeställningen så används personerna som mätinstrument. Och då behöver man vara klar över detta så att man kan skapa det instrument som man vill ha

JAg är inte kritisk utan försöker bara förstå men blir så att säga osäker.

Få se nu om jag förstår dig rätt...

LTS är inte intresserade av att studera huruvida "non expert listerners" kan höra skillnad på olika apparater. Om man skulle ta med sådana lyssnare skulle det förmodligen bli så att det blir fler apparater som skull passera nålsögat och kunna sägas vara "icke detekterade".

Men man kan få dåliga resultat (nollresultat) även om man har expertlyssnare. Man kan t ex ha råkat välja okritiskt lyssningsmaterial. Man kan ha en för dålig uppslepningsmiljö (även om det inte är jättekristiskt har det visat sig) t ex att starka lågfrekventa ljudtryck inte kanskapas. Så det är väldigt många ställen där man kan misslayckas.

Var det detta du tänkte på el dyl?

Ja precis så tycker jag att metoden verkar vara dåligt normerad och kalibrerad. Tekniskt tvekar jag inte på att detär en intressant väg för att finna t det transparanta ljudet för de som strävar dit. Men mätnoggranheten kan nog vara lite tveksam.

Nog? Verkar?

Vad är detta? Snillen spekulerar? Skulle uppskatta om du ersätte alla
dina gissningar och spekulationer med något konkret.

ALLA de förslag jag sett presenteras med avseende på justeringar av
testmetodiken - verkar i den riktning att de degraderar studiens mät-
noggrannhet, om man talar om att mäta apparatens egenskaper. För
du förstår väl att det är skillnad mellan mätnoggrannheten med avse-
ende apparaternas egenskaper, och den statiska mätnoggrannheten,
och varför den ena kan vara den andras främsta fiende?

Det vill säga varför man kan tänka sig att det kan vara en poäng att
nöja sig med ett resultat som är till >99 % säkerställt, om det innebär
att det möjliggöra detektion av fel som är 1/50 så stora, som en annan
metod som tar en månad och kräver 100 deltagare?

Sen bör man heller inte glömma att det finns mer i en apparattest än
den blinda verifikationen. Det finns ju en redovisning av upplevelser
också, som ju är mycket viktigare än skillnader mellan 99% och 99,5%,
som ju inte är något mätetal för APPARATENS egenskaper överhuvud-
taget. Det är bara ett mått på själva verifikationen, som man kan sätta
rätt så godtyckligt. Det är ju upp till dem som läser testen att värdera
om de tycker det är tillräckligt. Det finns ju liksom inga hemligheter.

- - -

Men den verkligt intressanta delen av testen är ju VAD folk, som med
rimlig säkerhet lyckats visa att de kunde särskilja F från E, TYCKTE om
skillnaden. Hur stor skillnaden var och hur den lät.

Jag finner det facinerande att ingen tycks vara intresserade alls av den
delen - som är själva information om apparaterna.

Vh, iö

- - - - -

PS. Den som inte förstått det, borde kanske arrangera lite apparat-
tester själv, och få lära sig "den hårda vägen" hur viktigt det är att
välja en rimlig statistisk säkerhet.

För om man bara har en kväll på sig (och så är det oftast) så är det
MYCKET som måste hinnas med. Och att satsa på att t ex spela mycket
olika programmaterial, ger möjlighet att kunna beskriva apparatens
alla karaktärer rimligt bra. Och om det är så att karaktärerna är svaga
så kommer det ju att märkas tydligt när man läser beskrivningarna.

För alla har väl förstått att två apparater som man lyssnar till blindt
tills man nått en SS om >99%, som alltså båda får den siffran, kan
skilja sig åt hur mycket som helst. Den ena kan vara praktiskt taget
odetekterbar, medan den andra kan låta som en telefon.

Det är i beskrivningarna som apparaternas karaktärer (och deras
storlek) redovisas. Att man gör studien blindt har INGET med att man
vill få ett mätetal på dess ljudkvalitet att göra.

99% är i själva verket inget mätetal alls, utan bara en ambitionsnivå
för själva studien.

Den måste alltså ALLA apparater uppnå - om man skall skriva något om
dem*. Når man det inte, så har man fått ett nollresultat, (=inte lyckats
detektera med den SS man förutsatt sig att få).

*Men visst kan man skriva något även om en apparat man inte har
lyckats detektera med en SS om >99%. Då är det upp till läsaren att
dra slutsatser, t ex - att det finns en viss osäkerhet + att färgningen
MÅSTE vara liten om den finns alls, eftersom det misslyckades att nå
målet >99 %. Däremot betyder inte 99,999% att färgingen behöver
vara större än om man slutar vid >99 %, så att sträva efter 99,999%
är i praktiken bara ett sätt att slösa bort tid som istället skulle kunna
ha användts till att extrahera fram en massa värdefull information om
apparaten.

(Allt detta på slutet är skåpmat för alla som vet något om statistik, men
eftersom det nog finns rätt många som läser (och vissa som skriver...) i
den här tråden som inte förstått dessa saker, eller är alls intresserade
av statistik - så tyckte jag att det var viktigt att nämna det i varje fall:
Den som vill veta något om APPARATERNA måste alltså läsa det som
skrivs om dem! Den redovisning av den statistiska signifikansen som
ibland görs, säger INGENTING alls om apparaten, utan den berättar
bara om själva de valda gränserna för studien som sådan.)

av **Kronkan** » 2010-12-04 02:32

IngOehman skrev:
Kronkan skrev:
Johan_Lindroos skrev:
Kronkan skrev:Jag betvilar inte ett dugg att standarden är hög och att man kommer fram till resultat kring frågeställningen - hur skapa en transparant ljudkälla.

Fast när jag läser diskussionen i tråden tror jag att ni som sysslar med denna form av undersökningar skall fundera igenom några frågeställningar.

Själva grunder (tror jag) är att ni har en grupp personer som skall uttala sig om de kan höra någon färgning i en speciell apparat. Personerna är ingen sampling/urval. De är så att säga själva mätinstrumentet.

Om gruppen är ett utval så skall statistiska metoder användas för att säkerställa att urvalet är representativt och en metod för att beräkna singnifikans skall också användas. Men det är ju inte detta som ni gör.

Ni är själva mätinstrumentet. Skall man skapa ett mätinstrument så måste man fundera på hur man skall mäta det som man avser mäta och man måste också fundera på mätnoggranheten.

Men detta verkar ju vara specialfallens specialfall.

Ibland får jag svårt att förstå logiken i de olika resonemangen i avseende om man ser på gruppen som ett sampel/urval eller om det är ett mätinstrument.

Om jag förstår den grundläggande frågeställningen så används personerna som mätinstrument. Och då behöver man vara klar över detta så att man kan skapa det instrument som man vill ha

JAg är inte kritisk utan försöker bara förstå men blir så att säga osäker.

Få se nu om jag förstår dig rätt...

LTS är inte intresserade av att studera huruvida "non expert listerners" kan höra skillnad på olika apparater. Om man skulle ta med sådana lyssnare skulle det förmodligen bli så att det blir fler apparater som skull passera nålsögat och kunna sägas vara "icke detekterade".

Men man kan få dåliga resultat (nollresultat) även om man har expertlyssnare. Man kan t ex ha råkat välja okritiskt lyssningsmaterial. Man kan ha en för dålig uppslepningsmiljö (även om det inte är jättekristiskt har det visat sig) t ex att starka lågfrekventa ljudtryck inte kanskapas. Så det är väldigt många ställen där man kan misslayckas.

Var det detta du tänkte på el dyl?

Ja precis så tycker jag att metoden verkar vara dåligt normerad och kalibrerad. Tekniskt tvekar jag inte på att detär en intressant väg för att finna t det transparanta ljudet för de som strävar dit. Men mätnoggranheten kan nog vara lite tveksam.

Nog? Verkar?

Vad är detta? Snillen spekulerar? Skulle uppskatta om du ersätte alla
dina gissningar och spekulationer med något konkret.

ALLA de förslag jag sett presenteras med avseende på justeringar av
testmetodiken - verkar i den riktning att de degraderar studiens mät-
noggrannhet, om man talar om att mäta apparatens egenskaper. För
du förstår väl att det är skillnad mellan mätnoggrannheten med avse-
ende apparaternas egenskaper, och den statiska mätnoggrannheten,
och varför den ena kan vara den andras främsta fiende?

Det vill säga varför man kan tänka sig att det kan vara en poäng att
nöja sig med ett resultat som är till >99 % säkerställt, om det innebär
att det möjliggöra detektion av fel som är 1/50 så stora, som en annan
metod som tar en månad och kräver 100 deltagare?

Sen bör man heller inte glömma att det finns mer i en apparattest än
den blinda verifikationen. Det finns ju en redovisning av upplevelser
också, som ju är mycket viktigare än skillnader mellan 99% och 99,5%,
som ju inte är något mätetal för APPARATENS egenskaper överhuvud-
taget. Det är bara ett mått på själva verifikationen, som man kan sätta
rätt så godtyckligt. Det är ju upp till dem som läser testen att värdera
om de tycker det är tillräckligt. Det finns ju liksom inga hemligheter.

- - -

Men den verkligt intressanta delen av testen är ju VAD folk, som med
rimlig säkerhet lyckats visa att de kunde särskilja F från E, TYCKTE om
skillnaden. Hur stor skillnaden var och hur den lät.

Jag finner det facinerande att ingen tycks vara intresserade alls av den
delen - som är själva information om apparaterna.

Vh, iö

- - - - -

PS. Den som inte förstått det, borde kanske arrangera lite apparat-
tester själv, och få lära sig "den hårda vägen" hur viktigt det är att
välja en rimlig statistisk säkerhet.

För om man bara har en kväll på sig (och så är det oftast) så är det
MYCKET som måste hinnas med. Och att satsa på att t ex spela mycket
olika programmaterial, ger möjlighet att kunna beskriva apparatens
alla karaktärer rimligt bra. Och om det är så att karaktärerna är svaga
så kommer det ju att märkas tydligt när man läser beskrivningarna.

För alla har väl förstått att två apparater som man lyssnar till blindt
tills man nått en SS om >99%, som alltså båda får den siffran, kan
skilja sig åt hur mycket som helst. Den ena kan vara praktiskt taget
odetekterbar, medan den andra kan låta som en telefon.

Det är i beskrivningarna som apparaternas karaktärer (och deras
storlek) redovisas. Att man gör studien blindt har INGET med att man
vill få ett mätetal på dess ljudkvalitet att göra.

99% är i själva verket inget mätetal alls, utan bara en ambitionsnivå
för själva studien.

Den måste alltså ALLA apparater uppnå - om man skall skriva något om
dem*. Når man det inte, så har man fått ett nollresultat, (=inte lyckats
detektera med den SS man förutsatt sig att få).

*Men visst kan man skriva något även om en apparat man inte har
lyckats detektera med en SS om >99%. Då är det upp till läsaren att
dra slutsatser, t ex - att det finns en viss osäkerhet + att färgningen
MÅSTE vara liten om den finns alls, eftersom det misslyckades att nå
målet >99 %. Däremot betyder inte 99,999% att färgingen behöver
vara större än om man slutar vid >99 %, så att sträva efter 99,999%
är i praktiken bara ett sätt att slösa bort tid som istället skulle kunna
ha användts till att extrahera fram en massa värdefull information om
apparaten.

(Allt detta på slutet är skåpmat för alla som vet något om statistik, men
eftersom det nog finns rätt många som läser (och vissa som skriver...) i
den här tråden som inte förstått dessa saker, eller är alls intresserade
av statistik - så tyckte jag att det var viktigt att nämna det i varje fall:
Den som vill veta något om APPARATERNA måste alltså läsa det som
skrivs om dem! Den redovisning av den statistiska signifikansen som
ibland görs, säger INGENTING alls om apparaten, utan den berättar
bara om själva de valda gränserna för studien som sådan.)

Jag kan ibland tycka att det är passande att uttrycka sig lite försiktigt. Det är inte detsamma som snillen spekulerar. Det innebär i mitt fall enbart att man är i en dialog där man inbjuder andra att rätta en. Det är också så att man har ett val i hur man deltager i ett meningsutbyte. Du kan välja att göra det utifrån en "främmande teori" eller göra det inom teorin. Jag har valt att göra det inom teorin fast jag inte har samma kunskap eller erfarenhet inom teorin. Glöm inte att jag kör med rör.

Detjag tror jag kommit fram till är att det är kan vara onödigt svårt att visa att en apparat färgar. Detta beror på två skäl
1. Det borde gå att utveckla en teknik där man optimerar deltagagarnas kompetens att bedömma en speciell apparat. Helst på ett sätt som gör att jämförbarheten mellan testomgångarna inte blir för svagig.

2. Sättet att beräkna signifikans gör att detblir svårt att bevisa att anläggning är ofärgad. Detta på ett märkligt sätt. Det är svårt att bevisa att anläggnigen är färgad.

Sammantaget blir det svårigheter med mätnogrannheten. Betvivlar dock inte att man försöker mäta det som avser.

Håller helt med om att det finns utrymme för kvalitativa metoder d v s fråga vad som som man upplever som färgning.

Steg vidare är ju att fråga hur man upplever färgningen. Men då närmar man sig illusionistens sätt att närma sig ljudåtergivning.

av **subjektivisten** » 2010-12-04 05:17

Kronkan skrev:2. Sättet att beräkna signifikans gör att detblir svårt att bevisa att anläggning är ofärgad. Detta på ett märkligt sätt. Det är svårt att bevisa att anläggnigen är färgad.

Man kan fortfarande inte bevisa att något är ofärgat!
Däremot så kan man bevis att något är färgat, vilket LTS gjort i många år.

av **Thomas_A** » 2010-12-04 09:09

Laila skrev:Aha, är det då som pickup-nördarna vaknar ?

Mmmm möjligt. Men jag är nog på väg att packa ner min vinyl nu. Tyvärr.