Almen skrev:Det är inte möjligtvis så att du själv har F/E-lyssnat det...?
Nej sånt är för jemrans tråkigt. Bättre om någon annan gör det.
Moderator: Redaktörer
Almen skrev:Det är inte möjligtvis så att du själv har F/E-lyssnat det...?
Kronkan skrev:Johan_Lindroos skrev:Kronkan skrev:...
Det som dock kan oroa är att testarna kan vara vem som helst i en förening. Det kan ju slumpa sig så att de med lägre förmåga att höra infinner sig. Då kan man ju komma till slutsatsen att anläggningen inte färgar fast en annan grupp skulle komma till en annan slutsats. Så det kan finnas sådana och andra felkällor i metoden.
...
Jag klipper ut ovanstående ur ditt inlägg för jag tänkte att jag har några saker att delge som kan vara av intresse för flera.
Genom åren har medlemmarna i LTS testpanel kommit att utgöra en mindre skara av människor som genom upprepade lyssningstester har visat sig kunna prestera bra under långa tider samt vid olika tilläflllen. Men självklart är man inte mer än människa och kan således ha en dålig dag också, detta kanske gäller i genomsnitt en deltagare per lyssningskväll. Denna person kanske då visar på slumpmässiga resultat, eller kanske inte hör någon skillnad och kanske då inte avger några svar.
Men vi försöker också bjuda in nya lyssningsdeltagare för att se om panelen kan förbättras, och även för att fler ska kunna förstå hur dessa lyssningstester går till. Dock har det visat sig att om det är för många deltagare blir det bara en enda soppa av alltihop, för det blir alltför socialt helt enkelt, och för många underliga frågor. 1 - 2 nya deltagare går dock bra att hantera. En total mängd lyssnare på säg kanske 6 - 8 personer är vad jag ser som maximalt lämpligt.
Flera som deltagit i LTS lyssningspanel har även varit med som lyssnare i europeiska lyssningstester där SR och SVT har varit samordnare för de svenska lyssningstesterna. Dessa tester har bl a varit av ljudkodare för surroundljud, och för digitalradio. SR har då rapporterat att lyssnare från LTS har presterat osedvanligt väl i dessa tester. Dåliga lyssnare som ger alltför spridda omdömen undantas i slutsammanställningen. Sådana här lyssningstetser nyttjar i allmänhet s k "expert listeners", vilket då LTS lyssningspanel anses tillhöra. Vanliga lyssnare brukar anses tillhöra gruppen "non expert listeners". Vanliga lyssnare kan också bli "expert listeners" om de får genomgå träning (och har fullgod hörsel), men det tar förstås tid, och tid är normalt en bristvara idag.
Som sammanfattning ville jag alltså säga att LTS lyssnarpanel i praktiken kan sägas ha god lyssnarförmåga som det är idag.
Jag betvilar inte ett dugg att standarden är hög och att man kommer fram till resultat kring frågeställningen - hur skapa en transparant ljudkälla.
Fast när jag läser diskussionen i tråden tror jag att ni som sysslar med denna form av undersökningar skall fundera igenom några frågeställningar.
Själva grunder (tror jag) är att ni har en grupp personer som skall uttala sig om de kan höra någon färgning i en speciell apparat. Personerna är ingen sampling/urval. De är så att säga själva mätinstrumentet.
Om gruppen är ett utval så skall statistiska metoder användas för att säkerställa att urvalet är representativt och en metod för att beräkna singnifikans skall också användas. Men det är ju inte detta som ni gör.
Ni är själva mätinstrumentet. Skall man skapa ett mätinstrument så måste man fundera på hur man skall mäta det som man avser mäta och man måste också fundera på mätnoggranheten.
Men detta verkar ju vara specialfallens specialfall.
Ibland får jag svårt att förstå logiken i de olika resonemangen i avseende om man ser på gruppen som ett sampel/urval eller om det är ett mätinstrument.
Om jag förstår den grundläggande frågeställningen så används personerna som mätinstrument. Och då behöver man vara klar över detta så att man kan skapa det instrument som man vill ha
JAg är inte kritisk utan försöker bara förstå men blir så att säga osäker.
Svante skrev: Flera lyssnare
Ibland är man fler än en person som lyssnar. Det är då viktigt att inte låta dem avge varsitt svar om de vet vad de andra svarar. Det finns ju en risk att omdömena färgas av varandra, speciellt om det finns en stark/ledande personlighet bland lyssnarna. Det är lätt att avfärda misstankar om sådana beroenden som larviga, eller rentav kränkande, men om man vill påstå att beroendena inte finns så måste man visa att de inte gör det. Detta är oftast mycket svårt. För att undvika all sådan tveksamhet bör därför all möjlighet till oönskat beroende mellan svaren undvikas, finns det risk för ”läckage” kommer testets trovärdighet att kunna ifrågasättas och kunna antas bero på ett antal svårkontrollerbara sociala faktorer.
Däremot kan man gärna göra testet i grupp och diskutera ljudkvaliteten med varandra, det kan hjälpa lyssnarna att fokusera på de hörbara skillnaderna. Lyssnar man i grupp bör man dock antingen endast låta en person avge svar, eller avge svaren i konsensus, dvs man enas om ett enda svar efter varje lyssning. Högst ett svar per lyssning, alltså.
Måste man alltid göra det så där vetenskapligt och krångligt
Nej, det måste man ju inte, men ska man göra anspråk på att testa för att kunna påstå något som är sant i en oomkullrunkelig vetenskaplig mening, så måste man det. Det finns förstås tillfällen när ovetenskapliga tester kan vara väldigt informativa. Ofta är det också det enda som är praktiskt möjligt. Man kan och bör också använda öppna tester som pilotexperiment för att hitta intressanta frågeställningar att undersöka på riktigt med ett mer formellt lyssningstest. Det är ju ganska jobbigt att göra lyssningstester på ett riktigt sätt och därför kan öppna tester med fördel användas som en grovsållning. Men resultaten av sådana kan inte betraktas som säkerställda.
Kortmanual
Här följer en checklista som man kan använda vid lyssningstester med någorlunda höga krav på vetenskaplighet.
1. Bekanta dig med utrustningen.
2. Mät och justera nivåskillnaden så att den blir mindre än 0,1 dB, det motsvarar en spänningsskillnad på knappt 1,2%.
3. Lyssna fram en låt eller en testsignal som du tror provocerar fram skillnaden i ett öppet pilottest. Du kan även lyssna blint, utan att börja det formella testet, ibland kan blindtestning göra det lättare att fokusera på enbart ljudet. Dessa lyssningar får inte användas i testresultatet. Diskutera gärna ljudintrycken med eventuella andra lyssnare.
4. Välj en testdesign, tex 7-13-16, som ger möjlighet till 99 % konfidens. Gör du fler än 5 serier kommer totala konfidensen att vara under 95%.
5. Bestäm att ”nu börjar testet”. Misslyckas du måste testserien antecknas som misslyckad och redovisas. Det gäller speciellt om du gör många tester.
6. Byt inte testdesign utan att börja på en ny testserie och behandla inte gamla data med alternativa testdesigner.
7. Var observant på risken för åsiktsläckage om ni lyssnar flera personer samtidigt.
8. Kom ihåg att du bara kan bevisa eller misslyckas med att bevisa att det finns en hörbar skillnad. Du kan inte bevisa att det inte finns någon hörbar skillnad.
Det finns inga restriktioner på hur lång tid de olika momenten får ta.
Sammanfattning
Blinda lyssningstester är ett utmärkt sätt att undersöka om en apparat påverkar ljudet hörbart. I de fall en hörbar påverkan finns kan de också användas för att värdera påverkan. Om man vill göra ett seriöst lyssningstest för att i vetenskaplig mening kunna uttala sig om en eventuell skillnad så måste det utföras blint. Det ska dessutom utföras så att man får tillräckligt hög konfidens. Blindtester är aningen jobbiga att ordna, men gör att man kan uttala sig med större pondus om hur saker och ting verkligen är.
Svante Granqvist
DQ-20 skrev:Almen skrev:KarlXII: Du kanske kommer ihåg den här tråden? Mycket matnyttigt från Svante, DQ-20 och dimitri, där.
Fan, den tråden (nåja, mina inlägg i alla fall) är ju fortfarande asgrym. Ni kan lägga ned med en gång: allt är redan sagt.
/DQ-20
petersteindl skrev:men om det gick så skulle det som DQ-20 kallar för statistisk power finnas med i högre utsträckning än vad det gör nu, så att den inte behöver betecknas som useloch jag skulle definitivt även försöka förbättra testets känslighet. Om det går att förena återstår att se.
MvH
Peter
petersteindl skrev:Kronkan skrev:Johan_Lindroos skrev:Kronkan skrev:...
Det som dock kan oroa är att testarna kan vara vem som helst i en förening. Det kan ju slumpa sig så att de med lägre förmåga att höra infinner sig. Då kan man ju komma till slutsatsen att anläggningen inte färgar fast en annan grupp skulle komma till en annan slutsats. Så det kan finnas sådana och andra felkällor i metoden.
...
Jag klipper ut ovanstående ur ditt inlägg för jag tänkte att jag har några saker att delge som kan vara av intresse för flera.
Genom åren har medlemmarna i LTS testpanel kommit att utgöra en mindre skara av människor som genom upprepade lyssningstester har visat sig kunna prestera bra under långa tider samt vid olika tilläflllen. Men självklart är man inte mer än människa och kan således ha en dålig dag också, detta kanske gäller i genomsnitt en deltagare per lyssningskväll. Denna person kanske då visar på slumpmässiga resultat, eller kanske inte hör någon skillnad och kanske då inte avger några svar.
Men vi försöker också bjuda in nya lyssningsdeltagare för att se om panelen kan förbättras, och även för att fler ska kunna förstå hur dessa lyssningstester går till. Dock har det visat sig att om det är för många deltagare blir det bara en enda soppa av alltihop, för det blir alltför socialt helt enkelt, och för många underliga frågor. 1 - 2 nya deltagare går dock bra att hantera. En total mängd lyssnare på säg kanske 6 - 8 personer är vad jag ser som maximalt lämpligt.
Flera som deltagit i LTS lyssningspanel har även varit med som lyssnare i europeiska lyssningstester där SR och SVT har varit samordnare för de svenska lyssningstesterna. Dessa tester har bl a varit av ljudkodare för surroundljud, och för digitalradio. SR har då rapporterat att lyssnare från LTS har presterat osedvanligt väl i dessa tester. Dåliga lyssnare som ger alltför spridda omdömen undantas i slutsammanställningen. Sådana här lyssningstetser nyttjar i allmänhet s k "expert listeners", vilket då LTS lyssningspanel anses tillhöra. Vanliga lyssnare brukar anses tillhöra gruppen "non expert listeners". Vanliga lyssnare kan också bli "expert listeners" om de får genomgå träning (och har fullgod hörsel), men det tar förstås tid, och tid är normalt en bristvara idag.
Som sammanfattning ville jag alltså säga att LTS lyssnarpanel i praktiken kan sägas ha god lyssnarförmåga som det är idag.
Jag betvilar inte ett dugg att standarden är hög och att man kommer fram till resultat kring frågeställningen - hur skapa en transparant ljudkälla.
Fast när jag läser diskussionen i tråden tror jag att ni som sysslar med denna form av undersökningar skall fundera igenom några frågeställningar.
Själva grunder (tror jag) är att ni har en grupp personer som skall uttala sig om de kan höra någon färgning i en speciell apparat. Personerna är ingen sampling/urval. De är så att säga själva mätinstrumentet.
Om gruppen är ett utval så skall statistiska metoder användas för att säkerställa att urvalet är representativt och en metod för att beräkna singnifikans skall också användas. Men det är ju inte detta som ni gör.
Ni är själva mätinstrumentet. Skall man skapa ett mätinstrument så måste man fundera på hur man skall mäta det som man avser mäta och man måste också fundera på mätnoggranheten.
Men detta verkar ju vara specialfallens specialfall.
Ibland får jag svårt att förstå logiken i de olika resonemangen i avseende om man ser på gruppen som ett sampel/urval eller om det är ett mätinstrument.
Om jag förstår den grundläggande frågeställningen så används personerna som mätinstrument. Och då behöver man vara klar över detta så att man kan skapa det instrument som man vill ha
JAg är inte kritisk utan försöker bara förstå men blir så att säga osäker.
kronkan, gå in på denna sida http://user.faktiskt.io/svante/om_blindtester.htm
Jag rekommenderar att printa hela sidan som Svante har skrivit. Det är mycket bra skrivet och förklarar begreppen på ett utomordentligt bra sätt. Det belyser också problematiken på ett bra och pedagogiskt sätt. I A4 blir det 9 sidor, men det är inte svår läsning och det är en del bilder och tabeller. Lycka till![]()
Jag vill också poängtera säga att det finns olika testmetoder och valet av testmetod måste bero av vad man egentligen vill få fram av testen och av vilka resurser man förfogar över. Har man inte vetenskapliga resurser i tillräcklig mängd där även tid ingår så har man inte och då blir kostymen mindre, men då kan man ändå utföra testen på bästa möjliga sätt med så liknande metodik som möjligt för att få en vetenskaplig prägel på testförfarandet. Ambitionen och resurserna drar ofta åt varsitt håll och då får man optimera sin kompromiss. Resultatet bör dock också redovisas på lämpligt sätt och en tests svagheter bör belysas fullt ut och speciellt om testen anses vara kontroversiell. Till skillnad mot vad man kanske kan tro, så ökar transparens i kommunikation mot yttervärlden faktiskt trovärdheten och inte tvärtom. All mörkning skapar oro och ger frågeställningar.
Svantes dokument är ett föredöme i att förklara vad Svante vill uppnå med LTS FE-lyssning. Frågan är om det beaktas av samtliga inblandade. En person som var med i styrelsen och vid FE-lyssning tycker inte det. Åtminstone har jag förstått det så. Det är Piotr och han har en tråd i ämnet på detta forum. OBS, jag ser inte Piotr som en LTS-antagonist utan snarast tvärtom. Jag tror egentligen inte att LTS har så många fiender som de själva tror de har, men däremot finns det många som ställer sig undrande.
Svantes dokument är ett bra exempel på ett öppet och ärligt svar till undrande. Må denna Svantes andemening vila över LTS och deras tester samt i deras kommunikation, men då behövs nog den omkopplingsbox som Svante och Morello så förtjänstfullt har jobbat med under längre tid. Vad jag förstår så har boxen ännu inte monterats och tagits i bruk och Morello har hoppat av styrelsen i LTS.
Här är ett litet axplock från Svantes sida:Svante skrev: Flera lyssnare
Ibland är man fler än en person som lyssnar. Det är då viktigt att inte låta dem avge varsitt svar om de vet vad de andra svarar. Det finns ju en risk att omdömena färgas av varandra, speciellt om det finns en stark/ledande personlighet bland lyssnarna. Det är lätt att avfärda misstankar om sådana beroenden som larviga, eller rentav kränkande, men om man vill påstå att beroendena inte finns så måste man visa att de inte gör det. Detta är oftast mycket svårt. För att undvika all sådan tveksamhet bör därför all möjlighet till oönskat beroende mellan svaren undvikas, finns det risk för ”läckage” kommer testets trovärdighet att kunna ifrågasättas och kunna antas bero på ett antal svårkontrollerbara sociala faktorer.
Däremot kan man gärna göra testet i grupp och diskutera ljudkvaliteten med varandra, det kan hjälpa lyssnarna att fokusera på de hörbara skillnaderna. Lyssnar man i grupp bör man dock antingen endast låta en person avge svar, eller avge svaren i konsensus, dvs man enas om ett enda svar efter varje lyssning. Högst ett svar per lyssning, alltså.
Måste man alltid göra det så där vetenskapligt och krångligt
Nej, det måste man ju inte, men ska man göra anspråk på att testa för att kunna påstå något som är sant i en oomkullrunkelig vetenskaplig mening, så måste man det. Det finns förstås tillfällen när ovetenskapliga tester kan vara väldigt informativa. Ofta är det också det enda som är praktiskt möjligt. Man kan och bör också använda öppna tester som pilotexperiment för att hitta intressanta frågeställningar att undersöka på riktigt med ett mer formellt lyssningstest. Det är ju ganska jobbigt att göra lyssningstester på ett riktigt sätt och därför kan öppna tester med fördel användas som en grovsållning. Men resultaten av sådana kan inte betraktas som säkerställda.
Kortmanual
Här följer en checklista som man kan använda vid lyssningstester med någorlunda höga krav på vetenskaplighet.
1. Bekanta dig med utrustningen.
2. Mät och justera nivåskillnaden så att den blir mindre än 0,1 dB, det motsvarar en spänningsskillnad på knappt 1,2%.
3. Lyssna fram en låt eller en testsignal som du tror provocerar fram skillnaden i ett öppet pilottest. Du kan även lyssna blint, utan att börja det formella testet, ibland kan blindtestning göra det lättare att fokusera på enbart ljudet. Dessa lyssningar får inte användas i testresultatet. Diskutera gärna ljudintrycken med eventuella andra lyssnare.
4. Välj en testdesign, tex 7-13-16, som ger möjlighet till 99 % konfidens. Gör du fler än 5 serier kommer totala konfidensen att vara under 95%.
5. Bestäm att ”nu börjar testet”. Misslyckas du måste testserien antecknas som misslyckad och redovisas. Det gäller speciellt om du gör många tester.
6. Byt inte testdesign utan att börja på en ny testserie och behandla inte gamla data med alternativa testdesigner.
7. Var observant på risken för åsiktsläckage om ni lyssnar flera personer samtidigt.
8. Kom ihåg att du bara kan bevisa eller misslyckas med att bevisa att det finns en hörbar skillnad. Du kan inte bevisa att det inte finns någon hörbar skillnad.
Det finns inga restriktioner på hur lång tid de olika momenten får ta.
Sammanfattning
Blinda lyssningstester är ett utmärkt sätt att undersöka om en apparat påverkar ljudet hörbart. I de fall en hörbar påverkan finns kan de också användas för att värdera påverkan. Om man vill göra ett seriöst lyssningstest för att i vetenskaplig mening kunna uttala sig om en eventuell skillnad så måste det utföras blint. Det ska dessutom utföras så att man får tillräckligt hög konfidens. Blindtester är aningen jobbiga att ordna, men gör att man kan uttala sig med större pondus om hur saker och ting verkligen är.
Svante Granqvist
Det där med att testet inte kan bevisa att det inte finns någon hörbar skillnad är det många som glömmer i debatten. Dock är det kanske den enskilt viktigaste biten i FE-testen att fundera över.
Jag vill som avslut säga att personligen skulle jag sträva efter ett något annat upplägg och annan metodik vid FE-lyssning. Jag är dock inte säker på att jag skulle lyckas med att få önskvärt signifikativt resultat, men om det gick så skulle det som DQ-20 kallar för statistisk power finnas med i högre utsträckning än vad det gör nu, så att den inte behöver betecknas som useloch jag skulle definitivt även försöka förbättra testets känslighet. Om det går att förena återstår att se.
MvH
Peter
Kronkan skrev:Min uppfattning är att det är lånat statiska verktyg och metoder från urvalsundersökningsmetoderna. Klart att man får resultat. Resultatet kan nog påverkas. Kan det vara så att det släpps igenom apparater som egentligen borde falla i prövningen? Eller tvärtom?
Urvalsundesökningar skall signingfikansberäknas. Finns det inget urval kan jag inte se att det är lämpligt att beräkna signifikanser. Signifikanser används väl för att beräkna hur urvalet förhåller sig till den grupp som urvalet tillhör.
Det blir andra metoder om man vänder på det och ser på gruppen som en mätapparat.
Så ser jag fortfarande på det och egentligen ytterligare stärkt i min uppfattning.
DQ-20 skrev:IngOehman skrev:Till DQ-20 vill jag dock ställa en fråga: -Är du med på att dessa tre frågor
är olika:
-Kan någon detektera den här apparaten? (med något programmaterial)
-Kan de flesta detektera den här apparaten? (med normalt programmaterial)
-Kan alla detektera den här apparaten? (med vilket programmaterial som helst)
Jag är helt på vad du menar. Jag är väl förtrogen med dina (och LTS) mål. Jag har alla MoLt sedan 1991 och följt och tagit intryck av debatterna på faktiskt.se. Vad jag vänder mig mot i Almens text är att den är för allmänt hållen och riktar (som jag uppfattade det) in sig på de statistiska beräkningarna. Och jag finner inget i statistiken som stödjer hans påstående. Det är helt enkelt för kategoriskt. Men om man tar hänsyn till metodiken, själva mätinstrumentet, och hur den fungerar hamnar saken i en annan dager och det som Almen skriver blir (med vissa förtydliganden) sant. Jag lämnade också en brasklapp om detta i mitt tidigare inlägg.
Man kan se det så här. Varje "serie" är ett urval från en oändlig teoretisk population av försök (F eller E). För att besvara fråga 1 samplar man från en population (A), för att besvara fråga 2 från en annan (B) och för att besvara fråga 3 från en tredje (C). Om man utökar antalet urval från t.ex. population B och C (obs! Detta är inte naturliga populationer utan fortfarande oändliga teoretiska populationer av försök) för att besvara fråga 1, i hopp om att vinna statistisk känslighet, så gör man helt enkelt fel.
Den akademiska forskningen har vissa krav på upprepbarhet och dokumentation som inte har med sanningshalten i enskilda resultat att göra utan som är till för att forskarsamhället skall fungera utan att man måste ha subjektiv tilltro till en viss forskares förmåga att göra rätt. Svantes arbete med att utveckla (eller "förändra" om man är mindre positivt inställd) LTS metod ser jag mot bakgrund av hans egna krav på genomsiktlighet och upprepbarhet, akademiker som han är. Visst kan det finnas en trade-off mellan upprepbarhet (som i att ANDRA skall kunna upprepa testet) och testets känslighet men den avvägningen är subjektiv och måste relateras till undersökarens mål och förmåga.
/DQ-20
DQ-20 skrev:Visst kan det finnas en trade-off mellan upprepbarhet (som i att ANDRA skall kunna upprepa testet) och testets känslighet men den avvägningen är subjektiv och måste relateras till undersökarens mål och förmåga.
/DQ-20
IngOehman skrev:Den sista meningen är den bästa jag läst i den här tråden hittills. Jag är glad
över det rådande samförståndet, och delar dina synpunkter ned till minsta
detalj även om allt det andra du skrev.
[...]
JAG tycker det är viktigare att ha en metod som ger möjlighet för detek-
tion som närmar sig gränsen för människans förmåga - än att förenkla
proceduren för att göra metoden enklare att förklara för dem som inte
behärskar/har tillräckliga kunskaper i ämnet.
Laila skrev:Själv så dricker jag vatten f.n.
perstromgren skrev:Menar du alltså att du offrar upprepbarhet?
sprudel skrev:Det här kan man tydligen ta som stöd både för det ena och andra, beroende på målsättning förstås.
sprudel skrev:Ett antal inlägg har producerats där ett genomgående argument har lytt:
"Du har inte förstått vad F/E-lyssning (ibland F/E-test) är."
Kanske det kunde vara på sin plats att de som envist hävdat detta i diskussioner nu förklarar hur det fungerar.
Tack på förhand.
petersteindl skrev:... gå in på denna sida http://user.faktiskt.io/svante/om_blindtester.htm
Jag rekommenderar att printa hela sidan som Svante har skrivit. Det är mycket bra skrivet och förklarar begreppen på ett utomordentligt bra sätt. Det belyser också problematiken på ett bra och pedagogiskt sätt. I A4 blir det 9 sidor, men det är inte svår läsning och det är en del bilder och tabeller. Lycka till...
DQ-20 skrev:Kronkan skrev:Min uppfattning är att det är lånat statiska verktyg och metoder från urvalsundersökningsmetoderna. Klart att man får resultat. Resultatet kan nog påverkas. Kan det vara så att det släpps igenom apparater som egentligen borde falla i prövningen? Eller tvärtom?
Urvalsundesökningar skall signingfikansberäknas. Finns det inget urval kan jag inte se att det är lämpligt att beräkna signifikanser. Signifikanser används väl för att beräkna hur urvalet förhåller sig till den grupp som urvalet tillhör.
Det blir andra metoder om man vänder på det och ser på gruppen som en mätapparat.
Så ser jag fortfarande på det och egentligen ytterligare stärkt i min uppfattning.
Din uppfattning är felaktig. Det finns nämligen ett urval och en population. Statistiska beräkningar är därför tillämpliga. Såhär är det: När man gör experiment vars utfall man vill pröva statistiskt måste man konstruera en "hypotetisk oändlig population" av experiment som man gör ett urval ur. Detta urval är de experiment man verkligen gör. Man beräknar sedan på vanligt sätt signifikansnivåer osv. De resultat man sedan får är sedan statistiskt generaliserbara till den hypotetiska oändliga populationen av experiment. Huruvida experimentet är giltigt för något fenomen utanför själva testsituationen är inte en statistisk fråga.
/DQ-20
Johan_Lindroos skrev:Kronkan skrev:Jag betvilar inte ett dugg att standarden är hög och att man kommer fram till resultat kring frågeställningen - hur skapa en transparant ljudkälla.
Fast när jag läser diskussionen i tråden tror jag att ni som sysslar med denna form av undersökningar skall fundera igenom några frågeställningar.
Själva grunder (tror jag) är att ni har en grupp personer som skall uttala sig om de kan höra någon färgning i en speciell apparat. Personerna är ingen sampling/urval. De är så att säga själva mätinstrumentet.
Om gruppen är ett utval så skall statistiska metoder användas för att säkerställa att urvalet är representativt och en metod för att beräkna singnifikans skall också användas. Men det är ju inte detta som ni gör.
Ni är själva mätinstrumentet. Skall man skapa ett mätinstrument så måste man fundera på hur man skall mäta det som man avser mäta och man måste också fundera på mätnoggranheten.
Men detta verkar ju vara specialfallens specialfall.
Ibland får jag svårt att förstå logiken i de olika resonemangen i avseende om man ser på gruppen som ett sampel/urval eller om det är ett mätinstrument.
Om jag förstår den grundläggande frågeställningen så används personerna som mätinstrument. Och då behöver man vara klar över detta så att man kan skapa det instrument som man vill ha
JAg är inte kritisk utan försöker bara förstå men blir så att säga osäker.
Få se nu om jag förstår dig rätt...
LTS är inte intresserade av att studera huruvida "non expert listerners" kan höra skillnad på olika apparater. Om man skulle ta med sådana lyssnare skulle det förmodligen bli så att det blir fler apparater som skull passera nålsögat och kunna sägas vara "icke detekterade".
Men man kan få dåliga resultat (nollresultat) även om man har expertlyssnare. Man kan t ex ha råkat välja okritiskt lyssningsmaterial. Man kan ha en för dålig uppslepningsmiljö (även om det inte är jättekristiskt har det visat sig) t ex att starka lågfrekventa ljudtryck inte kanskapas. Så det är väldigt många ställen där man kan misslayckas.
Var det detta du tänkte på el dyl?
Kronkan skrev:
För mig tycks metoden leda till att det går att säga att en speciell apparat färgar men metoden leder till svårigheter att bestämma att det är ofärgat.
Kronkan skrev:... ...
För mig tycks metoden leda till att det går att säga att en speciell apparat färgar men metoden leder till svårigheter att bestämma att det är ofärgat.
Kronkan skrev:Nej jag delar inte din uppfattning om att det finns ett urval. då måste ni berätta för mig hur urvalet är gjord. Ett urval måste ske ur en population på ett bestämt sätt så att urvalet är represantivt för populatioen. Detta torde vara grundläggande. Det går inte att beräkna signifikans om man inte kan välja metod för att beräkna den. JAg kan inte längre vilken metod som skall väljas i vilket fall men har hittat ett exempel som jag anser kan belysa situationen
På grund av ringrostigheten med statistik och vetenskaplig vill jag korrigera mig något men inte i mitt grundläggande antagande.
Tar ett exempel ur den engelska versionen av wikipedia. Sök på Significance.
The following example is summarized from Fisher, and is known as the Lady tasting tea example.[5] Fisher thoroughly explained his method in a proposed experiment to test a Lady's claimed ability to determine the means of tea preparation by taste. The article is less than 10 pages in length and is notable for its simplicity and completeness regarding terminology, calculations and design of the experiment. The example is loosely based on an event in Fisher's life. The Lady proved him wrong.[6]
1. The null hypothesis was that the Lady had no such ability.
2. The test statistic was a simple count of the number of successes in 8 trials.
3. The distribution associated with the null hypothesis was the binomial distribution familiar from coin flipping experiments.
4. The critical region was the single case of 8 successes in 8 trials based on a conventional probability criterion (< 5%).
5. Fisher asserted that no alternative hypothesis was (ever) required.
If and only if the 8 trials produced 8 successes was Fisher willing to reject the null hypothesis – effectively acknowledging the Lady's ability with > 98% confidence (but without quantifying her ability). Fisher later discussed the benefits of more trials and repeated tests.
dimitri skrev:Kronkan skrev:... ...
För mig tycks metoden leda till att det går att säga att en speciell apparat färgar men metoden leder till svårigheter att bestämma att det är ofärgat.
Det är (ungefär*) det som metodens tillskyndare hävdat hela tiden! Bra jobbat.
*det är inte bara svårt att utsluta färgning, det är rent av omöjligt.
perstromgren skrev:DQ-20 skrev:Visst kan det finnas en trade-off mellan upprepbarhet (som i att ANDRA skall kunna upprepa testet) och testets känslighet men den avvägningen är subjektiv och måste relateras till undersökarens mål och förmåga.
/DQ-20IngOehman skrev:Den sista meningen är den bästa jag läst i den här tråden hittills. Jag är glad
över det rådande samförståndet, och delar dina synpunkter ned till minsta
detalj även om allt det andra du skrev.
[...]
JAG tycker det är viktigare att ha en metod som ger möjlighet för detek-
tion som närmar sig gränsen för människans förmåga - än att förenkla
proceduren för att göra metoden enklare att förklara för dem som inte
behärskar/har tillräckliga kunskaper i ämnet.
Menar du alltså att du offrar upprepbarhet?
DQ-20 skrev:Kronkan skrev:Nej jag delar inte din uppfattning om att det finns ett urval. då måste ni berätta för mig hur urvalet är gjord. Ett urval måste ske ur en population på ett bestämt sätt så att urvalet är represantivt för populatioen. Detta torde vara grundläggande. Det går inte att beräkna signifikans om man inte kan välja metod för att beräkna den. JAg kan inte längre vilken metod som skall väljas i vilket fall men har hittat ett exempel som jag anser kan belysa situationen
På grund av ringrostigheten med statistik och vetenskaplig vill jag korrigera mig något men inte i mitt grundläggande antagande.
Tar ett exempel ur den engelska versionen av wikipedia. Sök på Significance.
The following example is summarized from Fisher, and is known as the Lady tasting tea example.[5] Fisher thoroughly explained his method in a proposed experiment to test a Lady's claimed ability to determine the means of tea preparation by taste. The article is less than 10 pages in length and is notable for its simplicity and completeness regarding terminology, calculations and design of the experiment. The example is loosely based on an event in Fisher's life. The Lady proved him wrong.[6]
1. The null hypothesis was that the Lady had no such ability.
2. The test statistic was a simple count of the number of successes in 8 trials.
3. The distribution associated with the null hypothesis was the binomial distribution familiar from coin flipping experiments.
4. The critical region was the single case of 8 successes in 8 trials based on a conventional probability criterion (< 5%).
5. Fisher asserted that no alternative hypothesis was (ever) required.
If and only if the 8 trials produced 8 successes was Fisher willing to reject the null hypothesis – effectively acknowledging the Lady's ability with > 98% confidence (but without quantifying her ability). Fisher later discussed the benefits of more trials and repeated tests.
Lustigt att du skulle ta R A Fisher som exempel. Det var nämligen han som stipulerade att det är just en hypotetisk oändlig population (med en känd fördelning) som man måste kunna konstruera innan man börjar räkna signifikans i experiment. I det berömda te-testet (pun intended) är det den hypotetiska mängden te-test som damen gjort, kommer att göra samt aldrig kommer att göra men kunde ha gjort... Från denna population/mängd/fördelning drar man sedan slumpmässigt ett urval av te-test, nämligen de som verkligen görs. Sedan är det bara att räkna på. Om du verkligen hade läst Fisher hade du vetat detta. För övrigt känns det som att du driver med mig lite. Gör du det?
/DQ-20
Kronkan skrev:Johan_Lindroos skrev:Kronkan skrev:Jag betvilar inte ett dugg att standarden är hög och att man kommer fram till resultat kring frågeställningen - hur skapa en transparant ljudkälla.
Fast när jag läser diskussionen i tråden tror jag att ni som sysslar med denna form av undersökningar skall fundera igenom några frågeställningar.
Själva grunder (tror jag) är att ni har en grupp personer som skall uttala sig om de kan höra någon färgning i en speciell apparat. Personerna är ingen sampling/urval. De är så att säga själva mätinstrumentet.
Om gruppen är ett utval så skall statistiska metoder användas för att säkerställa att urvalet är representativt och en metod för att beräkna singnifikans skall också användas. Men det är ju inte detta som ni gör.
Ni är själva mätinstrumentet. Skall man skapa ett mätinstrument så måste man fundera på hur man skall mäta det som man avser mäta och man måste också fundera på mätnoggranheten.
Men detta verkar ju vara specialfallens specialfall.
Ibland får jag svårt att förstå logiken i de olika resonemangen i avseende om man ser på gruppen som ett sampel/urval eller om det är ett mätinstrument.
Om jag förstår den grundläggande frågeställningen så används personerna som mätinstrument. Och då behöver man vara klar över detta så att man kan skapa det instrument som man vill ha
JAg är inte kritisk utan försöker bara förstå men blir så att säga osäker.
Få se nu om jag förstår dig rätt...
LTS är inte intresserade av att studera huruvida "non expert listerners" kan höra skillnad på olika apparater. Om man skulle ta med sådana lyssnare skulle det förmodligen bli så att det blir fler apparater som skull passera nålsögat och kunna sägas vara "icke detekterade".
Men man kan få dåliga resultat (nollresultat) även om man har expertlyssnare. Man kan t ex ha råkat välja okritiskt lyssningsmaterial. Man kan ha en för dålig uppslepningsmiljö (även om det inte är jättekristiskt har det visat sig) t ex att starka lågfrekventa ljudtryck inte kanskapas. Så det är väldigt många ställen där man kan misslayckas.
Var det detta du tänkte på el dyl?
Ja precis så tycker jag att metoden verkar vara dåligt normerad och kalibrerad. Tekniskt tvekar jag inte på att detär en intressant väg för att finna t det transparanta ljudet för de som strävar dit. Men mätnoggranheten kan nog vara lite tveksam.
IngOehman skrev:Kronkan skrev:Johan_Lindroos skrev:Kronkan skrev:Jag betvilar inte ett dugg att standarden är hög och att man kommer fram till resultat kring frågeställningen - hur skapa en transparant ljudkälla.
Fast när jag läser diskussionen i tråden tror jag att ni som sysslar med denna form av undersökningar skall fundera igenom några frågeställningar.
Själva grunder (tror jag) är att ni har en grupp personer som skall uttala sig om de kan höra någon färgning i en speciell apparat. Personerna är ingen sampling/urval. De är så att säga själva mätinstrumentet.
Om gruppen är ett utval så skall statistiska metoder användas för att säkerställa att urvalet är representativt och en metod för att beräkna singnifikans skall också användas. Men det är ju inte detta som ni gör.
Ni är själva mätinstrumentet. Skall man skapa ett mätinstrument så måste man fundera på hur man skall mäta det som man avser mäta och man måste också fundera på mätnoggranheten.
Men detta verkar ju vara specialfallens specialfall.
Ibland får jag svårt att förstå logiken i de olika resonemangen i avseende om man ser på gruppen som ett sampel/urval eller om det är ett mätinstrument.
Om jag förstår den grundläggande frågeställningen så används personerna som mätinstrument. Och då behöver man vara klar över detta så att man kan skapa det instrument som man vill ha
JAg är inte kritisk utan försöker bara förstå men blir så att säga osäker.
Få se nu om jag förstår dig rätt...
LTS är inte intresserade av att studera huruvida "non expert listerners" kan höra skillnad på olika apparater. Om man skulle ta med sådana lyssnare skulle det förmodligen bli så att det blir fler apparater som skull passera nålsögat och kunna sägas vara "icke detekterade".
Men man kan få dåliga resultat (nollresultat) även om man har expertlyssnare. Man kan t ex ha råkat välja okritiskt lyssningsmaterial. Man kan ha en för dålig uppslepningsmiljö (även om det inte är jättekristiskt har det visat sig) t ex att starka lågfrekventa ljudtryck inte kanskapas. Så det är väldigt många ställen där man kan misslayckas.
Var det detta du tänkte på el dyl?
Ja precis så tycker jag att metoden verkar vara dåligt normerad och kalibrerad. Tekniskt tvekar jag inte på att detär en intressant väg för att finna t det transparanta ljudet för de som strävar dit. Men mätnoggranheten kan nog vara lite tveksam.
Nog? Verkar?
Vad är detta? Snillen spekulerar? Skulle uppskatta om du ersätte alla
dina gissningar och spekulationer med något konkret.
ALLA de förslag jag sett presenteras med avseende på justeringar av
testmetodiken - verkar i den riktning att de degraderar studiens mät-
noggrannhet, om man talar om att mäta apparatens egenskaper. För
du förstår väl att det är skillnad mellan mätnoggrannheten med avse-
ende apparaternas egenskaper, och den statiska mätnoggrannheten,
och varför den ena kan vara den andras främsta fiende?
Det vill säga varför man kan tänka sig att det kan vara en poäng att
nöja sig med ett resultat som är till >99 % säkerställt, om det innebär
att det möjliggöra detektion av fel som är 1/50 så stora, som en annan
metod som tar en månad och kräver 100 deltagare?
Sen bör man heller inte glömma att det finns mer i en apparattest än
den blinda verifikationen. Det finns ju en redovisning av upplevelser
också, som ju är mycket viktigare än skillnader mellan 99% och 99,5%,
som ju inte är något mätetal för APPARATENS egenskaper överhuvud-
taget. Det är bara ett mått på själva verifikationen, som man kan sätta
rätt så godtyckligt. Det är ju upp till dem som läser testen att värdera
om de tycker det är tillräckligt. Det finns ju liksom inga hemligheter.
- - -
Men den verkligt intressanta delen av testen är ju VAD folk, som med
rimlig säkerhet lyckats visa att de kunde särskilja F från E, TYCKTE om
skillnaden. Hur stor skillnaden var och hur den lät.
Jag finner det facinerande att ingen tycks vara intresserade alls av den
delen - som är själva information om apparaterna.![]()
Vh, iö
- - - - -
PS. Den som inte förstått det, borde kanske arrangera lite apparat-
tester själv, och få lära sig "den hårda vägen" hur viktigt det är att
välja en rimlig statistisk säkerhet.
För om man bara har en kväll på sig (och så är det oftast) så är det
MYCKET som måste hinnas med. Och att satsa på att t ex spela mycket
olika programmaterial, ger möjlighet att kunna beskriva apparatens
alla karaktärer rimligt bra. Och om det är så att karaktärerna är svaga
så kommer det ju att märkas tydligt när man läser beskrivningarna.
För alla har väl förstått att två apparater som man lyssnar till blindt
tills man nått en SS om >99%, som alltså båda får den siffran, kan
skilja sig åt hur mycket som helst. Den ena kan vara praktiskt taget
odetekterbar, medan den andra kan låta som en telefon.
Det är i beskrivningarna som apparaternas karaktärer (och deras
storlek) redovisas. Att man gör studien blindt har INGET med att man
vill få ett mätetal på dess ljudkvalitet att göra.
99% är i själva verket inget mätetal alls, utan bara en ambitionsnivå
för själva studien.
Den måste alltså ALLA apparater uppnå - om man skall skriva något om
dem*. Når man det inte, så har man fått ett nollresultat, (=inte lyckats
detektera med den SS man förutsatt sig att få).
*Men visst kan man skriva något även om en apparat man inte har
lyckats detektera med en SS om >99%. Då är det upp till läsaren att
dra slutsatser, t ex - att det finns en viss osäkerhet + att färgningen
MÅSTE vara liten om den finns alls, eftersom det misslyckades att nå
målet >99 %. Däremot betyder inte 99,999% att färgingen behöver
vara större än om man slutar vid >99 %, så att sträva efter 99,999%
är i praktiken bara ett sätt att slösa bort tid som istället skulle kunna
ha användts till att extrahera fram en massa värdefull information om
apparaten.
(Allt detta på slutet är skåpmat för alla som vet något om statistik, men
eftersom det nog finns rätt många som läser (och vissa som skriver...) i
den här tråden som inte förstått dessa saker, eller är alls intresserade
av statistik - så tyckte jag att det var viktigt att nämna det i varje fall:
Den som vill veta något om APPARATERNA måste alltså läsa det som
skrivs om dem! Den redovisning av den statistiska signifikansen som
ibland görs, säger INGENTING alls om apparaten, utan den berättar
bara om själva de valda gränserna för studien som sådan.)
Kronkan skrev:2. Sättet att beräkna signifikans gör att detblir svårt att bevisa att anläggning är ofärgad. Detta på ett märkligt sätt. Det är svårt att bevisa att anläggnigen är färgad.
Laila skrev:Aha, är det då som pickup-nördarna vaknar ?![]()
Användare som besöker denna kategori: Inga registrerade användare och 22 gäster