Moderator: Redaktörer
Nattlorden skrev:Vad är en serie? Är det en unik person, eller är det bara en av någon identifierad stopp-punkt?
Om man har 4 fel av 12 först och någon säger "nu är serien slut", nu gör vi en ny. och man i den andra har 8 fel av 12... så måsta jag nog tycka att man har 12 fel av 24... inte 8/12 rätt i båda, för att någon statisktiskt flippat den ena serien.
Svante skrev:Om man söker svar på frågan om apparatens hörbarhet understiger den absolut minsta tröskeln som FP har, bör man därför försöka minska störnivån, så att bias blir så liten som möjligt. En konsekvens av detta blir dock att möjligheten att gradera apparatens påverkan minskar, i en perfekt uppställning får man ett binärt svar.
Svante skrev:Men den här diskussionen tenderar att blockera det jag egentligen vill diskutera i den här tråden, nämligen om andelen rättsvar kan ses som ett graderat mått på hörbarheten.
Almen skrev:Svante skrev:Men den här diskussionen tenderar att blockera det jag egentligen vill diskutera i den här tråden, nämligen om andelen rättsvar kan ses som ett graderat mått på hörbarheten.
Tror det stora problemet är att du inte vet något om anledningen till andelen felsvar. Lite okoncentration, någon som skrapar med en stol - "fel" programmaterial, "fel" volymnivå; ett eller flera felsvar behöver inte säga något alls om färgningens storleksgrad.
Som jag ser det har du dessutom redan all information, redan innan du börjar räkna: de subjektiva utlåtandena. Där har du kvalitativa värden (som förvisso med kompletterande mätningar kan kvantifieras) som berättar både om hur färgningen yttrar sig och hur stor den var.
Almen skrev:Svante skrev:Men den här diskussionen tenderar att blockera det jag egentligen vill diskutera i den här tråden, nämligen om andelen rättsvar kan ses som ett graderat mått på hörbarheten.
Tror det stora problemet är att du inte vet något om anledningen till andelen felsvar. Lite okoncentration, någon som skrapar med en stol - "fel" programmaterial, "fel" volymnivå; ett eller flera felsvar behöver inte säga något alls om färgningens storleksgrad.
Som jag ser det har du dessutom redan all information, redan innan du börjar räkna: de subjektiva utlåtandena. Där har du kvalitativa värden (som förvisso med kompletterande mätningar kan kvantifieras) som berättar både om hur färgningen yttrar sig och hur stor den var.
Svante skrev:Ja, låt mig då deklarera från början att jag inte avser denna tråd som en fortsättning på den andra "F/E-lyssnings-mätningstråden", jag vill helst att man har accepterat ATT det kan vara bra att se F/E-lyssning som en mätmetod innan man skriver här.
Skeptiker uppmanas titta på för att kanske se om det ändå finns något positivt att lära ur resonemangen när de får pågå ostört.
Har man inte accepterat synsättet fortsätter man lämpligen debatten i den andra tråden, eller startar en alternativtråd till denna.
If you please.
Jag skulle vilja reda ut vad som egentligen händer om man tolkar en svarsserie enligt nedan.
Förutsättningar:
Säg att man från början bestämde sig för en 9-13-16-20-design. Det innebär att man bryter lyssningen efter 9 rätt av 9, 12 rätt av 13, 14 rätt av 16, 17 rätt av 20.
Det spelar ingen roll för resonemanget, men antag också att endast riktiga svar räknas, bortse från möjligheten "många fel" som detektion.
Säg vidare att man bestämmer sig för att låta andelen riktiga svar vara ett mått på hur svårt det var att höra påverkan. Rimligen var det svårare om man måste lyssna många gånger och om man gjorde fel ibland.
Antag också att lyssnarna är tidsinvarianta.
Med en simulering kan man visa att försöksdesignen ger mer än 99 %-ig konfidens ATT man kan detektera objektet om man får en serie med färre än fyra fel (dvs högst tre fel, 17 av 20).
Mätresultaten man kan få då är:
1. Man svarar 9 av 9 rätt. Andelen riktiga svar är 100%.
2. Man svarar 12 av 13 rätt. Andelen är 92 %.
3. Man svarar 14 av 16 rätt. Andelen är 88 %.
4. Man svarar 17 av 20 rätt. Andelen är 85 %.
5. Man svarar fler än fyra fel. Andelen riktiga svar är mindre än 85 %
Min tolkning är då, i samtliga fall utom 5 att man med 99 % konfidens har visat att skillnad föreligger. Vi har också ett estimat av hur stor andel av svaren som lyssnaren skulle svara rätt om han gjorde oändligt många lyssningar under de givna förutsättningarna. De estimaten kan ha värdena 100, 92, 88 eller 85 %.
Fall 5 är svårare att värdera, men gör det troligt att FP inte kan detektera objektet med 85 % riktiga svar. Man skulle kunna uppnå 99 % konfidens med en annan försöksdesign som fortsätter även efter 4 fel, men en sådan skulle inte ge fler än 85 % riktiga svar (vilket inte är riktigt sant, det går att välja designer som motsäger det, men det vore dumt).
Det jag nu undrar är, kan vi säga något om felen i estimatet av andel riktiga svar? Alltså, hur säkert är det att lyssnaren skulle svara just 88 % rätt om han gjorde oändligt många serier om resultatet var 14 rätt av 16? Är det rätta värdet egentligen 89 %?
-----------
Jag tycker mig känna igen resonemanget från andra undersökningar, vad ska vi hitta på, tex om man undersöker effekten av en medicin på antal leverfläckar. Steg 1 är att visa ATT det finns en effekt, och OM man gör det så har man också ett estimat på hur mycket antalet leverfläckar minskade. Det bästa estimatet är rimligen medelantal före minus medelantal efter. Men hur noggrant är det estimatet?
Tappert, ni som orkade läsa hit. Orkar ni skriva något också?
Svante skrev:Min tolkning är då, i samtliga fall utom 5 att man med 99 % konfidens har visat att skillnad föreligger. Vi har också ett estimat av hur stor andel av svaren som lyssnaren skulle svara rätt om han gjorde oändligt många lyssningar under de givna förutsättningarna. De estimaten kan ha värdena 100, 92, 88 eller 85 %.
DQ-20 skrev:Det stora problemet med f/e-lyssning som mätning är hur man skall attribuera resultaten. Om man gör JND-mätningar brukar man ju* använda kända, kvantifierade och kalibrerade stimuli för att utvärdera lyssnarens gräns för hörbarhet. När detta är gjort är det ganska tydligt vem som "äger" resultatet, nämligen lyssnaren. Man kan i princip trycka upp en testrapport att lägga i plånboken och ta fram vid festliga tillfällen i sällskap med likasinnade.
Om man mäter på en förstärkare med exempelvis ett Audio Precision-system får man också en tydlig koppling mellan mätetal och det man mätte på. Man kan på ett tämligen entydig sätt beskriva hur maximal effekt och distorsion har mätts och under vilka omständigheter. Det är också så att "man" på ett tydligt sätt uppfattar att apparaten "äger" sina mätetal och att dessa är lika när man packar och öppnar lådan eller mäter med ett annat AP-system i en annan del av världen. Därför kan man med fördel trycka upp en testrapport och lägga med i lådan såsom brukligt med dyra och välingenjörade produkter.
I båda fallen är utfallet en konsekvens av det totala sammanhanget vid mätningen men jag tror att de flesta ser det (rätteligen) som att det finns en stor "portabilitet" (mitt hittepå-ord) hos resultaten pga av att andra men liknande mätsituationer kan förväntas ge likvärdiga resultat. Resultaten följer till mycket stor grad apparaten.
När man lyssnar F/E förutsätter vi* att samma mekanismer som vi mätte med olika stimuli och noterade JND för finns tillstädes och kan utnyttjas för att detektera skillnader mellan F och E. Men man vänder förstås på steken. Mättekniskt kan man säga att lyssnarna inte är kalibrerade - dvs. de är inte JND-mätta på alla parametrar och kombinationer därav som kan fälla utslag. Vi kan med F/E-lyssning inte lätt inferera vilka stimuli som triggar responsen utan endast att de gör det. Vi kan alltså inte utesluta om det är andra mekanismer än de som vi skulle kunna mäta upp med JND-mätningar som påverkar utfallet utan det kan vara i princip okända mekanismer som fäller avgörandet.
Utfallet är alltså beroende av lyssnarnas JND-nivåer för de parametrar som man kan mäta samt ett okänt antal andra nivåer som man inte har mätt. Vidare är utfallet beroende av vilka stimuli i form av ljudsignaler, effektnivåer och annat som används för att ge utslaget. Kunskapen om dessa är inte sådana att de med lätthet går att kvantifiera mer än att de tycks vara utslagsgivande. Mättekniskt är F/E-tester alltså problematiska på olika plan. Egenskaper i förstärkaren kan inte kopplas till utslaget utan ytterligare mätningar och egenskaperna hos panelen är inte helt kända eller ens möjliga att ta reda på. Dessa problem kan vi analysera mättekniskt och diskutera i termer av t.ex. validitet och reliabiliet och säkert en massa annat också som jag inte känner till. Vi kommer då att finna att problemen, ur ett mätteoretiskt perspektiv, är många.
Den stora fördelen är dock att F/E-lyssning har stor validitet. Vi undersöker/mäter nämligen direkt och utan att inferera om en transmissionlänk påverkar signalen hörbart, givet en viss lyssningspanel, en viss kringutrusting och vissa stimuli. Genom att ha en tränad panel, bra kringutrustning och ljudsignaler som av erfarenhet visat sig utslagsgivande ökar man chansen för att "icke-detektionen" skall "stå sig" under andra förhållanden. Att med hjälp av annan mätteknisk utrustning och uppmätta JND-nivåer försöka inferera hörbarhet hos ett apparat är inte alls lika direkt och "twice removed" från det man verkligen vill få fram.
Allt nog och medan. Jag tror att den stora faran med att kalla "F/E-lyssning" för "F/E-mätning" är hur ordet mätning uppfattas i detta sammanhang, inte om det är en mätning eller inte. Som jag tidigare var inne på är alla mätningar beroende av de förutsättningar under vilka man genomförde mätningarna. Vanligt förekommande mätningar på t.ex. förstärkare (dist, max effekt osv. ) har en stor "portabilitet" som gör att mätetalen kan upprepas med sådan precision för ett visst apparatexemplar att man kan skicka med ett testprotokoll i lådan. Men att dessutom skicka med resultaten från en F/E-lyssning skulle jag dock vara mycket skeptisk till. Anledningen till detta är den bristande graden av "portabiliet": resultatet "ägs" nämligen i mindre och till viss del okänd, grad av själva apparaten utan delar resultatet på ett påtaligt sätt med lyssningpanel och övriga omständigheter kring testet. Egenskaperna på lappen med testresultat från AP och från LTS F/E-test är inte kopplade till apparaten på samma sätt.
Av tradition är mätningar på elektroniska apparater av den karaktären att de är betydligt mindre bundna till en viss unik mätsituation än F/E-tester. Om man då missleds av ordet "mäta" och överför sina förväntningar från t.ex. AP-mätningar till F/E-mätningar gör man ett tankefel på grund av de uppenbara mätteoretiska skillnaderna och tillmäter F/E-lyssningen mer "portabilitet" (eller kanske vanliga hederliga "generaliserbarhet") än man bör. Min slutsats är att problemet med att kalla F/E-lyssningar à la LTS för "mätningar" ligger inte i att det inte "är" en mätning utan den stora faran ligger i hur resultaten tolkas och kopplas till apparaten, givet hur andra typer av mätningar på apparater brukar genomföras.
/DQ-20
*) Jag vill göra klart att man för att vara på den säkra sidan gott kan förutsätta att jag inte kan ett dugg om t.ex. psykoakustik, audiologi, JND och till dessa relaterade testmetoder.
IngOehman skrev:Det får mig att tro att du inte förstår vad statistisk signifikans betyder, och
att du inte heller förstår att en lyssnare inte är en stabil maskin. Nio rätt av
nio betyder 100% rätt, men ABSOLUT inte att det är ett rimligt estimat att
samma lyssnare kommer att fortsätta att svara rätt i all framtid.
IngOehman skrev:Nej, det du skriver stämmer inte när utfallet varit 100 %.
Alltså om man isolerar de fallen.
Varken praktiskt eller statistiskt, eller någonting annat. Det
är bara "nästan sant" om man slår samma alla sådana app-
roximationer. Hoppas jag lyckades uttrycka mig begripligt.
Vh, iö
IngOehman skrev:Det får mig att tro att du inte förstår vad statistisk signifikans betyder
IngOehman skrev:Trist med dina retoriska personpåhopp.
Men åter till sakfrågorna:
Vad är det som gör att du pekar på att du utgått ifrån en tidsinvariant
lyssnare*?
Vad i det jag skrivit är det som får dig att tro att du behöver påpeka det?
Har du några sakinvändningar mot det jag skrev?
Förstår du vad det är som gör att du fick mig att tro att du inte förstår vad
statistisk signifikans betyder/lyckades jag få fram det?
Förstår du varför jag ville att du skulle veta vad dina formuleringar gav mig
för intryck?
Men framförallt - läste du resten av mitt inlägg?
Förstod du det?
Höll du med om det?
Vh, iö
- - - - -
*En sådan utgångspunkt gör det ju HELT omöjligt att använda svaren till
att få något mått på felstorleken. Det är ju just problem med detta som
jag tagit upp om och om igen, som skäl till att det inte går att dra några
andra slutsatser än "SS för det som upplevts av lyssnarna".
Att en verklig lyssnare byts mot en tidsinvariant gör det helt omöjligt att
detektera några sådana informationer från svarsserien. Och man kan, om-
än med vissa reservationer, påstå att det gör hela din hypotes (om utfall)
omöjlig.
IngOehman skrev:Jag förmodar att det är undertecknad, Almen, Nattlorden, i, e, möjligen även den klurige DQ-20 (som så skickligt undviker att ta ställning) och kanske några till som Svante avsett "blir av med", det vill säga som inte är välkomna?
Men jag hoppas på klartext med avseende på om man alltså inte för vara med och diskutera hur det är, utan att först ha deklarerat att man redan bestämt sig för hur det är.
petersteindl skrev:IngOehman skrev:Trist med dina retoriska personpåhopp.
Men åter till sakfrågorna:
Vad är det som gör att du pekar på att du utgått ifrån en tidsinvariant
lyssnare*?
Vad i det jag skrivit är det som får dig att tro att du behöver påpeka det?
Har du några sakinvändningar mot det jag skrev?
Förstår du vad det är som gör att du fick mig att tro att du inte förstår vad
statistisk signifikans betyder/lyckades jag få fram det?
Förstår du varför jag ville att du skulle veta vad dina formuleringar gav mig
för intryck?
Men framförallt - läste du resten av mitt inlägg?
Förstod du det?
Höll du med om det?
Vh, iö
- - - - -
*En sådan utgångspunkt gör det ju HELT omöjligt att använda svaren till
att få något mått på felstorleken. Det är ju just problem med detta som
jag tagit upp om och om igen, som skäl till att det inte går att dra några
andra slutsatser än "SS för det som upplevts av lyssnarna".
Att en verklig lyssnare byts mot en tidsinvariant gör det helt omöjligt att
detektera några sådana informationer från svarsserien. Och man kan, om-
än med vissa reservationer, påstå att det gör hela din hypotes (om utfall)
omöjlig.
Då man gör mätningar där perception ingår så lägger man som testledare upp mätsituationen på så sätt att kontinuitet och invarians är inbakat i den totala mätsituationen.
Därför utformar man t.ex. mätsignaler och mätskalor så att invarians föreligger.
MvH
Peter
IngOehman skrev:Trist med dina retoriska personpåhopp.
Men åter till sakfrågorna:
Vad är det som gör att du pekar på att du utgått ifrån en tidsinvariant
lyssnare*?
Vad i det jag skrivit är det som får dig att tro att du behöver påpeka det?
IngOehman skrev:... och att du inte heller förstår att en lyssnare inte är en stabil maskin. Nio rätt av nio betyder 100% rätt, men ABSOLUT inte att det är ett rimligt estimat att samma lyssnare kommer att fortsätta att svara rätt i all framtid.
IngOehman skrev:Givet att du postulerar en tidsinvariant lyssnare så VET man ju att ALLA
svarsserier som inte är rätt från början till slut, visar att det är slumpen
som kommer in. Det är liksom en utgångspunkt som inte är tillåten, om
du vill diskutera SS för utfallet.
Eller menade du att apparaten ändrar sig slumpmässigt under lyssningen?
Svante skrev:Nattlorden skrev:I och med att du postulerat att lyssnarna är tidsinvarianta så borde det väl vara 100% säkert att det blir 88% rätt?
Hmm. Bra synpunkt. Det jag avsåg med tidsinvariant är att det är en tidsinvariant stokastisk process som styr deras eventuella felsvar.
Med vanliga ord: de blir inte trötta eller plötsligt mer skärpta av att de dricker kaffe ed. Man byter heller inte musiksnutt. Osv.
Nattlorden skrev:Svante, det hade varit mer intressant om anledningen till frågan vore känd. Känner du dig osäker på om testserierna använda varit långa nog, eller försöker du hitta ett sätt att korta ned det för att effektivisera framtida lyssningar?
Om det inte är lyssnarna du försöker mäta, utan apparat under testande, så finns de ( i min mening ) bara ett mätvärde, nämligen "färgar hörbart". Om inte detta mätvärde uppstår finns inget alternativ då man inte kan konstatera "färgar inte hörbart" utan enbart konstatera att man misslyckats mäta. Det denna tråden handlar om är ju bara det enda möjliga mätvärdets trovärdighet, eller hur
Och denna trovärdighet äger väldigt liten, snarare ingen, validitet för att användas som något kvalitetsmått på testapparaten, då det inte går att utesluta att konfidensen hade kunnat bli mycket högre med annat lyssningsmaterial.
IngOehman skrev: Ja, så är det.
Och man behöver förstå att "ett" är en sorts "noll", eftersom man varken
vet hur mycket "färgar" betyder, eller kan utesluta att misslyckad detektion
kan ske trots en större färgning än så.
Man måste helt enkelt komma ihåg att det in invävt en massa omätbarheter,
som gör upplevelsen av mätbarhet, till en skimär.
Men det finns andra värden än mätvärden, och F/E-lyssningarna är fulla av
dem! Mjuka värden. hetereså?
Vh, iö
- - - - -
PS. Men för protokollet - det hindrar inte att det GÅR det att se en F/E-lyss-
ning som en mätning. Men man bör då inse att ingen kan veta vet vad den
visar.
petersteindl skrev:...Det är alla dessa förmodade mätpunkter som enligt den statistiska modellen skall utkristalliseras om det endast var slumpmässigt brus eller en faktisk detektering. Är det slumpmässigt brus så har ingen mätning lyckats. Man har lyssnat men inte hört. Är det däremot en detektering så föreligger en lyckad mätning med hörseln och det centrala nervsystemet och hjärnan och medvetandet som hjälp. Man har lyssnat och hört. Det man hört visade sig vara korrekt och detektering har skett med hjälp av hörseln och medvetandet som mätinstrument. Mätningen var lyckad...
MvH
Peter
petersteindl skrev: ...Detekteras det, så är det en mätning. Detekteras det inte så är resultatet slumpmässigt. För att resultatet inte alltid skall bli slumpmässigt så vill det till att förutsättningarna för detektion höjs.
...
MvH
Peter
petersteindl skrev:Jag argumenterar för att man kan se F/E-lyssning som en mätning.
Vad jag kan se så verkar ni tycka så också. Vad det sedan kallas för hör inte hit, vilket jag också tidigare skrivit.
Svante skrev:En sak klarnade just i min lilla hjärna.
Svante skrev:Om det vore så att lyssnaren med hög precision kunde svara lika på ett givet stimulus som ligger över tröskeln, varje gång, då skulle man alltid få svarsserien "alla rätt". Väntevärdet bleve 100%. Om det låg under tröskeln så skulle svarsserien ha väntevärdet 50%.
Det vore omöjligt att få de andra värdena däremellan, annat än som resultatet av slumpen som blir när man gissar en serie. Väntevärdet skulle bli antingen 50 % eller 100 %.
Anledningen att värdena däremellan ändå tillför ett mervärde är att lyssnaren INTE har oändligt hög precision. Om man jämför med sampling så skulle man kunna säga att man har tillfört ett ditherbrus när man stör lyssnaren, spelar musik som inte är optimal, eller om lyssnaren blir trött.
Man kan alltså göra följande modell:
Lyssnaren har en inre tröskel, under vilken man överhuvudtaget inte kan detektera objektet. Vi undersöker om apparaten ligger under den tröskeln. Det är önskvärt att "instrumentet" eller försöksuppställningen om man så vill så gott som möjligt ger lyssnaren möjlighet att använda den inre tröskeln. En perfekt sådan uppställning kommer att ge väntevärdena 50% eller 100 % detektion.
Om uppställningen inte är perfekt utan lyssnaren drabbas av en störning kommer han ibland att misslyckas, trots att objektet egentligen är hörbart. Man kan se detta som att vi tillför en störsignal, ett ditherbrus om vi så vill.
Det som är bra med detta är att det ger oss en möjlighet att gradera hur hörbar förstärkaren är. Ett problem med graderingen är dock att den beror direkt av hur stor störningen är; för en given störningsamplitud finns det ändå en påverkan som genererar 100% rättsvar. Skalan som jag pratar om ovan gäller därmed bara en given uppställning (inklusive FP).
Ett annat problem som störningen tillför är att ditherbruset inte ligger symmetriskt kring nollan, det har en DC-komponent som inför ett systematiskt fel. Med en outtröttlig lyssnare kan det hanteras genom att öka antalet lyssningar. Fast sådana lyssnare finns ju inte.
Om man söker svar på frågan om apparatens hörbarhet understiger den absolut minsta tröskeln som FP har, bör man därför försöka minska störnivån, så att bias blir så liten som möjligt. En konsekvens av detta blir dock att möjligheten att gradera apparatens påverkan minskar, i en perfekt uppställning får man ett binärt svar.
Jag vet inte om ovanstående hjälper någon mer än mig att förstå något, men för mig är de här parallellerna med signalteori tämligen upplysande. F/E-lyssningen är som en enbits A/D-omvandlare, och ditherbrus kan linjärisera den. Och sampling är ju snudd på samma sak som mätning.
Kärnan i detta är "ditherbruset". Väldigt mycket av skillnaderna mellan olika uppställningar kan modelleras med dess fördelningsfunktion.
IngOehman skrev:Därför måste jag, efter att ha läst hans ovanstående inlägg, som ju säger
mer eller mindre exakt det som jag hävdat, med en dåres envishet, om
och om igen i den andra tråden, fråga honom om han håller med om det?
Gör du det, DQ-20?
Nattlorden skrev:Svante, det hade varit mer intressant om anledningen till frågan vore känd. Känner du dig osäker på om testserierna använda varit långa nog, eller försöker du hitta ett sätt att korta ned det för att effektivisera framtida lyssningar?
Nattlorden skrev:Om det inte är lyssnarna du försöker mäta, utan apparat under testande, så finns de ( i min mening ) bara ett mätvärde, nämligen "färgar hörbart". Om inte detta mätvärde uppstår finns inget alternativ då man inte kan konstatera "färgar inte hörbart" utan enbart konstatera att man misslyckats mäta. Det denna tråden handlar om är ju bara det enda möjliga mätvärdets trovärdighet, eller hur
Nattlorden skrev:Och denna trovärdighet äger väldigt liten, snarare ingen, validitet för att användas som något kvalitetsmått på testapparaten, då det inte går att utesluta att konfidensen hade kunnat bli mycket högre med annat lyssningsmaterial.
Ingvar i MoLt 2 2007 skrev:Detta ger inte testen någon ytterligare vetenskaplig vikt, men huruvida detta är en indikation på apparatens låga färgning eller inte, får var och en bedömma själv. Uppenbart drabbar det nämnda scenariet näppeligen någon apparat som färgar mycket. Så ett tecken på goda återgivningsegenskaper är det tvivelsutan.
Användare som besöker denna kategori: Google [Bot], palrob och 7 gäster