Angående F/E-lyssningen i senaste Musik & Ljudteknik

av **Almen** » 2009-05-07 20:41

Jo, så här står det:

Svante skrev:Testet började intressant. Jag själv tog åtta rätt i rad. Vi lyssnade då på det berömda metronomklicket och jag tyckte att jag ganska enkelt hörde en skillnad i mellanbasen, uppskattningsvis kring 100-200 Hz.

Men...

Efter de inledande åtta riktiga svaren blev det inte ett enda ytterligare napp på hela kvällen.

Kan inte det helt enkelt bero på att man började med att lyssna på en kall förstärkare? Man kanske lät den stå på en stund innan, men att den var tvungen att köras litet innan den stabiliserade sig?

av **Laila** » 2009-05-07 21:27

Eller att Svante var mer alert/skärpt i början av testet/lyssningen ?

Att man missat att värma upp stärkaren innan lyssning är välan
knappast troligt, eller ?

av **Ragnwald** » 2009-05-07 21:55

Eller, Svante blev varmare och irriterad efter första missen och tappade fokus. :wink:

av **DQ-20** » 2009-05-07 22:45

Eller så var det små, och för utomstående osynliga, tomtar som viskade rätt svar i Svantes öra. De tog sedemera lagstadgad dygnsvila och övergav Svante i hans värv. Mitt tips: tidigarelägg testerna om du vill ha hjälp av vättar.

/D

av **Almen** » 2009-05-07 23:03

Ack, skämten I klentrogna! Jag tror jag är något på spåren...

av **Bill50x** » 2009-05-07 23:40

Va? Har MoLT kommit ut igen? Det var ju bara typ ett halvår sedan jag läste om förra numret....

/ B

av **shifts** » 2009-05-07 23:43

Fyra nummer per år har de väl hållit länge nu.

av **Svante** » 2009-05-08 00:33

Jo, man kan spekulera om orsaken till det där. Jag är benägen att tro att de åtta i rad var en slump, så som jag också skriver i MoLT. Ett av skälen till det är att ingen av de andra lyssnarna som vanligen presterar mycket bättre än jag gör, inte lyckades. Ens i början. Men man kan aldrig veta. En ickedetektion är ju bara en icke-detektion.

Det enda man kan veta säkert är att vi misslyckades med det vi försökte; att bevisa att förstärkaren var hörbart färgande.

av **MattiasKarlsson** » 2009-05-08 01:47

Vad var det för förstärkare?
Satan, jag måste betala min årsavgift. :oops:

av **Ragnwald** » 2009-05-08 02:04

Det måste vara en som precis gått ur produktion.

av **Adhoc** » 2009-05-08 02:14

Nix. En som strax kommer kompletteras med en efterfrågad och särdeles flashig fjärris. Ger aningens mer options än T-fordarna hade (map färgen), fjärrisen har 2 knappar.

av **Naqref** » 2009-05-08 09:08

MattiasKarlsson skrev:Vad var det för förstärkare?
Satan, jag måste betala min årsavgift.

Det är ett litet försteg som du inte har visat något som helst intresse av...

OBS! Ironi!

av **Almen** » 2009-05-08 10:24

Svante skrev:Jo, man kan spekulera om orsaken till det där.

Men hade ni kört den med signal innan testet började? Åtminstone 5-10 minuter?

Jag är benägen att tro att de åtta i rad var en slump, så som jag också skriver i MoLT.

Jo, men samtidigt var du så övertygad om vad du hörde. Är placebo så stark?

av **DQ-20** » 2009-05-08 10:46

Svante skrev:Men man kan aldrig veta. En ickedetektion är ju bara en icke-detektion.

Det enda man kan veta säkert är att vi misslyckades med det vi försökte; att bevisa att förstärkaren var hörbart färgande.

Ovanstående är en subjektiv utsaga och utgör en tolkning av statistiken, inte en statistisk "sanning".

Även en "icke-detektion" i statistiska sammanhang bär information. Själva uttrycket "icke-detektion" bygger på tillämpandet av en godtycklig gräns för p-värdet som saknar objektiv grund.

Givet styrkan* hos det statistiska testet kan man fortfarande uttala sig (probabilistiskt) om andelen rätta svar i en hypotetisk oändlig population av försök. Man kan alltså på grundval av ett försök med "icke-detektion" forma uttalanden som "Andelen rätta svar ligger under 0,6 med p-värde på XX%". Man kan också förklara det som att man gör ett konfidensintervall runt proportionen rätta svar. Att 0,5 omfattas av den undre gränsen hindrar ju inte att man också kan titta på den övre. Den övre gränsen kan dock aldrig bli 0,5 vilket reflekterar den grundläggande obalansen mellan att statistiskt visa skillnader jämfört med "icke-skillnader". Jag bedömer dock att LTS test har låg statistisk styrka, dels beroende på den höga signifikansnivån, dels på att testen är konstruerade för att kräva ett minimalt antal försök givet ett visst p-värde. Båda dessa faktorer påverkar testets statistiska styrka* negativt. Testen prioriterar skydd mot fel av typ 1 framför fel av typ 2. Vilket är vettigt tycker i alla fall jag.

En "detektion" i statistiska sammanhang är ALLTID probabilistiska antaganden byggt på ett subjektivt satt gränsvärde och ingenting sannolikt kan någonsin bli sant i filosofisk mening. Och för det enskilda experimentet kan man inte säga någonting säkert alls. Gör man det börjar det lukta omvänd (subjektiv) sannolikhet lång väg och Ed Jaynes vädrar morgonluft.

Jag skulle också vilja yppa en försiktig invändning mot den "Fisherianska" markeringen "failure" i LTS nuvarande testprogram. Det skulle vara mer informationsrikt i att även redovisa det exakta p-värdet. Det tydliggör (tror jag) också den subjektiva (om än välgrundade) beslutsregel som LTS tillämpar. Eller så motverkar det bara syftet. Vad vet jag.

Brasklapp: Ovanstående inlägg är troligen relevant för någon men för de flesta inte. Det skall verkligen inte misstolkas som något "grundskott" mot LTS testmetod. Det är i slutändan mest finlir.

För övrigt tycker jag att statistiken är ganska ointressant. Det viktiga ligger i det test som skall ge upphov till det statistiska underlag. Att mäta temperatur med känseln är mindre exakt än att köra med kaliberade termometrar. Data från temperaturmätningar med hjälp av känslen är tämligen ointressanta i förhållanden till de som man gör med termometrar hur sofistikerade statistika metoder man än använder.

/D

*statistisk styrka=statistical power. Det är ingen kvalitetsindikator och skall verkligen inte tolkas i ordens allmänna betydelse.

av **DQ-20** » 2009-05-08 10:54

Naqref™ skrev:Det är ett litet försteg som du inte har visat något som helst intresse av...

Men skärp dig för fan! Det heter "visa intresse för" men "vara intresserad av"... Herreguuuud!

Fredagsmys,

D

OBS! Ironi!

av **Naqref** » 2009-05-08 11:15

Dahlqvist skrev:Herreguuuud!

Men hallå! Du vet väl att religion tenderar att rendera trådstängningar.

OBS! Ironi!

Sorry för OT. :oops:

av **MattiasKarlsson** » 2009-05-08 13:38

av **Svante** » 2009-05-08 13:44

Almen skrev:
Svante skrev:Jo, man kan spekulera om orsaken till det där.

Men hade ni kört den med signal innan testet började? Åtminstone 5-10 minuter?

Absolut. Vi börjar nästan alltid med öppna tester och allt måste ju kalibreras. Den hade nog varit på i minst en halvtimme, kanske en timme.

Almen skrev:
Jag är benägen att tro att de åtta i rad var en slump, så som jag också skriver i MoLT.

Jo, men samtidigt var du så övertygad om vad du hörde. Är placebo så stark?

Ja.

av **Svante** » 2009-05-08 13:50

Dahlqvist skrev:Jag skulle också vilja yppa en försiktig invändning mot den "Fisherianska" markeringen "failure" i LTS nuvarande testprogram. Det skulle vara mer informationsrikt i att även redovisa det exakta p-värdet. Det tydliggör (tror jag) också den subjektiva (om än välgrundade) beslutsregel som LTS tillämpar. Eller så motverkar det bara syftet. Vad vet jag.

Alla dessa farbröder... :roll:

Eller har det med nån fisk att göra?

Hur skulle jag räkna ut det p-värdet menar du? Givet att testet är upplagt som det är.

av **paa** » 2009-05-08 14:04

Svante skrev:Jo, man kan spekulera om orsaken till det där. Jag är benägen att tro att de åtta i rad var en slump,

Hur många MoLT i rad måste det komma, om det inte ska vara en slump?

av **KarlXII** » 2009-05-08 17:59

paa skrev:
Svante skrev:Jo, man kan spekulera om orsaken till det där. Jag är benägen att tro att de åtta i rad var en slump,

Hur många MoLT i rad måste det komma, om det inte ska vara en slump?

Så finurligt.

av **Almen** » 2009-05-08 20:00

Svante skrev:
Almen skrev:
Svante skrev:Jo, man kan spekulera om orsaken till det där.

Men hade ni kört den med signal innan testet började? Åtminstone 5-10 minuter?

Absolut. Vi börjar nästan alltid med öppna tester och allt måste ju kalibreras. Den hade nog varit på i minst en halvtimme, kanske en timme.

OK, då ger jag mig. Det lutar åt slumpen, i sådana fall.

av **Laila** » 2009-05-09 01:47

Jo, någon gång måste ju slumpen "slå in", men vid ett/en
något udda tillfälle/hyggligt låg sannolikhet i detta fall,
kanske ? :oops:

av **Svante** » 2009-05-09 08:00

Laila skrev:Jo, någon gång måste ju slumpen "slå in", men vid ett/en
något udda tillfälle/hyggligt låg sannolikhet i detta fall,
kanske ?

Alltså, grejen är ju att den inte slog in, med de testkriterier vi satte upp. 8 i rad var bara ett delresultat och som jag skriver i artikeln (även om ett tyrkfel gör det svårt att läsa) så skulle ett accepterande av de 8 riktiga svaren innebära att ~1/6 av testerna gav falsk detektion. Vi upprepar ju lyssningen såpass många gånger att en enda serie med 99% konfidens inte ger ett helt test med 99% konfidens.

av **DQ-20** » 2009-05-11 09:05

Svante skrev:
Dahlqvist skrev:Jag skulle också vilja yppa en försiktig invändning mot den "Fisherianska" markeringen "failure" i LTS nuvarande testprogram. Det skulle vara mer informationsrikt i att även redovisa det exakta p-värdet. Det tydliggör (tror jag) också den subjektiva (om än välgrundade) beslutsregel som LTS tillämpar. Eller så motverkar det bara syftet. Vad vet jag.

Alla dessa farbröder... Eller har det med nån fisk att göra?

Hur skulle jag räkna ut det p-värdet menar du? Givet att testet är upplagt som det är.

Vad jag avsåg var den strikta beslutsregeln acceptera/inte acceptera baserat på ett visst (godtyckligt) p-värde (efter R A Fisher). Det p-värdet räknar ni väl ut för att kunna säga att det var just "failure"? Isåfall kan det vara idé att sätta ut p-värdet. Eller vet ni bara att det ligger under det kritiska värdet?

Undrar,

D

av **DQ-20** » 2009-05-11 09:31

Svante skrev:
Laila skrev:Jo, någon gång måste ju slumpen "slå in", men vid ett/en
något udda tillfälle/hyggligt låg sannolikhet i detta fall,
kanske ?

Alltså, grejen är ju att den inte slog in, med de testkriterier vi satte upp. 8 i rad var bara ett delresultat och som jag skriver i artikeln (även om ett tyrkfel gör det svårt att läsa) så skulle ett accepterande av de 8 riktiga svaren innebära att ~1/6 av testerna gav falsk detektion. Vi upprepar ju lyssningen såpass många gånger att en enda serie med 99% konfidens inte ger ett helt test med 99% konfidens.

Och där har vi kärnan till "Den Stora Trätan". En serie som verkligen är ett sant resultat nullifieras om man gör ett stort antal andra serier där känsligheten i testerna inte är lika hög som i den serie som gav utslag. Det kan t.ex. bero på (tänker jag mig) lyssnarens uppmärksamhet, placering i rummet eller vem man är. En statistisk metod ger oftast mest skydd mot "falsk" detektion pga av att man läser in verkliga effekter i ett slumpresultat. Men statistiken ger i detta fall (LTS) ringa skydd mot falsk "icke-detektion". Det stora problemet är att man inte kan veta något om orsakerna till resultat eller icke-resultat baserat på sannolikhetlära. Ett p-värde ger exempelvis endast ett sannolikhetsvärde för ett visst resultat i ett försök givet att det inte finns någon verklig effekt. I det enskilda fallet kan vi inte veta: det osannolika inträffar faktiskt då och då...

/D

av **Svante** » 2009-05-11 11:33

Dahlqvist skrev:
Svante skrev:
Dahlqvist skrev:Jag skulle också vilja yppa en försiktig invändning mot den "Fisherianska" markeringen "failure" i LTS nuvarande testprogram. Det skulle vara mer informationsrikt i att även redovisa det exakta p-värdet. Det tydliggör (tror jag) också den subjektiva (om än välgrundade) beslutsregel som LTS tillämpar. Eller så motverkar det bara syftet. Vad vet jag.

Alla dessa farbröder... Eller har det med nån fisk att göra?

Hur skulle jag räkna ut det p-värdet menar du? Givet att testet är upplagt som det är.

Vad jag avsåg var den strikta beslutsregeln acceptera/inte acceptera baserat på ett visst (godtyckligt) p-värde (efter R A Fisher). Det p-värdet räknar ni väl ut för att kunna säga att det var just "failure"? Isåfall kan det vara idé att sätta ut p-värdet. Eller vet ni bara att det ligger under det kritiska värdet?

Undrar,

D

Alltså det här var ju uppe i den där inte fullt så trevliga monstertråden för ett par år sedan. För att göra en lång historia kort, datorn simulerar en miljon lyssningar med vald försöksdesign* och n lyssnare som avger slumpresultat, och räknar hur många av dem som ger falsk positiv detektion. Vi väljer försöksdesign och antal lyssnare så att andelen serier där någon av lyssnarna ger falsk positiv detektion är mindre än 1/100.

Försöksdesignen var här 11-15-18, dvs vi kräver antingen
11 rätt i rad, man får bryta efter 11,
14 rätt av 15, man får bryta efter 15 eller
16 rätt av 18, man får bryta efter 18.

Med 4 lyssnare ger detta 99% konfidens, dvs risken att en falsk detektion uppstår av en slump är ungefär 1 på 100.

Hur jag ska räkna ut ett p-värde för ett utfall som ligger under gränsen inser jag inte just nu.

av **DQ-20** » 2009-05-11 12:33

Svante skrev:Alltså det här var ju uppe i den där inte fullt så trevliga monstertråden för ett par år sedan. För att göra en lång historia kort, datorn simulerar en miljon lyssningar med vald försöksdesign* och n lyssnare som avger slumpresultat, och räknar hur många av dem som ger falsk positiv detektion. Vi väljer försöksdesign och antal lyssnare så att andelen serier där någon av lyssnarna ger falsk positiv detektion är mindre än 1/100.

Försöksdesignen var här 11-15-18, dvs vi kräver antingen
11 rätt i rad, man får bryta efter 11,
14 rätt av 15, man får bryta efter 15 eller
16 rätt av 18, man får bryta efter 18.

Med 4 lyssnare ger detta 99% konfidens, dvs risken att en falsk detektion uppstår av en slump är ungefär 1 på 100.

Hur jag ska räkna ut ett p-värde för ett utfall som ligger under gränsen inser jag inte just nu.

OK, då förstår jag bättre. Det verkar vara ett rimligt tillvägagångsätt givet att statistiken lätt blir "kladdig" om man skall ha brytvillkor inlagda.

Basta hälsningar,

D

av **PerStromgren** » 2009-05-11 13:08

Dahlqvist skrev:
OK, då förstår jag bättre. Det verkar vara ett rimligt tillvägagångsätt givet att statistiken lätt blir "kladdig" om man skall ha brytvillkor inlagda.

Jag är ingen statistiker, men... det är väl bara att låta datorn räkna?

Nuförtiden trodde jag inte att vi led brist på beräkningskraft. Detta är väl inget som inte ett kalkylark skulle kunna fixa?

av **Harryup** » 2009-05-11 13:14

Mmm,
11 rätt i rad skulle ju kunna fortsätta med 7 fel i rad innan man når 18 och då skulle resultatet inte vara så lysande.
Är det något annat än tidsbesparing eller att slippa trötta ut folk som är skälet?
Spelar det någon roll om det är "uppvärminingsfel" typ 3 fel och sedan 15 rätt?

mvh/Harryup

av **MagnusÖstberg** » 2009-05-11 14:22

Bill50x skrev:Va? Har MoLT kommit ut igen? Det var ju bara typ ett halvår sedan jag läste om förra numret....

/ B

Lustigt, det har skrivit om de senaste 11 nummrena som nu varit utgivna enligt plan

Den största felande länken nu verkar vara att föreningen missat att byta ut det föregående nummret som "senaste nummret" på hemsidan mot det här. Men allt kan ju inte vara perfekt jämt

av **phon** » 2009-05-11 15:04

säger som Bill50x...

Va? Har MoLT kommit ut igen?

Här har den inte kommit i vart fall, eller så är den rejält transparent.

av **DQ-20** » 2009-05-11 15:40

perstromgren skrev:
Dahlqvist skrev:
OK, då förstår jag bättre. Det verkar vara ett rimligt tillvägagångsätt givet att statistiken lätt blir "kladdig" om man skall ha brytvillkor inlagda.

Jag är ingen statistiker, men... det är väl bara att låta datorn räkna? Nuförtiden trodde jag inte att vi led brist på beräkningskraft. Detta är väl inget som inte ett kalkylark skulle kunna fixa?

Nej. Eller, ja. Det man inte vet har man inte ont av. Det gäller i detta fall också det man vet. Att man inte har ont av det. Men i ännu högre grad har man ont av det man vet att man inte vet.

/D

av **PerStromgren** » 2009-05-11 15:45

Dahlqvist skrev:Nej. Eller, ja. Det man inte vet har man inte ont av. Det gäller i detta fall också det man vet. Att man inte har ont av det. Men i ännu högre grad har man ont av det man vet att man inte vet.

Eh?

Du har inte lust att stuva om ordena så att en enkel man fattar?

av **Laila** » 2009-05-11 16:35

Om en eller flera utövare misslyckas med något,vad som helst,
kan det kanske vara svårt att tex. statistiskt beräkna varför, typ.

(Givet att vi inte har nödig info om utövarna) Tror jag :oops:

Edit:Parangtes etc.

av **Svante** » 2009-05-11 17:41

Dahlqvist skrev:
Svante skrev:Alltså det här var ju uppe i den där inte fullt så trevliga monstertråden för ett par år sedan. För att göra en lång historia kort, datorn simulerar en miljon lyssningar med vald försöksdesign* och n lyssnare som avger slumpresultat, och räknar hur många av dem som ger falsk positiv detektion. Vi väljer försöksdesign och antal lyssnare så att andelen serier där någon av lyssnarna ger falsk positiv detektion är mindre än 1/100.

Försöksdesignen var här 11-15-18, dvs vi kräver antingen
11 rätt i rad, man får bryta efter 11,
14 rätt av 15, man får bryta efter 15 eller
16 rätt av 18, man får bryta efter 18.

Med 4 lyssnare ger detta 99% konfidens, dvs risken att en falsk detektion uppstår av en slump är ungefär 1 på 100.

Hur jag ska räkna ut ett p-värde för ett utfall som ligger under gränsen inser jag inte just nu.

OK, då förstår jag bättre. Det verkar vara ett rimligt tillvägagångsätt givet att statistiken lätt blir "kladdig" om man skall ha brytvillkor inlagda.

Basta hälsningar,

D

Mm, fördelen med kladdig statistik gör ju att lyssnarna skärps. Huvudsyftet med försöksdesignen är att inte tvinga lyssnarna till onödigt långa serier, och i det ingår då att man bryter om man ser att det gick som en dans.

Man skulle kunna tvinga alla att lyssna 20 gånger, alltid oavsett hur det går, men då skulle de blir så trötta.

av **DQ-20** » 2009-05-12 08:18

Svante skrev:
Dahlqvist skrev:
Svante skrev:Alltså det här var ju uppe i den där inte fullt så trevliga monstertråden för ett par år sedan. För att göra en lång historia kort, datorn simulerar en miljon lyssningar med vald försöksdesign* och n lyssnare som avger slumpresultat, och räknar hur många av dem som ger falsk positiv detektion. Vi väljer försöksdesign och antal lyssnare så att andelen serier där någon av lyssnarna ger falsk positiv detektion är mindre än 1/100.

Försöksdesignen var här 11-15-18, dvs vi kräver antingen
11 rätt i rad, man får bryta efter 11,
14 rätt av 15, man får bryta efter 15 eller
16 rätt av 18, man får bryta efter 18.

Med 4 lyssnare ger detta 99% konfidens, dvs risken att en falsk detektion uppstår av en slump är ungefär 1 på 100.

Hur jag ska räkna ut ett p-värde för ett utfall som ligger under gränsen inser jag inte just nu.

OK, då förstår jag bättre. Det verkar vara ett rimligt tillvägagångsätt givet att statistiken lätt blir "kladdig" om man skall ha brytvillkor inlagda.

Basta hälsningar,

D

Mm, fördelen med kladdig statistik gör ju att lyssnarna skärps. Huvudsyftet med försöksdesignen är att inte tvinga lyssnarna till onödigt långa serier, och i det ingår då att man bryter om man ser att det gick som en dans.

Man skulle kunna tvinga alla att lyssna 20 gånger, alltid oavsett hur det går, men då skulle de blir så trötta.

Jag menade endast att de statistiska uträkningarna blev kladdiga (=lite invecklade), inte försöksdesignen (som är glasklar).

/D

av **DQ-20** » 2009-05-12 13:16

perstromgren skrev:
Dahlqvist skrev:Nej. Eller, ja. Det man inte vet har man inte ont av. Det gäller i detta fall också det man vet. Att man inte har ont av det. Men i ännu högre grad har man ont av det man vet att man inte vet.

Eh?

Du har inte lust att stuva om ordena så att en enkel man fattar?

Så gärna. Vad jag ville säga var nej.

/D

av **Almen** » 2009-05-13 09:29

Dahlqvist skrev:
Svante skrev:Men man kan aldrig veta. En ickedetektion är ju bara en icke-detektion.

Det enda man kan veta säkert är att vi misslyckades med det vi försökte; att bevisa att förstärkaren var hörbart färgande.

Ovanstående är en subjektiv utsaga och utgör en tolkning av statistiken, inte en statistisk "sanning".

Även en "icke-detektion" i statistiska sammanhang bär information. Själva uttrycket "icke-detektion" bygger på tillämpandet av en godtycklig gräns för p-värdet som saknar objektiv grund.

Är vad du menar här, att Svante borde sagt typ "Det enda man kan veta säkert är att vi misslyckades med det vi försökte; att bevisa med 99% konfidens att förstärkaren var hörbart färgande."?

Är tacksam för samtliga inlägg - detta är något som jag gärna snurrar fram och tillbaka litet i huvudet. Har dålig intuitiv känsla för det...

av **Svante** » 2009-05-13 10:11

Almen skrev:
Dahlqvist skrev:
Svante skrev:Men man kan aldrig veta. En ickedetektion är ju bara en icke-detektion.

Det enda man kan veta säkert är att vi misslyckades med det vi försökte; att bevisa att förstärkaren var hörbart färgande.

Ovanstående är en subjektiv utsaga och utgör en tolkning av statistiken, inte en statistisk "sanning".

Även en "icke-detektion" i statistiska sammanhang bär information. Själva uttrycket "icke-detektion" bygger på tillämpandet av en godtycklig gräns för p-värdet som saknar objektiv grund.

Är vad du menar här, att Svante borde sagt typ "Det enda man kan veta säkert är att vi misslyckades med det vi försökte; att bevisa med 99% konfidens att förstärkaren var hörbart färgande."?

Det kan iaf jag ställa upp på. Jag tror att det Dq far efter är att vi har ganska höga (statistiska) krav för att såga en förstärkare. Om vi hade nöjt oss med 70% konfidens, så hade vi nog kunnat såga den.

...och med detta sagt så ska man inte glömma att konfidens inte är samma sak som grad av färgning. Ovanstående betyder INTE att förstärkaren färgade litegrann, men så lite att vi inte bryr oss om det.

Det betyder bara att vi inte är så säkra på att den färgade hörbart att vi vill påstå att den gör det. Vilket är en helt annan sak.

...och det är fullständigt rimligt att vi har så höga krav, vi vill ju inte såga en bra förstärkare bara för att vi råkade svara "rätt" av en slump.

av **DQ-20** » 2009-05-13 11:04

Almen skrev:
Dahlqvist skrev:
Svante skrev:Men man kan aldrig veta. En ickedetektion är ju bara en icke-detektion.

Det enda man kan veta säkert är att vi misslyckades med det vi försökte; att bevisa att förstärkaren var hörbart färgande.

Ovanstående är en subjektiv utsaga och utgör en tolkning av statistiken, inte en statistisk "sanning".

Även en "icke-detektion" i statistiska sammanhang bär information. Själva uttrycket "icke-detektion" bygger på tillämpandet av en godtycklig gräns för p-värdet som saknar objektiv grund.

Är vad du menar här, att Svante borde sagt typ "Det enda man kan veta säkert är att vi misslyckades med det vi försökte; att bevisa med 99% konfidens att förstärkaren var hörbart färgande."?

Nej.

1. Ordet "konfidens" kommer jag ALDRIG ALDRIG ALDRIG skriva utan citationstecken. Det hör inte hemma i sammanhang där tolkningen av ordet sannolikhet är relativ frekvens. "Konfidens" har med förtroende att göra och det är en subjektiv känsla. Det finns något som heter "subjektiv sannolikhet" och som anger graden av förtroende någon har för ett utsaga. Ed Jaynes och Laplace har skrivit om dettta och det är "da shit" i AI. MEN, en subjektiv sannolikhet kastar oss obevekligen in i Bayesiansk statistik. Då krävs bl.a. en sk. prior, dvs. en subjektiv sannolikhet som man har innan ny information tillförs. Man uppdaterar sedan sin prior enligt en viss formel. (Bayes teorem) Vi har alltså en förutfattad uppfattning och väger den mot de resulatat vi får. Vår posterior anger graden av förtroende vi har i att det är på ett visst sätt givet vår förutfattade meningar och resultaten från försöket. Detta gör dock få forskare i formell mening och man talar därför normalt inte om "konfidens" utan om "signifikans" (och p-, och t-värden). Jag tror jag förstår varför man kan vilja använda ordet "konfidens" men jag tycker att det är missledande eftersom det ger statistiken ett värde den inte har.

2. "Icke-detektion" är en subjetiv utsaga som grundar sig på de subjektiva kriterier för statistisk signfikans som man satt upp. Man kan göra mer eller mindre vettiga avväganden så det är inte helt godtyckligt vad man bör välja men det är ett val. Ett resultat är dock aldrig säkerställt i det enskilda fallet utan över en oändlig mängd upprepade försök. Signifikansnivån är en "repeated sampling property".

"Konfidens"/signifikans säger bara att OM det inte finns någon hörbar effekt av apparaten vi testar kommer

a. "konfidens": 99% av alla försök att ge färre rätta svar när det inte finns någon verklig effekt
b. signifikans: 1% av alla alla försök ger lika många eller fler rätta svar även när det inte finns någon verklig effekt.

3. Den logiska skillnaden mellan att bevisa existensen av något (t.ex. hörbar färgning) och att bevisa "icke-existensen" av något (t.ex. frånvaron av hörbar färgning) är inte så tydlig som man kan förledas att tro när det gäller statistik. "Detektion" är här inte en logisk sanning utan ett sannolikhetuttalanden. Även om bristen på "detektion" inte "bevisar" den absoluta frånvaron av något kan man dock säga att "OM det finns en hörbar påverkar är det under dessa omständigheter svår att detektera". Jämför med uttalandet "bruset låg under mätapparaturens egenbrus (-94 dB)". Det betyder inte att det inte finns något brus - bara att vi inte kunde detektera det med de metoder vi använde. Och det är värdefull information. Skall man köra svarta och vita svanar så kan man säga att har man aldrig sett en svart svan kan man inte säga att det inte finns svarta svanar. Däremot kan man säga att OM det finns svarta svanar så är de mycket ovanliga.

Jag ser för övrigt detektion/icke-detektion är en [s]diktomisering[/s] dikotomisering till en binär mätskala av en underliggande variabel som är kontinuerlig (hörbarhet) och som inte kan observeras såvida den inte når ett visst tröskelvärde. Man tittar på proportionen rätta svar i förhållande till slumpresultat. Ju lägre proportion rätta svar, desto svårare att "detektera". När proportionen rätta svar är i paritet med det man kan förvänta sig av slumpen får man förmoda att hörbarhetsvariabeln befinner sig under det kritiska värde där man kan mäta den.

Ungefär så.

/D

av **Bill50x** » 2009-05-13 11:36

Dahlqvist skrev:Jag ser för övrigt detektion/icke-detektion är en diktomisering till en binär mätskala av en underliggande variabel som är kontinuerlig (hörbarhet) och som inte kan observeras såvida den inte når ett visst tröskelvärde.

Kunde inte sagt det bättre själv.
Inte för att jag vet vad det betyder...

Sorry, kunde inte låta bli :mrgreen:

/ B

av **Almen** » 2009-05-13 11:43

Tack, Dahlqvist, jag skall grunna på det. Jag antar att det skulle vara "dikotomisering"?

av **dimitri** » 2009-05-13 13:23

Dahlqvist skrev:Jag ser för övrigt detektion/icke-detektion är en diktomisering till en binär mätskala av en underliggande variabel som är kontinuerlig (hörbarhet) och som inte kan observeras såvida den inte når ett visst tröskelvärde. Man tittar på proportionen rätta svar i förhållande till slumpresultat. Ju lägre proportion rätta svar, desto svårare att "detektera". När proportionen rätta svar är i paritet med det man kan förvänta sig av slumpen får man förmoda att hörbarhetsvariabeln befinner sig under det kritiska värde där man kan mäta den.

Ungefär så./D

Vackert formulerat. Och dessutom sant. Men det är något speciellt med denna dikotoma eller binära skala. Jo, dess dikotoma karaktär är självbestämmande. Alltså inte som med de flesta dikotoma variabler där vi i förväg bestämmer cut-off punkten. I denna kontinuerliga hörbarhetsskala varierar hörbarhetströskeln mellan individer. Och det räcker med att en enda individ kan höra skillnad mellan två testobjekt med hög precision, t.ex 20/20, så är slutsatsen den att hörbar skillnad mellan objekten föreligger.
Det har sagts tidigare att det är en fördel med lyssningsvana deltagare i en f/e lyssning. På samma sätt skulle man kunna spekulera i att det vore en fördel om lyssningspanelen inte inkluderade en extrem deltagare med (omänsklig?) förmåga att höra skillnader. En variant på detta är att, vid tillräckligt många deltagare, utesluta extremer från analysen.

Liten spåning lite på halvt skoj: Man skulle kunna kalibrera enskilda lyssnare enligt var och ens förmåga att höra skillnader. På det viset skulle det vara möjligt att uppskatta graden av färgning, dvs dra nytta av det faktum att skalan är kontinuerlig och inte dikotom i sig.

av **DQ-20** » 2009-05-13 13:42

Bill50x skrev:
Dahlqvist skrev:Jag ser för övrigt detektion/icke-detektion är en diktomisering till en binär mätskala av en underliggande variabel som är kontinuerlig (hörbarhet) och som inte kan observeras såvida den inte når ett visst tröskelvärde.

Kunde inte sagt det bättre själv.
Inte för att jag vet vad det betyder...

Sorry, kunde inte låta bli

/ B

Det är lätt, fast jag använde kanske ett ovanligt ord och min sedvanliga framställning med "lossy compression".

Dikotomi (dichotomy) är när man delar upp en helhet i två icke-överlappande delar som tillsammans täcker in helheten (mutually exclusive, collectively exhaustive). Exempel: svart, inte svart; ja; inte ja; hörbar, inte hörbar; rätt, inte rätt.

Ibland "diktomiserar" (eller gör andra skalreducerande åtgärder) vid mätning för att underlätta eller möjliggöra själva mätningen. Det underliggande fenomenet (hörbarhet, attityd, temperatur, matematikkunskaper) kan vara kontinuerligt men i mätningen måste man nöja sig med ett ändligt antal diskreta steg. Inom samhällvetenskap i allmänhet är detta legio, exempelvis smärtskalor inom sjukvården, attitydrundersökningar. Men även vanliga kunskaptest inom undervisning med flervalsfrågor har dessa egenskaper. Faktum är att testteori utgår från att kunskaper och färdigheter är normalfördelade och att ovanför en viss nivå kan man med en viss sannolikhet lösa en viss uppgift. Man kan veta att kunskaperna var ovanför eller under en viss nivå (rätt eller fel svar), men inte hur mycket över eller under.

I en binär variabel, dvs. en variabel som endast kan anta två värden, kan värdena motsvara två klasser, dvs. två olika värden som sinsemellan inte är rangordnade (rött blått, hund katt, golf vattenpolo). Den kallas då "kategorisk". Men det kan också finnas en inbördes rangordning (bra dålig, ful snygg, varm kall) mellan värden. Detta är egentligen ett specialfall av en ordinal skala, dvs. en skala där det finns en inneboende rangordning mellan värdena men där skalstegen inte är objektivt definierade (ganska snygg, snygg, mycket snygg).

När en binär variabel är kategorisk är mätskalan identisk med det underliggande fenomenet. I annat fall är det en artificiell dikotomi som har inträffat vid mätning. När det gäller hörbarhet är min tolkning att det är ett kontinuerligt fenomen som i LTS test kvantifieras till två värden. Om man gör många försök får man dock en skala med "kontinuerliga egenskaper", nämligen andelen rätta svar som kommer att ligga mellan 50-100%. Denna andel är en indikation av hur lätt det är att detektera en apparat på samma sätt som andel rätt i ett flervalstest är "semi-kontinuerliga" mätningar av kunskaper trots de binära svaren. Min poäng är att denna andel har relevans och man kan uttala sig om sannolikheten för att andelen rätta svar ligger under eller över en viss nivå. Denna aspekt kommer bort när man fokuserar på det binära utfallet "detektion"/"icke-detektion" som är en slutsats, inte ett resultat. Jag tror att många ser en direkt koppling mellan hur svaren avges (F eller E, binärt) och hur slutsatserna dras (detektion/icke-detektion, binärt). Denna koppling är dock inte nödvändig och man kan tolka resultaten på andra sätt (givet att man har tillräckligt långa serier att tillgå).

Ovanstående är inte särskilt irrelevant för LTS tester och skall inte ses som någon kritik mot dessa. Det är mest allmänna kommentarer om synen på resultaten och hur de kan tolkas.

/D

av **Almen** » 2009-05-13 13:45

dimitri skrev:...det räcker med att en enda individ kan höra skillnad mellan två testobjekt med hög precision, t.ex 20/20, så är slutsatsen den att hörbar skillnad mellan objekten föreligger.

Detta kan inte nog betonas, eftersom det verkar som att många lider av villfarelsen att för att ett resultat skall vara korrekt måste "en majoritet" tycka likadant. Det är i alla fall en vanlig kritik av F/E-lyssning som jag har märkt, att det inte borde räcka med att en person detekterar. Jag vet inte om en del tror att 99% konfidens betyder att "99% av försökspersonerna tyckte likadant i 99% av fallen". Det är ju inget problem för den interna debatten, men kanske värt att vara medveten om när man går ut med resultat mer offentligt.

av **Svante** » 2009-05-13 15:31

Dq:

Konfidens konfidens konfidens

Vi hade en diskussion om detta förut som jag inte minns att vi kom fram till ett slut på. Det främsta skälet till att jag gärna skriver konfidens är att det signifikans och tillhörande p-värde är "bakvända". Högre signifikans ger lägre p-värde. Så om jag pratar om olika delresultat och säger att jag i försök A fick högre signifikans (p=0,02) än i försök B (p=0,04) så blir det så krylligt i mitt huvud.

Då känns det bättre att säga att jag fick högre konfidens i försök A (98%) än i försök B (96%). Siffrorna stämmer liksom då.

Jag tror jag frågade dig om du hade nåt bättre ord att använda för p-värdet, men jag fick aldrig nåt svar på det har jag för mig.

Själv har jag inga svårigheter att förstå att 99% konfidens betyder att om man gjorde många studier liknande denna så skulle 1% av dem ge falskt positiva resultat.

av **DQ-20** » 2009-05-15 08:10

Svante skrev:Dq:

Konfidens konfidens konfidens

Vi hade en diskussion om detta förut som jag inte minns att vi kom fram till ett slut på. Det främsta skälet till att jag gärna skriver konfidens är att det signifikans och tillhörande p-värde är "bakvända". Högre signifikans ger lägre p-värde. Så om jag pratar om olika delresultat och säger att jag i försök A fick högre signifikans (p=0,02) än i försök B (p=0,04) så blir det så krylligt i mitt huvud.

Då känns det bättre att säga att jag fick högre konfidens i försök A (98%) än i försök B (96%). Siffrorna stämmer liksom då.

Jag tror jag frågade dig om du hade nåt bättre ord att använda för p-värdet, men jag fick aldrig nåt svar på det har jag för mig.

Själv har jag inga svårigheter att förstå att 99% konfidens betyder att om man gjorde många studier liknande denna så skulle 1% av dem ge falskt positiva resultat.

O, plåga.

Jag har sedan vi diskuterade detta glidit i anti-konfidensriktning. Om man inte förstår innebörden av "signifikans" så förstår man heller inte "konfidens" endast med hjälp av orden. För övrigt är det "konfidens" som är bakvänt, inte signifikans. Det är risken för felaktiga slutsatser vi beräknar, inte sannolikheten för sanna. Den senare leder lätt till "omvänd" sannolikhet: hur sanna är resultaten. Och det är INTE vad ett signifikanstest säger. Jag tror alltså att "the cure is worse than the disease".

Jag tycker för övrigt att man kan avstå från att använda "starkare" eller "högre" i samband med signifikans även i forskningsartiklar eftersom resultaten varken blir starkare eller svagare pga av just signifikansnivån - det har snarare med effektstorleken att göra. Man kan inte säga att "sanningshalten" ökar i den enskilda undersökningen pga av ett lågt p-värde.

Jag skall fundera vidare på något pedagogiskt namn för statistisk signifikans.

/D ´

av **Almen** » 2009-05-15 08:23

Dahlqvist skrev:Det är risken för felaktiga slutsatser vi beräknar, inte sannolikheten för sanna.

Ah.

av **Svante** » 2009-05-15 08:28

Dahlqvist skrev:Jag har sedan vi diskuterade detta glidit i anti-konfidensriktning. Om man inte förstår innebörden av "signifikans" så förstår man heller inte "konfidens" endast med hjälp av orden. För övrigt är det "konfidens" som är bakvänt, inte signifikans. Det är risken för felaktiga slutsatser vi beräknar, inte sannolikheten för sanna. Den senare leder lätt till "omvänd" sannolikhet: hur sanna är resultaten. Och det är INTE vad ett signifikanstest säger. Jag tror alltså att "the cure is worse than the disease".

Fast alltså, förstår man inte det så...

Dahlqvist skrev:Jag tycker för övrigt att man kan avstå från att använda "starkare" eller "högre" i samband med signifikans även i forskningsartiklar eftersom resultaten varken blir starkare eller svagare pga av just signifikansnivån - det har snarare med effektstorleken att göra. Man kan inte säga att "sanningshalten" ökar i den enskilda undersökningen pga av ett lågt p-värde.

Nämen... Nä. Eller vad är det som har med effektstorleken att göra?

Alltså, en studie blir ju starkare om den har högre konfidens. Det är mindre risk att effekten man har hittat har uppstått av en slump. Effekten är ju vad den är, oavsett om jag har valt att göra 3 lyssningar eller 300 (bortsett från trötthetseffekter då).

Är det kanske så att det är ordet "signifikans" som är felaktigt? Det är ju (språkligt) riktat åt samma håll som konfidens. Är det nån sån där positivist som har varit framme när ordet valdes?

Det borde kanske kallas "felrisk" i stället. Då stämmer det med att ett lägre p-värde ger en lägre felrisk, eller hur?

av **DQ-20** » 2009-05-15 08:59

Svante skrev:Det borde kanske kallas "felrisk" i stället. Då stämmer det med att ett lägre p-värde ger en lägre felrisk, eller hur?

Det var någonting ditåt jag lutade. Övrigt får anstå - schaffe, schaffe.

/D

av **-Martin-** » 2009-05-15 09:46

Svante skrev:
Det borde kanske kallas "felrisk" i stället. Då stämmer det med att ett lägre p-värde ger en lägre felrisk, eller hur?

Vad är det för fel på ordet "felsannolikhet" som väl är gängse benämning?

av **DQ-20** » 2009-05-15 12:56

-Martin- skrev:
Svante skrev:
Det borde kanske kallas "felrisk" i stället. Då stämmer det med att ett lägre p-värde ger en lägre felrisk, eller hur?

Vad är det för fel på ordet "felsannolikhet" som väl är gängse benämning?

Den är inte gängse för denna tillämpning. Den avser väntevärden för andra feltyper (t.ex. för fel i informationöverföring eller materialfel). Man kan då få utsagor som "felsannolikheten för felsannolikheten ligger på 0.01", vilket inte är helt lyckat.

"Fel" har dock i detta sammanhang med beslutsfel vilket förutsätter en subjektiv beslutsregel. Det handlar alltså om en beskrivning av konsekvenserna av ett beslut som bygger på p-värdet. Det är inte en beskrivning av p-värdet i sig.

/D

av **Svante** » 2009-05-15 14:47

Dahlqvist skrev:Det är inte en beskrivning av p-värdet i sig.

/D

Så, hur skulle du beskriva vad p-värdet är? Går det att sammanställa med ett enda ord? Det är nog det det hela handlar om.

av **HolographicAudio™** » 2009-05-18 13:39

Ragnwald skrev:Det måste vara en som precis gått ur produktion.

Nej, den finns definitivt i produktion. Jag kan lova att denna produkt kommer att finnas kvar på marknaden så länge som våra kunder efterfrågar denna produkt.

/Lasse