Angående F/E-lyssningen i senaste Musik & Ljudteknik

av **Almen** » 2009-05-07 20:41

Jo, så här står det:

Svante skrev:Testet började intressant. Jag själv tog åtta rätt i rad. Vi lyssnade då på det berömda metronomklicket och jag tyckte att jag ganska enkelt hörde en skillnad i mellanbasen, uppskattningsvis kring 100-200 Hz.

Men...

Efter de inledande åtta riktiga svaren blev det inte ett enda ytterligare napp på hela kvällen.

Kan inte det helt enkelt bero på att man började med att lyssna på en kall förstärkare? Man kanske lät den stå på en stund innan, men att den var tvungen att köras litet innan den stabiliserade sig?

av **Laila** » 2009-05-07 21:27

Eller att Svante var mer alert/skärpt i början av testet/lyssningen ?

Att man missat att värma upp stärkaren innan lyssning är välan
knappast troligt, eller ?

av **Ragnwald** » 2009-05-07 21:55

Eller, Svante blev varmare och irriterad efter första missen och tappade fokus. :wink:

av **DQ-20** » 2009-05-07 22:45

Eller så var det små, och för utomstående osynliga, tomtar som viskade rätt svar i Svantes öra. De tog sedemera lagstadgad dygnsvila och övergav Svante i hans värv. Mitt tips: tidigarelägg testerna om du vill ha hjälp av vättar.

/D

av **Almen** » 2009-05-07 23:03

Ack, skämten I klentrogna! Jag tror jag är något på spåren...

av **Bill50x** » 2009-05-07 23:40

Va? Har MoLT kommit ut igen? Det var ju bara typ ett halvår sedan jag läste om förra numret....

/ B

av **shifts** » 2009-05-07 23:43

Fyra nummer per år har de väl hållit länge nu.

av **Svante** » 2009-05-08 00:33

Jo, man kan spekulera om orsaken till det där. Jag är benägen att tro att de åtta i rad var en slump, så som jag också skriver i MoLT. Ett av skälen till det är att ingen av de andra lyssnarna som vanligen presterar mycket bättre än jag gör, inte lyckades. Ens i början. Men man kan aldrig veta. En ickedetektion är ju bara en icke-detektion.

Det enda man kan veta säkert är att vi misslyckades med det vi försökte; att bevisa att förstärkaren var hörbart färgande.

av **MattiasKarlsson** » 2009-05-08 01:47

Vad var det för förstärkare?
Satan, jag måste betala min årsavgift. :oops:

av **Ragnwald** » 2009-05-08 02:04

Det måste vara en som precis gått ur produktion.

av **Adhoc** » 2009-05-08 02:14

Nix. En som strax kommer kompletteras med en efterfrågad och särdeles flashig fjärris. Ger aningens mer options än T-fordarna hade (map färgen), fjärrisen har 2 knappar.

av **Naqref** » 2009-05-08 09:08

MattiasKarlsson skrev:Vad var det för förstärkare?
Satan, jag måste betala min årsavgift.

Det är ett litet försteg som du inte har visat något som helst intresse av...

OBS! Ironi!

av **Almen** » 2009-05-08 10:24

Svante skrev:Jo, man kan spekulera om orsaken till det där.

Men hade ni kört den med signal innan testet började? Åtminstone 5-10 minuter?

Jag är benägen att tro att de åtta i rad var en slump, så som jag också skriver i MoLT.

Jo, men samtidigt var du så övertygad om vad du hörde. Är placebo så stark?

av **DQ-20** » 2009-05-08 10:46

Svante skrev:Men man kan aldrig veta. En ickedetektion är ju bara en icke-detektion.

Det enda man kan veta säkert är att vi misslyckades med det vi försökte; att bevisa att förstärkaren var hörbart färgande.

Ovanstående är en subjektiv utsaga och utgör en tolkning av statistiken, inte en statistisk "sanning".

Även en "icke-detektion" i statistiska sammanhang bär information. Själva uttrycket "icke-detektion" bygger på tillämpandet av en godtycklig gräns för p-värdet som saknar objektiv grund.

Givet styrkan* hos det statistiska testet kan man fortfarande uttala sig (probabilistiskt) om andelen rätta svar i en hypotetisk oändlig population av försök. Man kan alltså på grundval av ett försök med "icke-detektion" forma uttalanden som "Andelen rätta svar ligger under 0,6 med p-värde på XX%". Man kan också förklara det som att man gör ett konfidensintervall runt proportionen rätta svar. Att 0,5 omfattas av den undre gränsen hindrar ju inte att man också kan titta på den övre. Den övre gränsen kan dock aldrig bli 0,5 vilket reflekterar den grundläggande obalansen mellan att statistiskt visa skillnader jämfört med "icke-skillnader". Jag bedömer dock att LTS test har låg statistisk styrka, dels beroende på den höga signifikansnivån, dels på att testen är konstruerade för att kräva ett minimalt antal försök givet ett visst p-värde. Båda dessa faktorer påverkar testets statistiska styrka* negativt. Testen prioriterar skydd mot fel av typ 1 framför fel av typ 2. Vilket är vettigt tycker i alla fall jag.

En "detektion" i statistiska sammanhang är ALLTID probabilistiska antaganden byggt på ett subjektivt satt gränsvärde och ingenting sannolikt kan någonsin bli sant i filosofisk mening. Och för det enskilda experimentet kan man inte säga någonting säkert alls. Gör man det börjar det lukta omvänd (subjektiv) sannolikhet lång väg och Ed Jaynes vädrar morgonluft.

Jag skulle också vilja yppa en försiktig invändning mot den "Fisherianska" markeringen "failure" i LTS nuvarande testprogram. Det skulle vara mer informationsrikt i att även redovisa det exakta p-värdet. Det tydliggör (tror jag) också den subjektiva (om än välgrundade) beslutsregel som LTS tillämpar. Eller så motverkar det bara syftet. Vad vet jag.

Brasklapp: Ovanstående inlägg är troligen relevant för någon men för de flesta inte. Det skall verkligen inte misstolkas som något "grundskott" mot LTS testmetod. Det är i slutändan mest finlir.

För övrigt tycker jag att statistiken är ganska ointressant. Det viktiga ligger i det test som skall ge upphov till det statistiska underlag. Att mäta temperatur med känseln är mindre exakt än att köra med kaliberade termometrar. Data från temperaturmätningar med hjälp av känslen är tämligen ointressanta i förhållanden till de som man gör med termometrar hur sofistikerade statistika metoder man än använder.

/D

*statistisk styrka=statistical power. Det är ingen kvalitetsindikator och skall verkligen inte tolkas i ordens allmänna betydelse.

av **DQ-20** » 2009-05-08 10:54

Naqref™ skrev:Det är ett litet försteg som du inte har visat något som helst intresse av...

Men skärp dig för fan! Det heter "visa intresse för" men "vara intresserad av"... Herreguuuud!

Fredagsmys,

D

OBS! Ironi!

av **Naqref** » 2009-05-08 11:15

Dahlqvist skrev:Herreguuuud!

Men hallå! Du vet väl att religion tenderar att rendera trådstängningar.

OBS! Ironi!

Sorry för OT. :oops:

av **MattiasKarlsson** » 2009-05-08 13:38

av **Svante** » 2009-05-08 13:44

Almen skrev:
Svante skrev:Jo, man kan spekulera om orsaken till det där.

Men hade ni kört den med signal innan testet började? Åtminstone 5-10 minuter?

Absolut. Vi börjar nästan alltid med öppna tester och allt måste ju kalibreras. Den hade nog varit på i minst en halvtimme, kanske en timme.

Almen skrev:
Jag är benägen att tro att de åtta i rad var en slump, så som jag också skriver i MoLT.

Jo, men samtidigt var du så övertygad om vad du hörde. Är placebo så stark?

Ja.

av **Svante** » 2009-05-08 13:50

Dahlqvist skrev:Jag skulle också vilja yppa en försiktig invändning mot den "Fisherianska" markeringen "failure" i LTS nuvarande testprogram. Det skulle vara mer informationsrikt i att även redovisa det exakta p-värdet. Det tydliggör (tror jag) också den subjektiva (om än välgrundade) beslutsregel som LTS tillämpar. Eller så motverkar det bara syftet. Vad vet jag.

Alla dessa farbröder... :roll:

Eller har det med nån fisk att göra?

Hur skulle jag räkna ut det p-värdet menar du? Givet att testet är upplagt som det är.

av **paa** » 2009-05-08 14:04

Svante skrev:Jo, man kan spekulera om orsaken till det där. Jag är benägen att tro att de åtta i rad var en slump,

Hur många MoLT i rad måste det komma, om det inte ska vara en slump?

av **KarlXII** » 2009-05-08 17:59

paa skrev:
Svante skrev:Jo, man kan spekulera om orsaken till det där. Jag är benägen att tro att de åtta i rad var en slump,

Hur många MoLT i rad måste det komma, om det inte ska vara en slump?

Så finurligt.

av **Almen** » 2009-05-08 20:00

Svante skrev:
Almen skrev:
Svante skrev:Jo, man kan spekulera om orsaken till det där.

Men hade ni kört den med signal innan testet började? Åtminstone 5-10 minuter?

Absolut. Vi börjar nästan alltid med öppna tester och allt måste ju kalibreras. Den hade nog varit på i minst en halvtimme, kanske en timme.

OK, då ger jag mig. Det lutar åt slumpen, i sådana fall.

av **Laila** » 2009-05-09 01:47

Jo, någon gång måste ju slumpen "slå in", men vid ett/en
något udda tillfälle/hyggligt låg sannolikhet i detta fall,
kanske ? :oops:

av **Svante** » 2009-05-09 08:00

Laila skrev:Jo, någon gång måste ju slumpen "slå in", men vid ett/en
något udda tillfälle/hyggligt låg sannolikhet i detta fall,
kanske ?

Alltså, grejen är ju att den inte slog in, med de testkriterier vi satte upp. 8 i rad var bara ett delresultat och som jag skriver i artikeln (även om ett tyrkfel gör det svårt att läsa) så skulle ett accepterande av de 8 riktiga svaren innebära att ~1/6 av testerna gav falsk detektion. Vi upprepar ju lyssningen såpass många gånger att en enda serie med 99% konfidens inte ger ett helt test med 99% konfidens.

av **DQ-20** » 2009-05-11 09:05

Svante skrev:
Dahlqvist skrev:Jag skulle också vilja yppa en försiktig invändning mot den "Fisherianska" markeringen "failure" i LTS nuvarande testprogram. Det skulle vara mer informationsrikt i att även redovisa det exakta p-värdet. Det tydliggör (tror jag) också den subjektiva (om än välgrundade) beslutsregel som LTS tillämpar. Eller så motverkar det bara syftet. Vad vet jag.

Alla dessa farbröder... Eller har det med nån fisk att göra?

Hur skulle jag räkna ut det p-värdet menar du? Givet att testet är upplagt som det är.

Vad jag avsåg var den strikta beslutsregeln acceptera/inte acceptera baserat på ett visst (godtyckligt) p-värde (efter R A Fisher). Det p-värdet räknar ni väl ut för att kunna säga att det var just "failure"? Isåfall kan det vara idé att sätta ut p-värdet. Eller vet ni bara att det ligger under det kritiska värdet?

Undrar,

D

av **DQ-20** » 2009-05-11 09:31

Svante skrev:
Laila skrev:Jo, någon gång måste ju slumpen "slå in", men vid ett/en
något udda tillfälle/hyggligt låg sannolikhet i detta fall,
kanske ?

Alltså, grejen är ju att den inte slog in, med de testkriterier vi satte upp. 8 i rad var bara ett delresultat och som jag skriver i artikeln (även om ett tyrkfel gör det svårt att läsa) så skulle ett accepterande av de 8 riktiga svaren innebära att ~1/6 av testerna gav falsk detektion. Vi upprepar ju lyssningen såpass många gånger att en enda serie med 99% konfidens inte ger ett helt test med 99% konfidens.

Och där har vi kärnan till "Den Stora Trätan". En serie som verkligen är ett sant resultat nullifieras om man gör ett stort antal andra serier där känsligheten i testerna inte är lika hög som i den serie som gav utslag. Det kan t.ex. bero på (tänker jag mig) lyssnarens uppmärksamhet, placering i rummet eller vem man är. En statistisk metod ger oftast mest skydd mot "falsk" detektion pga av att man läser in verkliga effekter i ett slumpresultat. Men statistiken ger i detta fall (LTS) ringa skydd mot falsk "icke-detektion". Det stora problemet är att man inte kan veta något om orsakerna till resultat eller icke-resultat baserat på sannolikhetlära. Ett p-värde ger exempelvis endast ett sannolikhetsvärde för ett visst resultat i ett försök givet att det inte finns någon verklig effekt. I det enskilda fallet kan vi inte veta: det osannolika inträffar faktiskt då och då...

/D

av **Svante** » 2009-05-11 11:33

Dahlqvist skrev:
Svante skrev:
Dahlqvist skrev:Jag skulle också vilja yppa en försiktig invändning mot den "Fisherianska" markeringen "failure" i LTS nuvarande testprogram. Det skulle vara mer informationsrikt i att även redovisa det exakta p-värdet. Det tydliggör (tror jag) också den subjektiva (om än välgrundade) beslutsregel som LTS tillämpar. Eller så motverkar det bara syftet. Vad vet jag.

Alla dessa farbröder... Eller har det med nån fisk att göra?

Hur skulle jag räkna ut det p-värdet menar du? Givet att testet är upplagt som det är.

Vad jag avsåg var den strikta beslutsregeln acceptera/inte acceptera baserat på ett visst (godtyckligt) p-värde (efter R A Fisher). Det p-värdet räknar ni väl ut för att kunna säga att det var just "failure"? Isåfall kan det vara idé att sätta ut p-värdet. Eller vet ni bara att det ligger under det kritiska värdet?

Undrar,

D

Alltså det här var ju uppe i den där inte fullt så trevliga monstertråden för ett par år sedan. För att göra en lång historia kort, datorn simulerar en miljon lyssningar med vald försöksdesign* och n lyssnare som avger slumpresultat, och räknar hur många av dem som ger falsk positiv detektion. Vi väljer försöksdesign och antal lyssnare så att andelen serier där någon av lyssnarna ger falsk positiv detektion är mindre än 1/100.

Försöksdesignen var här 11-15-18, dvs vi kräver antingen
11 rätt i rad, man får bryta efter 11,
14 rätt av 15, man får bryta efter 15 eller
16 rätt av 18, man får bryta efter 18.

Med 4 lyssnare ger detta 99% konfidens, dvs risken att en falsk detektion uppstår av en slump är ungefär 1 på 100.

Hur jag ska räkna ut ett p-värde för ett utfall som ligger under gränsen inser jag inte just nu.

av **DQ-20** » 2009-05-11 12:33

Svante skrev:Alltså det här var ju uppe i den där inte fullt så trevliga monstertråden för ett par år sedan. För att göra en lång historia kort, datorn simulerar en miljon lyssningar med vald försöksdesign* och n lyssnare som avger slumpresultat, och räknar hur många av dem som ger falsk positiv detektion. Vi väljer försöksdesign och antal lyssnare så att andelen serier där någon av lyssnarna ger falsk positiv detektion är mindre än 1/100.

Försöksdesignen var här 11-15-18, dvs vi kräver antingen
11 rätt i rad, man får bryta efter 11,
14 rätt av 15, man får bryta efter 15 eller
16 rätt av 18, man får bryta efter 18.

Med 4 lyssnare ger detta 99% konfidens, dvs risken att en falsk detektion uppstår av en slump är ungefär 1 på 100.

Hur jag ska räkna ut ett p-värde för ett utfall som ligger under gränsen inser jag inte just nu.

OK, då förstår jag bättre. Det verkar vara ett rimligt tillvägagångsätt givet att statistiken lätt blir "kladdig" om man skall ha brytvillkor inlagda.

Basta hälsningar,

D

av **PerStromgren** » 2009-05-11 13:08

Dahlqvist skrev:
OK, då förstår jag bättre. Det verkar vara ett rimligt tillvägagångsätt givet att statistiken lätt blir "kladdig" om man skall ha brytvillkor inlagda.

Jag är ingen statistiker, men... det är väl bara att låta datorn räkna?

Nuförtiden trodde jag inte att vi led brist på beräkningskraft. Detta är väl inget som inte ett kalkylark skulle kunna fixa?

av **Harryup** » 2009-05-11 13:14

Mmm,
11 rätt i rad skulle ju kunna fortsätta med 7 fel i rad innan man når 18 och då skulle resultatet inte vara så lysande.
Är det något annat än tidsbesparing eller att slippa trötta ut folk som är skälet?
Spelar det någon roll om det är "uppvärminingsfel" typ 3 fel och sedan 15 rätt?

mvh/Harryup