Endast för statistikkunniga (F/E-statistik)

av **Svante** » 2006-12-20 14:21

Morgan skrev:Svante, kan du inte vara snäll att ge en exakt beskrivning av hur F/E-lyssningarna går till istället? Som det är nu målar man liksom upp en skräckbild för sitt inre baserad på de halvkvädna visor som du kvider och det är liksom omöjligt att bedöma om testerna görs vettigt eller ovettigt!

"halvkvädna visor..." :lol:

Jaja...

Morgan skrev:Ingvars svar ovan är ju insiktsfullt, men samtidigt så är det mycket oroväckande om man begår vissa "standardfel" som att inte på förhand bestämma vilka lyssningsserier man skall använda och vilka utfall som skall tolkas som positiva eller negativa. Därför svävar man i ovisshet om huruvida det är en ansvarsfull statistisk analys och ett vettigt testförfarande eller inte!

Svante skrev: En person som inte deltar i lyssningen sitter och växlar mellan F och E och antecknar resultaten.
Flera, tex fyra, personer lyssnar samtidigt och ropar när de tror sig veta om F eller E är inkopplat. När en person har ropat avbryts växlingen och även de andra får avge ett svar om de vill (med kunskap om vad den först personen sagt).

...är nog en hyfsat bra beskrivning av lyssningssituationen. Försöksledaren skriver ner avgivna svar i kolumner, en per person, och sedan utvärderas lappen under gång av försöksledaren och testet avbryts när man tycker att tillräcklig signifikans uppnåtts. Eventuellt fortsätter man om någon tycker att man ska det.

av **Thomas_A** » 2006-12-20 14:23

Exempel 6:
Antag att en person lyssnar. Han gör flera test, en med basrik musik och två med diskantrik musik. I bastestet och får han 9 rätt i rad, de andra två ger spridda skurar. Med hur stor konfidens har man visat att objektet har en hörbar ljudpåverkan?

Har man 3 x 9 omgångar = 27 där en omgång ger 9/9 och de andra antas ge 9/18 blir proportionen

18/27=0.666

H0=0.5 ger z´= (0.666-0.5)-(1/(2*27)/sqr((0.666*(1-0.666)/27))=
=1.6248; ->p=0.1

Dock har testet ett inbyggt fel eftersom om man gör en AB mellan en 1 kHz och 2 kHz ton och sedan bygger på detta med ett test på nivåskillnadsdetektion av 0.001 dB så jämför man äpplen med päron.

av **Thomas_A** » 2006-12-20 14:28

Svante skrev:
Morgan skrev:Svante, kan du inte vara snäll att ge en exakt beskrivning av hur F/E-lyssningarna går till istället? Som det är nu målar man liksom upp en skräckbild för sitt inre baserad på de halvkvädna visor som du kvider och det är liksom omöjligt att bedöma om testerna görs vettigt eller ovettigt!

"halvkvädna visor..." Jaja...

Morgan skrev:Ingvars svar ovan är ju insiktsfullt, men samtidigt så är det mycket oroväckande om man begår vissa "standardfel" som att inte på förhand bestämma vilka lyssningsserier man skall använda och vilka utfall som skall tolkas som positiva eller negativa. Därför svävar man i ovisshet om huruvida det är en ansvarsfull statistisk analys och ett vettigt testförfarande eller inte!

Svante skrev: En person som inte deltar i lyssningen sitter och växlar mellan F och E och antecknar resultaten.
Flera, tex fyra, personer lyssnar samtidigt och ropar när de tror sig veta om F eller E är inkopplat. När en person har ropat avbryts växlingen och även de andra får avge ett svar om de vill (med kunskap om vad den först personen sagt).

...är nog en hyfsat bra beskrivning av lyssningssituationen. Försöksledaren skriver ner avgivna svar i kolumner, en per person, och sedan utvärderas lappen under gång av försöksledaren och testet avbryts när man tycker att tillräcklig signifikans uppnåtts. Eventuellt fortsätter man om någon tycker att man ska det.

Genom att dela ut lapparna till försökspersonerna blir det bättre. Icke angivna svar ignoreras. Antar man 4 i panelen och i snitt 5/10 svar per person skulle det bli n´=20.

av **Thomas_A** » 2006-12-20 14:39

By the way:

http://web.archive.org/web/200402232344 ... layers.htm

Double-blind test of two CD players reveals audible difference

John Stalberg, Thomas Akerlund, and Mikael Sundman

Background

The purpose of this test was to investigate whether modern CD players sound different or not.
This is a controversial issue as there is little or no scientific evidence that CD players are
audibly different. A previous test have shown that the first CD player imported to the US,
the 14-bit Phillips CD player CD100, was audibly different to a Sony player
(www.oakland.edu/?arlst/abx_cd.htm). The score was 67% correct guesses with a p lower
than 0.005. Other modern CD players did not show any audible difference.
These results were published in PSACS Sound Bytes Vol. 7 No. 1, 1996.
The Swedish Sound Audio Technical Society has previously been able to distinguish CD players
in blind tests, but the result has not been confirmed in any double blind test.
The result from the present study showed that there indeed is a significant and
audible difference between two specific CD players. Thus, the notion that all CD players
sound the same is not correct. Another conclusion is that changing CD players in an upgrade
path indeed may have a purpose Рi.e. to get a better sounding system.
However, there is little information of which CD players that sound poor and which sound good,
and for the consumer to know this, an extensive testing must be performed.

Material and methods

Reference system. The reference system consisted of Sentec SC9 pre-amplifier,
four NAD 208 Power amplifers (2 x 280 Watt/8 Ohm for each amplifier), INO Audio r 56 speakers
and 4 INO Audio profundus Z-4 subs, and Sentec DiAna DA converter.
Each item has been selected as be the most audible transparent for music and test signals
(i.e. uncoloured sound) using a Ңefore-afterӠtest(i.e. signals pass trough without
audible change of the pattern/waveform). The listening room is damped for early reflections,
and reproduce a frequency response of 20-20000 Hz within 1 dB limits (at listening position).
Max SPL is around 137 dB at 17 Hz.

Test objects. A Denon DCD 655 and a Harman Kardon HD7600 CD player with variable analogue output
were chosen as test objects. The output level of the Harman Kardon CDP was adjusted
to match the Denon at a dB level of ?0.01 dB using a oscilloscope and a 1 kHz Hz test signal,
as measured from the output of the pre-amplifier.
Listeners. Thomas Akerlund (1), Mikael Sundman (2) John Stalberg (3).
Both persons 2 and 3 are musicians and audio recording specialists and are very well trained
listeners, and familiar with both the reference system and the test objects.
Person 1 has limited or no previous experience of the reference system or the test objects.

Test procedure. All listeners were given a training session for about one to two hours.
First, the Harman Kardon CD player was auditioned and compared against the reference DA converter
and its character was noted. After a positive result in blind conditions with the
two different tests objects, they were chosen. Starting the DBT, one person (3)
tossed a coin ten times and wrote down the order on a paper, while the other two persons were
in another room. He made all the switches and was not visible or made any noise to the
test persons during the entire test. The CD players and the back of the preamplifier were
hidden with blankets. The test signal was two identical (verified by data analysis) copies
of a drum session. Each of these was set on repeat on the CD players, with exact matching of
length. For each test, one person made the switching and the other person made the listening
test. The switcher started to switch from CD (neutral) to either Aux 2 (CD player X) or
Aux 3 (CD player Y), without saying anything to the listener. Then the test was continued
with 5-10 seconds of listening at each input with about 1 second delay at neutral,
i.e. a test order of e.g. X - neutral РY Рnetrual РX etc. Since the sound of the CD players
were not synchronised the length of the listening period varied randomly during the test.
This procedure did cause some confusion, since it was not always obvious if a switching had
occurred and made it more difficult for the listener. Nevertheless, when the listener decided
which sound that related to which test object, the switcher noted which input he had chosen,
and the test result was written down. One person (1) conducted six listening trials,
and there was a switch between these two for the remaining four test, i.e. person 1 became
the switcher and person 2 the listener. After ten trials the result was compared to the written
scheme as made from person 3. After this, a second listening test with three trials was conducted
with person 3 as listener, 1 as switcher and 2 as the coin flipper.

Results and discussion

Training session. In the initial training session all listeners concluded that the Harman Kardon
CD player was very similar to the DiAna reference DA converter. A somewhat higher impact in drums
and a little brighter sound than the DiAna was noted.
When the Denon CD player was tested against the Harman Kardon, it became evident that the
Denon CD player had a brighter sound as noted on drums and background noise from the
recording(the noise produced by the CD players was never at audible levels).
Test person 1 was not as familiar with critical listening as person 2 and 3,
and had no previous listening experience with the test objects, although he also noted a
difference when these were tested. The listening session was ended with single blind guesses,
in which most cases were correct (Ÿ0%).

DBT session. The final result from the DBT tests was that 11 out 13 trials were correct.
This corresponds to 85% (p=0.01) correct choices, which is significantly different from
random choice. The two faulty choices came from person 1, who was not as familiar with the system
and had less training than the other two. Also, person 1 suffered from some listening fatigue
after the training session, and may have scored better with a different outlay of the experiment.
For example, listener 1 could have borrowed and listened to the CD players for a while,
before the test was done. The conclusion was however, that there is a 99% probability that the
CD players were audibly different.

av **Thomas_A** » 2006-12-20 14:44

För ovanstående test är det några missar, bla att vi borde gjort det med en extern D/A kopplad för att unvika synkproblemet.

Vi gjorde detta dock för en amerikans publik och vi hade en person på g från USA för att medverka, men så blev det inte. Därav ville vi använda "kända" spelare och inte Sentec DiAna som inte direkt är välkänd där borta.

Nummer 2 är att vi borde gjort fler omgångar, minst 20.

T

av **Thomas_A** » 2006-12-20 16:11

Till sist skulle jag vilja tillägga att ett bygge av en ABX-komparator inte borde vara så svårt och att det skulle vara mycket enklare att genomföra testerna. I LTS regi kanske den skulle heta FEX-komparator.

av **Morello** » 2006-12-20 16:31

I dagsläget finns en FE-testutrustning(som jag byggde under sommaren 2006) som innehåller allt man behöver för test (försteg, differentiell ingång, trimpottar osv). På fronten finns en vippomkopplare(som driver ett relä) med vilken man väljer F eller E-signal. På bakpanelen finns ett 1/4"-tele-uttag för extern trigger, vilket kan vara en slumpgenerator tex.

Är det något sådant du tänker på?

av **Thomas_A** » 2006-12-20 17:11

Låter som en sån apparat, dock har en ABX tre omkopplingar. Den kända A, den kända B (vilket kan vara F och E) samt en okänd X (som slumpmässigt är antingen A/B eller om man så vill F/E mellan varje omgång).

Fördelen att en vridomkopplare med X i mitten samt A och B ovan/nedan är att man snabbt kan skifta mellan X-A och X-B för direkta jämförelser. Stora nackdelar med AB:

1. I ett AB-test är båda okända och man har ingen direkt jämförelse under testets gång vad som är vad. Det kan leda till att en eller flera gör 8 fel istället för 8 rätt vid en ev hörselskillnad, vilket gör att den summariska statistiken från fler testpersoner blir en soppa.

2. Hörselminnet är kort. Det kan leda till förvirring under testet där enskilda av misstag blandar ihop hur A och B en gång lät och byter så att säga sin preferens för vad som är A och B. Blir också en soppa.

av **PerStromgren** » 2006-12-20 17:22

F/E-lyssningen är väl utformad som en A/B-lyssning, inte en A/B/X-lyssning, väl? Jag tror att X:et skulle tillföra en massa även i F/E-fallet.

av **IngOehman** » 2006-12-20 17:22

Har precis upptäckt hur den här tråden har utvecklat sig efter att jag gjorde ett inlägg i den (som ingen i sak tycks kritisera med avseende av de statstiska signifikanserna).

Blir förstås ledsen över att se att den testmetod som använts genom alla år presenteras på ett förvrängt sätt här i en tråd på faktiskt, där väl det värsta är att det antyds att så korta serier som i exemplen har använts. Inte i det ursprungliga inlägget, men senare...

Blir ledsen även över att se att mitt inlägg misstolkas, således att någon (berma) försöker få det att verka som om jag menat att vetenskaplighet inte är viktigt

, när det jag skrev bara var att om man har att välja mellan antingen:

1. En komplicerad modell som ger snabba resultat, är enkel att använda och som ger fantastisk detektionsförmåga, men som är svår att beskriva,

och:

2. En enkel modell att beskiva, som ger dålig detektionsförmåga,

(både ger samma statistika signifikans)

så bör man välja den förstnämnda när man primärt är ute efter att skaffa sig kunskap om testobjektet.

Nollresultat är förvisso vetenskapligt korrekt på alla sätt, men det ökar inte ens kunskaper om testobjektet, och att testmetodiken är svår att beskriva spelar ingen roll när syftet med testerna inte är att beskriva dem metodologiskt, utan att knna beskriva apparaterna som undergått dem.

Att fokusera på att möjliggöra för alla i F/E-lyssningen inblandade att prestera sitt yttersta, är därför fundamentalt. Att göra det lätt att beskriva en procedur, som dock allför ofta eller rent av alltid ger nollresultat, är att helt missa målet. Verkligheten ligger förstås alltid någonstans mitt emellan dessa ytterligheter, men ambitionen bör alltid (enligt min uppfattning) vara att göra testen meningsfull.

Allra tristast tycker jag det är att se att innehåll i ett email jag skickat i en intern diskussion inom styrelsen (som inte ens borde ha skett vie email, utan på ett möte) läggas ut på en diskussiontråd, dessutom klippt ur sitt sammanhang!

Oavsett vilket har jag ställt min plats till förfogande i LTS.

Det skall vara kul att hålla på, annars kan det kvitta, sjöng galenskaparna.

Att bli offentligt avrättat för den insats man försökt bidra med genom åren för att göra testerna både vetenskapliga och kraftfulla detektionsmässigt, är inte kul. Att det dessutom sker baserat på schablonartade framställningar med korta serier och antydningar om att det inte säkerställts tillräcklig signifikans (vilket inte alls överensstämmer med hur det gått till i verkligheten) är INTE kul alls, och då kan det, som nämnts, kvitta.

Det måste vara kul - och om inte själva arbetet är det, så i varje fall måste det finnas en känsla av att det arbete man lägger ned uppskattas.

Det känslan får inte jag när till och med styrelsemedlemmar lämnar den interna diskussionen, och går istället till angrepp på offentliga internetfora.

Vh, iö

av **IngOehman** » 2006-12-20 17:30

Thomas_A skrev:Till sist skulle jag vilja tillägga att ett bygge av en ABX-komparator inte borde vara så svårt och att det skulle vara mycket enklare att genomföra testerna. I LTS regi kanske den skulle heta FEX-komparator.

Det är just försök med dylik metod som resulterade i att jag valde en annan. :wink:

Det skiljde en del på detektionströskeln.

De allra skickligaste lyssnarna, när de hade sina bästa dagar, förmådde nå ned till ungefär samma tröskel med FEX - men "lika bra" är sämre än bättre. I synnerhet när det bara är ibland.

Dessutom tar ett FEX-test (där bara en lyssnare i taget kan lyssna, om det utförst på normalt sätt) oerhört mycket längre tid att genomföra. Det är redan som det är svårt att hinna med allt vi vill testa.

Vh, iö

av **berma** » 2006-12-20 18:06

IngOehman skrev:
Blir ledsen även över att se att mitt inlägg misstolkas, således att någon (berma) försöker få det att verka som om jag menat att vetenskaplighet inte är viktigt , när det jag skrev bara var att om man har att välja mellan antingen:

1. En komplicerad modell som ger snabba resultat, är enkel att använda och som ger fantastisk detektionsförmåga, men som är svår att beskriva,

och:

2. En enkel modell att beskiva, som ger dålig detektionsförmåga,

(både ger samma statistika signifikans)

Vh, iö

Kan ni inte beskriva hur ni gör eller hur ni räknar så kan ju ingen utomstående bedöma eller upprepa era tester, då landar det ju bara i er trovärdighet, eg. att ni lovar att det har skett på ett vederhäftigt sätt.

Det känns faktiskt inte särskilt vetenskapligt.

mvh.

av **IngOehman** » 2006-12-20 18:22

Underligt citat du fick till där... Du klippte innan jag avslutat meningen.

Men visst, självklart bygger det på förtroende. Så är det ju nästan alltid
när man väljer någon till en post. Saknas det förtroendet - alltså att jag
säkerställer att en tillfyllest signifikans hålles - så bör jag inte få behålla
det ansvaret.

Konsekvensen är att jag bör avgår - vilket redan skett.

Ok? Problem fixed!

Vh, iö

- - - - -

PS. Det här funkar ju precis som inom politiken - sänk någons
förtroende med hjälp av offentlig kritik, och hoppas på att det
får dem att tappa lusten så till den milda grad att de inte orkar
försvara sig, utan väljer att avgå istället.

av **Morgan** » 2006-12-20 18:38

IngOehman skrev:Underligt citat du fick till där... Du klippte innan jag avslutat meningen.

Men visst, och saknas det förtroendet - att jag säkerställer att en tillfyllest
signifikans hålles - så bör jag inte få det ansvaret.

Konsekvensen är att jag bör avgår - vilket redan skett.

Ok?

Vh, iö

Vilken trist utveckling det blev på den här tråden! :cry:

Det är skittrist att det bara kommer en massa halvkvädna antydningar om hur metoden ser ut, som av allt att döma är konstruerade för att överdriva eventuella problem bortom alla proportioner.

Jag är säker på att alla skulle ha fullt förtroende för att metoden ger en signifikansnivå som är tillfyllest, om bara metoden redovisades i sin fulla glans! Det bör till sist inte handla om förtroende för enskilda personer, utan om förtroende för att den valda metoden är bra, anser jag.

Det finns ett enkelt sätt att ställa saker tillrätta: Redovisa metoden öppet (ett krav jag tycker är rimligt att alltid ställa - när det gäller LTS eller Stereophile eller Astra Zeneca eller vem som helst som hävdar något) och visa med hjälp av kall matematisk statistik att metoden är tillfyllest!

Varför redovisas inte metoden öppet?

av **IngOehman** » 2006-12-20 18:39

Det finns inget hemligt med "metoden", men exakt hur det går till är svårt både att förklara och att inse utan att närvara själv. I varje fall om man har ambitionen att absolut ingen skall missförstå något. Dessutom är inte någon specifik metod fastslagen. Den kan variera inom vida ramar, med målet att minimera detektionströskeln.

Att försöka beskriva den i varje liten psykologisk detalj (för det är ju till stor del sådant som är poängen - detektionströsklarna påverkas otroligt av vilken testsituation lyssnarna tvingas in i. Trivselaspekternas analys är kruxet med att få en riktigt bra testmetod) och orsaken till dem, det känns dödsförraktande, minst sagt.

Inte minst när man ser vilka debatter som uppstår till och med när de som rimligtivs borde veta hur det går till (Svante) är inblandade.

Detta är ett typfall av sådana frågor som inte lämpar sig för "hantering medels internet-diskussion". Avsevärt mycket mer än hälften (eller >90%?) av kritiken är baserad på felaktig information, som i sin tur sprungar ur korrekt information (verkligheten själv rent av) som förvrängts på grund av sin svårbegriplighet!

Att tro att det går att förklara något med bokstäver, som tydligen är så svårt att begripa att det missförstås av dem som varit med och haft förstahandsinformation, är minst sagt optimistiskt...

Thomas_A skrev:Genom att dela ut lapparna till försökspersonerna blir det bättre. Icke angivna svar ignoreras. Antar man 4 i panelen och i snitt 5/10 svar per person skulle det bli n´=20.

Även det är provat, och det är orsaken till att vi inte gjort så.

Vh, iö

av **berma** » 2006-12-20 18:45

IngOehman skrev:Underligt citat du fick till där... Du klippte innan jag avslutat meningen.

Men visst, självklart bygger det på förtroende. Så är det ju nästan
alltid när man väljer någon till en post. Saknas det förtroendet - att
jag säkerställer att en tillfyllest signifikans hålles - så bör jag inte få
behålla det ansvaret.

Konsekvensen är att jag bör avgår - vilket redan skett.

Ok?

Vh, iö

- - - - -

PS. Det här funkar ju precis som inom politiken - sänk någons
förtroende med hjälp av offentlig kritik, och hoppas på att det
får dem att tappa lusten så till den milda grad att de inte orkar
försvara sig, utan väljer att avgå istället.

Nja, altså jag har respekt för din kompetens och ävern LTS's integritet, dvs. jag tror fortfarande på de resultat ni kommit fram till.

men, om ni har en metod som är bättre an ABX tester så är det väl intressant för alla om den beskrivs. Och det är just för att behålla trovärdigheten det är viktigt att testmetoderna redovisas öppet.

Jag är inte med i LTS och kan ju egentligen inte ha någon åsikt om du ska avgå eller sitta kvar, men jag tycker det tråkigt om det måste gå så långt.

mvh.

av **DQ-20** » 2006-12-20 18:57

berma skrev:Kan ni inte beskriva hur ni gör eller hur ni räknar så kan ju ingen utomstående bedöma eller upprepa era tester, då landar det ju bara i er trovärdighet, eg. att ni lovar att det har skett på ett vederhäftigt sätt.

Det känns faktiskt inte särskilt vetenskapligt.

mvh.

Problemet kan väl sammanfattas med: det är inte lönt att förklara något för någon som ingenting begriper. Att utveckla testmetoder som utnyttjar fackkunskap och erfarenhet hos testledare och försökpersoner och att utveckla metoder som alla kan använda om man bara läser bruksanvisningen på paketet är två skilda saker. Förlitar man till viss del på fackkunskap så blir det svårt att förklara för utomstående på grund av det stora hoppet i kunskapsnivå. Det är t.e.x därför det är skillnad på personlighetstest som personalassistent kör på sin dator och på personlighetstest som det sitter en forskare i psykologi och bedömer. Det är därför vi får träffa en doktor och inte ett vårdbiträde med ett datorprogram. Fackkunskap kan inte läggas på burk hur som helst. Jag tycker att hela sifferexercisen leder fel. Jag kan ha vissa invändningar i om detaljer i det statistiska tänkandet men bara för att jag själv använder statistik i arbetet betyder ju inte att jag kan sätta upp "state of the art" lyssningstester om så mitt liv hängde på det. Det svåra är att utveckla själva metoden för insamling av data, inte att beräkna signifikans. Det gäller allt från medicinska studier till lyssningstest: som man ropar får man svar. Och just vad gäller datainsamling råder det här en fullständig obalans i diskussionen.

Vetenskap förutsätter visserligen någon form av kritiskt förhållningsätt, men det handlar också om att kunna lita på varandra. Även om vi här skulle kunna komma fram till olika statistiska beräkningsmetoder och testförfaranden så finns det få som är i stånd att bedöma helheten. Jag föreställer mig att det finns många faktorer som kan påverkar känsligheten i ett lyssningstest liksom olika felkällor. Jag har ingen aning. Och det är här fackkunskapen kommer in. Lång erfarenhet och träning kan inte enkelt traderas utan förblir ofta "tyst" kunskap. Diskusioner om 7 eller 11 i rad blir ytliga och missar mer grundläggande frågor om själva mätinstrumentet. Det är som att mäta med en voltmeter som hela tiden ger olika värde och sedan föra in detta i ett diagram och sedan utropa: jag är till 95 % säker att det är över 200 volt i ledningen. Men man måste mäta 25 gånger i rad annars kan man inte vara riktigt säker. Bzzzt.

Den mycket förbryllande animositeten mellan Svante och Ingvar tycker jag för övrigt kan utredas via andra kanaler än foruminlägg. Har aldrig fungerat för känsligt läge och kommer aldrig att göra det heller.

/Dahlqvist

av **IngOehman** » 2006-12-20 19:38

Jag håller nog med om varenda liten detalj av det ovanstående!

(Om jag förstod allt alldeles rätt, vilket jag i varje fall upplevde att jag gjorde.)

Kan tillägga att jag håller Svante för en av de trevligaste personer jag känner. Det är delvis därför det här offentlig-angreppet förbryllar mig.

berma skrev:Nja, altså jag har respekt för din kompetens och ävern LTS's integritet, dvs. jag tror fortfarande på de resultat ni kommit fram till.

Tack. Skönt att det finns en person som har förtroende.

berma skrev:men, om ni har en metod som är bättre an ABX tester så är det väl intressant för alla om den beskrivs.

Om jag trodde att det var möjligt utan att drabbas av en oänligt lång diskussion som drivs av missförstånd, ja - då hade det varit det.

berma skrev:Och det är just för att behålla trovärdigheten det är viktigt att testmetoderna redovisas öppet.

Ja, kanske i teorin, men när jag drabbas av missförtroende till och med från delar av tekniska sektionen, från någon som deltagit i testerna, så känns det inte som om förtroende handlar om information.

Jag kan inte nog informera hur jag har betraktat statistiken, och sett till att ta höjd för alla de osäkerhetsfaktorer (som inte är alls så osäkra som man kan tro, det handlar bara om att se helheten) som riskerar att nagga på marginalerna. Jag har klargjort proportionerna som behövs för att kunna tillåta långa och elastiska serier (det vill säga maximal frihet i exekverandet av testerna), men mötts av misstroende.

Trots kontrollräkningar från invändaren, har det visat sig att mina redovisningar av nödvändiga marginaler (för att säkerställa statistisk signifikans vid flexiblare utförande av testet) har hållit granskningen (vilket förstås inte var någon överraskning för mig). Signifikansen sjunker inte alls till 50% (eller "till noll", som han sade :wink:

) när man tar höjd för att kunna fortsätta en initial serie om 8 lyssningar, om man inte lyckas träffa in en rimlig serie. Som jag hävdade, handlar det om några enstaka extra konsekventa svar för att ta höjd för "fri fortsättning".

Hursomhelst: När man misslyckas med att falsifiera saker, brukar man upphöra med kritiken, i varje fall ur just den angreppsvinkeln. Det hade jag väntat mig även i detta fall.

berma skrev:Jag är inte med i LTS och kan ju egentligen inte ha någon åsikt om du ska avgå eller sitta kvar, men jag tycker det tråkigt om det måste gå så långt.

Det tycker jag också, men att stanna kvar känns ännu tråkigare.

Som sagt: Det skall vara kul - annars kan det kvitta.

Vh, iö

av **grannilsson** » 2006-12-20 20:18

IngOehman skrev:
Oavsett vilket har jag ställt min plats till förfogande i LTS.
Det skall vara kul att hålla på, annars kan det kvitta, sjöng galenskaparna.

Vore tråkigt Ingvar om det blev så, hoppas verkligen inte det blir en realitet,
jag är i varje fall den andra på att skriva under på att jag har fullt förtroende för din kompetens inom Audio området såväl tekniskt som praktiskt här på Faktiskt och inom LTS vilket har/är en ynnest att ta del av.
Vh Göran Nilsson

av **Thomas_A** » 2006-12-20 20:21

IngOehman skrev:
Thomas_A skrev:Till sist skulle jag vilja tillägga att ett bygge av en ABX-komparator inte borde vara så svårt och att det skulle vara mycket enklare att genomföra testerna. I LTS regi kanske den skulle heta FEX-komparator.

Det är just försök med dylik metod som resulterade i att jag valde en annan.

Det skiljde en del på detektionströskeln.

De allra skickligaste lyssnarna, när de hade sina bästa dagar, förmådde nå ned till ungefär samma tröskel med FEX - men "lika bra" är sämre än bättre. I synnerhet när det bara är ibland.

Dessutom tar ett FEX-test (där bara en lyssnare i taget kan lyssna, om det utförst på normalt sätt) oerhört mycket längre tid att genomföra. Det är redan som det är svårt att hinna med allt vi vill testa.

Vh, iö

Ingvar, jag vet inte om det är du eller jag som missförstår. Ett före och eftertest kan ju göras med följande:

1. Inlyssning.
2. Randomiserad ordning F och E, där båda är okända för lyssnarskaran.

eller

1. Inlyssning.
2. Randomiserad ordning på X, med kända F och E för varje omgång. Valfritt antal jämförelser mellan X och de kända F och E innan bestämmer vad som är X.

Båda metoderna kan användas för en stor lyssnarskara om man önskar.

Thomas_A skrev:
Genom att dela ut lapparna till försökspersonerna blir det bättre. Icke angivna svar ignoreras. Antar man 4 i panelen och i snitt 5/10 svar per person skulle det bli n´=20.

Även det är provat, och det är orsaken till att vi inte gjort så.

Om det är själva nedskrivandet som är problemet/distraktionen istället för att direkt säga resultatet så kan man istället låta någon annan göra det, men då blir det ju en och samma person som ska svarat. Att låta andra svara efter det att någon hört den första tar ju bort oberoendet. Jag förstår iofs inte varför det ska skilja i detektionströskel om man säger svaret resp skriver det.

av **BACH** » 2006-12-20 20:40

Det här var verkligen väldigt tråkigt!

Jag har stort förtroende för både Svante och Ingvar och jag tycker inte att någon av dem skall hoppa av från LTS!!!

Vh

av **nolimitsoya** » 2006-12-20 21:17

+1 BACH.

av **PerStromgren** » 2006-12-20 21:31

Men vi som inte har några personliga intressen, såsom kompis till Svante eller Ingvar, kan inte vi få reda på hur F/E-lyssning är tänkt att fungera? Är det bara Ingvar som bestämmer hur metoden fungerar?

Jag är (inte längre) medlem av LTS, men har ändå intresse av denna metod. Var kan jag få reda på hur den fungerar? Är det hemligt? Troligen inte. Måste man stryka någon medhårs för att få reda på detta?

Jag får en otäck känsla av att kontrahenterna samlar poäng genom att ge upp offentligt. Hoppas att jag har fel.

av **Svante** » 2006-12-20 21:41

Jag ska sammanfatta varför jag lade ut det här på forumet. Jag inser att det kan tolkas som ett desperat utfall av en rättshaverist. Men jag ska försöka förklara.

Jag har ända sedan mitt första F/E-testet i LTS haft synpunkter på hur det utförs. Jag har försökt framföra det vid ett flertal diskussioner vid och efter de möten vi har haft. Inför den senaste lyssningen trodde jag att vi hade en överenskommelse om hur testet skulle ändras för att bli mer vetenskapligt, men det visade sig att jag hade tokfel. Alltför mycket tid togs från lyssningen till metoddiskussioner och vi enades till sist om att göra på det gamla sättet och ta diskussionen vid ett annat tillfälle.

Efter lyssningen skrev jag ihop förslaget till ny metod, den som jag länkade till ovan, men Ingvar tog fram yxan (och då vet ni hur det kan låta). Jag blev både förbannad och ledsen över tonen och andemeningen i den sågningen. Det är sällan jag blir riktigt arg på någon, men här blev jag det.

Mitt intryck är att Ingvar inte vill att någon ska peta i metoderna som han har utvecklat under x år (och därför måste vara perfekta (?)). Att jag också har ägnat mig åt blindtester, både yrkesmässigt och privat, spelar liksom ingen roll. F/E-lyssningen som den görs i LTS är en helig ko för honom som han vill ha full kontroll över. Det fick mig att fundera på vad jag egentligen kan bidra med i LTS, och kvar blev intet om jag inte får vara med och förändra. Min enda funktion skulle vara som alibi för LTS vetenskaplighet och det kan jag som ni förstår inte ställa upp på.

I och med det så känner jag mig också tvungen att berätta offentligt att jag inte står bakom den statistiska behandling som görs vid F/E-lyssningarna. Att jag inte kan fungera som alibi. Och ska jag berätta det med någon trovärdighet så måste jag ju berätta hur lyssningarna går till. Det är så ruskigt synd att Ingvar vägrar att ta det där sista lilla steget som skulle göra metoden acceptabel. Det är skitsnack att det skulle vara svårt att förklara hur det går till, det är bara en dålig ursäkt för att slippa redovisa det. Det är rätt enkelt att beskriva, egentligen. Det enda som är svårt är att få reda på vilken signifikans det egentligen blev.

av **patrikf_inaktiv** » 2006-12-20 21:57

Svante, kan du be Jesper Jerkert att kika på detta, om ni har nån kontakt?
Han brukar vara bra på att reda ut sånt här.

av **Sanny_X** » 2006-12-20 21:59

Svante

Hade det inte varit bätre att ta detta på ett LTS-möte eller på något annat sätt lösa tvisten inom föreningen? Detta gynnar inte föreningen.

av **nolimitsoya** » 2006-12-20 22:06

Jag tycker nog det är bättre att visa öppet att man är oense, om man är det.

av **Harryup** » 2006-12-20 22:09

Jag tycker att svagheten med metoden inte är testförfarandet utan andrahandstolkningen. Många säger att den apparaten är inte bra för den färgar ljudet utan att ha en aning om hur färgningen lät eller om den ens skulle vara upptäckbar på en mer normal anläggning vid normal lyssningsnivå. Färgat kontra ofärgat vid testögonblicket borde inte graderas som kasst eller godkännt om man inte har förståt under vilka omständigheter felet kan detekteras under vanlig musiklyssning.

av **Sanny_X** » 2006-12-20 22:10

Öppet för föreningens medlemmar, det håller jag med om.

Men för utomstående...? Testerna görs ju för medlemmarna.

av **Svante** » 2006-12-20 22:17

Sanny_X skrev:Svante

Hade det inte varit bätre att ta detta på ett LTS-möte eller på något annat sätt lösa tvisten inom föreningen? Detta gynnar inte föreningen.

Du ska veta att jag har försökt.