Moderator: Redaktörer
Svante skrev:Ja, i den här tråden vill jag endast ha svar av de som förstår sig på statistik.
Morello skrev:Naj, T-fördelningen är inte tillämpbar. Det äör fråga om binomialfördelning. Själva frågan gäller dock inte fördelningen, utan handlar mer om testmetodik och hur resultaten skall tolkas.
Morello skrev:Men vi är väl överens om att det fråga om binomialfördelning?
Svante skrev:Morello skrev:Men vi är väl överens om att det fråga om binomialfördelning?
Jadå, men T-testet förutsätter väl normalfördelning och de blir ju rätt lika för stora n, så hemskt olika är de ju inte.
Morello skrev:Svante skrev:Morello skrev:Men vi är väl överens om att det fråga om binomialfördelning?
Jadå, men T-testet förutsätter väl normalfördelning och de blir ju rätt lika för stora n, så hemskt olika är de ju inte.
Japecis, men n är väl inte särskilt stort i vår tillämpning?
Svante skrev:Ja, i den här tråden vill jag endast ha svar av de som förstår sig på statistik.
Jag vill veta vad nedanstående tester ger för konfidens. Om det inte går eller är för svårt att räkna ut, tala gärna om vad som krävs för att beräkningen ska gå att utföra om ni vet det. Antag en F/E-lyssning. En person som inte deltar i lyssningen sitter och växlar mellan F och E och antecknar resultaten.
Exempel 1:
Antag att en person lyssnar och får 7 rätt i rad. Med hur stor konfidens har man visat att objektet har en hörbar ljudpåverkan?
Svante skrev:Exempel 2:
Antag att en person lyssnar och får 8 fel i rad. Med hur stor konfidens har man visat att objektet har en hörbar ljudpåverkan?
Svante skrev:Exempel 3:
Antag att fyra personer lyssnar samtidigt och ropar när de tror sig veta om F eller E är inkopplat. När en person har ropat avbryts växlingen och även de andra får avge ett svar om de vill (med kunskap om vad den först personen sagt). En person får 9 rätt i rad. Vid det laget har de tre andra avgivit 1, 3 respektive 5 svar med spridda skurar av rätt och fel. Med hur stor konfidens har man visat att objektet har en hörbar ljudpåverkan?
Svante skrev:Exempel 4:
Samma som 3, men den första personen får i stället 9 fel i rad.
Med hur stor konfidens har man visat att objektet har en hörbar ljudpåverkan?
Svante skrev:Exempel 5:
Samma förutsättningar som i 3, men nu avger endast två av personerna svar, de två andra avstår. De båda första får 7 rätt i rad, vardera. Med hur stor konfidens har man visat att objektet har en hörbar ljudpåverkan?
Svante skrev:Exempel 6:
Antag att en person lyssnar. Han gör flera test, en med basrik musik och två med diskantrik musik. I bastestet och får han 9 rätt i rad, de andra två ger spridda skurar. Med hur stor konfidens har man visat att objektet har en hörbar ljudpåverkan?
Ingvar skrev:Vetenskapens första test
Lazyworm skrev:Jag sökte lite nu och läste följande om t-test
"(I en äldre bok använde man t-test på krona och klave, alltså 1 och 0, vilket går utmärkt då antalet är mer än ca: 10 st."
Det borde ju innebära att man kan implementera T-test på F/E lyssningen och beräkna ifall utslaget med signifikans kan bestämmas?
Svante skrev:Morello skrev:Naj, T-fördelningen är inte tillämpbar. Det äör fråga om binomialfördelning. Själva frågan gäller dock inte fördelningen, utan handlar mer om testmetodik och hur resultaten skall tolkas.
I förlängningen ja, men just nu vill jag faktiskt veta om det går att räkna ut konfidensen med ovanstående exempel och hur stor den är i sådana fall.
Svante skrev:Exempel 1:
Antag att en person lyssnar och får 7 rätt i rad. Med hur stor konfidens har man visat att objektet har en hörbar ljudpåverkan?
Svante skrev:Exempel 2:
Antag att en person lyssnar och får 8 fel i rad. Med hur stor konfidens har man visat att objektet har en hörbar ljudpåverkan?
Svante skrev:Exempel 3:
Antag att fyra personer lyssnar samtidigt och ropar när de tror sig veta om F eller E är inkopplat. När en person har ropat avbryts växlingen och även de andra får avge ett svar om de vill (med kunskap om vad den först personen sagt). En person får 9 rätt i rad. Vid det laget har de tre andra avgivit 1, 3 respektive 5 svar med spridda skurar av rätt och fel. Med hur stor konfidens har man visat att objektet har en hörbar ljudpåverkan?
Svante skrev:
Exempel 4:
Samma som 3, men den första personen får i stället 9 fel i rad.
Med hur stor konfidens har man visat att objektet har en hörbar ljudpåverkan?
Svante skrev:
Exempel 5:
Samma förutsättningar som i 3, men nu avger endast två av personerna svar, de två andra avstår. De båda första får 7 rätt i rad, vardera. Med hur stor konfidens har man visat att objektet har en hörbar ljudpåverkan?
Svante skrev:
Exempel 6:
Antag att en person lyssnar. Han gör flera test, en med basrik musik och två med diskantrik musik. I bastestet och får han 9 rätt i rad, de andra två ger spridda skurar. Med hur stor konfidens har man visat att objektet har en hörbar ljudpåverkan?
Dahlqvist skrev:Har läst igenom Öhmans svar och håller med. Jag skulle dessutom vilja veta varför vi ombetts kommentera dessa muggiga experiment.
/D

Haakan_W skrev:svante hur vill du att lyssningen/testet ska gå till?
Huga, nej det där ser inget vidare ut.
Det bygger på en massa antagnaden som i flera fall är direkt felaktiga.
Svante skrev:Jag har nu stångat mig såpass blodig mot Ingvars tvärvägran att förändra testet att jag har avsagt mig vidare uppdrag i LTS styrelse. Jag kan inte ställa mig bakom testmetodiken. Jag vill alltså deklarera att LTS F/E-tester inte är Svantegodkända, vad nu det har för värde.
Edit: Jag bara måste visa hur min browser såg ut efter att jag hade skrivit det här inlägget. Titta högst upp...![]()
IngOehman skrev:Det är alltför lätt att formulera testsituationer som är publicistiskt och statistiskt godtagbara, men som är bortkastad tid om det är kunskap man är ute efter att framskaffa.
Exempel 3:
Antag att fyra personer lyssnar samtidigt och ropar när de tror sig veta om F eller E är inkopplat. När en person har ropat avbryts växlingen och även de andra får avge ett svar om de vill (med kunskap om vad den först personen sagt). En person får 9 rätt i rad. Vid det laget har de tre andra avgivit 1, 3 respektive 5 svar med spridda skurar av rätt och fel. Med hur stor konfidens har man visat att objektet har en hörbar ljudpåverkan?
Svante skrev:
Exempel 5:
Samma förutsättningar som i 3, men nu avger endast två av personerna svar, de två andra avstår. De båda första får 7 rätt i rad, vardera. Med hur stor konfidens har man visat att objektet har en hörbar ljudpåverkan?
Förmodligen är signifikansen högre än i 3, men hur mycket? Det vet man inte, eftersom man inte har bestämt förutsättningarna i förväg.
Thomas_A skrev:Om man ropar när man tror sig veta, och sedan skriftligen anger vad som är vad (utan övrigas insyn) så kan de vara oberoende från varandra.
Morgan skrev:Svante, kan du inte vara snäll att ge en exakt beskrivning av hur F/E-lyssningarna går till istället? Som det är nu målar man liksom upp en skräckbild för sitt inre baserad på de halvkvädna visor som du kvideroch det är liksom omöjligt att bedöma om testerna görs vettigt eller ovettigt!
Morgan skrev:Ingvars svar ovan är ju insiktsfullt, men samtidigt så är det mycket oroväckande om man begår vissa "standardfel" som att inte på förhand bestämma vilka lyssningsserier man skall använda och vilka utfall som skall tolkas som positiva eller negativa. Därför svävar man i ovisshet om huruvida det är en ansvarsfull statistisk analys och ett vettigt testförfarande eller inte!
Svante skrev: En person som inte deltar i lyssningen sitter och växlar mellan F och E och antecknar resultaten.
Flera, tex fyra, personer lyssnar samtidigt och ropar när de tror sig veta om F eller E är inkopplat. När en person har ropat avbryts växlingen och även de andra får avge ett svar om de vill (med kunskap om vad den först personen sagt).
Exempel 6:
Antag att en person lyssnar. Han gör flera test, en med basrik musik och två med diskantrik musik. I bastestet och får han 9 rätt i rad, de andra två ger spridda skurar. Med hur stor konfidens har man visat att objektet har en hörbar ljudpåverkan?
Svante skrev:Morgan skrev:Svante, kan du inte vara snäll att ge en exakt beskrivning av hur F/E-lyssningarna går till istället? Som det är nu målar man liksom upp en skräckbild för sitt inre baserad på de halvkvädna visor som du kvideroch det är liksom omöjligt att bedöma om testerna görs vettigt eller ovettigt!
"halvkvädna visor..."Jaja...
Morgan skrev:Ingvars svar ovan är ju insiktsfullt, men samtidigt så är det mycket oroväckande om man begår vissa "standardfel" som att inte på förhand bestämma vilka lyssningsserier man skall använda och vilka utfall som skall tolkas som positiva eller negativa. Därför svävar man i ovisshet om huruvida det är en ansvarsfull statistisk analys och ett vettigt testförfarande eller inte!Svante skrev: En person som inte deltar i lyssningen sitter och växlar mellan F och E och antecknar resultaten.
Flera, tex fyra, personer lyssnar samtidigt och ropar när de tror sig veta om F eller E är inkopplat. När en person har ropat avbryts växlingen och även de andra får avge ett svar om de vill (med kunskap om vad den först personen sagt).
...är nog en hyfsat bra beskrivning av lyssningssituationen. Försöksledaren skriver ner avgivna svar i kolumner, en per person, och sedan utvärderas lappen under gång av försöksledaren och testet avbryts när man tycker att tillräcklig signifikans uppnåtts. Eventuellt fortsätter man om någon tycker att man ska det.
Double-blind test of two CD players reveals audible difference
John Stalberg, Thomas Akerlund, and Mikael Sundman
Background
The purpose of this test was to investigate whether modern CD players sound different or not.
This is a controversial issue as there is little or no scientific evidence that CD players are
audibly different. A previous test have shown that the first CD player imported to the US,
the 14-bit Phillips CD player CD100, was audibly different to a Sony player
(www.oakland.edu/?arlst/abx_cd.htm). The score was 67% correct guesses with a p lower
than 0.005. Other modern CD players did not show any audible difference.
These results were published in PSACS Sound Bytes Vol. 7 No. 1, 1996.
The Swedish Sound Audio Technical Society has previously been able to distinguish CD players
in blind tests, but the result has not been confirmed in any double blind test.
The result from the present study showed that there indeed is a significant and
audible difference between two specific CD players. Thus, the notion that all CD players
sound the same is not correct. Another conclusion is that changing CD players in an upgrade
path indeed may have a purpose Рi.e. to get a better sounding system.
However, there is little information of which CD players that sound poor and which sound good,
and for the consumer to know this, an extensive testing must be performed.
Material and methods
Reference system. The reference system consisted of Sentec SC9 pre-amplifier,
four NAD 208 Power amplifers (2 x 280 Watt/8 Ohm for each amplifier), INO Audio r 56 speakers
and 4 INO Audio profundus Z-4 subs, and Sentec DiAna DA converter.
Each item has been selected as be the most audible transparent for music and test signals
(i.e. uncoloured sound) using a Ңefore-afterӠtest(i.e. signals pass trough without
audible change of the pattern/waveform). The listening room is damped for early reflections,
and reproduce a frequency response of 20-20000 Hz within 1 dB limits (at listening position).
Max SPL is around 137 dB at 17 Hz.
Test objects. A Denon DCD 655 and a Harman Kardon HD7600 CD player with variable analogue output
were chosen as test objects. The output level of the Harman Kardon CDP was adjusted
to match the Denon at a dB level of ?0.01 dB using a oscilloscope and a 1 kHz Hz test signal,
as measured from the output of the pre-amplifier.
Listeners. Thomas Akerlund (1), Mikael Sundman (2) John Stalberg (3).
Both persons 2 and 3 are musicians and audio recording specialists and are very well trained
listeners, and familiar with both the reference system and the test objects.
Person 1 has limited or no previous experience of the reference system or the test objects.
Test procedure. All listeners were given a training session for about one to two hours.
First, the Harman Kardon CD player was auditioned and compared against the reference DA converter
and its character was noted. After a positive result in blind conditions with the
two different tests objects, they were chosen. Starting the DBT, one person (3)
tossed a coin ten times and wrote down the order on a paper, while the other two persons were
in another room. He made all the switches and was not visible or made any noise to the
test persons during the entire test. The CD players and the back of the preamplifier were
hidden with blankets. The test signal was two identical (verified by data analysis) copies
of a drum session. Each of these was set on repeat on the CD players, with exact matching of
length. For each test, one person made the switching and the other person made the listening
test. The switcher started to switch from CD (neutral) to either Aux 2 (CD player X) or
Aux 3 (CD player Y), without saying anything to the listener. Then the test was continued
with 5-10 seconds of listening at each input with about 1 second delay at neutral,
i.e. a test order of e.g. X - neutral РY Рnetrual РX etc. Since the sound of the CD players
were not synchronised the length of the listening period varied randomly during the test.
This procedure did cause some confusion, since it was not always obvious if a switching had
occurred and made it more difficult for the listener. Nevertheless, when the listener decided
which sound that related to which test object, the switcher noted which input he had chosen,
and the test result was written down. One person (1) conducted six listening trials,
and there was a switch between these two for the remaining four test, i.e. person 1 became
the switcher and person 2 the listener. After ten trials the result was compared to the written
scheme as made from person 3. After this, a second listening test with three trials was conducted
with person 3 as listener, 1 as switcher and 2 as the coin flipper.
Results and discussion
Training session. In the initial training session all listeners concluded that the Harman Kardon
CD player was very similar to the DiAna reference DA converter. A somewhat higher impact in drums
and a little brighter sound than the DiAna was noted.
When the Denon CD player was tested against the Harman Kardon, it became evident that the
Denon CD player had a brighter sound as noted on drums and background noise from the
recording(the noise produced by the CD players was never at audible levels).
Test person 1 was not as familiar with critical listening as person 2 and 3,
and had no previous listening experience with the test objects, although he also noted a
difference when these were tested. The listening session was ended with single blind guesses,
in which most cases were correct (Ÿ0%).
DBT session. The final result from the DBT tests was that 11 out 13 trials were correct.
This corresponds to 85% (p=0.01) correct choices, which is significantly different from
random choice. The two faulty choices came from person 1, who was not as familiar with the system
and had less training than the other two. Also, person 1 suffered from some listening fatigue
after the training session, and may have scored better with a different outlay of the experiment.
For example, listener 1 could have borrowed and listened to the CD players for a while,
before the test was done. The conclusion was however, that there is a 99% probability that the
CD players were audibly different.
Thomas_A skrev:Till sist skulle jag vilja tillägga att ett bygge av en ABX-komparator inte borde vara så svårt och att det skulle vara mycket enklare att genomföra testerna. I LTS regi kanske den skulle heta FEX-komparator.
IngOehman skrev:
Blir ledsen även över att se att mitt inlägg misstolkas, således att någon (berma) försöker få det att verka som om jag menat att vetenskaplighet inte är viktigt, när det jag skrev bara var att om man har att välja mellan antingen:
1. En komplicerad modell som ger snabba resultat, är enkel att använda och som ger fantastisk detektionsförmåga, men som är svår att beskriva,
och:
2. En enkel modell att beskiva, som ger dålig detektionsförmåga,
(både ger samma statistika signifikans)
Vh, iö
IngOehman skrev:Underligt citat du fick till där... Du klippte innan jag avslutat meningen.![]()
Men visst, och saknas det förtroendet - att jag säkerställer att en tillfyllest
signifikans hålles - så bör jag inte få det ansvaret.
Konsekvensen är att jag bör avgår - vilket redan skett.
Ok?
Vh, iö
Thomas_A skrev:Genom att dela ut lapparna till försökspersonerna blir det bättre. Icke angivna svar ignoreras. Antar man 4 i panelen och i snitt 5/10 svar per person skulle det bli n´=20.
IngOehman skrev:Underligt citat du fick till där... Du klippte innan jag avslutat meningen.![]()
Men visst, självklart bygger det på förtroende. Så är det ju nästan
alltid när man väljer någon till en post. Saknas det förtroendet - att
jag säkerställer att en tillfyllest signifikans hålles - så bör jag inte få
behålla det ansvaret.
Konsekvensen är att jag bör avgår - vilket redan skett.
Ok?
Vh, iö
- - - - -
PS. Det här funkar ju precis som inom politiken - sänk någons
förtroende med hjälp av offentlig kritik, och hoppas på att det
får dem att tappa lusten så till den milda grad att de inte orkar
försvara sig, utan väljer att avgå istället.
berma skrev:Kan ni inte beskriva hur ni gör eller hur ni räknar så kan ju ingen utomstående bedöma eller upprepa era tester, då landar det ju bara i er trovärdighet, eg. att ni lovar att det har skett på ett vederhäftigt sätt.
Det känns faktiskt inte särskilt vetenskapligt.
mvh.
berma skrev:Nja, altså jag har respekt för din kompetens och ävern LTS's integritet, dvs. jag tror fortfarande på de resultat ni kommit fram till.
berma skrev:men, om ni har en metod som är bättre an ABX tester så är det väl intressant för alla om den beskrivs.
berma skrev:Och det är just för att behålla trovärdigheten det är viktigt att testmetoderna redovisas öppet.
berma skrev:Jag är inte med i LTS och kan ju egentligen inte ha någon åsikt om du ska avgå eller sitta kvar, men jag tycker det tråkigt om det måste gå så långt.
IngOehman skrev:
Oavsett vilket har jag ställt min plats till förfogande i LTS.
Det skall vara kul att hålla på, annars kan det kvitta, sjöng galenskaparna.
IngOehman skrev:Thomas_A skrev:Till sist skulle jag vilja tillägga att ett bygge av en ABX-komparator inte borde vara så svårt och att det skulle vara mycket enklare att genomföra testerna. I LTS regi kanske den skulle heta FEX-komparator.
Det är just försök med dylik metod som resulterade i att jag valde en annan.![]()
Det skiljde en del på detektionströskeln.
De allra skickligaste lyssnarna, när de hade sina bästa dagar, förmådde nå ned till ungefär samma tröskel med FEX - men "lika bra" är sämre än bättre. I synnerhet när det bara är ibland.
Dessutom tar ett FEX-test (där bara en lyssnare i taget kan lyssna, om det utförst på normalt sätt) oerhört mycket längre tid att genomföra. Det är redan som det är svårt att hinna med allt vi vill testa.
Vh, iö
Thomas_A skrev:
Genom att dela ut lapparna till försökspersonerna blir det bättre. Icke angivna svar ignoreras. Antar man 4 i panelen och i snitt 5/10 svar per person skulle det bli n´=20.
Även det är provat, och det är orsaken till att vi inte gjort så.
Sanny_X skrev:Svante
Hade det inte varit bätre att ta detta på ett LTS-möte eller på något annat sätt lösa tvisten inom föreningen? Detta gynnar inte föreningen.
Thomas_A skrev:Låter som en sån apparat, dock har en ABX tre omkopplingar. Den kända A, den kända B (vilket kan vara F och E) samt en okänd X (som slumpmässigt är antingen A/B eller om man så vill F/E mellan varje omgång).
Fördelen att en vridomkopplare med X i mitten samt A och B ovan/nedan är att man snabbt kan skifta mellan X-A och X-B för direkta jämförelser. Stora nackdelar med AB:
1. I ett AB-test är båda okända och man har ingen direkt jämförelse under testets gång vad som är vad. Det kan leda till att en eller flera gör 8 fel istället för 8 rätt vid en ev hörselskillnad, vilket gör att den summariska statistiken från fler testpersoner blir en soppa.
2. Hörselminnet är kort. Det kan leda till förvirring under testet där enskilda av misstag blandar ihop hur A och B en gång lät och byter så att säga sin preferens för vad som är A och B. Blir också en soppa.
patrikf skrev:Svante, kan du be Jesper Jerkert att kika på detta, om ni har nån kontakt?
Han brukar vara bra på att reda ut sånt här.
n3mmr skrev:1. Kan man (eller någon) höra skillnad mellan F och E? (Dvs egentligen nöjer han sig med svaret på "Hur troligt är det att det finns en hörbar förändring".)
2. Hur svårt är det att höra skillnaden?
3. Vad är det för skillnader man hör?
4. Hur allvarlig är färgningen p g a skillnaden? och i idealfallet
5. Vad ska man tro på för anledning till skillnaden, och hur åtgärdar man den?
patrikf skrev:Svante, jag tänkte mest på att JJ verkar vara bra på att hitta brister i metodik och statistiska resonemang samt att han verkar engagera sig när det finns tveksamheter.
n3mmr skrev:1. Kan man (eller någon) höra skillnad mellan F och E? (Dvs egentligen nöjer han sig med svaret på "Hur troligt är det att det finns en hörbar förändring".)
omedelbart kommer steg
2. Hur svårt är det att höra skillnaden?
n3mmr skrev:Thomas_A skrev:Låter som en sån apparat, dock har en ABX tre omkopplingar. Den kända A, den kända B (vilket kan vara F och E) samt en okänd X (som slumpmässigt är antingen A/B eller om man så vill F/E mellan varje omgång).
Fördelen att en vridomkopplare med X i mitten samt A och B ovan/nedan är att man snabbt kan skifta mellan X-A och X-B för direkta jämförelser. Stora nackdelar med AB:
1. I ett AB-test är båda okända och man har ingen direkt jämförelse under testets gång vad som är vad. Det kan leda till att en eller flera gör 8 fel istället för 8 rätt vid en ev hörselskillnad, vilket gör att den summariska statistiken från fler testpersoner blir en soppa.
2. Hörselminnet är kort. Det kan leda till förvirring under testet där enskilda av misstag blandar ihop hur A och B en gång lät och byter så att säga sin preferens för vad som är A och B. Blir också en soppa.
Det ska väl knappast vara preferenser man letar efter?? Se mer i nästa inlägg..
dimitri skrev:Låt mig säga så här:
LTS och dess f/e metodik är den enda, DEN ENDA, nu tillgängliga objektiva metodiken att värdera apparater. Nyktert och utan jäv.
Den måste bestå-utvecklas-förbättras.
Det kan vara så att metodiken har en större chans att få hifiallmänhetens tilltro utan Svante och Ingvar vid spakarna. OAVSETT hur rätt i sak dessa två må ha i sak.
Svante skrev:n3mmr skrev:1. Kan man (eller någon) höra skillnad mellan F och E? (Dvs egentligen nöjer han sig med svaret på "Hur troligt är det att det finns en hörbar förändring".)
Jajustdet, och den här tråden/mina anmärkningar handlar enbart om 1.
Ska man vara noga så är allt annat OT.
n3mmr skrev:Men att han hävdar det gör övriga frågor till on-topic, t v.
Svante: ...Alltså, man ska inte jämföra LTS F/E-tester med tarotkort eller nåt annat sånt om nu nån trodde att jag menade det. De är bättre än de flesta tester som görs, förmodligen bättre än samtliga andra hifiblaskor. Det är lätt att tappa proportionerna i såna här debatter.
Svante skrev:n3mmr skrev:Men att han hävdar det gör övriga frågor till on-topic, t v.
Ja, ok, det är kanske dumt av mig att försöka hindra tråden från att sväva bort från det jag ville, nämligen konfidens i F/E-tester och varför jag inte kan stå bakom LTS metod (för att räkna ut konfidensen). Jag bara ser hur ämnet kan komma att drunkna i en rökridå av annat. Men jag inser att jag inte kan bestämma det, så kör på.
Svante skrev:Ang AB och ABX:
Jag har aldrig förstått poängen med ABX, jag tycker det verkar jobbigt att jämföra två jämförelser med varandra, men inser att en del tycker att det är enklare. Eftersom jag inte heller ser något metodologiskt problem med ABX, annat än att det kräver en aningen annorlunda utrustning, så kan jag inte säga att den ena är bättre än den andra.
Man kan välja det man vill, helt enkelt, tycker jag.
Svante skrev:Ang AB och ABX:
Jag har aldrig förstått poängen med ABX, jag tycker det verkar jobbigt att jämföra två jämförelser med varandra, men inser att en del tycker att det är enklare. Eftersom jag inte heller ser något metodologiskt problem med ABX, annat än att det kräver en aningen annorlunda utrustning, så kan jag inte säga att den ena är bättre än den andra.
Man kan välja det man vill, helt enkelt, tycker jag.
silvervarg skrev:Däremot hoppas jag att ni läser detta inlägg och begrundar vad som är bäst för LTS (som jag tror att ni båda har ett hjärta som klappar för).
Dessutom vill jag uppmana er att prata direkt med varandra (möjligen per telefon) för att försöka lösa eran personliga dispyt i detta ärende.
n3mmr skrev:Svante skrev:Ang AB och ABX:
Jag har aldrig förstått poängen med ABX, jag tycker det verkar jobbigt att jämföra två jämförelser med varandra, men inser att en del tycker att det är enklare. Eftersom jag inte heller ser något metodologiskt problem med ABX, annat än att det kräver en aningen annorlunda utrustning, så kan jag inte säga att den ena är bättre än den andra.
Man kan välja det man vill, helt enkelt, tycker jag.
Jag har alltid undrat varför man inte faktiskt testar direkt det man säger sig vilja testa, nämligen om det finns en skillnad?
Dvs Spela upp X resp Y. två svar kan ges: X=Y eller X<>Y.
Två fall finns: (X=F, Y=F) resp (X=F, Y=E)
Vari ligger nackdelen med denna metod??
Thomas_A skrev:Poängen med en ABX är ganska uppenbar eftersom hörselminnet är kort. Att man missar en del skillnader pga av detta är uppenbart, vid musiklyssning är ju upplevelsen i samma stund man hör ljudet.
Svante skrev:silvervarg skrev:Däremot hoppas jag att ni läser detta inlägg och begrundar vad som är bäst för LTS (som jag tror att ni båda har ett hjärta som klappar för).
Dessutom vill jag uppmana er att prata direkt med varandra (möjligen per telefon) för att försöka lösa eran personliga dispyt i detta ärende.
Jadå, jag läser. Men även om vi skulle lösa just det som har hänt så ser jag ingen återvändo för mig själv till LTS styrelse. Det går liksom inte oavsett om Ingvar låter sig övertalas tillbaka eller inte. Smällen och insikten var för hård. Och jag är både glad och ledsen för det. Jag är glad för att jag äntligen kan berätta öppet om min kritik mot testet, jag har länge velat öppna upp verksamheten men mött motstånd. Jag är ledsen bla för att det kommer att innebära mindre deltagande i hifisverige.
Men det där var OT.
Svante skrev:n3mmr skrev:Svante skrev:Ang AB och ABX:
Jag har aldrig förstått poängen med ABX, jag tycker det verkar jobbigt att jämföra två jämförelser med varandra, men inser att en del tycker att det är enklare. Eftersom jag inte heller ser något metodologiskt problem med ABX, annat än att det kräver en aningen annorlunda utrustning, så kan jag inte säga att den ena är bättre än den andra.
Man kan välja det man vill, helt enkelt, tycker jag.
Jag har alltid undrat varför man inte faktiskt testar direkt det man säger sig vilja testa, nämligen om det finns en skillnad?
Dvs Spela upp X resp Y. två svar kan ges: X=Y eller X<>Y.
Två fall finns: (X=F, Y=F) resp (X=F, Y=E)
Vari ligger nackdelen med denna metod??
Nackdelen ligger i att man snarare kommer att mäta upp folks benägenhet att lita på sin förmåga. De kan alltid välja att säga att det inte finns någon skillnad. Den som gärna fegar kommer att behöva mer skillnad för att våga säga att den finns.
Om man tvingar folk att välja så gör de så gott de kan och då får man reda på hur bra de kan.
Thomas_A skrev:Svante skrev:n3mmr skrev:Svante skrev:Ang AB och ABX:
Jag har aldrig förstått poängen med ABX, jag tycker det verkar jobbigt att jämföra två jämförelser med varandra, men inser att en del tycker att det är enklare. Eftersom jag inte heller ser något metodologiskt problem med ABX, annat än att det kräver en aningen annorlunda utrustning, så kan jag inte säga att den ena är bättre än den andra.
Man kan välja det man vill, helt enkelt, tycker jag.
Jag har alltid undrat varför man inte faktiskt testar direkt det man säger sig vilja testa, nämligen om det finns en skillnad?
Dvs Spela upp X resp Y. två svar kan ges: X=Y eller X<>Y.
Två fall finns: (X=F, Y=F) resp (X=F, Y=E)
Vari ligger nackdelen med denna metod??
Nackdelen ligger i att man snarare kommer att mäta upp folks benägenhet att lita på sin förmåga. De kan alltid välja att säga att det inte finns någon skillnad. Den som gärna fegar kommer att behöva mer skillnad för att våga säga att den finns.
Om man tvingar folk att välja så gör de så gott de kan och då får man reda på hur bra de kan.
Ovanstående metod är inte bra pga av att den inte har någon känd jämförelse. Dock ska man aldrig tvinga någon att svara vid ett test, utan folk svarar endast om de är säkra eller tror sig veta. Bedömer man att man gissar, ska man hoppa över omgången och försöka på nästa. Frågan man ställer sig är hur pass säker man ska vara för att bedöma att man ska svara? Jo man testar och övar helt enkelt för att kunna få ett mått på vad man ska gå efter. Att de som övat också är skickligare är ju vetenskapligt visat.
Svante skrev:Thomas_A skrev:Poängen med en ABX är ganska uppenbar eftersom hörselminnet är kort. Att man missar en del skillnader pga av detta är uppenbart, vid musiklyssning är ju upplevelsen i samma stund man hör ljudet.
Hehe, ja jag vill som sagt inte tvinga någon att använda AB, men det ovanstående tycker jag just är ett argument för AB, inte ABX. I ABX måste man ju jämföra två jämförelser med varandra. Är X likare A än det är likt B?
n3mmr skrev:Thomas_A skrev:Svante skrev:n3mmr skrev:Svante skrev:Ang AB och ABX:
Jag har aldrig förstått poängen med ABX, jag tycker det verkar jobbigt att jämföra två jämförelser med varandra, men inser att en del tycker att det är enklare. Eftersom jag inte heller ser något metodologiskt problem med ABX, annat än att det kräver en aningen annorlunda utrustning, så kan jag inte säga att den ena är bättre än den andra.
Man kan välja det man vill, helt enkelt, tycker jag.
Jag har alltid undrat varför man inte faktiskt testar direkt det man säger sig vilja testa, nämligen om det finns en skillnad?
Dvs Spela upp X resp Y. två svar kan ges: X=Y eller X<>Y.
Två fall finns: (X=F, Y=F) resp (X=F, Y=E)
Vari ligger nackdelen med denna metod??
Nackdelen ligger i att man snarare kommer att mäta upp folks benägenhet att lita på sin förmåga. De kan alltid välja att säga att det inte finns någon skillnad. Den som gärna fegar kommer att behöva mer skillnad för att våga säga att den finns.
Om man tvingar folk att välja så gör de så gott de kan och då får man reda på hur bra de kan.
Ovanstående metod är inte bra pga av att den inte har någon känd jämförelse. Dock ska man aldrig tvinga någon att svara vid ett test, utan folk svarar endast om de är säkra eller tror sig veta. Bedömer man att man gissar, ska man hoppa över omgången och försöka på nästa. Frågan man ställer sig är hur pass säker man ska vara för att bedöma att man ska svara? Jo man testar och övar helt enkelt för att kunna få ett mått på vad man ska gå efter. Att de som övat också är skickligare är ju vetenskapligt visat.
Har den ju! Man vet ju att X alltid är F.
Svante skrev:Men även om vi skulle lösa just det som har hänt så ser jag ingen återvändo för mig själv till LTS styrelse. Det går liksom inte oavsett om Ingvar låter sig övertalas tillbaka eller inte. Smällen och insikten var för hård. Och jag är både glad och ledsen för det. Jag är glad för att jag äntligen kan berätta öppet om min kritik mot testet, jag har länge velat öppna upp verksamheten men mött motstånd. Jag är ledsen bla för att det kommer att innebära mindre deltagande i hifisverige.
Men det där var OT.
n3mmr skrev:...därför att IÖ förefaller mig hävda att hur svaret på 1 söks och hur diskussionen kring detta sökande bedrivs kan påverka vilka möjligheter man har att veta nåt om vad man hörde.
Jag håller inte med honom om det.
Svante skrev:Ähvafasen...
Jag tar och lägger upp manus till artikeln jag skrev i MoLT nummer 1 i år. Där kan man läsa om hur man gör för att kunna avbryta lyssningsserier i förtid om man får tillräckligt många rättsvar och ändå bibehålla hög konfidens.
http://user.faktiskt.io/svante/om_blindtester.htm
IngOehman skrev:Svante skrev:Men även om vi skulle lösa just det som har hänt så ser jag ingen återvändo för mig själv till LTS styrelse. Det går liksom inte oavsett om Ingvar låter sig övertalas tillbaka eller inte. Smällen och insikten var för hård. Och jag är både glad och ledsen för det. Jag är glad för att jag äntligen kan berätta öppet om min kritik mot testet, jag har länge velat öppna upp verksamheten men mött motstånd. Jag är ledsen bla för att det kommer att innebära mindre deltagande i hifisverige.
Men det där var OT.
Min inställning är, om jag förstår dig rätt, den rakt motsatta:
Jag kan endast tänka mig ett fortsätt deltagandet i LTS' styrelse om vi kan lösa detta och du omvärderar din egen inställning till avhoppet.
Du måste vara med, annars är det helt otänkbart för mig att vara det.
Thomas_A skrev:Svante skrev:Ähvafasen...
Jag tar och lägger upp manus till artikeln jag skrev i MoLT nummer 1 i år. Där kan man läsa om hur man gör för att kunna avbryta lyssningsserier i förtid om man får tillräckligt många rättsvar och ändå bibehålla hög konfidens.
http://user.faktiskt.io/svante/om_blindtester.htm
En omedelbar kommentar. Designen att få veta hur många rätt man har under testets gång och sedan bestämma om man vill fortsätta etc förstår jag inte. Det är bättre att bestämma ett antal omgångar och ett antal personer och inte berätta under testets gång hur det går utan rätta svaren efter testet. Då spelar det ingen roll om man har missing data; uteblivna svar ignoreras.
Svante skrev:Thomas_A skrev:Svante skrev:Ähvafasen...
Jag tar och lägger upp manus till artikeln jag skrev i MoLT nummer 1 i år. Där kan man läsa om hur man gör för att kunna avbryta lyssningsserier i förtid om man får tillräckligt många rättsvar och ändå bibehålla hög konfidens.
http://user.faktiskt.io/svante/om_blindtester.htm
En omedelbar kommentar. Designen att få veta hur många rätt man har under testets gång och sedan bestämma om man vill fortsätta etc förstår jag inte. Det är bättre att bestämma ett antal omgångar och ett antal personer och inte berätta under testets gång hur det går utan rätta svaren efter testet. Då spelar det ingen roll om man har missing data; uteblivna svar ignoreras.
Problemet med den approachen är att man tvingas till många fler (sa du 25?) lyssningar än vad som för det mesta behövs. Statistiken i artikeln håller (även om du inte förstår den), jag har gjort ett program som simulerar metoden (som jag länkade till ovan).
Programmet gör helt slumpmässiga serier och applicerar avbrottskriterierna på dem. Sedan är det bara att räkna hur stor andel av dem som (falskeligen) gav positivt utfall. Gör man en miljon sådana serier i datorn så kommer man mycket nära den verkliga konfidensen.
Det fina med att simulera är att man ser direkt om man har tänkt fel eller inte (tro mig, det har hänt).
...och det fina med metoden är att man inte tröttar ut lyssnarna i onödan.
Vee-Eight skrev:Svante, Öhman:
Är inte det här en diskussion ni två skulle kunna ta över en kaffe istället? Ett forum i allmänhet, detta i synnerhet, är inte rätt ställe för undvikande av missförstånd.
Svante skrev:IngOehman skrev:Svante skrev:Men även om vi skulle lösa just det som har hänt så ser jag ingen återvändo för mig själv till LTS styrelse. Det går liksom inte oavsett om Ingvar låter sig övertalas tillbaka eller inte. Smällen och insikten var för hård. Och jag är både glad och ledsen för det. Jag är glad för att jag äntligen kan berätta öppet om min kritik mot testet, jag har länge velat öppna upp verksamheten men mött motstånd. Jag är ledsen bla för att det kommer att innebära mindre deltagande i hifisverige.
Men det där var OT.
Min inställning är, om jag förstår dig rätt, den rakt motsatta:
Jag kan endast tänka mig ett fortsätt deltagandet i LTS' styrelse om vi kan lösa detta och du omvärderar din egen inställning till avhoppet.
Du måste vara med, annars är det helt otänkbart för mig att vara det.
Ja, det är just det här manipulativa som gör att jag inte vill vara med. Du lägger bollen (skenbart) hos mig, som om det hänger det på mig om LTS ska fortsätta finnas eller inte. Men svaret är alltså nej. Valet om du ska fortsätta är fortfarande ditt.
Svante skrev:Du har ett jobb framför dig att föra in öppenhet i LTS F/E-lyssnande. I det kommer det att uppstå diskussioner och de kommer att vara jobbiga ibland, men när man väl har tagit sig igenom den proceduren, med vilja att förändra, så har man en mycket bättre metod.
Svante skrev:Det jobbet får du och de andra i styrelsen fixa själva. Ni får gärna fråga mig om det är något ni undrar över, men arbetet är ert.
Svante skrev:Jag ser fram emot det metoddokument som beskriver hur LTS framtida F/E-lyssningar ska gå till.
Vee-Eight skrev:Svante, Öhman:
Är inte det här en diskussion ni två skulle kunna ta över en kaffe istället? Ett forum i allmänhet, detta i synnerhet, är inte rätt ställe för undvikande av missförstånd.
m.v.h.
V8, dubbelnegationernas okrönte.
Frutti skrev:Vee-Eight skrev:Svante, Öhman:
Är inte det här en diskussion ni två skulle kunna ta över en kaffe istället? Ett forum i allmänhet, detta i synnerhet, är inte rätt ställe för undvikande av missförstånd.
Bara lite nyfiken. Säger du sånt här som admin eller som dig själv?
Svante skrev:Nja, mitt mål med den här diskussionen är inte att lösa något med Ingvar.
Hur föreningen löser sitt interna arbete och förslag på hur det kan se ut är en fråga vi tar internt.IngOehman skrev:Svante skrev:Nja, mitt mål med den här diskussionen är inte att lösa något med Ingvar.
Det tycker jag är mycket synd.
Mitt förslag är att Svante tar uppdraget som chef för tekniksektionen. Då kan han både ändra testmetodiken, ta ansvar för att tester blir utförda och tillse att de sker i enlighet med hans instruktioner, och förstås även offentligt berätta om hur metodiken ser ut.
Vh, iö
Att lyssna är en förutsättning. Det tackar jag dig för.IngOehman skrev:Ok, jag ser fram emot att lyssna på ditt förslag. Mer än så lovar jag inte.
Vh, iö
Thomas_A skrev:[
Jag menade ett fullständigt jämförelsematerial. Det går ju inte att jämföra F mot E om man så önskar.
n3mmr skrev:Thomas_A skrev:[
Jag menade ett fullständigt jämförelsematerial. Det går ju inte att jämföra F mot E om man så önskar.
I vilket läge anser du att man skall använda referensen??
I inledande träning?
Man avbryter testserien (ev berättar man då hur det har gått, ev inte) och använder nästa slumpade val enbart som en "system check" med resulterande träning.
Sen återupptar man testserien och kör den färdigt enligt designvalet?
Nåt annat sätt? T ex atyt ständigt jämföra med båda?
Man kan ju enkelt kombinera en F-X-test enligt min design med avbrott för system check om man har en ABX-box (helst en AXB, menar jag nog) men under testserien bara använder AX (eller XB) med A=F, X=FellerE, B=E
PekkaJohansson skrev:Trycks enligt de senaste uppgifterna den här veckan, och är förhoppningsvis i brevlådan i nästa! Kan också meddela, när ämnet ändå är på tapeten, att nr 4 närmar sig färdigstadiet.
berma skrev:hur é léget?
är de här frågorna till för att styra upp LTSś tester eller är det mer generellt?
/berma
Svante skrev:Ok, åter till ämnet. Hur ska man göra ett lyssningstest för att både statistiker, lyssnare och frågeställare (= den som söker kunskapen) ska bli nöjda? Bara för att vi ska ha något konkret att utgå ifrån, antag en F/E-lyssning.
Vi har flera frågor som är viktiga. Man kan förstås göra tester utan att utveckla metoden för alla dessa punkter, men jag menar att ju mer man funderar över dem, desto troligare är det att testet visar rätt.
Jag förbereder litegrann och gör varje fråga "bold" redan nu, så blir det lättare att svara.
1. Ska flera personer lyssna samtidigt?
Nej2. Får de avge svar med kunskap om varandras svar?
.
3. Vem ska växla mellan omkopplarlägena? Hur (AB/ABX)?
4. Hur ska slumpmomentet genereras (=det som gör att testet blir blint)?
Lyssnaren ska skriva in i en apparat som inte glömmer.5. Hur ska resultatet antecknas? Skriver lyssnaren eller försöksledaren?
6. Bör man få reda på under testets gång, hur det har gått hittills?
7. Hur bestämmer man när testet ska avbrytas?
Ska bestämmas innan testet. Får inte ändras under gång, om testet ska beaktas.8. När ska avbrottsvillkoren bestämmas. Före eller efter testet? Får man ändra dem under gång?
9. Hur stor konfidens behövs? Är konfidensen viktig?
11. Är det ok att exkludera misslyckade tester?
12. Vilka konfidenskrav ska man ställa på varje serie om man gör flera; bör de vara högre om man gör flera tester?
13. Hur behandlar man data från flera lyssnare? Tex: om en person svarar rätt hela tiden, men de andra ger spridda skurar, kan man titta på bara den som lyckas? Måste statistiken modifieras i sådana fall?
14. Bör man göra pilotlyssningar, dvs öppna lyssningar före det egentliga testet, som inte räknas? När bestämmer man att de inte räknas?
15. Bör man diskutera upplevda skillnader före testet? Under testet? Efter testet?
16. Vem bestämmer vilken kringutrustning (högtalare, programmaterial, CD-spelare etc) som ska användas?
17. Bör/behöver man söka en förklaring till påvisade hörbara skillnader?
18. Hur noga behöver man matcha triviala skillnader såsom nivå/tonkurva?
19. Är det en fördel om metod och rådata redovisas? Detaljerat?
20. Finns det någon metod att avgöra hur stor skillnaden är, om den är hörbar?
21. Finns det några vetenskapliga krav som saknar betydelse för vanligt folk?
Listan blev visst ganska lång.Jag försökte gruppera dem, men de flätar i varandra så att det blir bara rörigt. De får stå som de är.
Jag ser flera kombinationer av svar på frågorna som kan ge bra testmetoder och det är möjligt att man måste kompromissa för att optimera helheten. Svaren på frågorna gäller alltså just den metod som ni föredrar. Jag har själv ett eller flera egna förslag och andra har kommit upp tidigare i tråden, men innan jag och ni börjar svara på frågorna ovan; finns det fler viktiga frågor? (Jag redigerar och lägger till dem i detta inlägg om de kommer)
Thomas_A skrev:12. Vilka konfidenskrav ska man ställa på varje serie om man gör flera; bör de vara högre om man gör flera tester?
*Utveckla frågan.
Svante skrev:Hmm, det slår mig, Tomas_A, att jag inte är säker på hur du menar att lyssningen ska gå till praktiskt.
Kaffekoppen skrev:
Ber resterande Faktisktmedlemmar om ursäkt för att ni tagit del av LTS starka viljor
n3mmr skrev:.
3. Vem ska växla mellan omkopplarlägena? Hur (AB/ABX)?
Nån som inte är där
n3mmr skrev:9. Hur stor konfidens behövs? Är konfidensen viktig?
Behövs??? Hur långt är ett snöre? Hur mycket pengar måste man tjäna?
n3mmr skrev:11. Är det ok att exkludera misslyckade tester?
Förklara närmare vad du menar
n3mmr skrev:13. Hur behandlar man data från flera lyssnare? Tex: om en person svarar rätt hela tiden, men de andra ger spridda skurar, kan man titta på bara den som lyckas? Måste statistiken modifieras i sådana fall?
Då ska man undra över hur dubbelblint det hela är, och jaga dolda agendor...
n3mmr skrev:16. Vem bestämmer vilken kringutrustning (högtalare, programmaterial, CD-spelare etc) som ska användas?
IÖ???
Svante???
Fråga nåt som kan besvaras....
n3mmr skrev:21. Finns det några vetenskapliga krav som saknar betydelse för vanligt folk?
Alla krav. Utan undantag. Vanligt folk har ingen aning om vad det innebär att veta nåt eller varför man skulle vilja förstå nåt alls om nånting.
n3mmr skrev:20. Finns det någon metod att avgöra hur stor skillnaden är, om den är hörbar?
Hur stor konfidens som uppnås per lyssnare och för olikla utsnitt av lyssnare
( x av y lyssnare hör skillnad med z % konfidens, x1 av y1 med z1 %...)
Kaffekoppen skrev:Ber resterande Faktisktmedlemmar om ursäkt för att ni tagit del av LTS starka viljor
Kaffekoppen skrev:
berma,
Resterande tråd handlar enbart om testning i största allmänhet och har ingen koppling till LTS. Däremot är det inget som säger att LTS, liksom alla övriga intresserade av testning kan ha materialet som diskussionsunderlag vid egna sammankomster. Sådanna resultat som erhålls där redovisas för medlemmarna.
dimitri skrev:ursäkta sjabblet
Men ändå poängen är att det räcker med att en person konsekvent prickar rätt i långa serier för att skillnad skall anses föreligga. Men då ska det vara dubbelblint utan möjligheter till fusk.
berma skrev:Kaffekoppen skrev:
berma,
Resterande tråd handlar enbart om testning i största allmänhet och har ingen koppling till LTS. Däremot är det inget som säger att LTS, liksom alla övriga intresserade av testning kan ha materialet som diskussionsunderlag vid egna sammankomster. Sådanna resultat som erhålls där redovisas för medlemmarna.
Man kan alltså inte förvänta sig en öppen debatt om LTSś testmetoder?
hemliga klubben?
Svante skrev:dimitri skrev:ursäkta sjabblet
Men ändå poängen är att det räcker med att en person konsekvent prickar rätt i långa serier för att skillnad skall anses föreligga. Men då ska det vara dubbelblint utan möjligheter till fusk.
Ja det är jag med på. Och nyckelordet här är "långa" tror jag, och serierna behöver bli längre om man ska bibehålla signifikansen med många ickehörande lyssnare.
Svante skrev:Hmm, det slår mig, Tomas_A, att jag inte är säker på hur du menar att lyssningen ska gå till praktiskt.
Får man höra först F, sedan E eller tvärtom, men endast en gång och ska sedan tala om vilken som är vilken, eller tänker du att man får växla så många gånger man vill innan man avger svar?
Svante skrev:Thomas_A skrev:12. Vilka konfidenskrav ska man ställa på varje serie om man gör flera; bör de vara högre om man gör flera tester?
*Utveckla frågan.
Alltså, tex två lyssningssessioner. Bör man kräva 99,5% konfidens i dem om man strävar efter totalt 99% konfidens? Eller har du nåt magiskt sätt att räkna samman rubbet i en totalanalys som gör att kraven före testet inte behöver ökas till 99,5%?
:)berma skrev:Kaffekoppen skrev:
berma,
Resterande tråd handlar enbart om testning i största allmänhet och har ingen koppling till LTS. Däremot är det inget som säger att LTS, liksom alla övriga intresserade av testning kan ha materialet som diskussionsunderlag vid egna sammankomster. Sådanna resultat som erhålls där redovisas för medlemmarna.
Man kan alltså inte förvänta sig en öppen debatt om LTSś testmetoder?
hemliga klubben?
dimitri skrev:Håller med dig kk även om du kanske kan ha tolkat Bermas inlägg lite hårt.
Omvänt, bara som en tankeövning, skulle man kunna säga:
"Det är oförskämt av LTS, en förening som har utvecklat en metod, intern budget osv, att profitera på expertisen i ett forum och få gratis råd om hur de av föreningen använda metoder kan förbättras/utvecklas. Det borde betala för det. Det enda acceptabla är att föra denna diskussion internt"
Obs att det var ett hypotetiskt argument för att det är fel att vara öppen.
Vi har haft slitande gräl om LTS's slutenhet osv.
berma skrev:Problemet är ju att tre mindre bra lyssnare ett testtillfälle kan godkänna en mindre bra apparat, medan tre mycket kritiska lyssnare ett annat testtillfälle underkänner en kanske bättre apparat.
dimitri skrev:Svante skrev:dimitri skrev:ursäkta sjabblet
Men ändå poängen är att det räcker med att en person konsekvent prickar rätt i långa serier för att skillnad skall anses föreligga. Men då ska det vara dubbelblint utan möjligheter till fusk.
Ja det är jag med på. Och nyckelordet här är "långa" tror jag, och serierna behöver bli längre om man ska bibehålla signifikansen med många ickehörande lyssnare.
Japp.
Samma förutsättningar som ovan fast serielängden är 100 växlingar
gen en tabell (9 pers får slumpartade resultat, en kammar hem alla 100)
500/500
550/450
ger p=0,028
Faktiskt inte illa.
Thomas_A skrev:Svante skrev:Hmm, det slår mig, Tomas_A, att jag inte är säker på hur du menar att lyssningen ska gå till praktiskt.
Får man höra först F, sedan E eller tvärtom, men endast en gång och ska sedan tala om vilken som är vilken, eller tänker du att man får växla så många gånger man vill innan man avger svar?
Hur många gånger man vill.
dimitri skrev:Vi har haft slitande gräl om LTS's slutenhet osv.
berma skrev:
Problemet är ju att tre mindre bra lyssnare ett testtillfälle kan godkänna en mindre bra apparat, medan tre mycket kritiska lyssnare ett annat testtillfälle underkänner en kanske bättre apparat.
Svante skrev:
Nja... Det här är en intressant diskussion. Alltså p=0,028 betyder att man har detekterat en skillnad och att det är rätt säkert att det är så. Men det faktum att det behövdes 1000 lyssningar för att nå dit betyder antingen att det var ruskigt svårt att höra skillnaden, eller som här att det var ruskigt få som hörde den.
Det är skillnad på signifikans och skillnadens storlek.
Fast det vet du ju, det är ingen kritik alltså, bara en reflexion.
dimitri skrev:Man skulle då också fråga sig hur viktiga dessa skillnader är när bara en av 10 vana lyssnare hör dessa.
berma skrev:Även om F/E-tester, med sina uppenbara brister, är det bästa sättet vi har idag att för att utröna om en apparat är dålig behöver det ju inte betyda att man stannar där. F/E-test är ju en hyfsat kraftfull metod för att visa att en apparat inte förvränger signalen hörbart, en svaghet är ju att man inte kan få ett mätetal på hur stor förvrängningen är då man väl detekterar en apparat.
På 70-talet försökte man ju hitta nya mätmetoder för att mäta på förstärkare, TIM, DIM, SID och allt vad de hette förutom då THD och IM. Ett sätt att försöka få mer objektiva mätmetoder kanske kan vara att mha. F/E-test försöka hitta tröskelvärden för sådant man kan mäta elektriskt.
Svante, skulle det kunna vara en uppgift för någon doktorand eller ex-jobbare?
Bamsefar skrev:Hmmm....
Svante, är detta upptackten till hur högtalartävligen skall utvärderas eller ?
Svante skrev:Inte för att jag vill nedvärdera tävlingsbidragen, men jag kan lova att alla kommer att gå att skilja från varandra, även blint. Det intressanta är väl att få fram vilket som låter bäst, och den utvärderingen måste vara subjektiv. Men blind.
Jag kan ödmjukt säga att det sker mer än du vetMayro skrev:med den resultatlisa LTS uppvisar här http://www.lts.a.se/teknik/rekommenderat.html
så kan sk "tester" helt o hållet skrotas i LTS regi anser jag. Logiken att dom skall anses ens snudda vid trovärdighet är totalt uteslutet.
Så starta att före ni "gör om något" att skapa ens en metod värd namnet. .. Det vore sabla mycket bättre..
Kaffekoppen skrev:LTS borde, och kommer göra om sin hemsida alldeles radikalt
Kaffekoppen skrev:Jag kan ödmjukt säga att det sker mer än du vetMayro skrev:med den resultatlisa LTS uppvisar här http://www.lts.a.se/teknik/rekommenderat.html
så kan sk "tester" helt o hållet skrotas i LTS regi anser jag. Logiken att dom skall anses ens snudda vid trovärdighet är totalt uteslutet.
Så starta att före ni "gör om något" att skapa ens en metod värd namnet. .. Det vore sabla mycket bättre..
Jag kan lika ödmjukt säga att LTS borde, och kommer göra om sin hemsida alldeles radikalt
markih skrev:
Det som avhandlas är statistik och detaljer vid praktiskt utförande, ingen kritik mot Före/Efter-metoden som princip efter vad jag kunnat se.
Tyvärr lade mig nu i debatten och jag drar mig lika fort ur. Jag önskar bara att debatten inte kidnappas via osakliga inlägg. Hoppas moderatorer har ögonen öppna och styr upp osakligheter, så att saklig diskussion kan fortgå.
Mayro skrev:Kaffekoppen skrev:Jag kan ödmjukt säga att det sker mer än du vetMayro skrev:med den resultatlisa LTS uppvisar här http://www.lts.a.se/teknik/rekommenderat.html
så kan sk "tester" helt o hållet skrotas i LTS regi anser jag. Logiken att dom skall anses ens snudda vid trovärdighet är totalt uteslutet.
Så starta att före ni "gör om något" att skapa ens en metod värd namnet. .. Det vore sabla mycket bättre..
Jag kan lika ödmjukt säga att LTS borde, och kommer göra om sin hemsida alldeles radikalt
nu var det inte hemsidan det gällde utan sakerna som denna urbota osannolika sk testmetod tagit fram som rekomenderade kaffekoppen..
Sådan medioker lresultat ista kan ingen hemsida i världen göra om till mer än det är oavsett utseende.. DVS totalt ej trovärdig..
Man behöver inte vara einstain för att fatta att detta helt enkelt inte KAN stämma... Ren logik är allt som krävs. Samt eget tänkande. Inte ett skit mer eller mindre krävs...
edit.
Men för jag inte "tror" blint på tomtar o troll" så får ni ju göra detta för mig. Så inga problem alls. Och diskutionen behöver inte fortsätta här. Ni vill "tro" och detta är ok för mig.. Inga problem alls..
tro försätter ju berg har man hört...![]()
Så lämnar jag tråden nu..På så vid slipper ni troende bli sura alternativt surare än ni redan ev blitt på nig....
edit.
Men för jag inte "tror" blint på tomtar o troll" så får ni ju göra detta för mig. Så inga problem alls. Och diskutionen behöver inte fortsätta här. Ni vill "tro" och detta är ok för mig.. Inga problem alls..
tro försätter ju berg har man hört...
Så lämnar jag tråden nu..På så vid slipper ni troende bli sura alternativt surare än ni redan ev blitt på nig.. ..
dimitri skrev:Kan hålla med dig Svante om att KES metod kan vara acceptabel av de skäl du anför. Det är bättre att ha en metod som inte tröttar ut allt för mycket och som används med bibehållen entusiasm, samtidigt som den låter generera pålitliga resultat. Det viktigaste är att säkerställa dubbelblindhetsprincipen och icke kommunikation deltagarna emellan medan testet pågår..
Trots allt är det ju så att f/e test används inom LTS och för LTS. Ingen annan. Vill man ha synpunkter får man ha det som LTS medlem, speciellt om synpunkterna är kritiska. (nu kastar Dimitri sten i glashuset såsom en icke LTS medlem).
Svante, har du gått ur LTS eller "bara" ur styrelsen? Det finns en teknisk sektion inom LTS om jag kommer ihåg rätt. Har du tackat nej till att vara där?
Mayro skrev:Så lämnar jag tråden nu..På så vid slipper ni troende bli sura alternativt surare än ni redan ev blitt på nig.. ..
berma skrev:F/E-test är ju en hyfsat kraftfull metod för att visa att en apparat inte förvränger signalen hörbart...
berma skrev:...en svaghet är ju att man inte kan få ett mätetal på hur stor förvrängningen är då man väl detekterar en apparat.
berma skrev:Suck, jo IÖ jag känner till vetenskapens första tes, om du läser ett inlägg jag gjort tidigare har jag kommenterat just det.
Men jag uttryckte mig naturligtvis slarvigt jag medger det.
Det jag menar är att vid det läge där man nätt och jämt kan detektera något vid en f/e-lyssning bör man också kunna mäta en förvrängning, då skulle man också kunna få ett mått på när en förvrängning är hörbar.
Jag menar att om ,man kan höra en förvrängning/färgning kan man också mäta den.
f/e-lyssning skulle kunna var ett sätt att lista ut vad/hur man ska mäta.
IngOehman skrev:I övrigt är det intressant (och lite skrämmande) att se hur mycket åsikter om metoder, detektionseffektivitet och statistik som råder. Det är uppenbart att det finns bättre sätt att skaffa sig vetenskapligt pålitliga och detektionsmässigt kraftfulla metoder, än att fråga vad folk tycker och tror om olika testmetoder...
dimitri skrev:Kan hålla med dig Svante om att KES metod kan vara acceptabel av de skäl du anför. Det är bättre att ha en metod som inte tröttar ut allt för mycket och som används med bibehållen entusiasm, samtidigt som den låter generera pålitliga resultat. Det viktigaste är att säkerställa dubbelblindhetsprincipen och icke kommunikation deltagarna emellan medan testet pågår..
Svante skrev:Metoderna säger ofta att en ökad datamängd ger ökad konfidens, men det som sällan är med i den beräkningen är den trötthet som infinner sig hos lyssnarna om man mjölkar mer data ur dem.
Magnuz skrev:Svante skrev:Metoderna säger ofta att en ökad datamängd ger ökad konfidens, men det som sällan är med i den beräkningen är den trötthet som infinner sig hos lyssnarna om man mjölkar mer data ur dem.
Det där är intressant. Man kunde ju försöka studera om det finns något samband mellan svarens korrekthet och tidpunkten för svarets avgivande.
Svante skrev:...Den brukar tas om hand med någon sorts intuitivt förnuft av försöksledarna, när de ser att FP blir trötta.
Mayro skrev:Man behöver inte vara einstain för att fatta att detta helt enkelt inte KAN stämma... Ren logik är allt som krävs. Samt eget tänkande. Inte ett skit mer eller mindre krävs...
IngOehman skrev:Svante skrev:...Den brukar tas om hand med någon sorts intuitivt förnuft av försöksledarna, när de ser att FP blir trötta.
Intuitivt förnuft är väldigt bra. Det borde användas mera sådant.
Thomas_A skrev:Trötthetssymptomet (som kommer av intensiv koncentration) borde kunna lösas genom att man inte testar så många apparater per tillfälle. Max 2. Man kan alltid ha ett par till vid ett annat tillfälle.
Det jobbiga är ju att lyssna igenom en massa testmusik och träna på plats. Det finns ju alternativ till detta, men kräver lite andra resurser. Exempelvis skulle man kunna spela in före och eftersavsnitt (med antagande att felen i eftersignalen fångas på ett inspelat material) och skicka dem till en lyssnarpanel som får använda dem hur de vill (ABX, ljudkort/dator, hörlurar, sin egen anläggning) för att träna på dem någon månad innan man träffas. Då kan man börja att diskutera vad man tror skulle vara bäst att att testa och gå direkt på detta.
Kanske det blir svårt att anordna då man måste ha apparatur vid två tillfällen, ett när någon spelar in materialet och sedan när man träffas (om man inte vill använda det inspelade materialet igen vid det blinda testet naturligtvis).
Svante skrev:IngOehman skrev:Svante skrev:...Den brukar tas om hand med någon sorts intuitivt förnuft av försöksledarna, när de ser att FP blir trötta.
Intuitivt förnuft är väldigt bra. Det borde användas mera sådant.
Nja, kanske, fast ibland kan det slå fel, speciellt när det gäller statistik.
IngOehman skrev:Det tycker jag borde användas så lite som möjligt. Själv använder jag det aldrig.![]()
![]()
silvervarg skrev:Eftersom alla F/E-lyssningar av LTS hittills tydligen har klarat minst 99% signifikans så <snip>...
Harryup skrev:Varför har LTS bara en testgrupp/plats? Om det fanns flera platser skulle resultat kunna ställas mot varandra och man skulle kunna hinna testa fler apparater. [...]
markih skrev:Svante!
En hypotetisk fråga, som tydliggör åsiktsskillnaderna:
Du utför test med 3 personer som lyssnar på en och samma apparat. Varje test innehåller 10 svar av vardera personen. Detta test upprepas vid 100 olika tillfällen. Nu har du 3000 svar. En person har svarat rätt alla gånger, dvs 1000 rätt av 1000 möjliga, de andra två 500 fel/500rätt, dvs slumpmässigt.
Jag tycker att den rimliga tolkningen är att en snubbe hör skillnad och de andra inte och dennes serie bör behandlas för sig. Om testet inte hade utförts 100 ggr, utan bara en gång, hade det intuitivt inte känts lika klart att skillnaderna låg hos lyssnaderna. Kanske finns det tråden redovisat en statistikbehandling som lyckas separera skillnader hos testobjekt och hos lyssnare?
Vad säger du eller andra?
markih skrev:Svante!
En hypotetisk fråga, som tydliggör åsiktsskillnaderna:
Du utför test med 3 personer som lyssnar på en och samma apparat. Varje test innehåller 10 svar av vardera personen. Detta test upprepas vid 100 olika tillfällen. Nu har du 3000 svar. En person har svarat rätt alla gånger, dvs 1000 rätt av 1000 möjliga, de andra två 500 fel/500rätt, dvs slumpmässigt.
Jag tycker att den rimliga tolkningen är att en snubbe hör skillnad och de andra inte och dennes serie bör behandlas för sig. Om testet inte hade utförts 100 ggr, utan bara en gång, hade det intuitivt inte känts lika klart att skillnaderna låg hos lyssnaderna. Kanske finns det tråden redovisat en statistikbehandling som lyckas separera skillnader hos testobjekt och hos lyssnare?
Vad säger du eller andra?
Thomas_A skrev:Det som Svante varit inne på tidigare om att avbryta i "förtid" och att statistiken ändras gäller om man får förhandsinformation. Antag exemplet ovan och man avbryter så fort man vet att man fått ett fel. Då kommer man att selektera fram många fler positiva eftersom man aldrig kommer att få två fel i rad, dock kommer det att hända att man får flera positiva i rad.
3/4
0/1
2/3
0/1
1/2
4/5
0/1
1/2
3/4
2/3
0/1
=
16/27
Vill man ha förhandsinformation måste man slutföra alla tester. Om man dock inte väljer att få förhandsinformation kan man hoppa över så många man känner för och endast svara när "allt faller på plats".
patrikf skrev:Nu har jag mailat Jesper Jerkert och frågat om han vill komma med nån synpunkt om trådens diskussion.
dimitri skrev:Redan i andra inlägget har perstromgren påpekat att ämnet var uppe i tråden
http://www.faktiskt.se/modules.php?name ... ic&t=11616
Det är värt att läsa om den "gamla" tråden, nu med perspektivet från denna tråd.
JAg förstår nu Svantes egentliga agenda i den förra tråden.
dimitri skrev:Det är också mycket lättare att förstå argumentväxling mellan Svante och Ingvar. Båda två visste vad upprinnelsen till Svantes tråd medan vi andra fick agera naiva hjälpsamma statister. Så där i efterhand känner jag mig lite lurad eller som en naiv idiot i och med mitt deltagande i den gamla tråden. Det är faktiskt bättre (för mig) att veta anledningen till frågeställningen så att jag kanske kan bidra med ngt nyttigt.
Det kanske inte är så bra ur ett föreningsperspektiv, jag tror dock, som Candide, att allt som sker det sker till det bästa.
På tal om äkta/matematisk statistiskt expertis. Den finns förvisso. Det kan dock bli kontraproduktivt i vissa sammanhang att anlita denna expertis. En matematisk/teoretisk statistiker måste sättas in i sammanhanget, f/e metodiken och mycket annat. Det tar lång tid att få denna att förstå Svante och Svante att förstå den teoretiska statistikern. Det finns profilerade statistiker, t.ex. inom den epidemiologiska forkningen med dess specifika frågeställningen, t.ex. tidsutdräktens betydelse (Cox regression). Det finns många subspecialiteter inom statistiken- ekonomi, medicin.
dimitri skrev:Det synes som att flera av deltagarna i tråden besitter tillräckliga kunskaper i statistik och vetenskapsteori för att kunna ha åsikter och idéspåna här i tråden. Främst tänker jag på Herr Dahlqvist.
Edit: Faktum är att det har nog aldrig framgått hururvida Dahlqvist en man eller en kvinna. Om jag hade fel ovan så förlåt mig fru (fröken?) Dahlqvist!
Svante skrev:Thomas_A skrev:Det som Svante varit inne på tidigare om att avbryta i "förtid" och att statistiken ändras gäller om man får förhandsinformation. Antag exemplet ovan och man avbryter så fort man vet att man fått ett fel. Då kommer man att selektera fram många fler positiva eftersom man aldrig kommer att få två fel i rad, dock kommer det att hända att man får flera positiva i rad.
3/4
0/1
2/3
0/1
1/2
4/5
0/1
1/2
3/4
2/3
0/1
=
16/27
Vill man ha förhandsinformation måste man slutföra alla tester. Om man dock inte väljer att få förhandsinformation kan man hoppa över så många man känner för och endast svara när "allt faller på plats".
Hmm, var det där kritik mot "min" metod? I sådana fall måste jag förklara lite till för det är inte så avbrottsvillkoren ser ut:
Jag lyssnar tills jag har fått tillräcklig konfidens alternativt har gjort fler än fler än x fel. Väljer jag designen 7-13-16 försöker jag först få 7 rätt i rad, därefter om jag får ett fel försöker jag få 10 av 11, får jag två fel försöker jag få 14 av 16.
Jag har släppt att beräkna konfidensen (det går iofs, men beräkningen, som jag har gjort den kräver en beräkningsmängd som växer exponentiellt med antalet lyssningar, och det vet vi ju att exponentiell tillväxt är snabb) utan jag simulerar den i stället.
Jag bestämmer alltså avbrottsvilkoren och låter datorn göra en miljon "lyssningar" utan att höra något alls. Datorns svar är alltså helt slumpmässiga. På den miljonen svar råkar några uppfylla villkoren (av en slump), några svar är alltså falkskeligen positiva och genom att räkna dem kan jag få reda på konfidensen jag får med jusgt de avbrottsvillkoren.
Är du med på det?
Hmm, eller är det så att du menar att de data som kommer ur "mitt" sätt att lyssna inte lämpar sig att applicera "din" typ av statistik på? Det kan jag mycket väl tänka mig, eftersom man som du säger selekterar fram fler positiva på det sättet.
Det gäller inte bara mitt sätt utan även LTS sätt, om jag förstår det rätt.
I sådana fall har vi ytterligare ett skäl att bestämma utvärderingsmetoden och gränserna före testet i stället för i efterhand, har jag rätt i det?
Jo, så måste det vara du menar. Det betyder alltså att man förlorar konfidens för långa serier och att serierna behöver vara längre med mitt sätt. Ändå... Fördelen med att man som regel inte behöver de långa serierna utan att man får bryta tidigt tycker jag överväger. Det är ju trots allt så i de flesta fall att en skillnad antingen hörs ganska lätt eller inte alls. Det är bara precis gränsfallen som kräver långa serier för att uppnå konfidens.
Å ena sidan är det då illa att man behöver trötta ut lyssnaren lite mer just när det är som jobbigast (med min metod), å andra sidan är det troligt att man gör flera tester en kväll och fasen vet om man inte i snitt får färre lyssningar innan det där svåra gränsfallet kommer, om man applicerar min metod.
Klurigt det här...
Svante skrev:silvervarg skrev:Eftersom alla F/E-lyssningar av LTS hittills tydligen har klarat minst 99% signifikans så <snip>...
Det är det jag har ifrågasatt. Med den nuvarande metoden är det mycket svårt att räkna ut vad konfidensen egentligen är.
Thomas_A skrev:Svante,
ett lyssningstest bör i första hand läggas upp så att det är störst chans att lyckas höra skillnad, innebärande en god träning och selektion av sådana som i träningen verkar höra en skillnad (genom att genomföra blindtester under träningen). Sådana som inte hör skillnad kan ju behöva mer träning eller så är det nåt annat.
I sin enklaste form är det binomial/normaltest som behöver göras. Vill man komplicera testet så måste man ha fler n, för att göra Fishers test och testa observationerna mot varandra. Men det ska inte behövas egentligen.
Jag tycker att sätta krav (dvs "du måste ha xx antal rätt av yy möjliga") är onödigt. Att helt enkelt välja ett mål på 20-25 svar totalt för en session torde vara det allra enklaste (är man 4 lyssnare med 10 omgångar ges maximalt 40 svar). Svar ska ges när en lyssnare är säker eller har en viss aning om vad som är vad. Dock ska man inte vildgissa, då ska man hoppa över en omgång istället och koncentrera sig på nästa. Tappar man koncentrationen efter 4-5 omgångar kan man vila och göra nytt försök exempelvis de två sista. Sen rättar man och gör beräkningar, och kan konstatera resultatet.
silvervarg skrev:Jag tycker att det har framkommit en del kloka synpunkter i debatten.
Farmförallt att de största svagheterna vid testningen troligen inte är statistiken utan andra faktorer. T.ex. olika duktiga lyssnare vid olika tester, trötthetsfaktorer, är det apparat 1 eller 3 som testas denna kväll etc.
silvervarg skrev:Kanske är det viktigare att titta på hur man kan få bättre kontroll på dessa faktorer än exakt hur mätdatat skall tolkas och hur många tester som behövs.
silvervarg skrev:Grunden vid nästan all typ av förbättringsarbete är att först analysera var den största svagheten finns och sedan försöka förbättre där. Ganska logiskt och enkelt om man tänker efter.
silvervarg skrev:Eftersom alla F/E-lyssningar av LTS hittills tydligen har klarat minst 99% signifikans så finns det inte mycket att vinna på detta område, så innan alla övriga områden har gåtts igenom är det inte så vettigt att lägga kraft på att ändra i detta område.
silvervarg skrev:Det största problemet med LTS tester för allmänheten är dock inte testets utformning eller dess statistiska säkerhet, utan att listan med apparater som passerat testet är alldeles för liten och innehåller främst mycket gamla apparater.
Dessutom vore det intressant att veta vilka apparater som har testats.
Svante skrev:Ok, boss...![]()
Svante skrev:Ok, boss...![]()
Morello skrev:Ingvar och Dr. Svante,
Vore det inte enkelt att scanna in ett test-protokoll och sedan får ni, redovisa varsin beräkning, varpå vi kan se om diskrepans föreligger?
IngOehman skrev:
1. Det är svårt att skriva ett testprotokoll så att det förmedlar all den information som fanns vid testtillfället.
Morello skrev:IngOehman skrev:
1. Det är svårt att skriva ett testprotokoll så att det förmedlar all den information som fanns vid testtillfället.
I vilket avseende skulle det vara svårt att dokumentera hur folk svarat samt vem som svarat först i de fall där flera avgivit svar? Jag ser inte svårigheten.
dimitri skrev:En IÖ spåning:
En liten reflektion om vetenskapens första tes:
Det har gått ett antal år sedan Popper formulerade sin tes om förkastande av nollhypotes.
En hel del har hänt sedan dess.
Poppers tes, eller det nu rådande vetenskapliga paradigmet, gäller givetvis. Lite cirkulärt kan man säga att tesen gäller ty det nu rådande vatenskapliga paradigmet gäller. Allt gott och väl. Jag tillämpar dessa idéer själv, det är logiskt och klokt.
Men:
Alltså ett stort "MEN".
Ponera att jag bestämmer mig att vetenskapligt, t.ex. inom en Institution för Sociologi, undersöka de mänskliga mekanismerna som har gjort det möjligt för den galenskap som rådde i Tyskland 1933-45 och som ledde till en human katastrof utan dess like.
Såsom naturvetare plockar jag min Popper från bokhyllan. Men hur noggrant jag än läser finner jag inga ledtrådar. Jag måste leta på andra håll.
Jag kommer fram till Husserl, Jakobson oa. dvs kvalitativ forskning. till skillnad från den i naturvetenskaperna tillämpade kvantitativa forskningen.
Ingen kan påstå att min frågeställning är mindre viktig än f/e statistiken.
Kaffekoppen skrev:berma,
på vilka grunder för du fram de frågeställningarna?
Kaffekoppen skrev:berma,
på vilka grunder för du fram de frågeställningarna?
berma skrev:Kaffekoppen skrev:berma,
på vilka grunder för du fram de frågeställningarna?
LTS vill inte beskriva den metod man kallar F/E-lyssning, LTS kan tydligen inte dokumentera vad som händer under testerna, LTS vil inte publicera några testprotokoll, LTS lägger munkavle på de personer som försöker debattera testerna.
Samtidigt talar man högt och lågt om vetenskapliga principer, jag undrar på vilka vetenskapliga principer LTS lyssningar bygger på?
dimitri skrev:berma skrev:Kaffekoppen skrev:berma,
på vilka grunder för du fram de frågeställningarna?
LTS vill inte beskriva den metod man kallar F/E-lyssning, LTS kan tydligen inte dokumentera vad som händer under testerna, LTS vil inte publicera några testprotokoll, LTS lägger munkavle på de personer som försöker debattera testerna.
Samtidigt talar man högt och lågt om vetenskapliga principer, jag undrar på vilka vetenskapliga principer LTS lyssningar bygger på?
Drar du denna slutsats från denna tråd? Uppenbarligen ja, eftersom du skriver i tråden.
Då är min uppfattning den motsatta. Åtminstone ut denna tråds perspektiv.
Kaffekoppen skrev:Nä, jag visste inte ens att några inlägg var bortagna ur tråden
Svante skrev:Nja, jag kanske ska förtydliga, då, varför jag tog bort inläggen. Berörda parter har stämt träff inom den närmsta framtiden och jag tror att kaffekoppen vill att vi tar vad vi har att säga där.
Det är bara vanlig hyfs som fick mig att ta bort inläggen, LTS har inga maktmedel som kan få mig att göra det. När jag vill skriva här så gör jag det.
Det är okej! Men din intryck är rätt felaktigt. Däremot är det bra att det framkommer att det kan uppfattas så. Du borde läsa igenom testredovisningarna som skrivits och komma med fler synpunkter. De är välkomna.berma skrev:Ursäkta att jag la mig i men jag blev så störd av allt tal om vetenskap, samtidigt som jag nog inte får intrycket att LTS lyssningar bygger på vetenskap.
berma skrev:Vilken vetenskaplig princip säger att man inte ska beskriva den metod man använder?
Vilken vetenskaplig princip säger att man inte ska dokumentera sina resultat?
Vilken vetenskaplig princip säger att man inte ska publicera sina resultat?
Vilken vetenskaplig princip säger att man inte ska tillåta granskning?
berma skrev:Vi, eller åtminstone jag, hoppas att det mötet resulterar i att LTS tar fram en beskrivning av sin metod och sitt sätt att räkna, samt att det publiceras.
berma skrev:Ursäkta att jag la mig i men jag blev så störd av allt tal om vetenskap, samtidigt som jag nog inte får intrycket att LTS lyssningar bygger på vetenskap.
IngOehman skrev:Den övervägande delen vetenskaplig forskning som sker i världen sker helt utan redovisning. Jag undrar om det kan vara så att du blandar ihop vetenskapliga principer med akademisk praxis? Det är två helt skilda ting. Båda kan vara bra, men det är inte samma sak.
IngOehman skrev:berma skrev:Vi, eller åtminstone jag, hoppas att det mötet resulterar i att LTS tar fram en beskrivning av sin metod och sitt sätt att räkna, samt att det publiceras.
Det är inte troligt. Dels har beskrining redan formulerats, och dels har denna debatt gjort att minst två av de inblandade har förlorat lusten att alls vara kvar och hålla på med någon LTS-verksamhet.
IngOehman skrev:Du protesterar mot något annat än det jag skrev. Din protest handlar ju bara om den akademiska världen, om jag förstår dig rätt, vilket var just den som jag inte pratade om.
Vh, iö
Kaffekoppen skrev:Du är fri att tycka vad du vill, men eftersom du saknar kunskapen att bedömma det vetenskapliga tillvägagångsättet är det svårt att föra ett resonamang med dig.
berma skrev:Kaffekoppen:
Jag tror inte du förstod min kritik, jag menar att alla typer av tester som görs på det här sättet blir o-vetenskapliga, oavsett om det är LTS eller någon annan som gör dom.
Orsaken är att resultaten inte går att hantera.
nollresultat=bra resultat men egentligen inget resultat alls.
icke nollresultat=är egentligen inget mått på någonting eftersom det inte går att få något mätetal på vad resultatet visar, det resultatet blir på något sätt inte något resultat det heller.
Om man vill vara vetenskaplig måste man kunna koppla resultatet till någon fysiskt mätbar storhet.
Så ser jag det i alla fall
d_anders skrev:Dock har jag full förståelse för att ökade krav på stringens skulle kunna medföra att färre vill hålla på med detta ideella arbete och därmed skulle det primära målet, som jag har uppfattat det - att hitta bra hifiutrustning - motverkas.
n3mmr skrev: Ang graden av hörbarhet: Om man har en tillräckligt stor, icke-selekterad lyssnarskara så bör antal lyssnare som hör skillnaden med en given konfidens ge ett mått på hörbarhet.
Svante skrev:n3mmr skrev: Ang graden av hörbarhet: Om man har en tillräckligt stor, icke-selekterad lyssnarskara så bör antal lyssnare som hör skillnaden med en given konfidens ge ett mått på hörbarhet.
Mja, det är i en intressant synpunkt, men jag är rädd att den inte är praktiskt genomförbar utan en budget. Minst 30 lyssnare skulle jag säga behövs och det får man inte tag på utan avlöning.
n3mmr skrev:Svante skrev:n3mmr skrev: Ang graden av hörbarhet: Om man har en tillräckligt stor, icke-selekterad lyssnarskara så bör antal lyssnare som hör skillnaden med en given konfidens ge ett mått på hörbarhet.
Mja, det är i en intressant synpunkt, men jag är rädd att den inte är praktiskt genomförbar utan en budget. Minst 30 lyssnare skulle jag säga behövs och det får man inte tag på utan avlöning.
Jo, det är väl nåt slags invändning.
Man kanske kan ersätta "flera lyssnare" med "fler lyssningar" med "fler ljudtyper"?
n3mmr skrev:Svante skrev:n3mmr skrev: Ang graden av hörbarhet: Om man har en tillräckligt stor, icke-selekterad lyssnarskara så bör antal lyssnare som hör skillnaden med en given konfidens ge ett mått på hörbarhet.
Mja, det är i en intressant synpunkt, men jag är rädd att den inte är praktiskt genomförbar utan en budget. Minst 30 lyssnare skulle jag säga behövs och det får man inte tag på utan avlöning.
Haakan_W skrev:Svante skrev:n3mmr skrev: Ang graden av hörbarhet: Om man har en tillräckligt stor, icke-selekterad lyssnarskara så bör antal lyssnare som hör skillnaden med en given konfidens ge ett mått på hörbarhet.
Mja, det är i en intressant synpunkt, men jag är rädd att den inte är praktiskt genomförbar utan en budget. Minst 30 lyssnare skulle jag säga behövs och det får man inte tag på utan avlöning.
tror det är rätt lätt att hitta 30st försökskaniner här på forumet tex
eller måste det vara guldöron
Haakan_W skrev:Kaffekoppen skrev:Blir för omständigt att testa så, det inser vem som helst
jag vet inte varför men det där är den klassiska meningen loosers har....varför skulle det vara svårt?
jag tycker det låter enkelt
Jag väljer att kalla mig looser härHaakan_W skrev:Kaffekoppen skrev:Blir för omständigt att testa så, det inser vem som helst
jag vet inte varför men det där är den klassiska meningen loosers har....varför skulle det vara svårt?
jag tycker det låter enkelt
IngOehman skrev:........Det kan inte sammanfattas i några tabeller, med mindre än att man vill göra tumregler av det, och något sådant vill jag inte vara inblandad i, eftersom det skadar detektionströskeln. Vh, iö
Naqref™ skrev:Kaffekoppen skrev:Du är fri att tycka vad du vill, men eftersom du saknar kunskapen att bedömma det vetenskapliga tillvägagångsättet är det svårt att föra ett resonamang med dig.
Det där svaret liknar Goddag yxskaft.
Om man efterfrågar just information om hur testerna går till så är det nog ungefär så det känns när man möts av det svar du ger.
"Vi säger ingegting om hur vi gör och eftersom vi inte gör det så kan jag inte diskutera med dig om det för du vet ju inte hur vi gör. "
Liiite högre nivå kan man förvänta sig här tycker jag.
IngOehman skrev:Hur var det han sa Stenmark...
Kaffekoppen skrev:Jag väljer att kalla mig looser härHaakan_W skrev:Kaffekoppen skrev:Blir för omständigt att testa så, det inser vem som helst
jag vet inte varför men det där är den klassiska meningen loosers har....varför skulle det vara svårt?
jag tycker det låter enkelt![]()
Men eftersom du har obegränsat med tid över så tycker jag att du skall ta dig den tiden till att organisera och genomföra det. Att få 30 personer att vara med på ett testtillfälle och genomföra det under kontrollerade, ordnade former är inte så trivialt som det låter när man skissar det på papper.
Så Håkan, om du verkligen tycker att det är trivialt så förutsätter jag att du visar vilken looser jag är och genomför 10 tester på det här viset under 2007.
Svante skrev:Ja, nu har vi nattmanglat, jag, IÖ och några till. Det framstår klart att jag behöver förtydliga min kritik en aning.
Kritiken gäller alltså att testförfarandet inte är transparent. Det går inte för en utomstående bedömmare att avgöra om den statistiska behandlingen är riktig. För mig som akademiker som själv skriver och även granskar vetenskapliga artiklar är det viktigt. Jag vill som läsare, givet oändliga resurser, utifrån beskrivningen av försöket kunna reproducera det och då kunna förvänta mig samma resultat. Det är en av den akademiska världens grundbultar vid skrivandet av vetenskapliga rapporter.
Svante skrev:Men, och det är också viktigt, det betyder inte att den statistiska behandlingen och slutsatserna i LTS tester historiskt har varit felaktiga. Är det så att vi litar på testledarens förmåga att bedömma konfidensen, så är testerna ok. Och kanske kan man tycka att det är rimligt, det är ju ändå ganska mycket annat man måste lita på, som att han verkligen har lyckats med att ordna så att nivåmatchningen ligger inom någon tiondels dB, tex.
Svante skrev:Och man ska heller inte glömma att om man tittar på vad alternativen är, med de tester som görs i andra tidskrifter, så är det ingen tvekan om vilket testförfarande som är bäst.
IngOehman skrev:Förutsättningarna för de tester LTS gjort genom året är mycket enkla:
1. Testning sker blint,
2. Vi rapporterar endast undantagsvis några fynd om de har lägre statistisk signifikans än 99% (och i de fallen gör vi det alltid med detta faktum klargjort i artikeln).
3. Statistisk signifikans beräknas enligt rådande matematiska lagar.
Den som vill lära sig hur man beräknar statistisk signifikans får göra det själv. Det låter sig inte göras utan att hopskriva en hel lärobok i ämnet.
Hur statistik beräknas kan inte sammanfattas i några tabeller, med mindre än att man gör tumregler av det (bara godkänner typfall), och något sådant vill jag inte vara inblandad i, eftersom det skadar detektionströskeln.
Förvisso kan man ersätta beräkningarna med i förväg selekterade, genomräknade villkor som blir de enda man undersöker/godkänner, men jag kan inte se att det för LTS bruk skulle leda till något annat än nackdelar.
Vh, iö
Svante skrev:Ehh, vad hände med det långa inlägget som jag just tänkte svara på...
Svante skrev:Jag svarar ändå på den fråga som stod här förut, även om det blir svårare att komma ihåg den exakta lydelsen. Det var ungefär: "Kan jag säga ett enda tillfälle som LTS har rapporterat detektion med 99% konfidens fast det inte har varit det".
Svaret på det är nej, det har jag inte på de tre sessioner jag har deltagit.
Svante skrev:Däremot har jag varit med om tre sessioner där jag inte skulle vilja ta på mig att räkna ut hur stor signifikansen egentligen var.
Svante skrev:Det är troligt att den har varit över 99% på de tre tester jag har deltagit i och det är möjligt att den har varit det i alla tester som har gjorts under de x år som du har hållit i testerna.
Svante skrev:Min kritik är att testförfarandet inte är transparent. Testernas trovärdighet står och faller med en beräkning som är så komplicerad att den inte går att skriva ner på papper före testet.
Svante skrev:Det betyder inte att den är felaktig, men jag tycker att det är onödigt att det ska behöva vara så. Det finns mycket enklare sätt att lägga upp testerna som ger transparens och som möjligen skulle kunna korta ner testserierna (vilket skulle trötta lyssnarna mindre).
Svante skrev:Det handlar inte om att utbilda medlemmarna om statistik, det handlar om att redogöra för vilken statistik som används och hur.
Svante skrev:När jag själv utsätter mig för kritik, tex när jag skriver en artikel eller håller ett föredrag på en konferens, så är det så gott som alltid utvecklande. Det kan vara jekligt jobbigt att få tillbaka en artikel med petiga synpunkter och med små eller stora fakta-/metodfel utpekade. Första artikeln jag fick tillbaka fick mig nästan att vilja lägga ner min akademiska karriär, men nu har jag lärt mig att se vilka förbättringar processen leder till.
Svante skrev:Det kan vara så att det är skillnad på den akademiska världen och hifi-världen i det att akademiker som kommer med obefogad kritik inte kommer undan med det.
Svante skrev:Kanske ligger det något i att en debatt om bristerna med F/E-lyssnande ger folk intrycket av att metoden är dålig. Så är det ju inte det är det bästa som finns (nåja), jämför man med öppen lyssning så är enda skillnaden att man tillför ännu fler brister. Men jag vill ändå tro att folk klarar av att förstå det och att den totala öppenheten om vad som görs är det bästa. Kanske är jag naiv, inte vet jag.
Svante skrev:Jag läste fö på lite om Popper på wikipedia och där stod det något om att han menade att vetenskapliga metoder måste göras sårbara, falsifierbara. I detta ligger att man ska berätta hur man har gjort för att komma fram till det man har kommit fram till.
IngOehman skrev:Njae...
Det där är ju en av de grundläggande vetenskapliga Popperska teserna, men den har ingenting med det här att göra. Det är snarare en variant på första tesen, eller egentligen är det resonemanget som ledde honom fram till den första tesen*. Vad Popper skrev var ju bara att det är meningslöst att försöka bevisa något, som man inte kan bevisa frånvaron av.
Det mest kända kriteriet för vetenskap infördes av Karl Popper och säger att en vetenskaplig teori måste vara falsifierbar, det vill säga att den måste vara sårbar.
Svante skrev:Jag läste igenom det igen, och tror att jag svarade på allt, men jag kanske har fel.
IngOehman skrev:Svante skrev:Jag läste igenom det igen, och tror att jag svarade på allt, men jag kanske har fel.
Du svarade inte på de frågor jag ställde för att det skulle bli lättare för andra att (med din erfarenhet av hur jag agerat som grund) bedöma om det finns skäl att ha förtroende för mig - det vill säga för min förmåga att säkerställa vetenskaplig ackuratess exempelvis genom att korrekt beräkna statistisk signifikans.
Svante skrev:IngOehman skrev:Njae...
Det där är ju en av de grundläggande vetenskapliga Popperska teserna, men den har ingenting med det här att göra. Det är snarare en variant på första tesen, eller egentligen är det resonemanget som ledde honom fram till den första tesen*. Vad Popper skrev var ju bara att det är meningslöst att försöka bevisa något, som man inte kan bevisa frånvaron av.
Jag tror att Popper skrev mer än det. Från wikipedia: http://sv.wikipedia.org/wiki/DemarkationsproblemetDet mest kända kriteriet för vetenskap infördes av Karl Popper och säger att en vetenskaplig teori måste vara falsifierbar, det vill säga att den måste vara sårbar.
Nu är jag dålig på vetenskapsteori, men för mig betyder det att man måste utsätta sina metoder för granskning, annars är det inte falsifierbara. Men it amma, vi ska inte spåra ur i vetenskapsteori också nu.
Nej, jag menade som medlem. Du vet redan hur jag ser på den här soppan. Det skall vara kul och man skall ha en vilja att hitta vägar tillsammans. Jag vill se det först.IngOehman skrev:Du menar som styrelsemedlem?
Morello skrev:Handlar helt enkelt om att verkställa.
Precis, det finns helt enkelt olika arbetsinsatser man är beredd att göra om det är ideelt arbete. Det är alltså inte svårt, utan omständigt och rejält tidskrävande. Det var du som översatte "omständigt" till "svårt". De orden har inte samma betydelse för mig. Det finns många som anser att det är omständigt att renovera upp sitt hus som du gör, men du anser nog inte att det är speciellt svårt. Det är tidskrävande och kräver mycket kraft och engagemang, men svårt är det inte.Haakan_W skrev:varför skulle jag göra nåt sånt? jag är inte ens med i lts, enda gången jag skulle testa en apparat jag egentligen inte har nåt intresse av är om det finns några ekonomiska vinster att göra i projektet...
jag menade bara på att om det nu finns ett genuint intresse för tex lts så är det inga större problem
IngOehman skrev:Svante skrev:Jag läste igenom det igen, och tror att jag svarade på allt, men jag kanske har fel.
Du svarade inte på de frågor jag ställde för att det skulle bli lättare för andra att (med din erfarenhet av hur jag agerat som grund) bedöma om det finns skäl att ha förtroende för mig - det vill säga för min förmåga att säkerställa vetenskaplig ackuratess exempelvis genom att korrekt beräkna statistisk signifikans.
Kaffekoppen skrev:Är vi ute efter en exakt siffra, eller räcker det om vi vet att vi har tillräcklig signifikans?
Kaffekoppen skrev:Är vi ute efter en exakt siffra, eller räcker det om vi vet att vi har tillräcklig signifikans?
Morello skrev:Kaffekoppen skrev:Är vi ute efter en exakt siffra, eller räcker det om vi vet att vi har tillräcklig signifikans?
För att ta reda på huruvida konfidensniån är tillräcklig (tex >0,99) måste vi rimligtvis beräkna den först, inte sant?
Svante skrev:IngOehman skrev:Svante skrev:Jag läste igenom det igen, och tror att jag svarade på allt, men jag kanske har fel.
Du svarade inte på de frågor jag ställde för att det skulle bli lättare för andra att (med din erfarenhet av hur jag agerat som grund) bedöma om det finns skäl att ha förtroende för mig - det vill säga för min förmåga att säkerställa vetenskaplig ackuratess exempelvis genom att korrekt beräkna statistisk signifikans.
Ok, nytt försök då...
"Har jag förtroende för din förmåga att korrekt beräkna signifikans".
Nej.
Svante skrev:Jag tror iofs att du har förmåga att beräkna signifikansen om man skulle använda den förenklade proceduren som jag har föreslagit och jag tror att du har en förmåga att uppskatta signifikansen såsom testerna har gjorts hittills.
Men jag tror inte att du kan beräkna den verkliga signifikansen såsom testerna har gjorts historiskt.
Om du vill debattera det så kan vi väl ta ett exempel, ta den där lyssningen som påminde om mitt exempel 3. Hur stor blev konfidensen där?
Kaffekoppen skrev:Istället för massa textmassa kan man konstatera att IÖ är besviken eftersom Svantes kritik mot testgenomförandet* kan tolkas som om IÖ (och därmed LTS) tester genom åren varit för vaga i fråga om att säkerställa signifikansen och därmed helt saknar värde.
Är det så man skall uppfatta din kritik/dina förslag till förändringar Svante?
Morello skrev:Den här diskussionen ter sig mer och mer märklig för var dag som går.
Ni satt enligt utsago i många timmar och diskuterade spörsmålet, men varför tog ni inte ett konkret testfall och gick igenom det i detalj och granskade de beräkningar som legat till grund för eventuella slutsater?
IngOehman skrev:Morello skrev:Den här diskussionen ter sig mer och mer märklig för var dag som går.
Ni satt enligt utsago i många timmar och diskuterade spörsmålet, men varför tog ni inte ett konkret testfall och gick igenom det i detalj och granskade de beräkningar som legat till grund för eventuella slutsater?
Om du lovar att ta jobbet, så lovar jag att vara på dig dygnet runt och kräva redovisningar av allting, utan ände, i offentlig miljö (således att du inte får någon lugn stund att ägna dig åt själva uppdraget att testa apparater för LTS-medlemmarna).
För övrigt tog svante upp minst ett hypotetiskt exempel som jag skulle ange signifikansen för (en person gissar 10 gånger och av dessa är 10 rätt i rad, samtidigt som en annan gissar 5 gånger, varav alla 5 är fel). Det gjorde jag, ögonblickligen.
(Det blir >>99,0%, närmare bestämt >99,8% vid ursprungsbestämd serie. Givet mera information om hur det gick till kan signifikansen vara väldigt mycket högre ytterligare, men med bara det givna känt blir det >99,8%. På plats under testen är dock självklart allting känt om hur det hela går till.)
Han har fortfarande inte kommenterat om han håller med mig.
Vh, iö
Svante skrev:Ja, jag försöker verkligen förstå frågan, men nu är jag på väg till landet och kommer tillbaka om någon vecka. Vi får se om modemet klarar fortsatt debatt.
Morello skrev:Vad är det för jobb jag ska ta föresten som sedan ska nagelfaras?Jag är inte alls med på vad du menar och vad det har för betydelse i sammanhagnet.
Vi är oense om den här debattens betydelse. Vi är oense om konsekvenserna av den här debatten. Vi är oense om Svantes ensidiga "skuld" till situationen.IngOehman skrev:Du skall inte ta något jobb, men du är välkommen att göra det, liksom Svante eller någon annan, som förstört möjligheterna för den som hade ansvaret tills nyss.
Vh, iö
Svante skrev:Ja, jag försöker verkligen förstå frågan, men nu är jag på väg till landet och kommer tillbaka om någon vecka. Vi får se om modemet klarar fortsatt debatt.
dimitri skrev:---En styrelsemedlem som avgår har inte automatiskt rätt att ifrågasätta procedurer offentligt. Däremot har denne rätt/plikt att starta diskussionen inom LTS framför allt innan han avgår från styrelsen.
IngOehman skrev:
Du skall inte ta något jobb, men du är välkommen att göra det, liksom Svante eller någon annan, som förstört möjligheterna för den som hade ansvaret tills nyss.
Vh, iö
Harryup skrev:dimitri skrev:---En styrelsemedlem som avgår har inte automatiskt rätt att ifrågasätta procedurer offentligt. Däremot har denne rätt/plikt att starta diskussionen inom LTS framför allt innan han avgår från styrelsen.
Öhhh, va? Är du för någon öststatscensur? Klart att alla får prata om vad man vill. Däremot så bör man ju göra försök att lösa allt med berörda parter direkt i alla lägen.
Svante skrev:Jag kanske ska förtydliga en sak i min beskrivning av testerna. I LTS-versionen sitter försöksledaren och växlar på en omkopplare. Signalen är typiskt en kort snutt av en CD-skiva som har visat sig särskilt avslöjande, CD-spelaren sätts på repetering av denna snutt, och i varje repetering växlar försöksledaren på omkopplaren.
Man kan alltså "följa med" ett par växlingar och tänka "före-efter-före-efter..." och se om intrycket stämmer i varje växling för att till sist bestämma sig och ropa till "före" (eller "efter"). Då slutar försöksledaren växla och antecknar om svaret var rätt eller fel.
Sen får, och detta är problematiskt, även andra lyssnare instämma eller motsäga den första som svarade, och även detta antecknas.
IngOehman skrev:Det finns ingen beskrivning, för det finns inga metodregler. Metoden är fri, den är inte reglerad inom ramen för det som är F/E-lyssning.
En relevant beskrivningen är alltså inte bara omöjlig att formulera, utan ett försök till en förenklad beskrivning (alltså en som låtsas som om det alltid behöver gå till på ett specifikt sätt) kan rent av vara vilseledande.
.....
Vh, iö
Svante skrev:Kanske har jag ett par röda frågor till Ingvar också...
Morello skrev:Svante skrev:Kanske har jag ett par röda frågor till Ingvar också...
Blir de av retorisk typ?
IngOehman skrev:*Jag hade med glädje överlämnat det till dig även utan att du startat detta olustiga krig.
Morello skrev:IngOehman skrev:*Jag hade med glädje överlämnat det till dig även utan att du startat detta olustiga krig.
Ingvar, tycker du verkligen att det sista stycket är förenligt med hela sanningen ang. denna soppa?
Kaffekoppen skrev:Jag håller inte med om att det är 100% korrekt.
IngOehman skrev:Morello skrev:IngOehman skrev:*Jag hade med glädje överlämnat det till dig även utan att du startat detta olustiga krig.
Ingvar, tycker du verkligen att det sista stycket är förenligt med hela sanningen ang. denna soppa?
"Förenligt med sanningen???"
Vad tusan betyder det?
Vh, iö
Kaffekoppen skrev:Jag håller inte med om att det är 100% korrekt.
Resultatet är i dagsläget att minst tre personer inte kommer vara med i styrelsen kommande år. Det är däremot 100% säkert.
Kaffekoppen skrev:Kaffekoppen skrev:Jag håller inte med om att det är 100% korrekt.
Resultatet är i dagsläget att minst tre personer inte kommer vara med i styrelsen kommande år. Det är däremot 100% säkert.
IngOehman skrev:Jag hade med glädje överlämnat det till dig även utan att du startat detta olustiga krig. Du hade bara behövt fråga. Det är ett ansvar det är skönt att slippa ju.
IngOehman skrev:
I övrigt tycker jag det är dåligt stil av dig att på ren spekulation påstå att jag ljuger.![]()
Vh, iö
Bra! Jag tycker att det är självklart att du svarar på de frågorna som Ingvar ställt eftersom din kritik kan uppfattas som väldigt långtgående. Det vore bra om du kunde ge konstruktiva svar och kanske ytterliggare nyansera dig. Jag utgår från att du skriver rakt och utan retoriska inslag. Det handlar ju inte bara om vem av er som klarar av att argumentera bort den andra, utan hur folk som läser detta skall se på LTS, LTS förhållning till vetenskaplighet och LTS tidigare arbete. Att se utvecklingspotential (som jag tolkat dig att du tror dig göra) är ju inte alltid detsamma som att förkasta allt tidigare arbete.Svante skrev:IngOehman skrev:Jag hade med glädje överlämnat det till dig även utan att du startat detta olustiga krig. Du hade bara behövt fråga. Det är ett ansvar det är skönt att slippa ju.
Mja, det här kan man ju tolka som att jag ville ta över verksamheten. Men det är just precis av den anledningen som blev tvungen att avgå, för att visa att jag inte är intresserad av att ta över.
...jag återkommer med svar.
Kan du svara på detta så skulle det ge mig svar på om jag förstått dig rätt, eller om jag misstolkat dig.Kaffekoppen skrev:Svante!
Istället för massa textmassa kan man konstatera att IÖ är besviken eftersom Svantes kritik mot testgenomförandet* kan tolkas som om IÖ (och därmed LTS) tester genom åren varit för vaga i fråga om att säkerställa signifikansen och därmed helt saknar värde.
Är det så man skall uppfatta din kritik/dina förslag till förändringar Svante?
* själva metoderna har jag förstått att Svante i mångt och mycket anser är korrekt utvalda. Även om han ser potentiella problem i vissa fall, så kan han inte specifikt peka på om det någonsin varit ett problem för själva slutsattsen.
En mycket bra fråga. Man skulle kunna tro att det är kris i LTS, men just att man står på sig och tycker att ens egna syn och tankegångar är så starka och viktiga för föreningen är ett bevis på engagemang.n3mmr skrev:Jag undrar vad LTS har för halveringstid just nu.
IngOehman skrev:Du behöver inte svara Svante. Du har haft flera veckor och därtill åtskilliga upprepningar av frågorna på dig. Hade du velat svara på dem hade du nog redan gjort det. Nu är det liksom för sent.
Svante skrev:IngOehman skrev:Jag hade med glädje överlämnat det till dig även utan att du startat detta olustiga krig. Du hade bara behövt fråga. Det är ett ansvar det är skönt att slippa ju.
Mja, det här kan man ju tolka som att jag ville ta över verksamheten.
Svante skrev:Men det är just precis av den anledningen som blev tvungen att avgå, för att visa att jag inte är intresserad av att ta över.
Naqref™ skrev:IngOehman skrev:Du behöver inte svara Svante. Du har haft flera veckor och därtill åtskilliga upprepningar av frågorna på dig. Hade du velat svara på dem hade du nog redan gjort det. Nu är det liksom för sent.
Nu finns inte SÖ kvar längre men enligt dem så innebar flera >=4.
Naqref™ skrev:Fråga (kan verka dum men känns ändå relevant att få förtydligad): Var det den offentliga kritik som Svante framförde här som fick dig att avgå?
IngOehman skrev:Naqref™ skrev:IngOehman skrev:Du behöver inte svara Svante. Du har haft flera veckor och därtill åtskilliga upprepningar av frågorna på dig. Hade du velat svara på dem hade du nog redan gjort det. Nu är det liksom för sent.
Nu finns inte SÖ kvar längre men enligt dem så innebar flera >=4.
Isåfall är de ju helt tossiga. Flera är t ex 2.
Som i: "-Vi talar inte om en vecka, utan om flera".
Morello skrev:Jag tror aldrig att ni kommer att nå koncensus med bitvis extrem-retorisk debatt, utan att ni måste tillgripa ett konkret exempel och räkna igenom det här och nu. (om detta över huvud taget skall ske på forat).
Just nu är debatten övergödslad med känslor och retorik av allenhanda slag, som blir likt en rökridå över sakfrågan.
Naqref™ skrev:Dina frågor skrevs och förtydligades dessutom i julhelgen/mellandagarna. Själv har jag max fått 20 minutersperioder framför datorn fram till i går och då misstänker jag att en mer socialt uppbunden snubbe som Svante (med fru och barn) med en mycket sämre internetuppkoppling kan ha haft mindre förutsättningar att svara på escalerande inlägg.
iö skrev:1. Du Svante, som varit med på några av LTS lyssningstester, har du NÅGON ENDA GÅNG stött på ett resultat som du vet inte ger en statistisk signifikans om >99%, men som ändå kommit i MoLt och påståtts ha en statistisk signifikans högre än 99%?
iö skrev:2. Det vill säga: Finns det någon grund, i form av ett faktiskt fall (där det blivit fel) för dig att ifrågasätta om jag tagit mitt ansvar att upprätthålla en adekvat vetenskaplig hantering av mätdata?
iö skrev:3. Eller handlar det bara om att just du inte tycker dig kunna bedöma signifikansen på plats, som jag har gjort?
(Utöver att jag förstås kontrollräknat i de fall det finnits minsta tveksamhet.)
(Denna sista kräver följdfrågor, som jag ställer strax...)
iö skrev:4. Är det sant att du vid ett antal tillfällen kommit med (enligt dig "svårbedömda") exempel på fall till mig, där jag ombetts att uttala mig om den statistiska signifikansen - och att jag svarat dig ögonblickligen, med antingen ett exakt svar, eller med worst case-svar (">X%"), och att du inte kunnat påvisa något annat än att de undantagslöst varit korrekta?
iö skrev:5. Är det också sant att du ännu inte har ett enda exempel på att du (efter att ha gått hem och räknat på det hela (och ägna uppgiften din fulla uppmärksamhet)) funnit att mitt ögonblickliga svar varit felaktigt?
iö skrev:6. Kort sagt: Är det riktigt att jag - så vitt du känner till - ALDRIG har kommit med någon enda felaktig bedömning avseende statistisk signifikans?
Kaffekoppen skrev:För Ingvar är det förtroendet för honom som är mer vässentligt än hur andra ställer sig till sakfrågan.
Morello skrev:Kaffekoppen skrev:För Ingvar är det förtroendet för honom som är mer vässentligt än hur andra ställer sig till sakfrågan.
Vad har egentligen förtroende för Ingvar, Svante elelr någon annan med frågan att göra?
Ska vi reda ut statistik får vi nog lämna sådana saker och ta fram den kalla matematiken.
Jag gör ingen som helst föreställning om någonting längre vad det gäller det här.dimitri skrev:Kaffekoppen,
Du verkar ha självpåtagit dig rollen som kommentatör, medlare, uttolkare. Du kanske gör det i någon sorts föreställning att din position inom LTS kräver att du påtar dig denna roll. Risken är påtaglig att dina insatser (i tråden) aktivt motarbetar din eventuella medlarroll.
Kaffekoppen skrev:Då kanske man skall invänta hans svar istället för att ha så bråttom att man anser att man svarar bäst själv. Det blir ju löjligt eftersom Svante sitter i en stuga på landet med familjen.
Kaffekoppen skrev:Retorik eller inte, men det är nog rätt retoriskt att själv svara på de frågor man ställer till andra. Men det är klart, du får de svar du vill ha, och de svar du förväntar dig att få.
Osagt hur Svante skulle svarat, så har du helt rätt nu. Det är meningslöst för honom att svara.
Kaffekoppen skrev:Du har ju lyckas rätt bra med att i din bitterhet försöka framhäva din syn på saken - att Svante inte svarar för att han har fel och du har rätt. Frågan är hur värdefullt det är för alla andra att få den informationen från just dig. De flesta inser väl redan att du känner så.
Morello skrev:Vad har egentligen förtroende för Ingvar, Svante eller någon annan med frågan att göra?
Morello skrev:Ska vi reda ut statistik får vi nog lämna sådana saker och ta fram den kalla matematiken.
IngOehman skrev:Kaffekoppen skrev:Då kanske man skall invänta hans svar istället för att ha så bråttom att man anser att man svarar bäst själv. Det blir ju löjligt eftersom Svante sitter i en stuga på landet med familjen.
Om du vill låtsas att du tycker det så för du göra det.
Dahlqvist skrev:Morello skrev:Vad har egentligen förtroende för Ingvar, Svante eller någon annan med frågan att göra?
Förtroendet för Ingvar har i princip allt med saken att göra eftersom han tycks välja vilka serier/resultat som skall vara med i realtid eller post hoc. Han ovilja att på förhand definiera hur data skall behandla gör att i princip att hela förfarandet står och faller med förtroende för hans kapacitet att ta rätt beslut när det gäller att skilja slumputfall från verkliga effekter.Morello skrev:Ska vi reda ut statistik får vi nog lämna sådana saker och ta fram den kalla matematiken.
Utan att vara trivial så gäller inte den centrala frågeställning hur man behandlar matematiken utan vilket utfallsrum man skall räkna på. En utomstående betraktare kan inte skilja IÖ:s anstängningar att öka känsligheten hos experimentet från att post hoc dra nytta av slumpmässiga variationer. Och där i ligger dilemmat.
/D
IngOehman skrev:Sammanlagt 14 bokstäver. Är det svårt och tidskrävande att plita ned dom?![]()
Dr. Svante skrev: 8236
Men det går att svara på frågorna också. Det är faktiskt inte så svårt. Det går att svara på min fråga med. Det är heller inte svårt.Svante skrev:IngOehman skrev:Sammanlagt 14 bokstäver. Är det svårt och tidskrävande att plita ned dom?![]()
Givet graden av retorik i frågorna, så krävs det betydligt fler bokstäver. Jag har en wordfil i magen på den här datorn som just nu innehåller 8236 tecken, exklusive mellanslag. Jag ska se om det är möjligt att korta ner den något till helgen, men som någon känd person sa, man ska göra saker så enkelt som möjligt, men inte enklare.
Kaffekoppen skrev:Men det går att svara på frågorna också. Det är faktiskt inte så svårt. Det går att svara på min fråga med. Det är heller inte svårt.Svante skrev:IngOehman skrev:Sammanlagt 14 bokstäver. Är det svårt och tidskrävande att plita ned dom?![]()
Givet graden av retorik i frågorna, så krävs det betydligt fler bokstäver. Jag har en wordfil i magen på den här datorn som just nu innehåller 8236 tecken, exklusive mellanslag. Jag ska se om det är möjligt att korta ner den något till helgen, men som någon känd person sa, man ska göra saker så enkelt som möjligt, men inte enklare.
Dahlqvist skrev:Morello skrev:Vad har egentligen förtroende för Ingvar, Svante eller någon annan med frågan att göra?
Förtroendet för Ingvar har i princip allt med saken att göra eftersom han tycks välja vilka serier/resultat som skall vara med i realtid eller post hoc. Han ovilja att på förhand definiera hur data skall behandla gör att i princip att hela förfarandet står och faller med förtroende för hans kapacitet att ta rätt beslut när det gäller att skilja slumputfall från verkliga effekter.Morello skrev:Ska vi reda ut statistik får vi nog lämna sådana saker och ta fram den kalla matematiken.
Utan att vara trivial så gäller inte den centrala frågeställning hur man behandlar matematiken utan vilket utfallsrum man skall räkna på. En utomstående betraktare kan inte skilja IÖ:s anstängningar att öka känsligheten hos experimentet från att post hoc dra nytta av slumpmässiga variationer. Och där i ligger dilemmat.
/D
Dahlqvist skrev:Morello skrev:Vad har egentligen förtroende för Ingvar, Svante eller någon annan med frågan att göra?
Förtroendet för Ingvar har i princip allt med saken att göra eftersom han tycks välja vilka serier/resultat som skall vara med i realtid eller post hoc. Han ovilja att på förhand definiera hur data skall behandla gör att i princip att hela förfarandet står och faller med förtroende för hans kapacitet att ta rätt beslut när det gäller att skilja slumputfall från verkliga effekter.
Dahlqvist skrev:Morello skrev:Ska vi reda ut statistik får vi nog lämna sådana saker och ta fram den kalla matematiken.
Utan att vara trivial så gäller inte den centrala frågeställning hur man behandlar matematiken utan vilket utfallsrum man skall räkna på.
En utomstående betraktare kan inte skilja IÖ:s anstängningar att öka känsligheten hos experimentet från att post hoc dra nytta av slumpmässiga variationer. Och där i ligger dilemmat.
Dahlqvist skrev:Utan att vara trivial så gäller inte den centrala frågeställning hur man behandlar matematiken utan vilket utfallsrum man skall räkna på. En utomstående betraktare kan inte skilja IÖ:s anstängningar att öka känsligheten hos experimentet från att post hoc dra nytta av slumpmässiga variationer. Och där i ligger dilemmat. /D
Dahlqvist skrev:Morello skrev:Vad har egentligen förtroende för Ingvar, Svante eller någon annan med frågan att göra?
Förtroendet för Ingvar har i princip allt med saken att göra eftersom han tycks välja vilka serier/resultat som skall vara med i realtid eller post hoc. Han ovilja att på förhand definiera hur data skall behandlas gör att i princip hela förfarandet står och faller med förtroendet för hans kapacitet att ta rätt beslut när det gäller att skilja slumputfall från verkliga effekter.Morello skrev:Ska vi reda ut statistik får vi nog lämna sådana saker och ta fram den kalla matematiken.
Utan att vara trivial så gäller inte den centrala frågeställningen hur man behandlar matematiken utan vilket utfallsrum man skall räkna på. En utomstående betraktare kan inte skilja IÖ:s anstängningar att öka känsligheten hos experimentet från att post hoc dra nytta av slumpmässiga variationer. Och där i ligger dilemmat.
/D
Edit: typos
Utan att vara trivial vill jag att du redogör för hur mycket insyn du har i det du påstår här. Jag tror nämligen varken Svante eller Ingvar håller med dig.Style skrev:En metod som bygger på att testledaren ska göra precis rätt och som samtidigt är komplicerad och dessutom inte dokumenterad faller på sin egen orimlighet. Vem som helst med lite erfarenhet av testmetodik inser detta.
Kaffekoppen skrev:Utan att vara trivial vill jag att du redogör för hur mycket insyn du har i det du påstår här. Jag tror nämligen varken Svante eller Ingvar håller med dig.Style skrev:En metod som bygger på att testledaren ska göra precis rätt och som samtidigt är komplicerad och dessutom inte dokumenterad faller på sin egen orimlighet. Vem som helst med lite erfarenhet av testmetodik inser detta.
Det skulle vara kul om tråden inte rann iväg innan Svante svarar, eftersom det känns som det mest angelägna nu.
Tack på förhand
Kaffekoppen skrev:Utan att vara trivial vill jag att du redogör för hur mycket insyn du har i det du påstår här. Jag tror nämligen varken Svante eller Ingvar håller med dig.Style skrev:En metod som bygger på att testledaren ska göra precis rätt och som samtidigt är komplicerad och dessutom inte dokumenterad faller på sin egen orimlighet. Vem som helst med lite erfarenhet av testmetodik inser detta.
Style skrev:bra då det är det bekräftat
Mina invändningar står jag då för till 100%
En metod som bygger på carte-blanche-förtroende för testledaren känns inte direkt robust för att uttrycka sig milt.
IngOehman skrev:Style skrev:bra då det är det bekräftat
Mina invändningar står jag då för till 100%
En metod som bygger på carte-blanche-förtroende för testledaren känns inte direkt robust för att uttrycka sig milt.
Visst sirru, och du får gärna referera till något fall där det förhåller sig på något annat sätt.![]()
Jag har läst säkert tusen forskningsrapporter, och jag har aldrig sett någon där inte rapporteringen kan vara förfalskad eller på annat sätt opålitlig, det vill säga där man behöver ha förtroende för den som författat den. Man behöver alltid utgå ifrån ett förtroende för den man läser.
Vh, iö
berma skrev:Jag tror att det bästa sättet för Öhman att svara på sina egna konstiga frågor till Svante vore att presentera några testprotokoll inklusive uträkningar. Då skulle alla kunna se vem som har rätt eller fel.
Nu kommer han inte att göra det! Om ni pressar honom kommer han att bli kokett och låtsat oförrättad och/eller oförskämd mot frågeställaren, möjligen också påpeka något semantiskt fel i frågan.
Orsaken är ungefär att matematiken är så enkel att ett barn kan klara det, men samtidigt så komplicerad att det inte går att förklara, detta beroende på metodiken som är så enkel att den inte behöver förklaras samtidigt som den skiljer sig från testobjekt till testobjekt och därför blir så komplicerad den inte går att förklara.![]()
Morello skrev:IngOehman skrev:Style skrev:bra då det är det bekräftat
Mina invändningar står jag då för till 100%
En metod som bygger på carte-blanche-förtroende för testledaren känns inte direkt robust för att uttrycka sig milt.
Visst sirru, och du får gärna referera till något fall där det förhåller sig på något annat sätt.![]()
Jag har läst säkert tusen forskningsrapporter, och jag har aldrig sett någon där inte rapporteringen kan vara förfalskad eller på annat sätt opålitlig, det vill säga där man behöver ha förtroende för den som författat den. Man behöver alltid utgå ifrån ett förtroende för den man läser.
Vh, iö
Skillnaden ligger i uppsåtet.
Morello skrev:Jämförelsen är inte relevant, men något retoriskt.
Morello skrev:Nej, ingen har anklagat LTS för ont uppsåt och det är jag glad över.
Du talade om "rapporteringen kan vara förfalskad" och där finns ett uppsåt. Det var vad jag syftade till.
Morello skrev:Ditt andras stycke är så olustigt att jag häpnar. Jag tänker inte kommentera det vidare och hoppas att du själv tar bort det.
Haakan_W skrev:kan inte nån förklara exakt vad som är problemet....det verkar saknas en jävla massa information på forumet
Svante sid 10:
Jag svarar ändå på den fråga som stod här förut, även om det blir svårare att komma ihåg den exakta lydelsen. Det var ungefär: "Kan jag säga ett enda tillfälle som LTS har rapporterat detektion med 99% konfidens fast det inte har varit det".
Svaret på det är nej, det har jag inte på de tre sessioner jag har deltagit.
Däremot har jag varit med om tre sessioner där jag inte skulle vilja ta på mig att räkna ut hur stor signifikansen egentligen var. Det är troligt att den har varit över 99% på de tre tester jag har deltagit i och det är möjligt att den har varit det i alla tester som har gjorts under de x år som du har hållit i testerna.
.................................
samt från sid 9:
Kritiken gäller alltså att testförfarandet inte är transparent. Det går inte för en utomstående bedömmare att avgöra om den statistiska behandlingen är riktig....
Men, och det är också viktigt, det betyder inte att den statistiska behandlingen och slutsatserna i LTS tester historiskt har varit felaktiga. Är det så att vi litar på testledarens förmåga att bedömma konfidensen, så är testerna ok.
Det är en del av det, men det ger ingen fullständig bild.markih skrev:Det är generellt en svår gränsdragning att lämna ut 'lagom' med information för utomstående bedömning av läsare, för att dessa skall kunna dra egna slutsatser. Är det inte betydelsen av detta avvägande som meningsskiljaktigheterna handlar om?
IngOehman skrev:1. Du Svante, som varit med på några av LTS lyssningstester, har du NÅGON ENDA GÅNG stött på ett resultat som du vet inte ger en statistisk signifikans om >99%, men som ändå kommit i MoLt och påståtts ha en statistisk signifikans högre än 99%?
IngOehman skrev:2. Det vill säga: Finns det någon grund, i form av ett faktiskt fall (där det blivit fel) för dig att ifrågasätta om jag tagit mitt ansvar att upprätthålla en adekvat vetenskaplig hantering av mätdata?
IngOehman skrev:3. Eller handlar det bara om att just du inte tycker dig kunna bedöma signifikansen på plats, som jag har gjort? (Utöver att jag förstås kontrollräknat i de fall det finnits minsta tveksamhet.)
(Denna sista kräver följdfrågor, som jag ställer strax...)
IngOehman skrev:4. Är det sant att du vid ett antal tillfällen kommit med (enligt dig "svårbedömda") exempel på fall till mig, där jag ombetts att uttala mig om den statistiska signifikansen - och att jag svarat dig ögonblickligen, med antingen ett exakt svar, eller med worst case-svar (">X%")?
IngOehman skrev:5. Är det också sant att du ännu inte har ett enda exempel på att du (efter att ha gått hem och räknat på det hela (och ägna uppgiften din fulla uppmärksamhet)) funnit att mitt ögonblickliga svar varit felaktigt?
IngOehman skrev:6. Kort sagt: Är det riktigt att jag - så vitt du känner till - ALDRIG har kommit med någon enda felaktig bedömning avseende statistisk signifikans?
Kaffekoppen skrev:En verksamhet kan i förlängningen inte bygga på att en enskilld individ, en eldsjäl, håller verksamheten vid liv.
Svante skrev:4. Till sist, och detta är nog det allvarligaste: Eftersom metoden är så komplicerad att den är omöjlig att skriva ner på papper så blir det mycket svårt att byta testledare. Det blir också mycket svårt för någon annan att ta över eller duplicera/anamma LTS testmetodik. Testerna är alltså knutna till Ingvar, vilket knappast kan vara en fördel för LTS, vilket är högaktuellt just nu när han väljer att lämna LTS tekniksektion. Gör man något bra, så ska man underlätta för andra att göra samma sak om man vill att det som är bra ska leda till en positiv utveckling.
Kaffekoppen skrev:Kan Svante, på sina tre tillfällen som testdeltagare sett sådan information som gör att det finns fog att misstänka att:
a) Det blev felaktiga resultat i något av de testerna
Kaffekoppen skrev:b) Det var så bristfälligt genomförda tester att man kan ifrågasätta alla tidigare resultat.
Kaffekoppen skrev:
Jag hoppas inte det, eftersom om jag förstått det rätt, så avslutas varje testtillfälle med att deltagarna gemensamt bestämmer sig för om resultatet är korrekt. Då undrar jag hur de tre testtillfällerna som Svante deltagit i ens kunnat presentera ett resultat.
Kaffekoppen skrev:Märk väl att frågan inte gäller om det är 98% eller 99,34% fastställt, utan om det presenterade resultatet är tillräckligt starkt för att en slutsats skall kunna presenteras offentligt. Att LTS intern bestämt sig för att de vill ha 99% innan resultat redovisas öppet är en annan fråga, även om den kan vara här Svante finner en del brister. Vi kanske når 98% och då är det ju fel att säga att vi hade 99% - men resultatet - rekommendationen kanske likväl var väl underbyggd.
Kaffekoppen skrev:Lite högre upp i tråden ställde jag två frågor jag ville ha svar av dig på:
Jag tolkar dig rätt alltså som inte kan se något fel eller anledning att misstro era slutsatser vid varken de testerna du medverkat vid eller tidigare tester. Du vill utveckla testförfarandet helt enkelt. Har jag uppfattat dig rätt?
Morello skrev:Antalet tecken har de facto ökat från blygsamma cirka 8000 till kopiösa 10540 exkl. blanksteg.
dimitri skrev:Mina 6 ören:
Har läst Svantes inlägg noga och upprepade gånger, lite reflektioner:
--LTS har så vitt jag vet aldrig förbundit sig att följa de ALLRA striktaste vetenskapliga reglerna.
--F/E metodiken är med överlägsen marginal överlägsen de metoder som redovisas eljest (tidskrifter t.ex.)
dimitri skrev:--Ingvars påstående att den som kommer med kritik (Befogad eller inte) måste vara beredd att axla manteln gäller.
dimitri skrev:--Jag som som dagligdags sysslar med statistik, epidemiologi förvisso, i mitt forskningsarbete kan inte beslå Ingvar med några avgörande metodfel.
--Även utan hänsynstagande till att LTS INTE är en förening med strikt akademisk förankring, kan konkreta, demonstrerbara fel i metodologin inte påvisas.
dimitri skrev:--Den mest substantiella kritiken är är att rådata inte sparats. Hur hade det varit möjligt? Ett antal "Ja"?. Torftigt i ljuset av vilket källmaterial som spelades, riggen. Men ändå, ja, det hade varit mera opportunt att spara rådata. Åtmistone för att kunna parera framtida kritik.
Ja, jag är en akedemiskt skolad naturvetare. Icke desto mindre kan jag inte till fullo uppskatta din (Svantes) kritik.
Dessutom håller jag helt med Ingvar om att det åligger dig Svante att axla manteln och visa hur det skulle kunna gå till på ett mera vetenskapligt acceptabelt sätt.
Morello skrev:Ingvar,
Style talade från början om att han tyckte det var olämpligt med tester där man är utelämnad till sitt förtroende för testledaren (eller motsv.) och de misstag, kunskapsbrister och liknande. Sådana bidrag till felaktiga slutsater är inte uppsåtliga. Jag vill minnas att han även påpekade att han hade förtroende för LTS och dess tester.
Sedermera talade du om förflaskningar och dylikt, vilket är sådant man gör uppsåtligen, varför jag uppfattade stycket som irrelevant.
Morello skrev:Att anklaga någon för retorik är lika orimligt som att anklaga någon för fysik.Var jag retorisk nu?
screen skrev:Vore det inte bättre att samarbeta med varandra inom LTS, än att föra dialog om detta inför öppen publik här på Faktiskt?
Svante skrev:screen skrev:Vore det inte bättre att samarbeta med varandra inom LTS, än att föra dialog om detta inför öppen publik här på Faktiskt?
Jo, det hade det varit.
dimitri skrev:Svante,
..........
Nåiallafall, jag kan ha fel, hårddra det allt för mycket. Det är inte alls uteslutet Svante att din kritik kan leda till utveckling. Allt kan utvecklas. I så fall kan man kanske förvänta sig att du visar den praktiska vägen. Du som har både formella och reella meriter.
dimitri skrev:Svante,
Helt rätt beträffande Sarah och granskare av vetenskplig artikel.
Om Sarah kriticerade LTS metoder skulle hon inte behöva känna sig förpliktigad att axla manteln. Så långt har du rätt.
Men om Sarah på ett personalmöte på det sjukhus hon sedan arbetade (Saltsjöbaden) öppet kritiserade närmsta chefen, varvid chefen och ledningen efbjöd henne att ta över chefskapet så är läget lite annat. Eller hur.
dimitri skrev:Det sägs att den som framför kritik måste visa mod och vara beredd på även de värsta konsekvenserna, som att bli avskedad, tvingad att avgå osv.
dimitri skrev:En annan möjlighet är att performera en svanesång, och sedan stillfullt avgå med hela publiken gråtande. Och Fatiskt är ju faktist en Svanesångarnas Mecka.
dimitri skrev:Om Leijonborg skulle få för sig att kritisera Bildt och denne skulle välja att avgå, inte kan du väl säga att Lille Lars kan låtsats som om inget och vissla en låt. Eller Hur?
dimitri skrev:Nåiallafall, jag kan ha fel, hårddra det allt för mycket. Det är inte alls uteslutet Svante att din kritik kan leda till utveckling. Allt kan utvecklas. I så fall kan man kanske förvänta sig att du visar den praktiska vägen. Du som har både formella och reella meriter.
dimitri skrev:Svante,
Helt rätt beträffande Sarah och granskare av vetenskplig artikel.
Om Sarah kriticerade LTS metoder skulle hon inte behöva känna sig förpliktigad att axla manteln. Så långt har du rätt.
Men om Sarah på ett personalmöte på det sjukhus hon sedan arbetade (Saltsjöbaden) öppet kritiserade närmsta chefen, varvid chefen och ledningen efbjöd henne att ta över chefskapet så är läget lite annat. Eller hur.
Det sägs att den som framför kritik måste visa mod och vara beredd på även de värsta konsekvenserna, som att bli avskedad, tvingad att avgå osv.
En annan möjlighet är att performera en svanesång, och sedan stillfullt avgå med hela publiken gråtande. Och Fatiskt är ju faktist en Svanesångarnas Mecka.
Om Leijonborg skulle få för sig att kritisera Bildt och denne skulle välja att avgå, inte kan du väl säga att Lille Lars kan låtsats som om inget och vissla en låt. Eller Hur?
Nåiallafall, jag kan ha fel, hårddra det allt för mycket. Det är inte alls uteslutet Svante att din kritik kan leda till utveckling. Allt kan utvecklas. I så fall kan man kanske förvänta sig att du visar den praktiska vägen. Du som har både formella och reella meriter.
Svante skrev:Jahaja, det är tydligt att man måste ha bandbredd för att delta på faktiskt... Fasen vad mycket svårare det är att hänga med i svängarna via WAP och långsamt modem.Speciellt när man vill vara lite noga med sina svar. Att svara på nedanstående, retoriska frågor med enbart ja eller nej är liksom inte möjligt.
IngOehman skrev:1. Du Svante, som varit med på några av LTS lyssningstester, har du NÅGON ENDA GÅNG stött på ett resultat som du vet inte ger en statistisk signifikans om >99%, men som ändå kommit i MoLt och påståtts ha en statistisk signifikans högre än 99%?
Nej.
Svante skrev:IngOehman skrev:2. Det vill säga: Finns det någon grund, i form av ett faktiskt fall (där det blivit fel) för dig att ifrågasätta om jag tagit mitt ansvar att upprätthålla en adekvat vetenskaplig hantering av mätdata?
Ja, samtliga fall jag har sett.
Svante skrev:IngOehman skrev:3. Eller handlar det bara om att just du inte tycker dig kunna bedöma signifikansen på plats, som jag har gjort? (Utöver att jag förstås kontrollräknat i de fall det finnits minsta tveksamhet.)
(Denna sista kräver följdfrågor, som jag ställer strax...)
Ja. Eller nej.
Svante skrev:Alltså jag kan inte svara för alla andra, men det beror på att jag inte kan bedömma signifikansen, vare sig på plats eller långt senare.
Svante skrev:IngOehman skrev:4. Är det sant att du vid ett antal tillfällen kommit med (enligt dig "svårbedömda") exempel på fall till mig, där jag ombetts att uttala mig om den statistiska signifikansen - och att jag svarat dig ögonblickligen, med antingen ett exakt svar, eller med worst case-svar (">X%")?
Nja. Jo, det är det.
Svante skrev:Betyder det att ditt svar har varit rätt?
Svante skrev:Jag har annars för vana att börja mina förklaringar med enkla exempel (dvs alla har inte varit svåra) för att förtydliga en ståndpunkt, men du verkar inte tänka som vanligt folk gör, så det har funkat ganska dåligt.
Svante skrev:IngOehman skrev:5. Är det också sant att du ännu inte har ett enda exempel på att du (efter att ha gått hem och räknat på det hela (och ägna uppgiften din fulla uppmärksamhet)) funnit att mitt ögonblickliga svar varit felaktigt?
Ja.
Svante skrev:Jag har inte räknat så på exemplen som jag har givit. Jag har gjort simuleringar som resulterade i mitt förslag till avbrottsvillkor, är det dem du menar?
Svante skrev:Men återigen, frånvaro av exempel kan bero på många saker.
Svante skrev:IngOehman skrev:6. Kort sagt: Är det riktigt att jag - så vitt du känner till - ALDRIG har kommit med någon enda felaktig bedömning avseende statistisk signifikans?
Ja.
Svante skrev:Men frånvaro av bevis betyder inte att din metod är bra.
Svante skrev:Sen har jag hittat på några frågor till som kanske någon har:
Kan man lita på de tester som utförts hittills i LTS regi?
Trots det ovanstående är min bedömning att man kan det. Jag kan säga det eftersom jag tror att Ingvar drivs av en uppriktig vilja att undersöka hur apparaterna presterar. Däremot tycker jag att det är tråkigt att man måste lita på min, Ingvars eller någon annans bedömning av det. Det vore bättre om jag kunde lägga fram fakta så att den som begriper statistik själv kan undersöka om data har behandlats vettigt.
Svante skrev:Tror jag att Ingvar kan beräkna konfidensen i testerna, så som de har utförts hittills?
Nej. Jag tror däremot att han kan däremot uppskatta konfidensen med någon viss säkerhet. Genom att ”ta höjd”, dvs utsätta lyssnarna för fler lyssningar än nödvändigt, så kan han göra det troligt att konfidensen ändå är större än 99%.
Vilken är då min kritik?
Min kritik är framför allt att den statistiska metoden inte finns dokumenterad. Det gör den svårvaliderad. Resultaten i testerna står och faller med tilliten till Ingvars förmåga att bedömma svarssekvenserna. I denna kritik ligger också att flera personer tillåts svara samtidigt, med kännedom om varandras svar. Ingvar menar att han kan väga in samtidiga svar i den statstiska behandlingen, något som för mig förefaller svårt utan att göra antaganden om hur stark korrelationen är mellan de samtidigt avgivna svaren eller kräva onödigt många lyssningar.
Det må vara så att det inte vid ett enda tillfälle har påståtts att konfidensen har varit högre än den verkligen är. Oavsett hur det är med det är det dålig försöksdesign om man inte kan redovisa hur beräkningen av konfidensen går till. Det är dåligt av flera anledningar.
Svante skrev:1. Eftersom det inte går att tala om hur beräkningarna utförs så går det inte att säga hur stor konfidensen egentligen är. I strikt mening blir det svårt att garantera att den är över 99%. Det man kan göra är att ”ta höjd” så att det blir troligt att man har kanske 99,8% konfidens, så att man är nästan säker på att man har 99% konfidens. Det här blir någon sorts konfidensintervall på konfidensen. Om man kan sätta siffror på de bedömningar man gör under analysens gång kan man möjligen räkna ut hur stor den slutliga konfidensen blir, men det blir bökigt. Ingvar kanske kan göra det i huvudet, själv kan jag inte ens göra det på papper.
Svante skrev:2. Att behöva ”ta höjd” medför med nödvändighet att man behöver utsätta lyssnarna för fler lyssningar än vad som egentligen behövs, de blir alltså mer uttröttade än om man vet exakt när 99% konfidens har uppnåtts och kan bryta då.
Svante skrev:3. Trovärdigheten. Att inte kunna redovisa hur man har gjort gör att metoden kan ifrågasättas utan att den går att försvara med sakargument.
4. Till sist, och detta är nog det allvarligaste: Eftersom metoden är så komplicerad att den är omöjlig att skriva ner på papper så blir det mycket svårt att byta testledare. Det blir också mycket svårt för någon annan att ta över eller duplicera/anamma LTS testmetodik. Testerna är alltså knutna till Ingvar, vilket knappast kan vara en fördel för LTS, vilket är högaktuellt just nu när han väljer att lämna LTS tekniksektion.
Svante skrev:Gör man något bra, så ska man underlätta för andra att göra samma sak om man vill att det som är bra ska leda till en positiv utveckling.
Svante skrev:Hur vill jag att testdesignen ska förändras?
Jag vill att man i förväg bestämmer vilka avbrottsvillkor som ska gälla. Hur detta kan gå till finns beskrivet i min statistikartikel i MoLT 1/2006. Det som inte finns beskrivet där är hur man hanterar flera samtidigt närvarande lyssnare. Vid samtidigt avgivna svar måste alla utom det första bortses ifrån, eller så avges de i konsensus. Alternativet är att man ser avgivna svarsserier som individuella, och då måste man höja konfidenskraven eftersom det då rör sig om upprepade tester (lika många som antalet försökspersoner). Hursomhelst måste multipla, möjligen korrelerade svar hanteras på ett dokumenterat sätt och det dokumentet måste finnas innan försöket startar. Det finns också en del tekniska lösningar för avgivande av flera samtidiga svar som jag hade velat testa, det är möjligt att de inte ger något, men det är också möjligt att de nästanlöser problematiken med korrelation mellan samtidigt avgivna svar. Jag ska också villigt erkänna att jag inte har en färdig lösning på hur testerna bör gå till, framförallt map hanteringen av samtidiga lyssnare. Där behöver man experimentera för att hitta en lösning som är acceptabel både för lyssnarna och ur databehandlingssynpunkt. Till sist skulle jag också vilja att testerna vore dubbelblinda, inte enkelblinda som nu.
Svante skrev:Allt behöver inte lösas på en gång, det vore dumt att göra avbrott i testandet för detta, men på lite sikt menar jag att en förändring är önskvärd.
Svante skrev:En personlig reflexion:
När jag påbörjade den här diskussionen för något år sedan var mina synpunkter närmast reflexmässiga att ”så här gör man inte”. Med min akademiska skolning så var och är det främmande att höfta konfidensen på det sätt som gjordes genom att väga in en massa svårmätta företeelser, trots att man tog höjd för den osäkerhet som man trodde sig ha.
Svante skrev:I det läget kom diskussionerna att handla väldigt mycket om huruvida man måste känna till konfidensen exakt. Ju mer vi har diskuterat desto mer har jag insett att det inte är konfidensnivån i sig som är viktig, utan dokumentationen av hur den beräknas. I akademiska sammanhang är dokumentation och arkivering så självklart att man sällan reflekterar över det. Den här debatten har fått mig att fundera över hur värdefull dokumentation och ifrågasättande är för reproducerbarhet och den vetenskapliga kvaliteten och det har varit nyttigt och utvecklande att påminnas om det.
Svante skrev:LTS är en förening som säger sig stå på vetenskaplig grund. Enligt mitt synsätt innebär det att man ska låta sina metoder nagelfaras helt öppet. Det finns ingenting att vinna på att lämna delar av metoden dold annat än om man vill att den ska framstå som svårförstådd/avancerad eller mystisk.
Svante skrev:Det fina med att vara helt öppen är att många personer blir delaktiga i utformningen och att man därmed konvergerar mot en metod som inte bara en person tycker är bäst, utan flera.
Svante skrev:Dessutom kommer flera personer att kunna använda samma metod och troligen få samma resultat. Öppenheten innebär förstås att personer som inte kan eller vill förstå får möjlighet att klämma på de svaga punkterna, men om man verkligen har minimerat dem till antal och storlek så bör en sådan debatt vara ganska snart vara avklarad, om man bara är lite smidig.
Svante skrev:En odokumenterad metod får dock, hur bra den än är, begränsad möjlighet att vara till nytta för andra. Den enda nyttan blir genom de resultat som kommer ur att uppfinnaren själv använder metoden och trovärdigheten blir densamma som trovärdigheten för uppfinnaren, eftersom metoden inte kan granskas. Det binder testverksamheten till uppfinnaren, som därmed blir oumbärlig.
Svante skrev:Till sist vill jag också säga att F/E-lyssning i sig är en väldigt bra metod. Den har enligt min uppfattning förutsättningar att detektera upplevbara fysikaliska skillnader som är långt mindre än vad man kan höra vid öppna lyssningar eller vid ett typiskt apparatbyte hemma. Den kringutrustning som används vid LTS tester är av mycket hög klass och borgar för att det knappast är troligt att man skulle lyckas höra storleksmässigt mindre skillnader med annan utrustning.
Svante skrev:Mina anmärkningar gäller bara försöksdesignen och den aningen slafsiga behandlingen av statistiska data. Sett i perspektivet av andra populära hifi-skrifters lyssningstester är min kritik petimetersaker, det är en milsvid skillnad i kvaliteten på LTS tester och blaskornas, men även bra saker bör förbättras. Faktum är väl att det är just de som är intressantast att förbättra. Och som sagt, LTS har ju ambitionen att göra vetenskapligt hållbara undersökningar och det är det jag har försökt hjälpa till med.
Svante skrev:Allra sist vill jag ställa en retorisk fråga till Ingvar (jag har ju redan formulerat mitt svar på den ovan). Jag gör min blå.
Vilken metod tycker du att LTS ska använda för behandling av statistiken nu när du har avgått från LTS tekniksektion?
Svante skrev:Ja, nu börjar den exponentiella tillväxten. Den gör det helt omöjligt att svara på allt (och jag är i detta fallet inte oskyldig till den själv).
Några kommentarer. Jag noterar att du har klippt bort alla mina förklaringar till ja/nejsvaren i ditt första inlägg.
Svante skrev:Utan dem ser det ut som jag håller med dina retoriskt upplagda frågor.
Svante skrev:När du inte fick svaren du ville, klippte du i dem. Illa. Du brukar ju vara den första att säga att man inte ska lyfta ord ur sitt sammanhang.
Noterar också att du inte vill ha någon åsikt om vilken metod som dina efterföljare ska använda. Jag förstår att du inte vill det, de måste ju ägna tio år till egna undersökningar om de ska kunna använda din metod. Eller hur var det du skrev?
Hursomhelst så har nog de flesta som fortfarande är intresserade snappat upp våra uppfattningar, vidare kommentarer kommer bara att bli upprepningar. Är det något specifikt som du tycker att jag inte har svarat på tidigare så kan du väl ställa det som en separat fråga.
Kaffekoppen skrev:Svante,
Även om du må tycka att resultaten som redovisats på tre testtillfällen som du deltagit i Svante har framkommit på ett mindre exemplariskt vis, TROR du att resultatet hade blivit annorlunda med en annan metod/tillvägagångssätt?
(ursäkta upprepningen, men jag tror inte ditt svar på det gått fram i den retorisk djungeln, och svaret kan ha viss betydelse för hur vi skall förhålla oss till de resultaten)
Tack på förhand
Magnus
Svante skrev:Kan man lita på de tester som utförts hittills i LTS regi?
Trots det ovanstående är min bedömning att man kan det. Jag kan säga det eftersom jag tror att Ingvar drivs av en uppriktig vilja att undersöka hur apparaterna presterar. Däremot tycker jag att det är tråkigt att man måste lita på min, Ingvars eller någon annans bedömning av det. Det vore bättre om jag kunde lägga fram fakta så att den som begriper statistik själv kan undersöka om data har behandlats vettigt.
Svante skrev:Svante skrev:Kan man lita på de tester som utförts hittills i LTS regi?
Trots det ovanstående är min bedömning att man kan det. Jag kan säga det eftersom jag tror att Ingvar drivs av en uppriktig vilja att undersöka hur apparaterna presterar. Däremot tycker jag att det är tråkigt att man måste lita på min, Ingvars eller någon annans bedömning av det. Det vore bättre om jag kunde lägga fram fakta så att den som begriper statistik själv kan undersöka om data har behandlats vettigt.
Sanny_X skrev:Så; för de LTS-medlemmar som är intresserade av hur testade apparater låter finns det inget att vinna på dessa disskussioner? Tidigare tester (gjorda under IÖs tid) är tillförlitliga.
De enda som möjligtvis har nåt "att vinna" på detta ältande är de som är intresserade av statistik.
Som enkel medlem i LTS; Ingvar kom tillbaka och fortsätt göra tester.
Svante skrev:IngOehman skrev:1. Du Svante, som varit med på några av LTS lyssningstester, har du NÅGON ENDA GÅNG stött på ett resultat som du vet inte ger en statistisk signifikans om >99%, men som ändå kommit i MoLt och påståtts ha en statistisk signifikans högre än 99%?
Nej. Detta måste dock ses i ljuset av att frånvaro av fynd inte betyder att fyndet inte finns att göra. Tre saker försvårar undersökning av frågan. Det första är att jag endast har närvarat vid tre testkvällar, det andra att eftersom metoden inte finns beskriven så är den svår att validera, den tredje är att rådata inte är sparade så det finns inget att kontrollräkna på.IngOehman skrev:2. Det vill säga: Finns det någon grund, i form av ett faktiskt fall (där det blivit fel) för dig att ifrågasätta om jag tagit mitt ansvar att upprätthålla en adekvat vetenskaplig hantering av mätdata?
Ja, samtliga fall jag har sett. Det är praxis i vetenskapliga sammanhang att spara rådata, i många fall i tiotals år, och definitivt till dess att slutsatserna är publicerade. Det har mig veterligen inte skett. Vid samtidigt avgivna svar har mig veterligen ingen notering om detta förts till protokollet, vare sig om att de har avgivits samtidigt, eller i vilken ordning. Vidare är det vetenskaplig praxis att behandla statistiska data med tidigare väl beskrivna metoder och tala om vilken man har använt, alternativt att använda en icke dokumenterad metod som man själv beskriver. Den referensen eller beskrivningen har jag heller inte sett. Det är förstås möjligt att det står en pärm med rådata och/eller metodbeskrivning någonstans som motbevisar det jag säger, men jag tror inte det.IngOehman skrev:3. Eller handlar det bara om att just du inte tycker dig kunna bedöma signifikansen på plats, som jag har gjort? (Utöver att jag förstås kontrollräknat i de fall det finnits minsta tveksamhet.)
(Denna sista kräver följdfrågor, som jag ställer strax...)
Ja. Eller nej. Alltså jag kan inte svara för alla andra, men det beror på att jag inte kan bedömma signifikansen, vare sig på plats eller långt senare. Metoden Ingvar använder är extremt svår att beräkna en exakt konfidens med, den innehåller många faktorer vars storlek måste bedömmas eller gissas fram. Pga detta och att han inte kan dokumentera hur han gör förstår jag inte hur han räknar. Frågan är dock retorisk i den meningen att den flyttar fokus från att Ingvar inte har lyckats beskriva sin metod till att det kanske är jag som är så dum att jag inte förstår hur han räknar.IngOehman skrev:4. Är det sant att du vid ett antal tillfällen kommit med (enligt dig "svårbedömda") exempel på fall till mig, där jag ombetts att uttala mig om den statistiska signifikansen - och att jag svarat dig ögonblickligen, med antingen ett exakt svar, eller med worst case-svar (">X%")?
Nja. Jo, det är det. Betyder det att ditt svar har varit rätt?Jag har annars för vana att börja mina förklaringar med enkla exempel (dvs alla har inte varit svåra) för att förtydliga en ståndpunkt, men du verkar inte tänka som vanligt folk gör, så det har funkat ganska dåligt.
IngOehman skrev:Svante skrev:Jahaja, det är tydligt att man måste ha bandbredd för att delta på faktiskt... Fasen vad mycket svårare det är att hänga med i svängarna via WAP och långsamt modem.Speciellt när man vill vara lite noga med sina svar. Att svara på nedanstående, retoriska frågor med enbart ja eller nej är liksom inte möjligt.
IngOehman skrev:1. Du Svante, som varit med på några av LTS lyssningstester, har du NÅGON ENDA GÅNG stött på ett resultat som du vet inte ger en statistisk signifikans om >99%, men som ändå kommit i MoLt och påståtts ha en statistisk signifikans högre än 99%?
Nej. VAD SAKNAS HÄR?
Tack för rakt svar!
Svante skrev:IngOehman skrev:2. Det vill säga: Finns det någon grund, i form av ett faktiskt fall (där det blivit fel) för dig att ifrågasätta om jag tagit mitt ansvar att upprätthålla en adekvat vetenskaplig hantering av mätdata?
Ja, samtliga fall jag har sett. VAD SAKNAS HÄR?
Hupp!
Det där var ju liksom en checkkodsfråga till fråga 1 - en koll att du förstått implikationen... Ditt svar renderar felaktig checkkod.![]()
Jag måste förmoda att du läst frågan slarvigt. Missade du månne:"...i form av ett faktiskt fall (där det blivit fel)..."? Jag tror nästan det, så läs igen och återkom med rätt svar, eller rättar jag det bara här, så checkkoden blir rätt: Det vill säga ändrar ditt svar till ett rungande: NEJ.![]()
Svante skrev:IngOehman skrev:3. Eller handlar det bara om att just du inte tycker dig kunna bedöma signifikansen på plats, som jag har gjort? (Utöver att jag förstås kontrollräknat i de fall det finnits minsta tveksamhet.)
(Denna sista kräver följdfrågor, som jag ställer strax...)
Ja. Eller nej.
Vet du inte vad du själv kan bedöma?
Svante skrev:Alltså jag kan inte svara för alla andra, men det beror på att jag inte kan bedömma signifikansen, vare sig på plats eller långt senare. VAD SAKNAS HÄR?
Det var ju det jag frågade om!
Nåja... där kom svaret i varje fall, och dessutom ett någotsånär rakt svar (även om JA varit rakare. Du inte tycktes vilja skriva just bokstäverna JA...).
Du svarar alltså JA! Tack.
Svante skrev:IngOehman skrev:4. Är det sant att du vid ett antal tillfällen kommit med (enligt dig "svårbedömda") exempel på fall till mig, där jag ombetts att uttala mig om den statistiska signifikansen - och att jag svarat dig ögonblickligen, med antingen ett exakt svar, eller med worst case-svar (">X%")?
Nja. Jo, det är det. VAD SAKNAS HÄR?
Ett intressant och slingrigt sätt att skriva ett rakt: JA…
Trots slinger: Tack för svaret!![]()
<snip>
Svante skrev:Att svara på nedanstående, retoriska frågor med enbart ja eller nej är liksom inte möjligt.
Kaffekoppen skrev:Det ultimata vore ju förståss fortfarande om samma gäng som tidigare fortsatte och gjorde testerna på ett sätt som tilltalade samtliga inblandade och som gjorde att de alla tyckte att det var kul.
Morello skrev:Varför inte skriva protokoll så här:
Svante Morello
1 F R
2 F R
3 F R
4 R R
5 F R
6 F R
7 R R
8 F R
9 R F
R=rätt, F=fel, fetstil=svarade först
Kan någon göra en analys av resultatet?
Med vilken konfidensnivå kan man göra gällande att jag de facto hörde skillnad på signalerna?
OM testledaren vill bortse från svar som inkommit efter det första är han fri att göra det.
Morello skrev:Testledaren avbröt testet. Någon bestämd längd på serien fanns inte.
Något mer ni undrar?
Thomas_A skrev:Morello har 7/7, Svante 2/2. Att M har svarat först i de allra flesta fall är också en indikation säkerhet, dock bara en indikation.
Sammanlagt 9/9, p-värden finns sen tidigare i tråden.
De som svarat först räknas, övriga svar kan inte garanteras vara oberoende. Ska man göra en individuell analys kan man först göra ett antagande, att de är oberoende av varandra:
Fisher's test mellan Morello och Svante: 8/1 resp 3/6; p=0.04977375565610897, two-tailed. Alltså är det osannolikt (p<0.05) att deras resultat har slumpats fram, även om det är på gränsen (nära 0.05). Det kan vara så att S har svarat tvärtom, men det kan man inte anta i detta fall (n är för litet för att bedöma).
P beräknad på Ms första serie.
Svante skrev:Thomas_A skrev:Morello har 7/7, Svante 2/2. Att M har svarat först i de allra flesta fall är också en indikation säkerhet, dock bara en indikation.
Sammanlagt 9/9, p-värden finns sen tidigare i tråden.
De som svarat först räknas, övriga svar kan inte garanteras vara oberoende. Ska man göra en individuell analys kan man först göra ett antagande, att de är oberoende av varandra:
Fisher's test mellan Morello och Svante: 8/1 resp 3/6; p=0.04977375565610897, two-tailed. Alltså är det osannolikt (p<0.05) att deras resultat har slumpats fram, även om det är på gränsen (nära 0.05). Det kan vara så att S har svarat tvärtom, men det kan man inte anta i detta fall (n är för litet för att bedöma).
P beräknad på Ms första serie.
Utgår du ifrån att man i förväg har bestämt att man ska lyssna 9 ggr? Om det hade funnits två Svantar till med liknande resultat, hade p blivit större?
Thomas_A skrev:Svante skrev:Thomas_A skrev:Morello har 7/7, Svante 2/2. Att M har svarat först i de allra flesta fall är också en indikation säkerhet, dock bara en indikation.
Sammanlagt 9/9, p-värden finns sen tidigare i tråden.
De som svarat först räknas, övriga svar kan inte garanteras vara oberoende. Ska man göra en individuell analys kan man först göra ett antagande, att de är oberoende av varandra:
Fisher's test mellan Morello och Svante: 8/1 resp 3/6; p=0.04977375565610897, two-tailed. Alltså är det osannolikt (p<0.05) att deras resultat har slumpats fram, även om det är på gränsen (nära 0.05). Det kan vara så att S har svarat tvärtom, men det kan man inte anta i detta fall (n är för litet för att bedöma).
P beräknad på Ms första serie.
Utgår du ifrån att man i förväg har bestämt att man ska lyssna 9 ggr? Om det hade funnits två Svantar till med liknande resultat, hade p blivit större?
Du får förklara närmare vad du menar med två Svantar till, men naturligtvis blir det lägre signifikans om flera personer är med pga kombinatoriken. Ju fler som är med ju större sannolikhet att hitta någon med siffror som Morello av en slump. Detta om man i efterhand selekterar två av fyra med vetskap om resultaten. Väljer några att delta i lyssningen men inte "lämna in" sina resultat kan de aldrig heller medräknas som en till Svante. De som svarat och lämnar in är de som gäller. Icke-resultat kan inte selekteras i efterhand. Jag förväntar mig att dessa två serier inte är i efterhand selekterade serier.
Ang "i förväg bestämt" så antar jag att testseriens resultat inte påverkar testledarens beslut när han ska avbryta, exempelvis genom att inte veta de rätta svaren under testens gång, eller att man bestämt sig för 9 stycken. Det är iofs som jag sagt tidigare väldigt lågt med 9 omgångar. Skulle man tro att testet är styrt efter Morellos svar så kan det inte sägas vara styrt om han har 9/9 rätt vid stoppet (i hans sista exempel).
För övrigt:
Ang. att skilja två personer åt med en förväntad pi=0.5 resp 0.9 krävs n=24 från varje grupp för en power på 80%. Så om man antar att Svante inte är förmögen att höra skillnad (pi=0.5) men M är det (pi=0.9), krävs det alltså n=24 svar från varje. Det faktiska Fisher-resultatet ovan har således låg power, med dessa antaganden.
Thomas_A skrev:Du får förklara närmare vad du menar med två Svantar till,
Thomas_A skrev:men naturligtvis blir det lägre signifikans om flera personer är med pga kombinatoriken. Ju fler som är med ju större sannolikhet att hitta någon med siffror som Morello av en slump. Detta om man i efterhand selekterar två av fyra med vetskap om resultaten. Väljer några att delta i lyssningen men inte "lämna in" sina resultat kan de aldrig heller medräknas som en till Svante.
Thomas_A skrev:De som svarat och lämnar in är de som gäller. Icke-resultat kan inte selekteras i efterhand. Jag förväntar mig att dessa två serier inte är i efterhand selekterade serier.
Ang "i förväg bestämt" så antar jag att testseriens resultat inte påverkar testledarens beslut när han ska avbryta,
Thomas_A skrev:exempelvis genom att inte veta de rätta svaren under testens gång, eller att man bestämt sig för 9 stycken. Det är iofs som jag sagt tidigare väldigt lågt med 9 omgångar. Skulle man tro att testet är styrt efter Morellos svar så kan det inte sägas vara styrt om han har 9/9 rätt vid stoppet (i hans sista exempel).
För övrigt:
Ang. att skilja två personer åt med en förväntad pi=0.5 resp 0.9 krävs n=24 från varje grupp för en power på 80%. Så om man antar att Svante inte är förmögen att höra skillnad (pi=0.5) men M är det (pi=0.9), krävs det alltså n=24 svar från varje. Det faktiska Fisher-resultatet ovan har således låg power, med dessa antaganden.
Thomas_A skrev:Och så en fråga. Jag undrar om det är en skillnad om man väljer att avbryta ett test i förtid även om alla svar är rätt?
Man väljer att ha 12 omgångar. Man avbryter efter 10 då testpersonen haft 10 rätt av 10 möjliga. Skiljer sig p åt om man i förväg valt 10 omgångar? Jag tror det endast skiljer sig då man fått ett eller fler fel under testets gång. I Morellos sista exempel hade han 9 av 9 möjliga, det som komplicerar det är Svante's serie, om den möjligen kunnat påverka då hans två förstasvar var korrekta.
Thomas_A skrev:Svante,
i ditt papper så har du skrivit fel anser jag. Andelen med tre rätt i rad för provomgång 1, 2, 3 är 4/32 i fem-testserien, vilket ger konfidensen 87.5%, exakt som i fallet med 3-serien. Alla serier kan fortsättas i det oändliga med okända svar, även om man bestämt sig för ett fixed värde.
Thomas_A skrev:Svante,
jag var för trött för konditional testing.
Thomas_A skrev:Äh, glöm det förresten. Jag tar tillbaka mina senaste frågor och påståenden. Jag skulle helst vilja att man inte har några konditionella tester med alls under testets gång, som jag sagt från början. Samt att ha n>20.
Thomas_A skrev:I desingen har man bestämt sig för n=12 men avslutat vid 10/10 för varje omgång.
Thomas_A skrev:Min tanke var ju att det var ett stickprov vi pratar om och då är alla n man väljer ett avbrott. Ponera följande, man bestämmer sig för följande n=10.
I fall 1 får man 10/10
I fall 2 får man 8/10
10/10 är signifikant skilt från pi=0.5 men inte 8/10.
Man bestämmer sig för att öka n med ytterligare 10 och får:
fall 1: 8/10
fall 2: 10/10
Summar i båda fallen är 18/20 vilket är signifikant skilt från pi=0.5
Nu, skiljer sig p mot en serie av 20 i rad jämfört med ändringen att öka n i strävan att minska risken för fel? Skiljer sig p i de två fallen där man har 18/20 men där den första serien i sig är signifikant skilt från slumpen men där man i första fallet fick ett signifikant utfall och i andra fallet inte fick det.
Det var väl det jag menade med att serierna bara är stickprov ur en längre serie.
I slutändan kanske man gjort 200 tester och fått 181 positiva. Varken 10/10 eller 8/10 skiljer sig mot denna signifikant, men det är väldigt väldigt skilt från 100/200, dvs slumpen.
Dahlqvist skrev:Utan att vara trivial så gäller inte den centrala frågeställningen hur man behandlar matematiken utan vilket utfallsrum man skall räkna på. En utomstående betraktare kan inte skilja IÖ:s anstängningar att öka känsligheten hos experimentet från att post hoc dra nytta av slumpmässiga variationer. Och där i ligger dilemmat.
Thomas_A skrev:Jo men eftersom man inte visat att 10/10 är skilt från 8/10 pga av för låg n så kan man anta att de inte skiljer sig åt signifikant.
Thomas_A skrev:Inom biologin använder man sig ofta av konsekutivt val eftersom det inte är att välja i efterhand. I ovanstående fall antas de båda serierna vara konsekutiva, alltså ej selekterade i efterhand.
Svante skrev:Thomas_A skrev:Inom biologin använder man sig ofta av konsekutivt val eftersom det inte är att välja i efterhand. I ovanstående fall antas de båda serierna vara konsekutiva, alltså ej selekterade i efterhand.
Ok, det vet jag ju ingenting om, men menar du att man väljer att generera en andra testserie, beroende på utfallet i den första?
I sådana fall vill jag ifrågasätta om de kan betraktas som slumpvisa urval.
Svante skrev:Thomas_A skrev:Jo men eftersom man inte visat att 10/10 är skilt från 8/10 pga av för låg n så kan man anta att de inte skiljer sig åt signifikant.
Nej verkligen inte! Jag har inte visat för dig att min bil är grön. Kan vi då anta att den är det?
Kaffekoppen skrev:Så en genomlyssning med 4 lyssnare och n=10 ger n=40 vilket torde vara mer än vad som behövs?
Hur tolkar man 4 lyssnare och N=7 ... ---> N= 28?
Kaffekoppen skrev:Utökar man till n=8, n=9, n=10 .. hur blir siffrorna då?
Svante skrev:När jag skrev detta:Svante skrev:IngOehman skrev:1. Du Svante, som varit med på några av LTS lyssningstester, har du NÅGON ENDA GÅNG stött på ett resultat som du vet inte ger en statistisk signifikans om >99%, men som ändå kommit i MoLt och påståtts ha en statistisk signifikans högre än 99%?
Nej. Detta måste dock ses i ljuset av att frånvaro av fynd inte betyder att fyndet inte finns att göra. Tre saker försvårar undersökning av frågan. Det första är att jag endast har närvarat vid tre testkvällar, det andra att eftersom metoden inte finns beskriven så är den svår att validera, den tredje är att rådata inte är sparade så det finns inget att kontrollräkna på.IngOehman skrev:2. Det vill säga: Finns det någon grund, i form av ett faktiskt fall (där det blivit fel) för dig att ifrågasätta om jag tagit mitt ansvar att upprätthålla en adekvat vetenskaplig hantering av mätdata?
Ja, samtliga fall jag har sett. Det är praxis i vetenskapliga sammanhang att spara rådata, i många fall i tiotals år, och definitivt till dess att slutsatserna är publicerade. Det har mig veterligen inte skett. Vid samtidigt avgivna svar har mig veterligen ingen notering om detta förts till protokollet, vare sig om att de har avgivits samtidigt, eller i vilken ordning. Vidare är det vetenskaplig praxis att behandla statistiska data med tidigare väl beskrivna metoder och tala om vilken man har använt, alternativt att använda en icke dokumenterad metod som man själv beskriver. Den referensen eller beskrivningen har jag heller inte sett. Det är förstås möjligt att det står en pärm med rådata och/eller metodbeskrivning någonstans som motbevisar det jag säger, men jag tror inte det.IngOehman skrev:3. Eller handlar det bara om att just du inte tycker dig kunna bedöma signifikansen på plats, som jag har gjort? (Utöver att jag förstås kontrollräknat i de fall det finnits minsta tveksamhet.)
(Denna sista kräver följdfrågor, som jag ställer strax...)
Ja. Eller nej. Alltså jag kan inte svara för alla andra, men det beror på att jag inte kan bedömma signifikansen, vare sig på plats eller långt senare. Metoden Ingvar använder är extremt svår att beräkna en exakt konfidens med, den innehåller många faktorer vars storlek måste bedömmas eller gissas fram. Pga detta och att han inte kan dokumentera hur han gör förstår jag inte hur han räknar. Frågan är dock retorisk i den meningen att den flyttar fokus från att Ingvar inte har lyckats beskriva sin metod till att det kanske är jag som är så dum att jag inte förstår hur han räknar.IngOehman skrev:4. Är det sant att du vid ett antal tillfällen kommit med (enligt dig "svårbedömda") exempel på fall till mig, där jag ombetts att uttala mig om den statistiska signifikansen - och att jag svarat dig ögonblickligen, med antingen ett exakt svar, eller med worst case-svar (">X%")?
Nja. Jo, det är det. Betyder det att ditt svar har varit rätt?Jag har annars för vana att börja mina förklaringar med enkla exempel (dvs alla har inte varit svåra) för att förtydliga en ståndpunkt, men du verkar inte tänka som vanligt folk gör, så det har funkat ganska dåligt.
...så blev det detta som citat:IngOehman skrev:Svante skrev:Jahaja, det är tydligt att man måste ha bandbredd för att delta på faktiskt... Fasen vad mycket svårare det är att hänga med i svängarna via WAP och långsamt modem.Speciellt när man vill vara lite noga med sina svar. Att svara på nedanstående, retoriska frågor med enbart ja eller nej är liksom inte möjligt.
IngOehman skrev:1. Du Svante, som varit med på några av LTS lyssningstester, har du NÅGON ENDA GÅNG stött på ett resultat som du vet inte ger en statistisk signifikans om >99%, men som ändå kommit i MoLt och påståtts ha en statistisk signifikans högre än 99%?
Nej. VAD SAKNAS HÄR?
Tack för rakt svar!
Svante skrev:IngOehman skrev:2. Det vill säga: Finns det någon grund, i form av ett faktiskt fall (där det blivit fel) för dig att ifrågasätta om jag tagit mitt ansvar att upprätthålla en adekvat vetenskaplig hantering av mätdata?
Ja, samtliga fall jag har sett. VAD SAKNAS HÄR?
Hupp!
Det där var ju liksom en checkkodsfråga till fråga 1 - en koll att du förstått implikationen... Ditt svar renderar felaktig checkkod.![]()
Jag måste förmoda att du läst frågan slarvigt. Missade du månne:"...i form av ett faktiskt fall (där det blivit fel)..."? Jag tror nästan det, så läs igen och återkom med rätt svar, eller rättar jag det bara här, så checkkoden blir rätt: Det vill säga ändrar ditt svar till ett rungande: NEJ.![]()
Svante skrev:IngOehman skrev:3. Eller handlar det bara om att just du inte tycker dig kunna bedöma signifikansen på plats, som jag har gjort? (Utöver att jag förstås kontrollräknat i de fall det finnits minsta tveksamhet.)
(Denna sista kräver följdfrågor, som jag ställer strax...)
Ja. Eller nej.
Vet du inte vad du själv kan bedöma?
Svante skrev:Alltså jag kan inte svara för alla andra, men det beror på att jag inte kan bedömma signifikansen, vare sig på plats eller långt senare. VAD SAKNAS HÄR?
Det var ju det jag frågade om!
Nåja... där kom svaret i varje fall, och dessutom ett någotsånär rakt svar (även om JA varit rakare. Du inte tycktes vilja skriva just bokstäverna JA...).
Du svarar alltså JA! Tack.
Svante skrev:IngOehman skrev:4. Är det sant att du vid ett antal tillfällen kommit med (enligt dig "svårbedömda") exempel på fall till mig, där jag ombetts att uttala mig om den statistiska signifikansen - och att jag svarat dig ögonblickligen, med antingen ett exakt svar, eller med worst case-svar (">X%")?
Nja. Jo, det är det. VAD SAKNAS HÄR?
Ett intressant och slingrigt sätt att skriva ett rakt: JA…
Trots slinger: Tack för svaret!![]()
<snip>
Trots att jag inledde med:Svante skrev:Att svara på nedanstående, retoriska frågor med enbart ja eller nej är liksom inte möjligt.
så valde du att klippa bort förtydligandena. Att tvinga fram förenklade svar på ledande frågor är verkligen inte din stil. Ändå gör du det här.
Frågorna är både ledande och retoriska, de fyller ett retoriskt syfte eftersom de för fokus bort från det som egentligen är min kritik och skenbart gör att det ser ut som att du har rätt, trots att de var en avledande manöver för att undvika sakfrågan. Ren retorik.
Detta måste dock ses i ljuset av att frånvaro av fynd inte betyder att fyndet inte finns att göra....
Men återigen, frånvaro av exempel kan bero på många saker...
Men frånvaro av bevis betyder inte att din metod är bra...
Svante skrev:...Pga detta och att han inte kan dokumentera hur han gör förstår jag inte hur han räknar...
dimitri skrev:Kaffekoppen skrev:Utökar man till n=8, n=9, n=10 .. hur blir siffrorna då?
vid 4 x 8/10 blir p=0.009
vid 4x 9/10 blir p=0.0002
vid 4 x 10/10 blip p=0.0000009
Observera att p aldrig blir 0 helt och hållet.
Återigen så tycker jag att (jag tror att det är i överensstämmelse med Ingvars tankegångar) det är resultat från de allra duktigaste lyssnarna som bör ingå i statistiken. Jag håller helt med honom att valet av "guldöron" förenklar proceduren avsevärt.
Anta att
2 pers uppnår 4/10
2 pers uppnår 10/10
p för alla dvs 28/40 blir 0.11
medan p för bara de 2 med 10 rätt blir 0.001
Som Ingvar påpekar det är inte testdeltagarna som testas utan apparat(er). Känner man dessa 2 (de som hör 10/10) personer sedan tidigare som duktiga lyssnare så behöver man inte fundera särskilt länge för att inse att det är dessas resultat som är gällande och inte alla fyras.
Morello skrev:Pojkar, tråden hamnade på rätt köl - låt det få vara så ett tag till.
perstromgren skrev:Finns det verkligen ingen som läst något i ämnet och kan citera en text som inte författats av en faktiskt-medlem? Ni må tycka att det är naivt, men inte fasiken är detta första gången någon analyserar ett försök av denna typ, och denne någon inte är en faktiskt-medlem?
Jag vägrar att tro att detta inte är väl studerat och dokumenterat. Ni som forskar, har ni verkligen ingen stat-bok i hyllan som diskuterar detta? Snart stegar jag själv iväg till bibblan och letar, om ni som sitter i soppan vägrar. Att slå varann i huvet med argument ger inget när respekten för den andres kunskap saknas. Därför vore det trevligt med några opartiska, för en gångs skull.
perstromgren skrev:Finns det verkligen ingen som läst något i ämnet och kan citera en text som inte författats av en faktiskt-medlem? Ni må tycka att det är naivt, men inte fasiken är detta första gången någon analyserar ett försök av denna typ, och denne någon inte är en faktiskt-medlem?
Jag vägrar att tro att detta inte är väl studerat och dokumenterat. Ni som forskar, har ni verkligen ingen stat-bok i hyllan som diskuterar detta? Snart stegar jag själv iväg till bibblan och letar, om ni som sitter i soppan vägrar. Att slå varann i huvet med argument ger inget när respekten för den andres kunskap saknas. Därför vore det trevligt med några opartiska, för en gångs skull.
n3mmr skrev:Fråga om flerstegstester:
Om man testar N olika, okorrelerade, egenskaper i N olika testserier (fast vid samma tillfälle, eller åtminstone fölr samma objekt med samma testomständigheter i övrigt), måste testserierna läggas samman då?
Tänk att man testar lågbasegenskaper (där man då klart hör skillnad) resp diskantegenskaper.
Antag att man då hittar att objektet färgar i lågbastestet, med 99% konfidens, men att man i diskanttestet inte lyckas säkerställa nån färgning alls, alltså identrifikationen vid diskanttestet är obefintlig eller helt slumpmässig.
Har man då identifierat en färgning med 99% konfidens eller är konfidensen lägre p g a att man måste räkna in båda serierna i en enda?
Svante skrev:n3mmr skrev:Fråga om flerstegstester:
Om man testar N olika, okorrelerade, egenskaper i N olika testserier (
Jag kan iofs tycka att det kan vara ok att göra testerna separat om de är få och egenskaperna man testar är väl åtskilda, men då måste man vara noga med att tala om hur man har gjort, vilket inkluderar att redovisa även serier som inte gav 99% konfidens.
n3mmr skrev:Svante skrev:n3mmr skrev:Fråga om flerstegstester:
Om man testar N olika, okorrelerade, egenskaper i N olika testserier (
Jag kan iofs tycka att det kan vara ok att göra testerna separat om de är få och egenskaperna man testar är väl åtskilda, men då måste man vara noga med att tala om hur man har gjort, vilket inkluderar att redovisa även serier som inte gav 99% konfidens.
Jag tänkte mig att en meningsfull redovisning skulle vara att säga.
I basen hörde vi skillnad, och vi har stor tilltro till det resultatet.
I diskanten hörde vi ingen skillnad.
men om man sa att
Vi hörde skillnad, men det var inte så väldigt säkert, konfidensen var låg
så ljög man
Men jag kanske helt missuppfattar vad konfidens är: Jag tänker mig att konfidensen kommer in, bl a, i prediktion, dvs det är den tilltro man har till att man skulel få samma resultat nästa gång med samma test.
Nu visste jag redan vad Svante ansåg om detta, så jag vill nog gärna ha nån annans syn, också.
Morello skrev:Pojkar, tråden hamnade på rätt köl - låt det få vara så ett tag till.
Mozarello skrev:Med vilken konfidensnivå kan man göra gällande att jag de facto hörde skillnad på signalerna?
Kaffekoppen skrev:Svante,
Även om du må tycka att resultaten som redovisats på tre testtillfällen som du deltagit i Svante har framkommit på ett mindre exemplariskt vis, TROR du att resultatet hade blivit annorlunda med en annan metod/tillvägagångssätt?
Kaffekoppen skrev:Varför är det intressant för dig att veta det?
Kaffekoppen skrev:Om du vill veta är du välkommen att kontakta mig direkt. Det har inget med tråden att göra.
Dr. Svante skrev:Svante skrev:Kan man lita på de tester som utförts hittills i LTS regi?
Trots det ovanstående är min bedömning att man kan det. Jag kan säga det eftersom jag tror att Ingvar drivs av en uppriktig vilja att undersöka hur apparaterna presterar. Däremot tycker jag att det är tråkigt att man måste lita på min, Ingvars eller någon annans bedömning av det. Det vore bättre om jag kunde lägga fram fakta så att den som begriper statistik själv kan undersöka om data har behandlats vettigt.
Dahlqvist skrev:Men du behöver givetvis inte svara. För att travestera Lundell: ett inställt svar är och också ett svar. /D
Kaffekoppen skrev:Dahlqvist skrev:Men du behöver givetvis inte svara. För att travestera Lundell: ett inställt svar är och också ett svar. /D
Skälet var, precis som jag sa i inlägget innan att det fanns de som inte uppfattat det Svante skrivit på rätt sätt.
Det har funnits mer än nog av misstolkningar och ett rakt svar är mer tydliggörande än större textmassor ibland är.
Frågan är varför du undrar vad som gör det intressant för oss andra att veta hur han ser på saken. Det är väl rätt självklart att ett klargörande leder till mindre misstolkningar.
Din fråga till mig, så här långt i efterhand, där du ber mig klargöra mina motiv är däremot besynnerlig. Den som isåfall skulle ifrågasätta den borde vara Svante om han såg något konstigt i den. Det tror jag inte han gjorde, utan tvärtom tror jag han är väl insatt i motivet till den.
Den här textmassan har väl inte direkt drivit sakfrågan framåt utan bluddrar bara tråden. Därav min önskan att du kunde ställa en fråga som inte har ett jäkla skit med sakfrågan att göra i ett PM om du hade ett personligt intresse av svaret.
En insinuering är också en insinuering min kära Dahlqvist!
n3mmr skrev:Men jag kanske helt missuppfattar vad konfidens är: Jag tänker mig att konfidensen kommer in, bl a, i prediktion, dvs det är den tilltro man har till att man skulel få samma resultat nästa gång med samma test.
Dahlqvist skrev:
Om vi tar f/e-test så innebär en signifikansnivå på p=.05 att vi under upprepad sampling får ett hypotetiskt universum av alla hittills gjorda och icke gjorda försök kommer att uppnå detta eller starkare resultat i 5% av alla försök även om det inte finns någon effekt (dvs. den sk nollhypotesen gäller och proportionen korrekta svar blir 0.5).
/D
n3mmr skrev:Dahlqvist skrev:
Om vi tar f/e-test så innebär en signifikansnivå på p=.05 att vi under upprepad sampling får ett hypotetiskt universum av alla hittills gjorda och icke gjorda försök kommer att uppnå detta eller starkare resultat i 5% av alla försök även om det inte finns någon effekt (dvs. den sk nollhypotesen gäller och proportionen korrekta svar blir 0.5).
/D
Det fattas nåt eller några ord i detta stycke. Jag hajar 0...
IngOehman skrev:Oavsett vilket kan man dock säga att Morello kan höra skillnad mellan F och E med en statistisk signifikans >98,4%. I praktiken hade jag inte stoppat serien vid nio dock, men vid 10 eller 11, om du hade fortsatt svara rätt (även om du svarat efter Svante! Tro't eller ej...).
Med viss info känd före testen (exempelvis att det redan finns tecken på att Morello är en god lyssnare, och att det därför är hans svar som räknas) är SS >99,6% för att vi i testen lyckats påvisa att apparaten har en hörbar färgning.
Dahlqvist skrev:n3mmr skrev:Dahlqvist skrev:
Om vi tar f/e-test så innebär en signifikansnivå på p=.05 att vi under upprepad sampling får ett hypotetiskt universum av alla hittills gjorda och icke gjorda försök kommer att uppnå detta eller starkare resultat i 5% av alla försök även om det inte finns någon effekt (dvs. den sk nollhypotesen gäller och proportionen korrekta svar blir 0.5).
/D
Det fattas nåt eller några ord i detta stycke. Jag hajar 0...
Ja, det skall vara "från ett hypotetiskt..." iställer för "får". Solly. Nyckelbegreppen är "hypotetisk oändlig population" och "upprepade urval"
/D
Dahlqvist skrev:Jag kan då säga att det är en typisk missuppfattning. Konfidens är på det hela taget ett mycket olyckligt begrepp eftersom det, som exemplifieras ovan, lätt leder till begreppet omvänd sannolikhet (typ, "resultaten är 99% säkra). Signifikanstest har inte med tilltro att göra utan med brist på misstro.Jag har f ö lagt märke till att IÖ oftast använder statistiskt signifikant och inte ordet "konfidens".
tvett skrev:patrick82 skrev:Yes I have made blind tests and scored 99.99%, good enough.
Kan någon förklara för mig som är okunnig om statistik vid blindtest hur många testomgångar det krävs för detta procent-tal.
tvett skrev:patrick82 skrev:Yes I have made blind tests and scored 99.99%, good enough.
Kan någon förklara för mig som är okunnig om statistik vid blindtest hur många testomgångar det krävs för detta procent-tal.
Svante skrev:Som minst?
Bestäm i förväg att du ska lyssna 14 gånger och endast acceptera alla rätt.
Klarar du det blir konfidensen 1-1/2^14=99,994%
Det betyder fortfarande inte att skillnaden är stor. Den blir ju inte större för att man lyssnar fler gånger.
Thomas_A skrev:Så är det med det.
Svante skrev:Thomas_A skrev:Så är det med det.
Hmm. Jag är inte säker på att jag förstår din slutsats.
Om den är som jag tror, så är den att eftersom du har letat efter en falsk signifikans, men inte hittat den, så finns den inte. Eller missförstår jag?
Mitt förslag är annars att göra många fler simuleringar av den sort som du gjorde. I mina simuleringar gör jag typiskt en miljon serier, det är inte särskilt jobbigt för datorn. Då syns påverkan på signifikansen väldigt tydligt.
Thomas_A skrev:Här är några fler exempel. I detta har jag gjort en liten simulering med slumptal. Den innehåller 20 omgångar med 10-serier. Jag vill se om någon av min slumpgenererade serier ger en signifikant skillnad genom att göra post-hoc tester.
Designen på testet är att använda en serie på 10. Jag lägger också dit ett konditionellt test, fast tvärtom Svantes. Om serien innehåller 3-7 korrekta svar avslutas den vid n=10. Om den således innehåller 8, 9, eller 10 rätt eller 8, 9, eller 10 fel fortsätter den med ytterligare n=10.
Jag testar således alla serier som gjorts under ”testdagen”. Detta blev det dokumenterade resultatet.
1: 6/10
2: 3/10
3: 5/10
4. 2/10 !
5. 6/10, dvs resultatserien från serie 4 kunde inte verifieras. Inte heller totalen 8/20 är signifikant från slumpen.
6. 3/10
7. 6/10
8. 5/10
9. 5/10
10. 7/10
11. 8/10 !
12. 7/10, dvs serien kunde inte verifieras (max 2 fel). Dock blir totalen 15/20 signifikant skild från pi=0.5. Mer om detta längre ner.
13. 6/10
14. 4/10
15. 5/10
16. 7/10
17. 4/10
18. 4/10
19. 4/10
20. 4/10
Summa totalt: 101/200
Totalt från 20 sessioner så fick vi två initiala indikationer på sned proportion, försök 4 och försök 11. I försök 4 blev nästa serie 6/10, vi kan därför glömma den tidigare 2/10-serien. I försök 11 fick vi 8/10 vilket kan indikera en skillnad. Vi kunde dock inte få bättre än 7/10 för nästföljande serie, vilket gör det hela skakigt. Ett sista försök att få denna 20-serie signifikant är att slå ihop dem och vi får 15/20, vilket ger p=0.02. Men är detta sant? Nja, vi måste testa den mot övriga tabeller som vi fått under testet. Vi gör den allra enklaste först, vi testar vår 15/20 resultat mot 10/20 (slump) med en Fishers exakt (vi kan ju också välja nästföljande n=20 i vår serie, men egentligen bör alla data testas i en 2 x n tabell):
Fall 1: våra 15/20 mot 10/20 ger p=0.19. Alltså icke signifkant.
Fall 2: våra 15/20 mot nästföljande 20-serie (vilket är samma 10/20 som i fall 1), p=0.19
Fall 3: Nu börjar vi selektera, aja baja…våra 15/20 mot den sista 20-serien (8/20), p=0.055.
Fall 4: Vi jämför 15/20-serien mot de nästföljande 4 misslyckade tester (ihopslagna) och gör ett chi-2 (ingen tal blir lägre än 5) i en 2 x 5 tabell.. Följande fås: p=0.132 (alltså ej signifikant).
Vilket resultat från vår 20-serie måste vi då ha för att få statistik konfidens mot 10/20 i en Fishers?. Jo vi måste ha minst 18/20 korrekt jämfört med 10/20, dvs antigen 8/10+10/10, 9/10+9/10, eller 10/10+8/10.
Så är det med det.
PS. Ang. en- och tvåsvansade test. I vår hypotes ovan distingerar vi inte från alla fel eller alla rätt vilket i grunden leder till ett tvåsvansat test. Man kan analysera i hur stor grad folk verkligen väljer tvärtom i sina svarsserier. Specar vi H1 till skillnad från pi=0.5 eller ska vi speca den till signifkant bättre än slump (=korrekt angivna svar)? I grund och botten förväntar vi oss korrekta svar (utifrån en träning som gjorts) vilket i de flesta analyser borde rendera ett ensvansat test, ex pi=0.5 mot 0.9. Därför bör man nog alltid redovisa p för både en- och tvåsvansat. För ett ensvansat Fisher räcker det med 17/20 mot 10/20 för att komma till p=0.02. DS
T
Thomas_A skrev:Svante,
testserien stannar endast om man fått tre fel (ensvansad modell) eftersom det är onödigt att fortsätta längre. Har man kommit till 8/10, 9/10 eller 10/10 finns det anledning att upprepa testet. Får man återigen 8/10, 9/10 eller 10/10 är man nåt på spåren.
Alltså är mitt avbrottsvilkor tvärtom ditt förslag. Man stannar vid 10 när felen är för stora, det är ingen större ide att fortsätta. Vid mer än 7 rätt konfirmeras resultatet i en ny serie.
Notera också att jag inte fick statistiskt signifikant vid 15/20, pga av att jag gjort ett urval från 20 st 10-serier.
Svante skrev:Thomas_A skrev:Svante,
testserien stannar endast om man fått tre fel (ensvansad modell) eftersom det är onödigt att fortsätta längre. Har man kommit till 8/10, 9/10 eller 10/10 finns det anledning att upprepa testet. Får man återigen 8/10, 9/10 eller 10/10 är man nåt på spåren.
Alltså är mitt avbrottsvilkor tvärtom ditt förslag. Man stannar vid 10 när felen är för stora, det är ingen större ide att fortsätta. Vid mer än 7 rätt konfirmeras resultatet i en ny serie.
Notera också att jag inte fick statistiskt signifikant vid 15/20, pga av att jag gjort ett urval från 20 st 10-serier.
Ok... Men vad är syftet? Att öka konfidensen, men avbryta om det har gått åt skogen?
Varför ska man sätta just 10 som gräns, varför behövs gränser överhuvudtaget?
Jag är helt med på att man kan bryta om man ser att man inte kommer att uppnå konfidens, och det kan man ofta göra tidigt. Men då måste man ändå redovisa serien som misslyckad.
Svante skrev:
Det betyder fortfarande inte att skillnaden är stor. Den blir ju inte större för att man lyssnar fler gånger.
Svante skrev:Fast jag är övertygad om att Dq har ett dräpande argument. Eller så levererade han det redan i just det inlägg som jag citerade.
Svante skrev:Jag tror ändå att konfidensbegreppet har en fördel för "vanligt folk", det verkar lättare att förstå "99%" säker än "1% osäker". Jag är inte riktigt säker på, just nu iaf, varför "tilltro" skulle vara skilt från "brist på misstro".
IngOehman skrev:Man använder dock i akademiska kretsar ofta begreppet för "risken att felaktigt förkasta nollhypotesen". DET tycker jag är ett omvänt sätt att använda uttrycket.![]()
IngOehman skrev:PS. Den som tror att den statistiska signifikansen är ett mått på detektionens storlek är helt ute och cyklar, men är det någon som tror det då? Jag har sett att Svante varit inne på att det kan vara ett problem, men jag har så vitt jag vet inte sett något enda fall där jag fått intryck att någon trott något sådant.
Dahlqvist skrev:IngOehman skrev:Man använder dock i akademiska kretsar ofta begreppet för "risken att felaktigt förkasta nollhypotesen". DET tycker jag är ett omvänt sätt att använda uttrycket.![]()
Ja, det är dessutom fel. Risken för beslutsfel av typen 1 och signifikansnivå är inte alltid identiska.
Dahlqvist skrev:IngOehman skrev:PS. Den som tror att den statistiska signifikansen är ett mått på detektionens storlek är helt ute och cyklar, men är det någon som tror det då? Jag har sett att Svante varit inne på att det kan vara ett problem, men jag har så vitt jag vet inte sett något enda fall där jag fått intryck att någon trott något sådant.
Min egen erfarenhet är att man genom att trycka extra mycket på att man uppnått en hög signifikansnivå kan få människor att helt bortse från effektstorleken. Det gäller även forskare. Eller kanske i synnerhet dem. Genom att ha stora urval kan även meningslösa skillnader bli statistiskt signifikanta. Och därmed "significant" (=eng. viktiga).
Dahlqvist skrev:Genom att ha stora urval kan även meningslösa skillnader bli statistiskt signifikanta. Och därmed "significant" (=eng. viktiga)./D
Morello skrev:Med 99,9% konfidensnivå har distorsionen ökat pga. den nya transistorn. Den ökade hela en faktor 1/10000.
Någon mer som kikat på mitt exempel?
Svante hade någon fråga till Ingvar vill jag minnas.
Svante skrev:IngOehman skrev:Oavsett vilket kan man dock säga att Morello kan höra skillnad mellan F och E med en statistisk signifikans >98,4%. I praktiken hade jag inte stoppat serien vid nio dock, men vid 10 eller 11, om du hade fortsatt svara rätt (även om du svarat efter Svante! Tro't eller ej...).
Med viss info känd före testen (exempelvis att det redan finns tecken på att Morello är en god lyssnare, och att det därför är hans svar som räknas) är SS >99,6% för att vi i testen lyckats påvisa att apparaten har en hörbar färgning.
Ok, det här är en bit på väg till att göra det begripligt hur du räknar och det är bra.
Svante skrev:Kan man inte beskriva metoden i sin helhet kan man i alla fall ge några exempel som här, och åtminstone kolla en del av förfarandet.
Svante skrev:Min första fråga, när du säger att konfidensen blir 99,6% om Morello är en god lyssnare, varför betyder det att du kan bortse ifrån Svantes svar?
Svante skrev:Och om du ändå hade tänkt göra det, varför fick han vara med i testet från början.
Svante skrev:Koll:
Jag antar att du räknar ut 99,6% som 1-2/2^9=0,996, dvs dubbelsidigt (både alla rätt och alla fel är ok).
Svante skrev:...och 98,4% kom ifrån 1-2/2^7=0.984? Du bortsåg alltså från de svar där Svante svarade först?
Svante skrev:En sista fråga, hur med hur stor konfidens kan man säga att apparaten färgar ljudet?
Dimitri skrev:Så jag tror inte att någon av debattörerna behöver oroa sig för att problemet förbises.
Jag tokar det som om IÖ anser att han har så god personkännedom att han inte behöver se Svantes tidigare svar som påverkande för det Morello ger. Därmed är Morellos svarsserie obruten.Svante skrev:IngOehman skrev:Oavsett vilket kan man dock säga att Morello kan höra skillnad mellan F och E med en statistisk signifikans >98,4%. I praktiken hade jag inte stoppat serien vid nio dock, men vid 10 eller 11, om du hade fortsatt svara rätt (även om du svarat efter Svante! Tro't eller ej...).
Med viss info känd före testen (exempelvis att det redan finns tecken på att Morello är en god lyssnare, och att det därför är hans svar som räknas) är SS >99,6% för att vi i testen lyckats påvisa att apparaten har en hörbar färgning.
Ok, det här är en bit på väg till att göra det begripligt hur du räknar och det är bra.
IngOehman skrev:Men ja, det är så man hade räknat, om frågan hade varit det du antyder. Man räknar alltså inte som du tidigare räknat - den där skumma ekvationen där du kunde nå SS <50%.![]()
Tycker kanske dina räknetokerier är rätt ointressanta, men om du nu verkar vilja älta frågorna i den här tråden vidare kan jag väl (du publicerade ju delar av styrelsens emailkorrespondans) nämna det: Du talade om konfidenser <<50% i den där emailtråden du startade med LTS-styrelsen, även EFTER att du enligt egen uppgift korrigerat din egen felaktiga matematik...Hur mycket koll har man på statistiken då?
Svante skrev:Samma sak gäller om vi gör två serier med 99% konfidens, då blir sannolikheten att inget av dem visar falskt positivt resultat 0,99^2=98,01%.
Kaffekoppen skrev:Svante skrev:IngOehman skrev:Oavsett vilket kan man dock säga att Morello kan höra skillnad mellan F och E med en statistisk signifikans >98,4%. I praktiken hade jag inte stoppat serien vid nio dock, men vid 10 eller 11, om du hade fortsatt svara rätt (även om du svarat efter Svante! Tro't eller ej...).
Med viss info känd före testen (exempelvis att det redan finns tecken på att Morello är en god lyssnare, och att det därför är hans svar som räknas) är SS >99,6% för att vi i testen lyckats påvisa att apparaten har en hörbar färgning.
Ok, det här är en bit på väg till att göra det begripligt hur du räknar och det är bra.
Jag tolkar det som om IÖ anser att han har så god personkännedom att han inte behöver se Svantes tidigare svar som påverkande för det Morello ger. Därmed är Morellos svarsserie obruten.
Kaffekoppen skrev:Bra!
Då kan jag krypa ner under stenen.
IngOehman skrev:Jag tycker det verkar som om du blandar ihop begreppen.
Du skriver konfidens i flera fall, men menar olika saker beroende på om det är en framräknad konfidens från en serie, eller om det är en kombinatorisk konfidens. Osnygg matamatik.
IngOehman skrev:Du kan inte kombinera utfallen utan att kombinera utfallsdata.
7 av 7 plus 7 av 7 ger 14 av 14. Inte 7 av 7 + ? av 7.
Vh, iö
Thomas_A skrev:Trodde det var klart hur statistiken bör användas.Själv har jag ingen aning om vilka siffror det handlar om i de skarpa lägen som föranlett tråden, så jag kan inte bidra något mer.
Svante skrev:IngOehman skrev:Du kan inte kombinera utfallen utan att kombinera utfallsdata.
7 av 7 plus 7 av 7 ger 14 av 14. Inte 7 av 7 + ? av 7.
Vh, iö
Nja, alltså, det finns ju olika sätt att kombinera dem. Man måste bara bestämma sig för vilket sätt man vill göra det.
Menar du att (3 av 9) plus (9 av 9) ska ses som 12 av 18? Hur stor konfidens ger det då?
Och (0 av 7) och (7 av 7), vad blir det tillsammans? 7 av 14? Hur stor konfidens ger det då?
Det verkar vara att kasta bort kraft i testet om man inte ser serierna som separata, det räcker att ena serien är dålig så blir hela testet det. Om man i stället ser serierna som försök att uppnå tex 99% konfidens så kan den ena serien bli hur dålig som helst om bara den andra lyckas. Testet som helhet ger då ~98%, menar jag.
Svante skrev:IngOehman skrev:Du kan inte kombinera utfallen utan att kombinera utfallsdata.
7 av 7 plus 7 av 7 ger 14 av 14. Inte 7 av 7 + ? av 7.
Vh, iö
Nja, alltså, det finns ju olika sätt att kombinera dem. Man måste bara bestämma sig för vilket sätt man vill göra det.
Menar du att (3 av 9) plus (9 av 9) ska ses som 12 av 18? Hur stor konfidens ger det då?
Och (0 av 7) och (7 av 7), vad blir det tillsammans? 7 av 14? Hur stor konfidens ger det då?
Det verkar vara att kasta bort kraft i testet om man inte ser serierna som separata, det räcker att ena serien är dålig så blir hela testet det. Om man i stället ser serierna som försök att uppnå tex 99% konfidens så kan den ena serien bli hur dålig som helst om bara den andra lyckas. Testet som helhet ger då ~98%, menar jag.
IngOehman skrev:Men: Hur löser man problemet? I den akademiska världen borde det vara lätt att lösa - nämligen genom att knäppa de forskare på näsan som inte fattar att de inte får formulera sig så. Finns det någon som kan ta det näsknäppningsuppdraget?
Det känns ju som sådana formuleringar visar på signifikanta brister i det vetenskapliga förståndet/kunskapen, och om det finns forskare som uppvisar sådana brister - hur kan man då vara säker på att inte även granskarna gör det?
Vh, iö
Svante skrev:IngOehman skrev:Du kan inte kombinera utfallen utan att kombinera utfallsdata.
7 av 7 plus 7 av 7 ger 14 av 14. Inte 7 av 7 + ? av 7.
Vh, iö
Nja, alltså, det finns ju olika sätt att kombinera dem. Man måste bara bestämma sig för vilket sätt man vill göra det.
Menar du att (3 av 9) plus (9 av 9) ska ses som 12 av 18? Hur stor konfidens ger det då?
Svante skrev:Och (0 av 7) och (7 av 7), vad blir det tillsammans? 7 av 14? Hur stor konfidens ger det då?
Svante skrev:Det verkar vara att kasta bort kraft i testet om man inte ser serierna som separata, det räcker att ena serien är dålig så blir hela testet det.
Svante skrev:Thomas_A skrev:Trodde det var klart hur statistiken bör användas.Själv har jag ingen aning om vilka siffror det handlar om i de skarpa lägen som föranlett tråden, så jag kan inte bidra något mer.
Nej det har blivit lite lätt förvirrat nu.Helst skulle det skrivas en metodspec för att skingra förvirringen. Alla frågor som behöver komma upp har nog kommit upp i den här tråden och det verkar inte som fortsatt diskuss ska ge så mycket mer.
Nu skulle man behöva prata i stället.
...är klart sund, när man inte känner förutsättningarna bättre (mera i detalj) än vad som framgår av frågeformuleringen.Morello skrev:Svaren där "Svante" svarade först har jag kastat då risk för korrelation föreligger.
IngOehman skrev:
Morellos svar var ju frivilligt avgivet, och det finns då inget rationellt skäl att tro att han inte hade kunnat avstå från att säga något när Svante svarade först, eller säga tvärtemot!
Vh, iö
IngOehman skrev:Jag får allt mera känslan, att om det skall tas fram en modell för hur sådana här tester skall göras och/eller om en dylik modell skall bedömas, så är du en av de minst lämpade att göra det.![]()
Själv ser jag inte att det finns något behov av ny modell. Den som funnits och använts i snart 30 år för alla de studier jag gjort på hörbarhet har fungerat invändningsfritt. Jag har inte någon enda gång behövt revidera några fynd, och överensstämmelserna med mätfynd har varit 100%iga.
Vh, iö
Jag håller verkligen med digMorello skrev:Tråden började som bekant att bli intressant för några dagar sedan, men nu är det ta mig satan sandlådenivå på debatten.
perstromgren skrev:Någon mer än jag som tycker att detta börjar bli obehagligt? Nu kan jag ju sluta läsa, och Svante och IÖ har inte uppdraget att underhålla mig, men...
Snälla moderatorn, kan vi inte stänga av?
Snälla?
Användare som besöker denna kategori: Google [Bot] och 26 gäster