Äh, vad tusan, jag gör en insats:
JM skrev:JM skrev:Men ändå menar en del att det finns ngt annat med fasen som spelar roll. Dvs fasproblem verkar enligt denna artikel skapa problem där vår hörsel är som känsligast.
The power of this proposal lies in the relatively simple physics behind these hearing mechanisms. Understanding the relationships between acoustics and the perception of timbre, direction and distance of multiple sound sources becomes a physics problem –
namely how much do reflections and reverberation randomize the phase relationships and thus the information carried by upper harmonics. The advantage of putting acoustics into the realm of physics is that the loss of information can be directly quantified. It becomes independent of the training and judgment of a particular listener.
The preprint for the ASA conference in San Diego . "The audibility of direct sound as a key to measuring the clarity of speech and music"
http://www.davidgriesinger.com/Acoustic ... sound.docxJM
Med tanke på att inte så många reagerat på (
http://www.davidgriesinger.com/Acoustic ... sound.docx) så kan möjligen lite mer basal information hjälpa.
Komplexa ljud är enligt författaren mycket fasberoende för innerörats kodning. Här spelar sannolikt biologiska kamfilter en avgörande roll.
Först lite grundläggande fakta som möjligen gör det lite lättare att förstå artikeln ovan. Missa inta att läsa artikeln nedom som på ett lite enklare sätt ger info hur den första artikeln skall tolkas.
THE PHYSICS OF HEARING
2.1 What Do We Already Know?
1. The sounds we want to hear in a performance space are speech and music, both of which consist of segments of richly harmonic tones 25ms to 500ms long, interspersed with bursts of broadband high frequency energy. It is likely we will not understand hearing or acoustics without understanding the necessity of harmonic tones.
Det finns massor av andra ljud som man kan tänkas vilja höra, och som man är noga med kommer med när man producerar t ex en film. Om man så måste trampa dem ett och ett. Men därtill kommer alla ljud som når oss visa rummet, de som berättar om rummet.
Griesinger skrev:2. Survival requires the detection of the pitch, timbre, direction, and distance of each sound source in a complex sound field. Natural selection has driven our skill at performing these tasks. There is a tremendous improvement in signal to noise ratio (S/N) if an organism possesses the ability to analyze the frequency of incoming sound with high precision, as then most of the background noise can be filtered out. Pitch and timbre allow us to identify potential threats, the vowels in speech, and the complexities of music. Location and distance tell us how quickly we must act.
Det finns och får förmodas ha funnits människor som varit döva på ett eller båda öronen sedan urminnes tider, och som både överlevt och fortplantat sig. Visst har hörseln betydelse, och visst finns det skäl att tro att den vuxit fram i evolutionen genom att vara användbar, men det känns långt ifrån självklart att någon större utveckling varit för handen de senaste 100 000 åren eller så.
Griesinger skrev:3. We need to perceive pitch, timbre, direction and distance of multiple sources at the same time, and in the presence of background noise. This is the well-known cocktail party effect, essential to our successful navigation of difficult and dangerous social situations.
Eh... Ja. det är bra att höra bra.
Griesinger skrev:4. Perhaps as a consequence human hearing is extraordinarily sensitive to pitch.
Jämfört med vaddå? Man kan like gärna påstå motsatsen, att vi har väldigt dålig frekvensupplösning. För om det är extraordinärt bra vi klarar att skilja olika frekvenser från varandra, eller dåligt, beror ju på vad man anser vara normalt. Hur man anser att det borde ha varit.
Jag är nog, och har alltid varit, benägen att vilja titta på hörseln med utgångspunkten att den är som den är, och att det varken är fantastiskt bra eller dåligt. Den bara är. Det intressanta är hur det är, och varför.
Griesinger skrev:A musician can tune an instrument to one part in one thousand, and the average music lover can perceive tuning to at least an accuracy of one percent.
Värre pladder får man leta efter. Musiker finns av alla kvaliteter, vissa har påtagliga svårigheter att sjunga rimligt rent. Musikälskare som störs av detta är ingen ovanlighet, och det visar ju att just dessa är bättre på det. Jag har själv studerat fenomenet, och att musiker skulle vara tio gånger bättre än musikälskare är en pinsam myt, och en absurd generalisering inte minst. "Musiker" är ingenting entydigt, och det är inte musikälskare heller. Jag tror dessutom att det här på faktiskt.se för några år sedan gjordes en liknande studie. Tråden finns antagligen kvar någonstans.
Griesinger skrev:This is amazing, given the frequency selectivity of the basilar membrane, which is about one part in five. Such pitch acuity did not evolve by accident. It must play a fundamental role in our ability to hear – and might help us understand how to measure acoustics.
Ren spekulation, och oinsatt dessutom. Hjärnan väger samma impulser från hela snäckan, och att det går att avgöra frekvens med större noggrannhet än hörhåruppsättningarna initialt kanske kan få någon att tro att de visar, är ingenting konstigt alls.
"This is amazing" säger ingenting om hörseln, bara om den som skrivit orden. Personen må känna så.
Griesinger skrev:5. The acuity to the pitch of sine-tones is a maximum at about 1000Hz. The fact that the pitch of low frequency sine tones varies with the loudness of the tone would seem to make playing music difficult.
Mera tokigheter, dels blandas pitch ihop med perseived pitch, men framförallt är det ju ett löst påstående att det borde göra det svårt att spela musik.
Griesinger skrev:But we perceive the pitch of low tones primarily from the frequencies of their upper harmonics, and the perceived pitch of these harmonics is stable with level. So it is clear that harmonics of complex tones at 1000Hz and above carry most of the information we need to perceive pitch. The mystery we must solve is: how do we perceive the pitches of the upper harmonics of several instruments at the same time, when such harmonics are typically unresolved by the basilar membrane?
Påståendet är felaktigt. Data visar att alla nödvändig information finns, och de begränsningar som finns bör inte yttra sig som begränsad frekvensupplösning, men väl som maskeringseffekter. Och sådana ser vi mycket riktigt.
Griesinger skrev:6. Physics tells us that the accuracy with which we can measure the frequency of a periodic waveform depends on the product of the signal to noise ratio (S/N) of the signal and the length of time we measure it.
Självklarheter.
Griesinger skrev:If we assume the S/N of the auditory nerve is about 20dB, we can predict that the brain needs about 100ms to achieve the pitch acuity of a musician at 1000Hz. So we know there is a neural structure that can analyze sound over this time period – and it seems to be particularly effective at frequencies above 700Hz.
Ja, så kan man kanske se det. Men skillnaden är inte så stor som det kanske kan verka när man talar om musiktoner, som ju inte ofta är sinusformiga. Och mäter man förmåga i absolut frekvens och inte relativ, så här vi faktiskt bättre därvidlag vid låga frekvenser än vid höga.
Griesinger skrev:7. Physics also tells us that the amount of information that any channel can carry is roughly the product of the S/N and the bandwidth. The basilar membrane divides sound pressure into more than 40 overlapping channels, each with a bandwidth proportional to its frequency. So a critical band at 1000Hz is inherently capable of carrying ten times as much information as a critical band at 100Hz. Indeed, we know that most of the intelligibility of speech lies in frequencies between 700 and 4000Hz. We need to know the physics of how information is encoded into sound waves at these frequencies.
Underligt uttalande. Det vet vi ju.
Och kanske kan man även säga att frekvenser under 700 Hz har stor betydelse principiellt, men de behövs inte praktiskt, eftersom hjärnan kan lista ut dem från de högre frekvensernas intervall. Så är det ju när det handlar om information i tal och musik - den är spridd över stora register således att mycket är redundant så länge det bara handlar om att dechiffrera den. Handlar det om upplevelsen däremot, så kan man inte förenkla alls så mycket.
Griesinger skrev:8. The cocktail party effect implies that we can detect the vocal formants of three or more speakers independently, even when the sounds arrive at our ears at the same time. Pitch is known to play a critical role in this ability. Two speakers speaking in monotones can be heard independently if their pitch is different by half a semitone, or three percent.[2] If they whisper, or speak at the same pitch, they cannot be separated.
Om det där skall föreställa en sammanfattning av vad cocktail-effekten är så vill jag nog protestera med eftertryck. Det är särskiljningsfömågan, men utan att någon specifik orsak pekas ut som den som gör't. Väldigt viktig i sammanhanget utöver pitch-differentiering är t ex att ljudkällorna är separerade i rummet, och det är också därför som enörade människor som regel har avsevärt svårare att separera många röster från varandra.
Griesinger skrev:The vocal formants of male speakers are composed of numerous harmonics of low frequency fundamentals. When two people are speaking at once the formant harmonics will mix together on the basilar membrane, which is incapable of separating them. We should hear a mixture of formants, and be unable to understand either speaker.
Borde vi? Enligt vem då? Den som skrivit texten? Vaddå "borde"?
Griesinger skrev:But we can, so it is clear that the brain can separate the harmonics from two or more speakers, and this separation takes place before the timbre – and thus the identity of the vowel – is detected. I believe that our acuity to pitch evolved to enable this separation.
Och här tror han något också.
Griesinger skrev:9. Onsets of the sound segments that make up speech and music are far more important to comprehension than the ends of such segments. Convolving a sentence with time-reversed reverberation smoothes over the onset of each syllable while leaving the end clear. The modulation transfer function – the basis of STI and other speech measures – is unchanged. But the damage wrought to comprehension is immensely greater when reverberation is reversed.
Ja, så är det. Inget konstigt med det. Men det betyder ju inte att det behöver inte ha något man hörseln att göra. Snarare så har det med talet att göra. Gör man en analys av talet, inte minst som det ljudet i ett rum, så är det uppenbart att starterna är mycket informationstätare än avklingningen.
Griesinger skrev:10. When there are too many reflections we can sometimes understand speech from a single source, but in the presence of multiple sources our ability to perform the cocktail party effect is nullified and the result is babble. In the presence of reflections our ability to detect the timbre, distance, and direction of single sources is reduced, and the ability to separately detect these properties from multiple sources is greatly reduced.
Ja, det är väl inte någon nyhet direkt, att det är svårare att höra vad folk säger i lokaler med mycket hårda väggar och lite dämpning.
Griesinger skrev:11. We have found that accurate horizontal localization of sound sources in the presence of reverberation depends on frequencies above 1000Hz, and accuracy drops dramatically when the direct to reverberant ratio (D/R) decreases only one or two dB below a certain value. The threshold for accurate horizontal localization as a function of the D/R and the time delay of reflections can be predicted from a binaural impulse response using relatively simple formula. This formula will be discussed later in this paper.
Jag vet inte om man skall beskriva det där som självklart eller intetsägande. jag är frestad att påstå att båda beskrivningarna duger bra.
Men ja, för mycket rumsljud gör det svårare att höra vad folks säger, och ja, det stör olika mycket beroende på var i tiden störningarna kommer. Döhh...
Vad som inte framgår är att det kan även vara så att reflexer gör det lättare att höra vad folk säger. Tittar man på vilka sorters lokaler som passar för olika sorters ljud, vi kan förenkla till tal och musik, så ser man att grundregeln är att reflexer som kommer så i tiden att de inte är mera fördröjda än sisådär 1/3 av "informationstempot", hjälper talet, eller musiken.
Informationstempot är nog ett begrepp som jag behöver förklara vad jag menar när jag säger, men vad det handlar om är att både tal och musik kan brytas ned i informationsenheter, där varje enhet är relativt oförändrad under sin varaktighet. När det gäller tal så kan man lite förenklat säga att det handlar om fonem, och när det gäller musik så handlar det om tonerna. Fonemfrekvensen i tal är typiskt mycket högre än tonfrekvensen i musik. Därför fungerar lokaler med rikligt med reflexer inom sisådär 20 ms, möjligen uppåt 50 ms och ingen efterklang, utmärkt för tal. För sådana lokaler hjälper talet på traven, genom att arbeta i fas med talet. För musik kan reflexionerna komma mycket senare (senare än 50, och även uppåt 120 ms eller mera är helt okej för mycken musik, alltså 40 meter eller 20 meter t-o-r) utan att hamna ur fas med tonerna, och en efterklang på det sitter ofta bra dessutom, men det beror framförallt på att mången musik är skriven för att harmonisera med sin egen historia. Så även om den stjäl upplösning så har den sin roll.
Vh, iö
Fd psykoakustikforskare & ordf LTS. Nu akustiker m specialiteten
studiokontrollrum, hemmabiosar & musiklyssnrum. Även Ch. R&D
åt Carlsson och Guru, konsult åt andra + hobbyhögtalartillv (Ino).