Prosody and Speaker State: Paralinguistics, Pragmatics, and Proficiency

From Control Systems Technology Group
Revision as of 12:13, 11 September 2014 by S125112 (talk | contribs)
Jump to navigation Jump to search

Artikel Prosody and Speaker State: Paralinguistics, Pragmatics, and Proficiency

Jackson J. Liscombe, 2007

http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.135.7503&rep=rep1&type=pdf

“Juslin & Laukka (2003) composed a meta-analysis of over one hundred studies conducted between 1939 and 2002.” (Liscombe, 2007) De uitkomst van deze meta-analyse is te zien in de tabel hier beneden. Uit al het onderzoek uitgevoerd tussen 1939 en 2002 komen een aantal kenmerken naar voren die specifiek zijn voor de emoties boos, angst, blij en verdrietig. Dit zijn de spreeksnelheid, de gemiddelde intensiteit en de variatie in intensiteit, de gemiddelde fundamentale frequentie en de variatie in deze frequentie. In de tabel is echter ook te zien dat boos en blij dezelfde specifieke kenmerken hebben, dus de vraag is hoe deze twee emoties dan te onderscheiden zijn. Ook angst kan verward worden met boos en blij, afgaande op deze kenmerken.


Om deze reden wordt emotie vaak opgedeeld in twee dimensies: activatie en valentie. Bovengenoemde kenmerken vallen onder activatie, en deze kenmerken alleen kunnen dus niet het verschil in boos, blij en verdriet verklaren. Daarvoor zou dus de tweede dimensie kunnen zijn. Er is echter geen overeenstemming tussen onderzoekers over wat deze dimensie bepaalt en of hij uberhaupt wel bestaat. “Some have suggested that voice quality may play a role (e.g, Scherer et al., 1984; Ladd et al., 1985; Zetterholm, 1999; Tato et al., 2002; Gobl & Chasaide, 2003; Fernandez, 2004; Turk et al., 2005), while others have suggested categorical intonation units (e.g., Uldall, 1964; O’Connor & Arnold, 1973; Scherer et al., 1984; Mozziconacci & Hermes, 1999; Wichmann, 2002; Pollermann, 2002).” (Liscombe, 2007)


Liscombe (2007) voerde zelf ook een onderzoek uit naar emoties in spraak. Hierbij werden de parameters kenmerkend voor bepaalde emoties verkregen door het programma EPSAT (Emotional Prosody Speech and Transcript corpus). Data van spraak van 8 professionele acteurs werd gebruikt om deze parameters te vinden. De zinnen die gebruikt werden waren neutrale zinnen (dus geen woorden die gelinkt kunnen worden aan emotie) en 4 lettergrepen lang. Er werden 14 emoties en neutrale spraak opgenomen. De parameters die EPSAT genereerde zijn in tabel 3.1 te zien.

De kenmerken die het belangrijkst waren om onderscheid te maken tussen emoties waren: f0-mean, f0-min, f0-rising, db-min, db-range. Uit het onderzoek van Liscombe (2007) bleek dat op basis van deze kenmerken de volgende emoties van elkaar onderscheden konden worden: hot-anger, elation, happy, boredom, panic en neutral. De overige emoties die ze onderzochten konden in drie verschillende groepen van elkaar onderscheden worden, maar binnen die groepen niet.