Technische systemen voor tekstbewerking
Terug: Week 2
Functies Nao op gebied van spraak
Op deze pagina staat een tutorial om Nao te laten spreken door middel van de codetaal Python:
file:///C:/Program%20Files%20(x86)/Aldebaran/Choregraphe%201.14.3.5/doc/naoqi/audio/altexttospeech-tuto.html#altexttospeech-tuto
De reden waarom we dit onderzoeken is omdat we een technisch systeem nodig hebben waarmee we een robot-stem aan kunnen passen. Nao leek ons hier een goed voorbeeld van. De vraag is alleen of Nao genoeg functies heeft om een robot-stem aan te passen naar de aspecten die een emotie heeft.
Er zijn een aantal aspecten die je door middel van deze taal aan kunt passen aan de stem van Nao. Hieronder volgt een opsomming daarvan:
- Een aantal modificaties aan de toonhoogte van de stem
- Double voice parameters kunnen worden gemodificeerd
- Wisselen naar een andere stem
- Het opslaan en ophalen van stem-voorkeuren
- Volume
- Toonhoogteverschuiving
De enige functies die we kunnen gebruiken voor ons onderzoek zijn volume en toonhoogte van de stem. Dit is niet genoeg om emoties aan een stem te kunnen geven. Daarom gaan we verder zoeken naar andere technische systemen die wel meer functies hebben. Dit kan bijvoorbeeld software zijn voor op een computer.
Tekst-spraak systemen
- eSpeak
informatie: http://espeak.sourceforge.net/
download: http://espeak.sourceforge.net/test/latest.html
Spreekt oa ook Nederlands. En volgens de bron kun je verschillende stemmen instellen, waarvoor je eigenschappen kan veranderen.
Om wav bestanden succesvol van espeak om te zetten naar Matlab en weer terug naar een wav bestand moeten we bij espeak 8k Hz, 16 bit mono instellen. Dit heeft te maken met het feit dat audio bestanden die in Matlab omgezet worden naar .wav bestanden gesampled worden met een sample frequentie van 8k Hz.
- festival
informatie & download: http://www.cstr.ed.ac.uk/projects/festival/
For queries regarding the Festival speech synthesis system email: festival@cstr.ed.ac.uk
- DECtalk
Informatie & download: http://facepunch.com/showthread.php?t=1323522
DECtalk is het systeem dat Steven Hawkins gebruikt.
Als je op de volgende link klikt kom je op een pagina over de master thesis van Janet Cahn (1989). Zij probeerde toen al emoties in een robotstem te krijgen en hiervoor gebruikte zij DECtalk3. Ze programmeerde zelf het programma 'Affect Editor'. Dit programma geeft twee strings. String één zet de intstellingen van DECtalk3 zodanig dat een bepaalde emotie wordt uitgedrukt, en string 2 is de tekst die dan wordt opgelezen door TTS. Op de pagina kun je geluidsfragmenten per emotie beluisteren en haar thesis terugvinden. http://alumni.media.mit.edu/~cahn/emot-speech.html
Janet Cahn schreef ook twee papers rondom het onderwerp:
- Cahn, Janet E., Generation of Affect in Synthesized Speech. Proceedings of the 1989 Conference of the American Voice I/O Society. Newport Beach, California. September, 1989. Pages 251-256. PS.GZ (29K)
Link: http://media.mit.edu/speech/papers/1990/cahn_AVIOSJ90_affect.pdf
- Cahn, Janet, From Sad to Glad: Emotional Computer Voices. Proceedings of Speech Tech '88, Voice Input/Output Applications Conference and Exhibition. New York City. April, 1988. Pages 35-37. PS (43K)
Wat gebruikt Amigo?
Amigo maakt gebruik van tts (text-to-speech) gemaakt door Philips, tts van Google en Ubuntu eSpeak.
Bron: http://bobbierobotics.nl/media/files/amigo_openspace_jmrvoncken_2013.pdf (pagina 7)
Audio bewerkingsprogramma's
Matlab wordt onder andere gebruikt voor signaal verwerking en analyse. http://www.music.mcgill.ca/~gary/307/week1/matlab.html
Example Matlab script and sound file: wavinout.m
Audio bestanden kunnen worden ingeladen en worden opgeslagen
Matlab heeft een Signal Processing Toolbox (dit zit standaard al in de Matlab versie R2012a) --> http://www.mathworks.nl/products/signal/
Key features:
- Signal transforms, including fast Fourier transform (FFT), discrete Fourier transform (DFT), and short-time Fourier transform (STFT)
- Waveform and pulse generation functions, including sine, square, sawtooth, and Gaussian pulse
- Transition metrics, pulse metrics, and state-level estimation functions for bilevel waveforms
- Statistical signal measurements and data windowing functions
- Power spectral density estimation algorithms, including periodogram, Welch, and Yule-Walker
- Digital FIR and IIR filter design, analysis, and implementation methods
- Analog filter design methods, including Butterworth, Chebyshev, and Bessel
- Linear prediction and parametric time-series modeling
We gaan nu kijken naar de begrippen die we al kennen waarmee je emoties kunt maken in geluid en of we deze toe zouden kunnen passen in matlab.
- Spreek tempo: vermenigvuldig de sample rate (fs) met de gewenste waarde om tempo te verhogen of te verlagen. i
- Gemiddelde spreekhoogte
- Spreiding spreekhoogte
- Intensiteit
- Stem kwaliteit
- Hoogte veranderingen
- Articulatie