Week 1: Verkennen: Difference between revisions
Line 75: | Line 75: | ||
==In hoeverre is het mogelijk om emoties te koppelen aan de spraak van robots?== | ==In hoeverre is het mogelijk om emoties te koppelen aan de spraak van robots?== | ||
====“Emotions in the voice: humanizing a robotic voice”==== | ====“Emotions in the voice: humanizing a robotic voice”==== |
Revision as of 13:27, 16 October 2014
Terug: Week 1
Bronnen zoeken
De onderste vier vragen zijn een aantal vragen die een richting aangeven. Het doel is om te kijken welke richting we het beste op kunnen gaan met ons onderzoek. Hierbij kijken we naar hoeveel informatie er al is en in hoeverre wij hier zelf iets mee kunnen.
In hoeverre is op dit moment de techniek ontwikkeld om robots te laten spreken?
Belangrijk begrip: Dysarthria = difficulty of speaking due to ALS
“High energy efficiency biped robot controlled by the human brain for people with ALS disease.”
Als oplossing voor ALS gaat dit artikel dieper in op BCI (computer verbinden met hersenen door hersenactiviteit te meten met EEG) en menselijke robots als assistent. Hierdoor kunnen robotic devices bestuurd worden door de hersenen. Over spraak wordt alleen gezegd dat er in de toekomst een versie van BrainControl (eerste BCI die gebruikt wordt door mensen die geen spieren kunnen bewegen, maar nog wel ‘bewust’ zijn) zal komen waarbij text-to-speech een functie is.
“A Smart Interaction Device for Multi-Modal Human-Robot Dialogue”
Smart Interaction Device (SID) is een robot die een dialoog aan kan gaan met een gebruiker. Soar wordt gebruikt in het SID-systeem voor vastgestelde regels om te beredeneren.
“Programmable Interactive Talking Device”
Technisch verslag over een apparaat dat tekst (of andere digitale input) kan omzetten in geluid (spraak).
https://www.apple.com/accessibility/ios/voiceover/
Apple gebruikt een functie om blinde mensen ook hun producten te kunnen laten gebruiken. Apple-producten hebben de functie om alles ‘voor te lezen’.
“Nao Key Feature Audio Signal Processing”
Dit artikel beschrijft hoe de audio modules zijn georganiseerd in de Nao robot. Bijvoorbeeld hoe je data naar de speakers van Nao moet sturen.
Welke technieken zijn er op dit moment in ontwikkeling voor het 'schrijven' met de ogen en de hersenen?
"EyeBoard: A Fast and Accurate Eye Gaze-BasedText Entry System"
Proposes a new interface for dwell-free eye-writing.
"The potential of dwell-free eye-typing for fast assistive gaze communication"
Gaze communication systems have been researched for over 30 years. [Majaranta and Raih¨ a 2002 ¨ ]
Earlier technique: eye-typing = if you stare at a letter as long as the preset dwell-time out then the system assumes you want to type the letter. Findings were between 7-20 wpm. [Majaranta and Raih¨ a 2002 ¨ ; Majaranta et al. 2009; Wobbrock et al.2008; Tuisku et al. 2008; Ward and MacKay 2002] Other fast technique: Dasher = works with boxes that each represent a letter. The larger the box the more probable it is that the letter is chosen. New proposed technique: dwell-free eye-typing = swyping with your eye and the system tries to figure out what you meant.
"Writing with Your Eye: A Dwell Time Free Writing System Adapted to the Nature of Human Eye Gaze"
Problems with eye tracking software: accuracy is limited to 0.5-1.0 degrees of an angle. delay dependent on the frequency jitters and tremors make it difficult to point the eye. 'Midas touch problem’ when something else is attractive the eye moves to that.
"Control of a two-dimensional movement signal by a noninvasive brain-computer interface in humans."
Artikel about non invasive cursor movement.
"Neural Signal Based Control of the Dasher Writing System"
Writing with Dasher and send signals via EEG. Big advantage: no muscle control is needed, this prevents pain and a lack of precision.
"Language Model Applications to Spelling with Brain-Computer Interfaces"
Ways of spelling by using different BCI techniques.
In hoeverre is het mogelijk om emoties te koppelen aan de spraak van robots?
“Emotions in the voice: humanizing a robotic voice”
The most important characteristics of the emotions sad, anger and happiness are evaluated. Those characteristics are used for the speech of a robot. A group of people have to detect which kind of emotion is used by the robot.
In hoeverre is het mogelijk om van een mensenstem een gesynthetiseerde stem te maken die net zo klinkt als de opgenomen mensenstem?
Het opnemen van een mensenstem, en hiervan een gesynthetiseerde stem maken die net zo klinkt als de opgenomen stem wordt ook wel voice cloning genoemd.
Er zijn verschillende bedrijven en instanties die onderzoek doen naar of gebruik maken van voice cloning:
- Cereproc
Dit bedrijf maakt gebruik van voice cloning. Voor het creeëren van je eigen stem hebben zij minimaal 40 minuten geluidsopnamen nodig. De geluidsopnamen moeten aan allerlei eisen voldoen, waaronder bijvoorbeeld dat er geen andere geluiden aanwezig moeten zijn en dat de opnamen van hoge kwaliteit moeten zijn. Daarnaast moet de stem op elke opname zoveel mogelijk hetzelfde klinken, er moet zo weinig mogelijk variatie zijn in snelheid, toonhoogte, volume enz. Voor de voice cloning maakt het bedrijf gebruik van HTS voices.
Artikel 1
The HMM-based speech synthesis system (HTS) version 2.0
- EUAN MacDonald Centre
Werkt samen met de universiteit van Edinburgh. Samen zijn ze bezig met onderzoek naar stemopnames en artificiël stemgeluid met ‘persoonlijke touch’ voor MND (ALS) patiënten. Met behulp van een stemopname van een patient en ‘donorstemmen’ kan een artificiële stem worden gemaakt. Hiervoor zijn 400 zinnen van de patiënt nodig. De zinnen die geselecteerd zijn bevatten alle klanken van de Engelse taal in alle mogelijke combinaties.
Bij voice cloning komen verschillende ethische kwesties kijken. Als een stem nagemaakt kan worden, bijvoorbeeld van (overleden) beroemdheden, wie heeft er dan recht op? Iedereen kan er mee aan de haal gaan.