AudioVisual Speech Synthesis: A brief literature review

Efthymios Georgiou,Athanasios Katsamanis

Published 2021 in arXiv.org

ABSTRACT

Η παρούσα βιβλιογραφική ανασκόπηση μελετάει το πρόβλημα της οπτικοακουστικής σύνθεσης φωνής. Ουσιαστικά δηλαδή εξετάζουμε πως μπορούμε από κάποιο κείμενο εισόδου να συνθέσουμε μια ανθρωπόμορφη οπτική ροή καθώς επίσης και την αντίστοιχη φωνή. Εξαιτίας της πολύ μεγάλης πολυπλοκότητας του προβλήματος αυτού, χρειάζεται να το μελετήσουμε σε δύο επιμέρους τμήματα. Συγκεκριμένα, αυτό της σύνθεσης φωνής από κείμενο (text-tospeech synthesis) καθώς και τη σύνθεση ανθρωπόμορφης ροής από φωνή. Σε ότι αφορά τη σύνθεση φωνής μελετάμε τόσο τα δίκτυα που κάνουν την απεικόνιση από το κείμενο σε κάποια ενδιάμεση αναπράσταση καθώς επίσης και τα δίκτυα που παράγουν φωνή από τις ενδιάμεσες αυτές αναπραστάσεις. Ως προς την οπτική σύνθεση, κατηγοριοποιούμε τις προσεγγίσεις με βάση το αν παράγουν ανθρώπινα πρόσωπα ή ανθρωπόμορφες φιγούρες. Προσπάθεια γίνεται επίσης να παρουσιαστεί η σημασία της επιλογής των μοντέλων προσώπου στη δεύτερη περίπτωση. Καθόλη την έκταση της ανασκόπησης, παρουσιάζουμε τις σημαντικότερες, κατά τη γνώμη μας, εργασίες και στα δύο αυτά πεδία, προσπαθώντας να δώσουμε βάση στα πλεονεκτήματα και μειονεκτήματα της κάθε μιας.

PUBLICATION RECORD

  • Publication year

    2021

  • Venue

    arXiv.org

  • Publication date

    2021-02-18

  • Fields of study

    Linguistics, Engineering, Computer Science

  • Identifiers
  • External record

    Open on Semantic Scholar

  • Source metadata

    Semantic Scholar

CITATION MAP

EXTRACTION MAP

CLAIMS

  • No claims are published for this paper.

CONCEPTS

  • No concepts are published for this paper.

REFERENCES

Showing 1-62 of 62 references · Page 1 of 1

CITED BY

  • No citing papers are available for this paper.

Showing 0-0 of 0 citing papers · Page 1 of 1