Speech Synthesis Markup Language (SSML)

Topic-1

टेक्स्ट-टू-स्पीच डेवलपर्स को प्राकृतिक-ध्वनि वाले सिंथेटिक मानव भाषण को खेलने योग्य ऑडियो बनाने में सक्षम बनाता है। आप अपने एप्लिकेशन या वीडियो रिकॉर्डिंग या ऑडियो रिकॉर्डिंग जैसे मीडिया को बढ़ाने के लिए टेक्स्ट-टू-स्पीच का उपयोग करके ऑडियो डेटा फ़ाइलों का उपयोग कर सकते हैं। टेक्स्ट-टू-स्पीच ऑडियो या डेटा को एमपी 3 या LINEAR16 जैसे टेक्स्ट या स्पीच सिंथेसिस मार्कअप लैंग्वेज (SSML) इनपुट में कनवर्ट करता है।


1डिजाइन अवधारणाओं डिजाइन और मानकीकरण प्रक्रिया भाषण मार्कअप भाषाओं के लिए भाषण संश्लेषण मार्कअप आवश्यकताओं से ली गई है। संगति - प्लेटफार्मों में और भाषण संश्लेषण कार्यान्वयन में भाषण उत्पादन का अनुमानित नियंत्रण प्रदान करता है। इंटरऑपरेबिलिटी - अन्य W3C विशिष्टताओं के साथ संयोजन में उपयोग का समर्थन करता है, जिसमें (लेकिन इसके लिए सीमित नहीं है) VoiceXML, श्रवण आवरण शैली और SMIL शामिल हैं। सामान्य: विभिन्न आवाज सामग्री के साथ अनुप्रयोगों की एक विस्तृत श्रृंखला के लिए आवाज उत्पादन का समर्थन करता है। अंतर्राष्ट्रीयकरण: दस्तावेजों के भीतर या बीच में बड़ी संख्या में भाषाओं में ध्वनि उत्पादन सक्षम करें। पीढ़ी और पठनीयता: दस्तावेजों के स्वत: निर्माण और मैनुअल संलेखन का समर्थन करता है। दस्तावेज़ मानव पठनीय होना चाहिए। लागू करने योग्य - विनिर्देश मौजूदा, आमतौर पर उपलब्ध तकनीक के साथ लागू करने योग्य होना चाहिए, और वैकल्पिक सुविधाओं की संख्या न्यूनतम होनी चाहिए।


2.भाषण संश्लेषण प्रक्रिया में कदम एक टेक्स्ट-टू-स्पीच सिस्टम जो एसएसएमएल का समर्थन करता है, एक दस्तावेज़ को आउटपुट के रूप में प्रस्तुत करने और लेखक द्वारा इच्छित दस्तावेज़ को प्रस्तुत करने के लिए मार्कअप में जानकारी का उपयोग करने के लिए जिम्मेदार होगा। डॉक्यूमेंट जनरेशन: टेक्स्ट डॉक्यूमेंट सिंथेसिस प्रोसेसर के इनपुट के रूप में देता है, जो मानव प्राधिकरण द्वारा या इन रूपों के संयोजन से स्वचालित रूप से उत्पादित किया जा सकता है। SSML दस्तावेज़ के आकार को परिभाषित करता है। डॉक्यूमेंट प्रोसेसिंग - सिंथेसिस प्रोसेसर के छह चरण होते हैं, जो चिह्नित टेक्स्ट इनपुट को स्वचालित रूप से जेनरेट किए गए स्पीच आउटपुट में बदलने के लिए करते हैं। मार्कअप लैंग्वेज को पर्याप्त रूप से समृद्ध बनाया गया है ताकि नीचे वर्णित प्रत्येक चरण को नियंत्रित किया जा सके ताकि दस्तावेज़ के लेखक (मानव या मशीन) अंतिम भाषण आउटपुट को नियंत्रित कर सकें। हालांकि नीचे दिए गए प्रत्येक चरण को "मार्कअप समर्थन" और "गैर-मार्कअप व्यवहार" में विभाजित किया गया है, वास्तविक व्यवहार आमतौर पर दो का एक संयोजन होता है और टैग द्वारा भिन्न होता है। प्रोसेसर के पास यह सुनिश्चित करने का अंतिम अधिकार है कि वह जो उत्पादन करता है वह सर्वनाम (और आदर्श रूप से समझदार) है। सामान्य तौर पर, मार्कअप लेखक को प्रोसिकोडिक और अन्य जानकारी प्रोसेसर को उपलब्ध कराने का एक तरीका प्रदान करता है, आमतौर पर यह जानकारी होती है कि प्रोसेसर अपने आप अधिग्रहण नहीं कर सकता। फिर यह प्रोसेसर पर निर्भर है कि वह जानकारी का उपयोग कैसे करे और कैसे करे।


XML पार्सिंग - डॉक्युमेंट ट्री और आने वाले टेक्स्ट डॉक्यूमेंट की सामग्री को निकालने के लिए एक XML पार्सर का उपयोग किया जाता है। इस चरण में प्राप्त संरचना, लेबल और विशेषताएँ निम्नलिखित प्रत्येक चरण को प्रभावित करती हैं। संरचना विश्लेषण: एक दस्तावेज की संरचना उस तरीके को प्रभावित करती है जिस तरह से एक दस्तावेज को पढ़ा जाना चाहिए। उदाहरण के लिए, पैराग्राफ और वाक्यों से जुड़े सामान्य भाषण पैटर्न हैं। मार्कअप समर्थन: SSML में परिभाषित pys तत्व स्पष्ट रूप से दस्तावेज़ संरचनाओं को इंगित करते हैं जो भाषण आउटपुट को प्रभावित करते हैं। अंडरवेटेड व्यवहार: संश्लेषण प्रोसेसर पाठ के स्वचालित विश्लेषण के माध्यम से संरचना का उल्लेख करने के लिए जिम्मेदार है, अक्सर विराम चिह्न और अन्य भाषा-विशिष्ट डेटा का उपयोग करते हुए। अचिह्नित व्यवहार का उपयोग किसी दस्तावेज में किया जाता है या नहीं। पाठ सामान्यीकरण: सभी लिखित भाषाओं में विशेष निर्माण होते हैं जिन्हें लिखित रूप (वर्तनी प्रपत्र) से बोले गए रूप में रूपांतरण की आवश्यकता होती है। पाठ सामान्यीकरण एक स्वचालित संश्लेषण प्रोसेसर प्रक्रिया है जो इस रूपांतरण को करती है। उदाहरण के लिए, अंग्रेजी के लिए, जब "$ 200" किसी दस्तावेज़ में दिखाई देता है, तो इसे "दो सौ डॉलर" कहा जा सकता है। इसी तरह, "1/2" को "आधा", "2 जनवरी", "1 फरवरी", "दो में से एक", और इतने पर व्यक्त किया जा सकता है। इस चरण के अंत में, बोला जाने वाला पाठ पूरी तरह से टोकन हो गया है। एक टोकन के गठन के सटीक विवरण भाषा विशिष्ट हैं। अंग्रेजी में, टोकन आमतौर पर व्हाट्सएप द्वारा अलग किए जाते हैं और आमतौर पर शब्द होते हैं। अलग-अलग टोकेलाइज़ेशन व्यवहार वाली भाषाओं के लिए, इस विनिर्देशन में "शब्द" का अर्थ एक उपयुक्त रूप से तुलनीय इकाई से है। एसएसएमएल में टोकन टोकन और डब्ल्यू तत्वों को छोड़कर मार्कअप टैग नहीं कर सकते हैं। अंग्रेजी में एक सरल उदाहरण "कप <ब्रेक /> बोर्ड" है; टोकन और डब्ल्यू तत्वों के बाहर, संश्लेषण प्रोसेसर इसे दो टोकन "कप" और "बोर्ड" के रूप में एक टोकन (शब्द) के बजाय बीच में एक ठहराव के साथ व्यवहार करेगा। इस तरह से एक टोकन को कई टोकन में विभाजित करने से संभावित रूप से प्रभावित होगा कि प्रोसेसर इसका इलाज कैसे करता है। मार्कअप समर्थन: इनपुट दस्तावेज़ में कथित रूप से तत्व का उपयोग इन निर्माणों की उपस्थिति और प्रकार को स्पष्ट रूप से इंगित करने और अस्पष्टताओं को हल करने के लिए किया जा सकता है। जिन निर्माणों का ध्वज फहराया जा सकता है, उन्हें अभी तक परिभाषित नहीं किया गया है, लेकिन इसमें दिनांक, समय, संख्या, संख्या, मुद्रा राशि और बहुत कुछ शामिल हो सकते हैं। ध्यान दें कि पाठ के सीधे प्रतिस्थापन या उप-तत्व, पी का उपयोग करके कई सार और संक्षिप्त विवरण लेखक द्वारा संभाला जा सकता है। उदाहरण के लिए "बीबीसी" को "बी बी सी" और "एएए" को "ट्रिपल ए" के रूप में लिखा जा सकता है। इन प्रतिस्थापन लिखित रूपों को संभवतः स्पष्ट किया जाएगा क्योंकि कोई भी मूल शब्द का उच्चारण करना पसंद करेगा।



Text-to-Speech enables developers to create natural-sounding synthetic human speech as playable audio. You can use the audio data files that you create using Text-to-Speech to power your applications or augment media such as videos or audio recordings.


Text-to-Speech converts text or speech synthesis markup language (SSML) input to audio data such as MP3 or LINEAR16.


1Design Concepts


The design and standardization process has been derived from the Speech Synthesis Markup Requirements for Speech Markup Languages.


Consistency - Provides predictable control of speech output across platforms and in speech synthesis implementations.


Interoperability - Supports use in conjunction with other W3C specifications including (but not limited to) VoiceXML, Auditory Cascading Style Sheets, and SMIL.


General: Supports voice output for a wide range of applications with varied voice content.


Internationalization: enable voice output in a large number of languages within or between documents.


Generation and readability: supports automatic generation and manual authoring of documents. Documents must be human readable.


Implementable - The specification must be implementable with existing, generally available technology, and the number of optional features must be minimal.


2 steps in the speech synthesis process


A Text-To-Speech system that supports SSML will be responsible for rendering a document as spoken output and using the information in the markup to render the document as intended by the author.


Document generation: the text document gives as input to the synthesis processor that can be produced automatically by human authorship, or by a combination of these forms. SSML defines the shape of the document.


Document Processing - There are six steps of synthesis processor performs to convert marked text input into automatically generated speech output. The markup language is designed to be rich enough to allow control of each of the steps described below so that the author of the document (human or machine) can control the final speech output. Although each step below is divided into "markup support" and "non-markup behavior", the actual behavior is usually a combination of the two and varies by tag. The processor has the ultimate authority to ensure that what it produces is pronounceable (and ideally intelligible). In general, markup provides a way for the author to make prosodic and other information available to the processor, usually information that the processor could not acquire on its own. Then it is up to the processor to determine whether and how to use the information.


XML parsing - An XML parser is used to extract the document tree and the content of the incoming text document. The structure, labels and attributes obtained in this step influence each of the following steps.


Structure analysis: The structure of a document influences the way a document should be read. For example, there are common speech patterns associated with paragraphs and sentences.


Markup support: pys elements defined in SSML explicitly indicate the document structures that affect speech output.


Underived behavior: the synthesis processor is responsible for inferring the structure through automated analysis of the text, often using punctuation and other language-specific data. Unmarked behavior is whether used or not used in a document.


Text normalization: all written languages   have special constructions that require a conversion from the written form (spelling form) to the spoken form. Text normalization is an automated synthesis processor process that performs this conversion. For example, for English, when "$ 200" appears in a document, it can be said as "two hundred dollars." Similarly, "1/2" can be expressed as "half", "January 2", "February 1", "one of two", and so on. At the end of this step, the text to be spoken has been fully tokenized. The exact details of what constitutes a token are language specific. In English, tokens are usually separated by whitespace and are usually words. For languages   with different tokenization behavior, the term "word" in this specification is intended to mean a suitably comparable unit. Tokens in SSML cannot span markup tags except within the token and w elements. A simple example in English is "cup <break /> board"; Outside of the token and w elements, the synthesis processor will treat this as the two tokens "cup" and "board" instead of a token (word) with a pause in between. Splitting a token into multiple tokens in this way will likely affect how the processor treats it.


Markup support: the say-as element can be used in the input document to explicitly indicate the presence and type of these constructs and to resolve ambiguities. The set of constructions that can be flagged is yet to be defined, but can include dates, times, numbers, acronyms, currency amounts, and more. Note that many acronyms and abbreviations can be handled by the author by direct replacement of text or by using the sub-element, p. Eg "BBC" can be written as "B B C" and "AAA" can be written as "triple A". These replacement written forms will likely be pronounced as one would like the original acronyms to be pronounced.


Comments