யூடிப்பில் உள்ள தமிழ் ஒலிகளை தமிழ் எழுத்துக்களாக மாற்ற நிரல் கட்டளை உள்ளதா?

நண்பர்களே, ஆராய்ச்சிக்காக, யூடிபில் உள்ள தமிழ் ஒலிப்பேச்சை எழுத்துப்பேச்சாக மாற்ற உதவும் நிரல்கட்டளையை எனக்கு அடையாளம் காட்ட முடியுமா? அல்லது நிரல் கட்டளையை எழுத என்னுடன் பேச முடியுமா? நான் ஒரு ஆராய்ச்சி மாணவன். நிரல் கட்டளை நிபுணன் அல்ல.

யூடியூபில் உள்ள வீடியோக்கலை பதிவிறக்கம் செய்து பின் பதிவறக்கம் செய்த மீடியா கோப்பில் இருக்கும் ஒலி தகவலை ffmpeg எனும் கமாண்ட் பயன்படுத்தி தனியாக பிரிக்கலாம்.

ஆனால் பிரித்தெடுத்த தமிழ் ஒலி தகவலை எழுத்து வடிவமாக மாற்ற ரெடிமேடாக எந்த ஒரு அப்ளிக்கேஷனும் இருப்பதாக எனக்கு தெரியவில்லை, தேவைஎனில் நாம்தான் உருவாக்கிக்கொள்ள வேண்டும்.

நாம் இருவரும் சேர்ந்து செய்தால் நன்றாக இருக்குமே. உங்கள் கருத்து என்ன?

டெர்மினலில் பின்வரும் கட்டளை இயக்குக.
pip3 install youtube-transcript-api

பின், இந்தக் கட்டளை இயக்குக.

youtube_transcript_api <first_video_id> <second_video_id> ... --languages de en --format json > transcripts.json

https://www.youtube.com/watch?v=i81qRY7TiAY

க்கு

youtube_transcript_api i81qRY7TiAY --languages ta en --format json > transcripts.json

என்று இயக்கி, உரையைப் பெறலாம்.

காண்க - https://kaniyam.cloudns.nz/misc/transcripts.json

முழு விவரங்களுக்கு காண்க
youtube-transcript-api · PyPI

1 Like

நிரல்கட்டளையை நிறுவினேன். இயக்கினேன். அது o3R2XIHmi_U -வீடியோவுக்கு தந்த பதிலை கீழே இணைத்துள்ளேன்.

youtube_transcript_api o3R2XIHmi_U … --languages ta

Could not retrieve a transcript for the video https://www.youtube.com/watch?v=o3R2XIHmi_U! This is most likely caused by:

No transcripts were found for any of the requested language codes: [‘ta’]

For this video (o3R2XIHmi_U) transcripts are available in the following languages:

உங்களுடைய வீடீயோவுக்கு, கீழ்க்கண்ட பதில் வந்தது:

[[{“text”: “\u0bb5\u0ba3\u0b95\u0bcd\u0b95\u0bae\u0bcd \u0ba8\u0bbe\u0ba9\u0bcd \u0b95\u0ba3\u0bbf\u0baf\u0bae\u0bcd \u0b85\u0bb1\u0b95\u0bcd\u0b95\u0b9f\u0bcd\u0b9f\u0bb3\u0bc8 \u0b9a\u0bbe\u0bb0\u0bcd\u0baa\u0bbe\u0b95”, “start”: 1.0, “duration”: 5.879}, {“text”: “\u0b9a\u0bc0\u0ba9\u0bbf\u0bb5\u0bbe\u0b9a\u0ba9\u0bcd \u0baa\u0bc7\u0b9a\u0bc1\u0bb1\u0bc7\u0ba9\u0bcd \u0b87\u0ba8\u0bcd\u0ba4 \u0b95\u0bbe\u0ba3\u0bca\u0bb3\u0bbf\u0baf\u0bbf\u0bb2 \u0bb5\u0ba8\u0bcd\u0ba4\u0bc1”, “start”: 3.919, “duration”: 5.68}, {“text”: “\u0ba8\u0bae\u0bcd\u0bae \u0baa\u0bc8\u0ba4\u0bbe\u0ba9\u0bcd \u0ba8\u0bbf\u0bb1\u0bb2\u0bbe\u0b95\u0bcd\u0b95 \u0bae\u0bca\u0bb4\u0bbf \u0baa\u0bc8\u0ba4\u0bbe\u0ba9\u0bcd”, “start”: 6.879, “duration”: 4.64}, {“text”: “\u0baa\u0bcd\u0bb0\u0bcb\u0b95\u0bcd\u0bb0\u0bbe\u0bae\u0bbf\u0b99\u0bcd \u0bb2\u0bbe\u0b99\u0bcd\u0b95\u0bc1\u0bb5\u0bc7\u0b9c\u0bcd \u0baa\u0ba4\u0bcd\u0ba4\u0bbf\u0ba9 \u0b92\u0bb0\u0bc1 \u0b9a\u0bbf\u0ba9\u0bcd\u0ba9”, “start”: 9.599, “duration”: 5.04}, {“text”: “\u0b85\u0bb1\u0bbf\u0bae\u0bc1\u0b95\u0ba4\u0bcd\u0ba4\u0bc8 \u0ba8\u0bae\u0bcd\u0bae \u0baa\u0bbe\u0bb0\u0bcd\u0b95\u0bcd\u0b95”, “start”: 11.519, “duration”: 3.12}, {“text”: “\u0baa\u0bcb\u0bb1\u0bcb\u0bae\u0bcd \u0baa\u0bc8\u0ba4\u0bbe\u0ba9\u0bcd \u0b85\u0baa\u0bcd\u0baa\u0b9f\u0bbf\u0b99\u0bcd\u0b95\u0bb1\u0ba4\u0bc1 \u0b92\u0bb0\u0bc1”, “start”: 15.08, “duration”: 4.76}, {“text”: “\u0baa\u0bcd\u0bb0\u0bcb\u0b95\u0bcd\u0bb0\u0bbe\u0bae\u0bbf\u0b99\u0bcd \u0bb2\u0bbe\u0b99\u0bcd\u0b95\u0bc1\u0bb5\u0bc7\u0b9c\u0bcd \u0b85\u0baa\u0bcd\u0baa\u0bcb \u0ba8\u0bbf\u0bb1\u0bc8\u0baf”, “start”: 17.199, “duration”: 4.08}, {“text”: “\u0bae\u0bca\u0bb4\u0bbf\u0b95\u0bb3\u0bcd \u0b87\u0bb0\u0bc1\u0b95\u0bcd\u0b95\u0bc1 \u0b87\u0bb2\u0bcd\u0bb2\u0bc8\u0b99\u0bcd\u0b95\u0bb3\u0bbe \u0ba4\u0bae\u0bbf\u0bb4\u0bcd”, "