நண்பர்களே, ஆராய்ச்சிக்காக, யூடிபில் உள்ள தமிழ் ஒலிப்பேச்சை எழுத்துப்பேச்சாக மாற்ற உதவும் நிரல்கட்டளையை எனக்கு அடையாளம் காட்ட முடியுமா? அல்லது நிரல் கட்டளையை எழுத என்னுடன் பேச முடியுமா? நான் ஒரு ஆராய்ச்சி மாணவன். நிரல் கட்டளை நிபுணன் அல்ல.
யூடியூபில் உள்ள வீடியோக்கலை பதிவிறக்கம் செய்து பின் பதிவறக்கம் செய்த மீடியா கோப்பில் இருக்கும் ஒலி தகவலை ffmpeg எனும் கமாண்ட் பயன்படுத்தி தனியாக பிரிக்கலாம்.
ஆனால் பிரித்தெடுத்த தமிழ் ஒலி தகவலை எழுத்து வடிவமாக மாற்ற ரெடிமேடாக எந்த ஒரு அப்ளிக்கேஷனும் இருப்பதாக எனக்கு தெரியவில்லை, தேவைஎனில் நாம்தான் உருவாக்கிக்கொள்ள வேண்டும்.
நாம் இருவரும் சேர்ந்து செய்தால் நன்றாக இருக்குமே. உங்கள் கருத்து என்ன?
டெர்மினலில் பின்வரும் கட்டளை இயக்குக.
pip3 install youtube-transcript-api
பின், இந்தக் கட்டளை இயக்குக.
youtube_transcript_api <first_video_id> <second_video_id> ... --languages de en --format json > transcripts.json
https://www.youtube.com/watch?v=i81qRY7TiAY
க்கு
youtube_transcript_api i81qRY7TiAY --languages ta en --format json > transcripts.json
என்று இயக்கி, உரையைப் பெறலாம்.
காண்க - https://kaniyam.cloudns.nz/misc/transcripts.json
முழு விவரங்களுக்கு காண்க
youtube-transcript-api · PyPI
நிரல்கட்டளையை நிறுவினேன். இயக்கினேன். அது o3R2XIHmi_U -வீடியோவுக்கு தந்த பதிலை கீழே இணைத்துள்ளேன்.
youtube_transcript_api o3R2XIHmi_U … --languages ta
Could not retrieve a transcript for the video https://www.youtube.com/watch?v=o3R2XIHmi_U! This is most likely caused by:
No transcripts were found for any of the requested language codes: [‘ta’]
For this video (o3R2XIHmi_U) transcripts are available in the following languages:
உங்களுடைய வீடீயோவுக்கு, கீழ்க்கண்ட பதில் வந்தது:
[[{“text”: “\u0bb5\u0ba3\u0b95\u0bcd\u0b95\u0bae\u0bcd \u0ba8\u0bbe\u0ba9\u0bcd \u0b95\u0ba3\u0bbf\u0baf\u0bae\u0bcd \u0b85\u0bb1\u0b95\u0bcd\u0b95\u0b9f\u0bcd\u0b9f\u0bb3\u0bc8 \u0b9a\u0bbe\u0bb0\u0bcd\u0baa\u0bbe\u0b95”, “start”: 1.0, “duration”: 5.879}, {“text”: “\u0b9a\u0bc0\u0ba9\u0bbf\u0bb5\u0bbe\u0b9a\u0ba9\u0bcd \u0baa\u0bc7\u0b9a\u0bc1\u0bb1\u0bc7\u0ba9\u0bcd \u0b87\u0ba8\u0bcd\u0ba4 \u0b95\u0bbe\u0ba3\u0bca\u0bb3\u0bbf\u0baf\u0bbf\u0bb2 \u0bb5\u0ba8\u0bcd\u0ba4\u0bc1”, “start”: 3.919, “duration”: 5.68}, {“text”: “\u0ba8\u0bae\u0bcd\u0bae \u0baa\u0bc8\u0ba4\u0bbe\u0ba9\u0bcd \u0ba8\u0bbf\u0bb1\u0bb2\u0bbe\u0b95\u0bcd\u0b95 \u0bae\u0bca\u0bb4\u0bbf \u0baa\u0bc8\u0ba4\u0bbe\u0ba9\u0bcd”, “start”: 6.879, “duration”: 4.64}, {“text”: “\u0baa\u0bcd\u0bb0\u0bcb\u0b95\u0bcd\u0bb0\u0bbe\u0bae\u0bbf\u0b99\u0bcd \u0bb2\u0bbe\u0b99\u0bcd\u0b95\u0bc1\u0bb5\u0bc7\u0b9c\u0bcd \u0baa\u0ba4\u0bcd\u0ba4\u0bbf\u0ba9 \u0b92\u0bb0\u0bc1 \u0b9a\u0bbf\u0ba9\u0bcd\u0ba9”, “start”: 9.599, “duration”: 5.04}, {“text”: “\u0b85\u0bb1\u0bbf\u0bae\u0bc1\u0b95\u0ba4\u0bcd\u0ba4\u0bc8 \u0ba8\u0bae\u0bcd\u0bae \u0baa\u0bbe\u0bb0\u0bcd\u0b95\u0bcd\u0b95”, “start”: 11.519, “duration”: 3.12}, {“text”: “\u0baa\u0bcb\u0bb1\u0bcb\u0bae\u0bcd \u0baa\u0bc8\u0ba4\u0bbe\u0ba9\u0bcd \u0b85\u0baa\u0bcd\u0baa\u0b9f\u0bbf\u0b99\u0bcd\u0b95\u0bb1\u0ba4\u0bc1 \u0b92\u0bb0\u0bc1”, “start”: 15.08, “duration”: 4.76}, {“text”: “\u0baa\u0bcd\u0bb0\u0bcb\u0b95\u0bcd\u0bb0\u0bbe\u0bae\u0bbf\u0b99\u0bcd \u0bb2\u0bbe\u0b99\u0bcd\u0b95\u0bc1\u0bb5\u0bc7\u0b9c\u0bcd \u0b85\u0baa\u0bcd\u0baa\u0bcb \u0ba8\u0bbf\u0bb1\u0bc8\u0baf”, “start”: 17.199, “duration”: 4.08}, {“text”: “\u0bae\u0bca\u0bb4\u0bbf\u0b95\u0bb3\u0bcd \u0b87\u0bb0\u0bc1\u0b95\u0bcd\u0b95\u0bc1 \u0b87\u0bb2\u0bcd\u0bb2\u0bc8\u0b99\u0bcd\u0b95\u0bb3\u0bbe \u0ba4\u0bae\u0bbf\u0bb4\u0bcd”, "