文字起こし関連メモ - サイバーグノーシス

書き起こしまでの流れ
- 音声素材の用意
  - MP4をMP３に変換する
  - 音声ファイルを一定時間ごとにカットする
- 環境構築（GoogleColab）

書き起こしまでの流れ

目的：英語のチュートリアル動画を日本語化する
フロー：動画のダウンロード→音声を抽出する→英文を文字起こしする→翻訳する

音声素材の用意

動画のダウンロード；https://ja.savefrom.net/1-youtube-video-downloader...

MP4をMP３に変換する

今回使用したソフト：XMedia Recode：https://forest.watch.impress.co.jp/library/softwar...
XMedia Recodeの使い方：https://www.gigafree.net/media/conv/xmediarecode-2...

音声ファイルを一定時間ごとにカットする

今回使用したソフト：mp3DirectCut

環境構築（GoogleColab）

参考サイト：文字起こしAI「Whisper」を誰でも簡単に使えるようにした超高精度文字起こしアプリ「writeout.ai」使い方まとめ、オープンソースでローカルでも動作OK：https://gigazine.net/news/20230309-writeout-ai/
→ローカルでの環境構築する方法
参考サイト：無料でOpenAIの「Whisper」を使って録音ファイルから音声認識で文字おこしする方法まとめ：https://gigazine.net/news/20220929-openai-whisper-...
→GoogleColabに環境構築する方法

・ハードウェアアクセラレータを「GPU」に変更する
・以下のコードを追加し実行する

!pip install git+https://github.com/openai/whisper.git

・以下のコードを追加し実行する

import whisper

・次に文字起こししたい音声ファイルをGoogle Colabにアップロードする
　左端のフォルダアイコンをクリックし、「Content」フォルダの左にあるケバブアイコンをクリックする

・次に以下のコマンドを入力して実行する

model = whisper.load_model("base")
result = model.transcribe("ファイル名")
print(result["text"])

注意点

・ファイル名は拡張子も含める
・音声の長さは25分まで？→念のため20分ごとにカット
　→長すぎると、最初の数分しか書き起こしてくれない