はじめに
どうもこんにちは、infoengine1337です。最近は別名義で音MAD作成っぽいことをやっています。
ところで近頃AIなどの技術革新が激しく、とんでもないツールが次々と開発されています。
しかし、それらのツールは高級なパソコンを所持していないと利用できなかったり、あるいは相応の技術を持っていないと扱えなかったりといった現状があります。
また、一般的なYoutube動画のダウンロードや動画形式の変換などについても、CLIの敷居のせいで優秀なツールの恩恵を受けられないユーザが数多くいます。
そこで、音声や動画といったメディアに対しての役立つ機能を搭載したGoogle Colabノートブックを作ればよいのでは?という発想にいたりました。
最終的に完成したのが、音MAD作者支援用ノートブックです。

具体的な機能としては
- Youtube/ニコニコより 最高画質&フレームレートでダウンロード (yt-dlp)
- 動画形式変換, mp3,wav形式への変換 (ffmpeg)
- BGM除去・声の抽出 (Demucs v3)
- 動画高解像度化 (Real-ESRGAN)
- 透過素材作成 (anime-segmentation)
ができます。
詳しい使い方
使い方解説講座も作成してあります。
この動画に沿って解説をしていこうと思います。
初期設定
まずノートブックを開くと以下のような画面になります。

Google Driveを読み込むため、最初のセルを実行します。
追加の表示には許可をしてください。

成功すると、Google Driveにsiendirディレクトリが作成されます。
音MAD支援用ノートブックは基本的にこのディレクトリ以下から素材を読み込む仕様となっています。
Youtube動画高画質ダウンローダ
yt-dlpを用いて、取得できる最高画質&最大fpsでの動画ダウンロードを行います。
一つ下のセルを用いればニコニコやTwitter等のサイトからも動画をダウンロードすることができます。
まずは初期設定のセルを実行します。
初期設定が終わったら動画のリンクを入力して実行するだけです。

成功すると、Google Driveのsiendirディレクトリにダウンロードした動画が保存されます。

この後の機能も、基本的にsiendir以下に成果物が入るようになっています。
動画形式変換&音声抽出(mp3/wav)
ffmpegを用いて、動画や音声の形式を変換します。
動画形式は一番互換性の高いH.264 & AACコーデックに変換されます。
音声はmp3形式とwav形式に変換できるようになっています。
まずは初期設定のセルを実行したのち、ファイルを選択します。
siendir内からファイルを選択できます。
この後の機能も同じようにsiendir内からファイルを選択する仕様です。

変換に成功すると、
siendirディレクトリ以下に(元ファイル名)_convert.(拡張子)という名前で保存されます。

ボーカル抽出・カラオケ作成・音声分離
Demucs v3やspleeterを用いて、ボーカル抽出やカラオケ音源の作成、ドラム抽出等ができます。
(Demucs v3はUltimate Vocal Removerに採用されている技術で、現時点では最も性能が高いものです。)
これを実行する前に、上記の機能などを用いてmp3形式に変換しておく必要があります。
初期設定のセルを実行した後、RESTART KERNELというボタンを押さないと動作しないため、忘れずに行ってください。
この際注意が出るため、「はい」を押してください。


その後、音源分離したい素材を選択します。このまま待機すると処理が始まります。

完了後、siendirディレクトリ以下にファイル名と同じディレクトリができるため、それを下っていくと分離されたファイル群が保存されていると思います。

バス・ドラム・ボーカル・その他に分離されているため、ボーカル以外を合成するとカラオケ音源を作ることができます。
動画高画質化
Real-ESRGANを用いて動画を高画質化します。デフォルトで二倍の解像度となります。
利用するモデルはx4plus_anime_6B.pthで、アニメ素材の高画質化に最適です。
初期設定のセルを実行した後、高画質化したい動画を選択して待機します。

成功すると、siendirディレクトリ以下に高画質化された動画が保存されます。
ファイル名は(元のファイル名)_esr.mp4となります。

BB素材(透過素材)作成
anime-segmentation技術を用いて、透過素材を自動生成します。打倒ロトブラシ
初期設定のセルを実行した後、透過したい動画を選んで実行、待機します。

成功すると、siendirディレクトリ以下に透過された動画が保存されます。
ファイル名は(元のファイル名)_seg.aviとなります。

透過Avi形式で出力されるため、少しサイズがかさばります。これをダウンロードしてAviutlに読み込ませることができます。読み込む際にアルファチャンネルも読み込むことを忘れずにお願いします。
2022/10/04追記: 音声 -> MIDI変換機能
使い方は音声分離の時と全く同じで、初期化セルを実行した後にファイルを選択するだけです。
成功するとsiendirに拡張子がmidとなって出力されます。
最後に
駆け足で解説しましたが、いかがでしたか?
これらの機能を利用してどのような成果物が得られるかは、解説動画を参考にしてくださるとありがたいです。
また要望のある機能がありましたら、気軽に教えていただけると嬉しいです。暇なときにでも実装します。
読んでいただきありがとうございました。拡散よろしくお願いします。
Githubのスターもよろしくお願いします!
https://github.com/infoengine1337/otosien-book
コメント