whisper model メモ

 

2024-09-30 Whisper音声認識モデルによって制度は違うが時間もすごい違う。メモ。

 

docker run –rm -v /path/to/dir:/whisper whisper whisper “test.mp4” –language Japanese –model large

10分くらいして落ちた。時間かかりすぎる。

largeは厳しいなぁ。今の環境ではGPUを使うこともできないようだし。

Nvediaじゃないしな。CUPでやるしかない。とりあえず。

tiny

[00:00.000 –> 00:05.400] えーとまぁではその強い強い強いにしてもいいんじゃないのえーと
[00:05.400 –> 00:14.000] よぶつり的なまあ一緒にぶつり的にどれよこれとかぶつり的な力が必要だという場合は
[00:14.000 –> 00:17.200] まあ優しくと関係ないかもしれないけど強い強い強い強い

微妙な精度だ。

base

[00:00.000 –> 00:24.000] その強い水流にしてもいいんじゃないの、物理的な物理的な力が必要だって言う場合は優しく関係ないかもしれないけど、強い水流にしてもいいんじゃないかと、強水流ってあっ
たもんね、ドラムはないんだけどね。

普通にいい精度だ。しかもスピードTinyより速かったかも?

small

ガクッと遅くなったなぁ。精度によるところだが。

[00:00.000 –> 00:08.160] えっとまあではその強い水流にしてもいいんじゃないの えっと要は物理的な
[00:08.160 –> 00:19.680] まあ非常に物理的どれよこれとか物理的な力が必要だという場合は 優しくとか関係ないかもしれないけど強い水流にしてもいいんじゃないかと
[00:19.680 –> 00:24.840] まあ強水流ってあったもんねドラムはないんだけどね

medium

ものすごく遅いなぁ。やめようかなって位。

[00:00.000 –> 00:19.000] 強い水流にしてもいいのではないかと考えました。
[00:19.000 –> 00:23.000] 強水流ってあったもんね。ドラムはないんだけどね。

 

なんか全然ないよう違うってことが分かったぞ。

なんか内容をまとめちまうこともあるのか?ってくらい。

 

 

 

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です