2024-09-30 Whisper音声認識モデルによって制度は違うが時間もすごい違う。メモ。
docker run –rm -v /path/to/dir:/whisper whisper whisper “test.mp4” –language Japanese –model large
10分くらいして落ちた。時間かかりすぎる。
largeは厳しいなぁ。今の環境ではGPUを使うこともできないようだし。
Nvediaじゃないしな。CUPでやるしかない。とりあえず。
tiny
[00:00.000 –> 00:05.400] えーとまぁではその強い強い強いにしてもいいんじゃないのえーと
[00:05.400 –> 00:14.000] よぶつり的なまあ一緒にぶつり的にどれよこれとかぶつり的な力が必要だという場合は
[00:14.000 –> 00:17.200] まあ優しくと関係ないかもしれないけど強い強い強い強い
微妙な精度だ。
base
[00:00.000 –> 00:24.000] その強い水流にしてもいいんじゃないの、物理的な物理的な力が必要だって言う場合は優しく関係ないかもしれないけど、強い水流にしてもいいんじゃないかと、強水流ってあっ
たもんね、ドラムはないんだけどね。
普通にいい精度だ。しかもスピードTinyより速かったかも?
small
ガクッと遅くなったなぁ。精度によるところだが。
[00:00.000 –> 00:08.160] えっとまあではその強い水流にしてもいいんじゃないの えっと要は物理的な
[00:08.160 –> 00:19.680] まあ非常に物理的どれよこれとか物理的な力が必要だという場合は 優しくとか関係ないかもしれないけど強い水流にしてもいいんじゃないかと
[00:19.680 –> 00:24.840] まあ強水流ってあったもんねドラムはないんだけどね
medium
ものすごく遅いなぁ。やめようかなって位。
[00:00.000 –> 00:19.000] 強い水流にしてもいいのではないかと考えました。
[00:19.000 –> 00:23.000] 強水流ってあったもんね。ドラムはないんだけどね。
なんか全然ないよう違うってことが分かったぞ。
なんか内容をまとめちまうこともあるのか?ってくらい。