windows11 下使用 modelscope docker環境實現離線語音轉文字

發現阿里有一個語音轉文字的模型(paraformer),之前處理這種需求一直都是直接呼叫服務商提供好的API介面

突然想嘗試一下本地搭建,雖然和直接呼叫API 沒啥區別(都不知道實現細節),但是這是在地化執行,可以在內網環境執行.

因為平常工作主要是java方向,順便記錄一些踩坑歷史.

環境安裝

參考環境安裝
CPU環境映象：

docker pull registry.cn-hangzhou.aliyuncs.com/modelscope-repo/modelscope:ubuntu20.04-py37-torch1.11.0-tf1.15.5-1.5.0

GPU環境映象：

docker pull registry.cn-hangzhou.aliyuncs.com/modelscope-repo/modelscope:ubuntu20.04-cuda11.3.0-py37-torch1.11.0-tf1.15.5-1.5.0

啟動映象

下載後執行

cpu:
docker run -d --name cpu1 -v f:\docker:/work -p 9091:9090 -it --rm alicpuenv /bin/bash

gpu:
docker run -d --name gpu1 -v f:\docker:/work -p 9092:9090 --gpus all -it --rm aligpuenv /bin/bash

demo

環境搭建好了,跑範例就簡單了,官網提供了現成的demo

from modelscope.pipelines import pipeline
from modelscope.utils.constant import Tasks

inference_pipeline = pipeline(
    task=Tasks.auto_speech_recognition,
    model='damo/speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-pytorch')

rec_result = inference_pipeline(audio_in='https://isv-data.oss-cn-hangzhou.aliyuncs.com/ics/MaaS/ASR/test_audio/asr_example_zh.wav')
print(rec_result)

直接建立一個 demo.py 就可以執行.

它這裡會自動從網上下載模型,大概一個多G(只需下載一次),可能有點慢.

經測試, 我的CPU(AMD Ryzen 7 3700X 8-Core Processor 3.60 GHz) 上跑這段程式(5s 左右的音訊)是 700ms 左右,GPU(RTX 2070) 是500ms 左右

ps: 當然官網也提供了線上的 notebook 可以直接執行,想體驗的同學可以直接線上執行.

如果GPU環境報錯

docker: Error response from daemon: failed to create shim task: OCI runtime create failed: runc create failed: unable to start container process: error during container init: error running hook #0: error running hook: exit status 1, stdout: , stderr: Auto-detected mode as 'legacy'
nvidia-container-cli: mount error: file creation failed: /var/lib/docker/overlay2/76aebda714a598487d6ec2615bfbc8729722e3138a846830a407d07f929128c4/merged/usr/lib/x86_64-linux-gnu/libnvidia-ml.so.1: file exists: unknown.
ERRO[0000] error waiting for container:

可以參考 https://blog.51cto.com/u_15642578/6178468

大概步驟

先不掛載gpu, 直接進入容器, 備份兩個檔案

docker run   -it --rm aligpuenv /bin/bash
mv /usr/lib/x86_64-linux-gnu/libnvidia-ml.so.1  /usr/lib/x86_64-linux-gnu/libnvidia-ml.so.1.bak
mv /usr/lib/x86_64-linux-gnu/libcuda.so.1  /usr/lib/x86_64-linux-gnu/libcuda.so.1.bak

提交映象修改

docker commit  xxxxxxxxxx aligpuenv

執行新映象

docker run -d --name gpu1 -v f:\docker:/work -p 9092:9090 --gpus all -it --rm aligpuenv /bin/bash

windows11 下使用 modelscope docker環境 實現 離線語音轉文字

環境安裝

啟動映象

demo

如果GPU環境報錯

windows11 下使用 modelscope docker環境實現離線語音轉文字