前幾個篇章大概介紹了語音辨識工具Whisper的基本用法,建議可以先行閱讀與實作會更加容易上手,有興趣的朋友歡迎先前往以下的篇章進行閱讀,讓我們一起學習語音辨識工具的使用方法與技巧吧!
這次就要來介紹一下如何處理音訊的部分了,著重於雙聲道的處理,所謂單聲道就是將聲音都合併到單一聲道的混音,因此對於語音辨識來說,它只能幫我們把該聲道的聲音辨識成文字,但並無法區分左、右聲道的文字語句,而雙聲道就不一樣了,從收音開始就可以進行分離,如果想要分別辨識左、右聲道的對話語句就相對容易的多了,在python程式語言中許多開發者都開發了音訊處理的套件,而這次會使用pydub這套工具來進行,並將音訊送往whisper進行語音辨識。
假設我們有一段雙聲道的音檔, 正常來說透過whisper進行語音辨識時都是以整段音檔進行辨識,但我們若想將左右聲道分離進行辨識的話就得對音檔進行音訊處理了。
怎麼做呢? 比較簡單的方式就是透過音訊處理工具將音檔進行左右聲道的分離,再獨立的進行辨識即可。
這次會將雙聲道音檔透過pydub這套音訊處理工具進行分離,再分別以numpy.ndarray的格式傳遞給whisper進行辨識。
工具安裝
# 下載yt影片並轉成音檔。
!pip install pytube
# 將雙聲道切成左、右聲道。
!pip install pydub
# 安裝whisper語音辨識工具
!pip install -U openai-whisper
將YT影片以Stream方式載到Memory
這邊會需要開啟google驗證網頁並將認證碼輸入才能順利下載音檔(主要也是避免無限制的下載導致負擔吧)。
● 遵照指示打開裝置驗證網頁。
● 輸入提示的驗證碼。
● 登入驗證完畢後,在以下輸入框填上驗證碼即完成驗證。
import io
from pytube import YouTube
from pydub import AudioSegment
# yt音訊流
yt = YouTube('https://www.youtube.com/watch?v=pF2GgX2xYVw', use_oauth=True, allow_oauth_cache=True)
stream = yt.streams.filter(only_audio=True).first()
buffer = io.BytesIO()
audio_stream = stream.stream_to_buffer(buffer)
buffer.seek(0)
設計音訊解碼函式
● 預設為雙聲道layout。
● 重設取樣率,whisper預設以16000進行辨識。
載入模型
有哪些模型可以使用呢? 請參考這裡:
import whisper
model = whisper.load_model("medium")
左聲道進行辨識
右聲道進行辨識
結語
這個範例主要是介紹如何使用音訊工具`pydub`將音檔進行channel的分離,分開進行辨識,讓時間資訊能夠區隔,但仍有一些缺陷,兩者若對話來往緊湊時,時間資訊相信也會頻繁重疊,究竟要如何將每句話獨立的切割呢? 這就要使用到VAD工具了,主要將語音訊號切成較小的時間片段,而這些語音片段再進行語音辨識即可,下一章節我們將會說明如何使用VAD工具讓每句話獨立進行語音辨識,讓辨識結果更為精確。
今天的範例都在這裡「📦 whisper_2_channel.ipynb」歡迎自行取用。
------------------------------------------------------------------------------------------------
留言
張貼留言