跳到主要內容

【語音辨識 - Whisper】 雙聲道音訊處理與辨識

 前幾個篇章大概介紹了語音辨識工具Whisper的基本用法,建議可以先行閱讀與實作會更加容易上手,有興趣的朋友歡迎先前往以下的篇章進行閱讀,讓我們一起學習語音辨識工具的使用方法與技巧吧!

這次就要來介紹一下如何處理音訊的部分了,著重於雙聲道的處理,所謂單聲道就是將聲音都合併到單一聲道的混音,因此對於語音辨識來說,它只能幫我們把該聲道的聲音辨識成文字,但並無法區分左、右聲道的文字語句,而雙聲道就不一樣了,從收音開始就可以進行分離,如果想要分別辨識左、右聲道的對話語句就相對容易的多了,在python程式語言中許多開發者都開發了音訊處理的套件,而這次會使用pydub這套工具來進行,並將音訊送往whisper進行語音辨識。

假設我們有一段雙聲道的音檔, 正常來說透過whisper進行語音辨識時都是以整段音檔進行辨識,但我們若想將左右聲道分離進行辨識的話就得對音檔進行音訊處理了。

怎麼做呢? 比較簡單的方式就是透過音訊處理工具將音檔進行左右聲道的分離,再獨立的進行辨識即可。

這次會將雙聲道音檔透過pydub這套音訊處理工具進行分離,再分別以numpy.ndarray的格式傳遞給whisper進行辨識。

工具安裝

pytube: 下載yt影片並轉成音檔。

pydub: 將雙聲道切成左、右聲道。

openai-whisper: 語音辨識。

# 下載yt影片並轉成音檔。

!pip install pytube

# 將雙聲道切成左、右聲道。

!pip install pydub

# 安裝whisper語音辨識工具

!pip install -U openai-whisper

將YT影片以Stream方式載到Memory

這邊會需要開啟google驗證網頁並將認證碼輸入才能順利下載音檔(主要也是避免無限制的下載導致負擔吧)。

● 遵照指示打開裝置驗證網頁。

● 輸入提示的驗證碼。

● 登入驗證完畢後,在以下輸入框填上驗證碼即完成驗證。

import io

from pytube import YouTube

from pydub import AudioSegment

# yt音訊流

yt = YouTube('https://www.youtube.com/watch?v=pF2GgX2xYVw', use_oauth=True, allow_oauth_cache=True)

stream = yt.streams.filter(only_audio=True).first()

buffer = io.BytesIO()

audio_stream = stream.stream_to_buffer(buffer)

buffer.seek(0)

設計音訊解碼函式

● 預設為雙聲道layout。

● 重設取樣率,whisper預設以16000進行辨識。

載入模型

有哪些模型可以使用呢? 請參考這裡:

import whisper

model = whisper.load_model("medium")

左聲道進行辨識

右聲道進行辨識

結語

這個範例主要是介紹如何使用音訊工具`pydub`將音檔進行channel的分離,分開進行辨識,讓時間資訊能夠區隔,但仍有一些缺陷,兩者若對話來往緊湊時,時間資訊相信也會頻繁重疊,究竟要如何將每句話獨立的切割呢? 這就要使用到VAD工具了,主要將語音訊號切成較小的時間片段,而這些語音片段再進行語音辨識即可,下一章節我們將會說明如何使用VAD工具讓每句話獨立進行語音辨識,讓辨識結果更為精確。

今天的範例都在這裡「📦 whisper_2_channel.ipynb」歡迎自行取用。

如何使用請參閱「【Google Colab系列】台股分析預備式: Colab平台與Python如何擦出火花?」。

------------------------------------------------------------------------------------------------

喜歡撰寫文章的你,不妨來了解一下:

Web3.0時代下為創作者、閱讀者打造的專屬共贏平台 - 為什麼要加入?

歡迎加入一起練習寫作,賺取知識,累積財富!

留言

這個網誌中的熱門文章

java西元民國轉換_各種不同格式

C#資料庫操作(新增、修改、刪除、查詢)

【Excel好好玩】 自己的資產自己管!善用Google Sheet來幫我們評估貸款

這次介紹的主題是關於Excel的貸款還款計畫試算,我們人生中總會遇到需要大筆金額的花費,但當資金不夠時就得進行貸款,而貸款之前如果我們能夠審慎評估,並分析自己的還款能力之後在進行凍作,相信風險會小很多,因此就自己動動手來使用Google Sheet進行試算吧! 基本資料 ● 貸款總額: 1000000 ● 貸款期數: 84月 ● 年利率: 2.11% ● 月利率: 0.18% P.S 月利率 = 年利率 / 12 重要函式 PMT : 這是Google Sheet內建的重要年金計算公式,我們可以善用這個公式來計算固定利率及期數的固定攤還本息。因為PMT函式計算出的結果為負數,所以前面加上-號轉成正數。 動手做 首先我們在Excel表上列出我們的基本資料 圖片來源 其中月利率的部分就使用公式「=B4/12」 接著我們填上第一列的期數跟餘額 圖片來源 =B2 =B3 使用關鍵PMT函數來計算本息的部分 因為PMT函式計算出的結果為負數,所以前面加上-號轉成正數。 -PMT(貸款利率(月利率), 貸款期數, 貸款總額) =-PMT($B$5,$B$3,$B$2) 圖片來源 計算利息 利息 = 貸款餘額 x 月利率 =B8*$B$5 圖片來源 計算本金 本金 = 本息 - 利息 =C8-D8 圖片來源 製作第二列餘額的部分 餘額的部分 = 上一期的餘額 - 上一期的本金 圖片來源 接著拖曳該兩列往下拉,即可查看每一期的利息與本金 圖片來源 結語 雖然市面上已經有很多貸款銀行都提供了試算功能,但如果我們想要進一步管理自己的資產時,就需要將每一期的金額給計算出來,因此才會將公式運用在Excel表,讓我們的資產管理表能夠結合負債,進一步評估我們理財行動的下一步,希望這樣的經驗可以幫助到正在理財道路上打拼的夥伴,讓我們透過有效的管理,幫助荷包長大吧! 喜歡撰寫文章的你,不妨來了解一下: Web3.0時代下為創作者、閱讀者打造的專屬共贏平台 — 為什麼要加入? 歡迎加入一起練習寫作,賺取知識,累積財富!