第四十三章:語音通話模型的製作(二更)

雖然這個方法想起來非常的簡單,但是做起來可不是這麼容易的。

首先每個人都有一個自己的語音模型,訓練這個模型需要有一個很優秀的訓練好的模型,然後做遷移學習。

但是訓練基礎模型的時候,是需要很多資料的,程式林奇很快的就做好了,但是沒有語音資料是硬傷。

最後林奇收集了很多的網路上公開的音訊資料,來輸入到模型中進行訓練,剛開始的時候找來了很多的漢語的音訊。包括從電視劇,電影還有廣播,新聞等裡面抽取的音訊。

等訓練好之後林奇測試之後發現針對標準的普通話,這個表現很好,但是如果是方言甚至是另一種少數民族,比如蒙古語,這個軟體表現的就非常的不盡人意。

後來林奇換了一個思路,不把每個人的語音轉換為文字。而是讓機器自己發明一種能發音的文字,不需要人類能看懂,只需要這個軟體自己能看懂就好,可以把聽到的任何聲音都轉換為這種機器自己能識別的文字。

修改了核心的演算法之後,林奇再次把資料輸入進去,同時這次增加了很多的其他的資料,包括英語,德語,日語……幾十種語言的資料。還有很多的大自然的聲音,樂器的聲音,等等。

電腦分析這些資料建立一個模型過程是很慢的,經過漫長的等待之後,終於重新生成了一個模型。

經過測試之後,效果出奇的好,林奇發現尤其是針對有規律的東西,包括語言,樂器這些東西,都能有很好的效果。

然後這些資料經過壓縮之後,體積比文字的還小了很多,即使網路環境再不好,只要不是完全沒有,通話的質量都是很完美的。

但是美中不足的是,針對不太規律的東西,這個模型處理的效果就不是很好,比如一些環境噪音或者大自然的風聲雨聲鳥叫等。

林奇接著又去修改了模型,但是訓練後的結果都不是很好。

後來林奇想了想「環境噪音,在語音通話過程中,人們應該是不想要的,我幹嘛還要費那麼大的力氣給加上。這不正是幾千塊錢的所謂的主動降噪耳機,或者是骨傳導耳機追求的降噪的功能嗎?」

想至此,林奇想抽自己兩巴掌,白白浪費了那麼多時間。

至於一些風聲什麼的,林奇也有了一個很好的解決方法,就是在演算法裡面判斷這個聲音,如果是沒有規律的,但是和環境噪音又有些區別的,那麼就保留原有的語音通話,只有這種有語言的才智慧的運用自己這套系統。

這個系統的價值在於能讓語言的傳輸大大減小體積,同時還能高度還原原聲,甚至帶有主動降噪功能。

而這個系統的難點在於:模型的訓練。

訓練的時候剛開始針對的是普通話,到了後來,林奇徹底的放開了自己的思維,讓機器自己去生成一種能傳輸的自己認識的語言,這樣效果大大的提升了,不用針對每一種語言來訓練好一個模型,而是針對所有的聲音,訓練出了一套通用的模型。

在使用的時候,只需要把這個模型載入到使用者的手機,使用者只需要說幾句話,模型就會自動生成對應的音色,還有對應的語言的機器翻譯。

通過實際的使用,林奇測試發現,這完全秒殺了世面上所有的語音通話軟體。