黑科技超級輔助第四十三章：語音通話模型的製作（二更）

雖然這個方法想起來非常的簡單，但是做起來可不是這麼容易的。

首先每個人都有一個自己的語音模型，訓練這個模型需要有一個很優秀的訓練好的模型，然後做遷移學習。

但是訓練基礎模型的時候，是需要很多資料的，程式林奇很快的就做好了，但是沒有語音資料是硬傷。

最後林奇收集了很多的網路上公開的音訊資料，來輸入到模型中進行訓練，剛開始的時候找來了很多的漢語的音訊。包括從電視劇，電影還有廣播，新聞等裡面抽取的音訊。

等訓練好之後林奇測試之後發現針對標準的普通話，這個表現很好，但是如果是方言甚至是另一種少數民族，比如蒙古語，這個軟體表現的就非常的不盡人意。

後來林奇換了一個思路，不把每個人的語音轉換為文字。而是讓機器自己發明一種能發音的文字，不需要人類能看懂，只需要這個軟體自己能看懂就好，可以把聽到的任何聲音都轉換為這種機器自己能識別的文字。

修改了核心的演算法之後，林奇再次把資料輸入進去，同時這次增加了很多的其他的資料，包括英語，德語，日語……幾十種語言的資料。還有很多的大自然的聲音，樂器的聲音，等等。

電腦分析這些資料建立一個模型過程是很慢的，經過漫長的等待之後，終於重新生成了一個模型。

經過測試之後，效果出奇的好，林奇發現尤其是針對有規律的東西，包括語言，樂器這些東西，都能有很好的效果。

然後這些資料經過壓縮之後，體積比文字的還小了很多，即使網路環境再不好，只要不是完全沒有，通話的質量都是很完美的。

但是美中不足的是，針對不太規律的東西，這個模型處理的效果就不是很好，比如一些環境噪音或者大自然的風聲雨聲鳥叫等。

林奇接著又去修改了模型，但是訓練後的結果都不是很好。

後來林奇想了想「環境噪音，在語音通話過程中，人們應該是不想要的，我幹嘛還要費那麼大的力氣給加上。這不正是幾千塊錢的所謂的主動降噪耳機，或者是骨傳導耳機追求的降噪的功能嗎？」

想至此，林奇想抽自己兩巴掌，白白浪費了那麼多時間。

至於一些風聲什麼的，林奇也有了一個很好的解決方法，就是在演算法裡面判斷這個聲音，如果是沒有規律的，但是和環境噪音又有些區別的，那麼就保留原有的語音通話，只有這種有語言的才智慧的運用自己這套系統。

這個系統的價值在於能讓語言的傳輸大大減小體積，同時還能高度還原原聲，甚至帶有主動降噪功能。

而這個系統的難點在於：模型的訓練。

訓練的時候剛開始針對的是普通話，到了後來，林奇徹底的放開了自己的思維，讓機器自己去生成一種能傳輸的自己認識的語言，這樣效果大大的提升了，不用針對每一種語言來訓練好一個模型，而是針對所有的聲音，訓練出了一套通用的模型。

在使用的時候，只需要把這個模型載入到使用者的手機，使用者只需要說幾句話，模型就會自動生成對應的音色，還有對應的語言的機器翻譯。

通過實際的使用，林奇測試發現，這完全秒殺了世面上所有的語音通話軟體。