第197章 語音識別

智慧音箱的硬體和一些生態內容,都已經搞定了,就差一個智慧的軟體了。

要說智慧音箱,智慧才是他的心臟部位。

但是智慧這個詞語,聽起來很簡單,無非就是兩個字,但是做起來卻是「蜀道難,難於上青天。」這種感覺。

就拿那個喚醒詞來說吧,林奇決定要把那個喚醒詞去掉,可是研究了很久,還沒有研究到去掉喚醒詞的地步。

因為在第一步的時候就被束縛了手腳,那就是語音識別。

近些年來人工智慧裡面的機器學習發展的很是厲害,尤其是機器學習中的深度學習。

深度學習利用的是大於3層的神經絡來學習,有輸入層,輸出層,中間還有很多隱藏層。

只需要把大量的資料提供過來,輸入給寫好的程式,執行一段時間之後,就會計算出來一個模型。

輸入的資料越多,運算的次數越多,一般情況下得出來的結果也越好。但是這裡面還有一個需要注意的就是不能太依賴於輸入的資料了,否則會出現過擬合的現象。

過擬合就是在給定的資料中,讓程式來預測某些結果,它能達到很高的準確性,比如99999,但是到了通用的資料下,這個模型表現的就很差,可能只有的準確性。

林奇開始的時候也是利用了深度多層神經絡來進行訓練語音樣本的,因為現在市面上最流行的就是種方法。

不過別的公司能採用這種是因為他們有很多的音訊資料,並且都是使用者自己上傳的一些音訊素材,比如深信,月活躍量一度超過10億人,可想而知,每天用它發語音的有多少人,他能收集到多少的語音片段。

再比如尋她、搜貓和可大訊飛,他們三家公司都有自己的輸入法,每一個人都說自己的語音識別準確率最高,在手機上用這三種輸入法的大有人在,當然雖然在一些環境下用語音輸入很是麻煩,但是有一些特定的環境還是很不錯的。

所以他們收集到的來自真人的各種場景的語音片段,也是非常豐富的。

像上面的這些公司他們使用深度神經絡來訓練語音模型,沒有任何問題。

但是第二智慧科技沒有聊天工具,也沒有語音輸入法,林奇也想過去這些公司買一些資料,用來訓練自己的語音識別庫,但是思來想去,還是落了下乘。

第二智慧科技要推出的智慧音箱,最主要的一個環節的原料卻是從別人那裡購買的,雖然沒有什麼問題,但是林奇總覺得很彆扭。

後來林奇也想過去各大站上面爬一些資料,有生物計算機在後面給自己的大力支撐,爬別人的資料,應該很方便。

林奇也真的去這麼做了,為了n頻率,還特意的n了一些速度。就這樣爬了一些資料,但是這些資料拿到手裡,林奇發現有一個問題,那就是這些資料很多都是錄音棚,或者加工後的資料。

與使用者實際生活中,比如在地鐵上發的語音,在公交車上發語音,或者在大街上發語音,在家裡發語音都不太一樣,爬出來的資料很多都沒有環境音。

沒有環境音本身其實是好的音訊,但是對於做語音識別來說這個就非常不合適了,因為做出來的模型不符合人們正常生活,與實際使用場景不符。

那就很尷尬了,就好比你說一個人很厲害,可以用劍殺惡龍,在有惡龍的世界裡面,他是當之無愧的英雄。

但是如果他來到了現實生活中,就一事無成。