黑科技超級輔助第197章語音識別

智慧音箱的硬體和一些生態內容，都已經搞定了，就差一個智慧的軟體了。

要說智慧音箱，智慧才是他的心臟部位。

但是智慧這個詞語，聽起來很簡單，無非就是兩個字，但是做起來卻是「蜀道難，難於上青天。」這種感覺。

就拿那個喚醒詞來說吧，林奇決定要把那個喚醒詞去掉，可是研究了很久，還沒有研究到去掉喚醒詞的地步。

因為在第一步的時候就被束縛了手腳，那就是語音識別。

近些年來人工智慧裡面的機器學習發展的很是厲害，尤其是機器學習中的深度學習。

深度學習利用的是大於3層的神經絡來學習，有輸入層，輸出層，中間還有很多隱藏層。

只需要把大量的資料提供過來，輸入給寫好的程式，執行一段時間之後，就會計算出來一個模型。

輸入的資料越多，運算的次數越多，一般情況下得出來的結果也越好。但是這裡面還有一個需要注意的就是不能太依賴於輸入的資料了，否則會出現過擬合的現象。

過擬合就是在給定的資料中，讓程式來預測某些結果，它能達到很高的準確性，比如99999，但是到了通用的資料下，這個模型表現的就很差，可能只有的準確性。

林奇開始的時候也是利用了深度多層神經絡來進行訓練語音樣本的，因為現在市面上最流行的就是種方法。

不過別的公司能採用這種是因為他們有很多的音訊資料，並且都是使用者自己上傳的一些音訊素材，比如深信，月活躍量一度超過10億人，可想而知，每天用它發語音的有多少人，他能收集到多少的語音片段。

再比如尋她、搜貓和可大訊飛，他們三家公司都有自己的輸入法，每一個人都說自己的語音識別準確率最高，在手機上用這三種輸入法的大有人在，當然雖然在一些環境下用語音輸入很是麻煩，但是有一些特定的環境還是很不錯的。

所以他們收集到的來自真人的各種場景的語音片段，也是非常豐富的。

像上面的這些公司他們使用深度神經絡來訓練語音模型，沒有任何問題。

但是第二智慧科技沒有聊天工具，也沒有語音輸入法，林奇也想過去這些公司買一些資料，用來訓練自己的語音識別庫，但是思來想去，還是落了下乘。

第二智慧科技要推出的智慧音箱，最主要的一個環節的原料卻是從別人那裡購買的，雖然沒有什麼問題，但是林奇總覺得很彆扭。

後來林奇也想過去各大站上面爬一些資料，有生物計算機在後面給自己的大力支撐，爬別人的資料，應該很方便。

林奇也真的去這麼做了，為了n頻率，還特意的n了一些速度。就這樣爬了一些資料，但是這些資料拿到手裡，林奇發現有一個問題，那就是這些資料很多都是錄音棚，或者加工後的資料。

與使用者實際生活中，比如在地鐵上發的語音，在公交車上發語音，或者在大街上發語音，在家裡發語音都不太一樣，爬出來的資料很多都沒有環境音。

沒有環境音本身其實是好的音訊，但是對於做語音識別來說這個就非常不合適了，因為做出來的模型不符合人們正常生活，與實際使用場景不符。

那就很尷尬了，就好比你說一個人很厲害，可以用劍殺惡龍，在有惡龍的世界裡面，他是當之無愧的英雄。

但是如果他來到了現實生活中，就一事無成。

第197章 語音識別