<code id="wbv0m"><s id="wbv0m"><listing id="wbv0m"></listing></s></code>
    <thead id="wbv0m"></thead>
      1. <tr id="wbv0m"></tr><code id="wbv0m"></code>
        1. <u id="wbv0m"></u>

          <th id="wbv0m"></th>
          <thead id="wbv0m"></thead>
          <code id="wbv0m"><small id="wbv0m"></small></code>

          Daniel Povey:新一代的Kaldi基本布局完成 實現了讓代碼更優雅

          黑科技 · 2021-09-01 07:56:24 ·資訊

          新一代的Kaldi讓代碼更優雅,降低了耦合性,比初代Kaldi代碼庫更靈活,允許用戶更輕松地嘗試新想法,更方便用戶使用

          近日,小米Kaldi團隊對外發布新一代Kaldi項目基本布局完成,小米集團語音首席科學家、“Kaldi之父”Daniel Povey(丹尼爾·波維)對科技訊表示,新一代的Kaldi讓代碼更優雅,降低了耦合性,比初代Kaldi代碼庫更靈活,允許用戶更輕松地嘗試新想法,更方便用戶使用;同時也可以用在任意其他語音識別庫里來處理音頻和文本數據,擁有更好的泛用性與兼容性。并且強調Kaldi將一直堅持做項目開源。

          Daniel Povey:新一代的Kaldi基本布局完成  實現了讓代碼更優雅

          詳解新一代Kaldi:

          新一代 Kaldi 是一個全新的代碼庫,其中共分為三個部分: Lhotse、Icefall和k2。

          k2是新一代Kaldi的核心,核心貢獻在于將加權有限狀態轉換器(WFST)和相關算法無縫地集成到基于Autograd的機器學習工具包,如PyTorch和TensorFlow中。

          Lhotse是訓練數據準備部分,設計了通用又不失靈活性的接口,以適應包括語音識別、文本轉語音等多種語音任務,并引入了Audio Cuts的概念從而在不影響數據處理效率的前提下,降低了數據存儲所需空間。

          Icefall是訓練腳本集合,包含有大量的基于不同數據集的示例腳本,大大降低了用戶的學習成本。

          Daniel Povey是語音識別開源工具Kaldi的主要開發者和維護者,因此被稱為“Kaldi之父”。針對新一代Kaldi,Daniel博士說:“新一代Kaldi依舊采用了高效的C++代碼實現,且更重要的是由于將k2的C++代碼都包裝到了Python, 模型的訓練迭代都可以使用純Python代碼完成,大大方便了用戶的使用。”

          新一代Kaldi的未來和應用:

          Daniel博士透露對于Kaldi也有自己明確的規劃。目前新一代Kaldi是由3 個獨立的項目組成,分別為 k2、Lhotse 和 Icefall。 其中k2是核心項目,未來計劃把k2中一部分的Python的腳本用C++重寫,這樣既提高效率并更利于產品化部署。同時,團隊接下里還會創建 k2 的 2.0版本 ,計劃在 12 月之前完成。

          Lhotse作為訓練數據準備部分,現在已經實現基本所有功能,還將持續迭代并發布新版本。而Daniel博士認為, Icefall作為訓練腳本集合當前非常具有可塑性,因為這個代碼庫還很新,而且發展非常快。

          對于Kaldi在小米產品中的應用落地,Daniel博士透露,小米產品中的 ASR 現在用的還是第一代 Kaldi。新一代Kaldi將逐步融入到小米產品之中,例如進行離線/在線語音識別加速、端到端的聲紋識別等工作,隨著集成和測試工作的逐步推進,新一代Kaldi將有望于今年年底或明年初在小米產品之中登場,與大眾正式見面,讓更多人享受到科技的樂趣。


          免責聲明:本文來自自媒體,不代表科技訊的觀點和立場

          您可能感興趣的文章

          精彩推薦
          久久水蜜桃网国产免费网2区-国产免费老人一级A片-国产A毛片高清视频-国产高清A片免费2020