<legend id="ef4zz"><delect id="ef4zz"><source id="ef4zz"></source></delect></legend>
    <th id="ef4zz"><option id="ef4zz"><wbr id="ef4zz"></wbr></option></th>
    <th id="ef4zz"><address id="ef4zz"></address></th>

    <th id="ef4zz"></th>

      <strike id="ef4zz"><video id="ef4zz"></video></strike>

      成立快兩年,阿里巴巴達摩院都干什么了?

      2021-04-11 16:54 ? 稿源:

        作者: Decode

        達摩院成立快兩年之際,機器智能技術實驗室搶先展示了一下成績。

        2017年10月,

        機器智能技術實驗室側重于AI相關技術的基礎研究,旗下設有語音實驗室、視覺實驗室、語言技術實驗室、決策職能實驗室、以及城市大腦實驗室。

        近日,達摩院機器智能技術實驗室舉辦了一場小型媒體溝通會,幾位技術專家向外界介紹了最新成果和進展。

        兼具表現力和穩定性的語音合成技術

        首先,機器智能技術實驗室正式發布了新的語音合成技術KAN-TTS(KAN指的是Knowledge-AwareNeural)。TTS(Text-To-Speech,文本到語音)是一種將文字轉化成語音的技術,智能音箱、個人虛擬助理都需要這種技術支持。

        達摩院機器智能語音實驗室高級算法專家雷鳴介紹,當前業界商用系統的合成語音與原始音頻錄音的接近程度,通常在85%到90%之間,而基于KAN-TTS技術的合成語音可將該數據提高到97%以上。

        簡單來說,KAN-TTS合成的語音更加像真人的語音,“接近真人韻律的感覺”。

        “我們新一代的TTS解決方案深度融合了傳統TTS和端到端TTS,基于不同領域的深層Knowledge?!崩坐Q介紹道。

        所謂端到端TTS,即不依靠領域知識,基于強大的深度學習模型、海量數據來生成音頻,優勢是大大節省設計的工作,并且得到更加流暢、表現力更好的合成語音,但需要大量計算力支持,而且會出現丟字、漏字等不穩定的情況。Google的Tacotron和DeepMind的WaveNet都是典型的端到端TTS模型。

        而傳統TTS需要花費大量時間和精力去了解相關的領域知識,設計難度較高,但勝在合成的語音比較穩定。

        通過將傳統TTS和端到端TTS的結合,KAN-TTS結合了兩者的優勢,充分利用不同領域的深層Knowledge,合成表現力和穩定性具佳的語音。

        針對不同的需求,機器智能技術實驗室提供了“開箱即用”的TTS產品,覆蓋5大場景(通用場景、客服場景、童聲場景、英文場景和方言場景),具備34個高品質的聲音。

        除了“開箱即用”的聲音,達摩院這個語音合成方案還能讓專業用戶定制聲音。

        傳統語音合成定制需要10小時以上的數據錄制和標注,對錄音人和錄音環境要求很高?!皬膯佣ㄖ频阶罱K交付,需要半年時間”。而達摩院利用Multi-SpeakerModel與Speaker-awareAdvancedTransferLearning相結合的方法,將語音合成定制成本降低10倍以上,周期壓縮3倍以上。#p#分頁標題#e#

        也就是說,用1小時有效錄音數據和不到兩個月制作周期,就能完成一次標準TTS定制。

        此外,普通用戶也可以自己定制“AI聲音”,只需手機錄音十分鐘,就能獲得與錄制聲音高度相似的合成語音。

        語音、自然語言、視覺各領域都有新成績

        除了公布新語言合成方案,機器智能技術實驗室還亮出了新成績。

        機器智能技術實驗室透露,阿里AI在國際頂級技術賽事上獲得了40多項世界第一,入選了近400篇國際頂會論文。具體到細分領域,機器智能技術實驗室最近都有不同建樹。

        語音領域,2019年1月機器智能技術實驗室在國際頂級對話系統評測大賽(DSTC-7)上獲得雙料冠軍,將人機對話準確率的世界紀錄提升至94.1%,并于2019年7月開源了創造這一記錄背后的人機對話模型ESIM。

        事實,該算法模型提出了兩年多,已被包括

        自然語言理解方面,機器智能技術實驗室在6月的MSMARCO文本閱讀理解挑戰賽中,擊敗了

        MSMARCO挑戰賽是AI閱讀理解領域的權威比賽,參賽機構提供的AI模型需要在搜索引擎返回的網頁文檔中,找出100萬個問題的正確答案。

        阿里方面介紹,阿里AI模型的突破在于提出了基于“融合結構化信息BERT模型”的“深度級聯機器閱讀模型”,可以模仿人類閱讀理解的過程,先對文檔進行快速瀏覽,判斷,然后針對相應段落進行精讀,并根據“自己的理解”回答問題。

        達摩院機器翻譯技術團隊已實現了48個語言翻譯方向,支持俄、西、法、阿、土,泰、印尼、越南等多種語言翻譯,其中電商覆蓋了大部分語向和場景,超越了谷歌和

        在機器視覺領域,機器智能技術實驗室在圖像搜索、大規模圖像識別、視頻分析、線下視覺智能等領域都有所建樹。其中,圖像搜索領域,阿里AI的向量引擎比Facebook快6倍。

        機器智能技術實驗室在6月份剛剛結束的WebVision競賽中,阿里AI以82.54%的識別準確率,擊敗了全世界150多支參賽隊伍,獲得冠軍。機器智能技術實驗室稱,阿里AI目前可以識別超過100萬種物理實體。

        WebVison是目前圖像識別領域最權威的競賽之一,專注于物體識別,被譽為接棒ImageNet的大規模圖像識別競賽。

        7月,在CVPR2019舉辦的LPIRC(低功耗圖像識別挑戰賽)中,阿里AI獲得在線圖像分類任務第一名。在挑戰賽使用的訓練數據集上,阿里AI實現了67.4%的分類精度,比官方提供的基準線高3.5%。#p#分頁標題#e#

        值得注意的是,上述只是達摩院旗下機器智能技術實驗室的進展和成績。到2019年10月達摩院兩周年之際,會有更加全面的消息公布。

      免責聲明:"5G之家"的傳媒資訊頁面文章、圖片、音頻、視頻等稿件均為自媒體人、第三方機構發布或轉載。如稿件涉及版權
      等問題,請與我們聯系刪除或處理。稿件內容僅為傳遞更多信息之目的,不代表本網觀點,亦不代表本網站贊同其觀點或證實
      其內容的真實性,更不對您的投資構成建議。我們不鼓勵任何形式的投資行為、購買使用行為。

      相關推薦

      本站由阿里云提供計算和安全 Copyright ?5gzj.net. All Rights Reserved. 違法舉報平臺12377 浙ICP備20028707號-2

      色Av色Av色AⅤ色AV
      <legend id="ef4zz"><delect id="ef4zz"><source id="ef4zz"></source></delect></legend>
        <th id="ef4zz"><option id="ef4zz"><wbr id="ef4zz"></wbr></option></th>
        <th id="ef4zz"><address id="ef4zz"></address></th>

        <th id="ef4zz"></th>

          <strike id="ef4zz"><video id="ef4zz"></video></strike>