中文字幕在线观看亚洲视频,精品国产A∨无码一区二区三区,欧美日韩中文一区,国模和精品嫩模私拍视频

深圳信息港

在網(wǎng)易有道做語(yǔ)音算法工程師是一種怎樣的體驗(yàn)?-最資訊

2023-03-13 04:22:14 來(lái)源:騰訊云

魚(yú)羊 發(fā)自 凹非寺 量子位 報(bào)道 | 公眾號(hào) QbitAI

一個(gè)成立不到兩年的團(tuán)隊(duì),兩個(gè)初入職場(chǎng)的新人,殺入頂會(huì)挑戰(zhàn)賽能拿下怎樣的成績(jī)?

時(shí)限是,10天。

近日,全球語(yǔ)音頂會(huì)INTERSPEECH 2020「口音英語(yǔ)語(yǔ)音識(shí)別挑戰(zhàn)賽」結(jié)果公布,一支名叫「大耳朵圖圖喵喵喵」的團(tuán)隊(duì)摘下了兩大賽道的第二名和第三名。


(資料圖片)

參賽選手是這位:

大耳朵圖圖本喵

啊不,其實(shí)來(lái)自他們當(dāng)中。

說(shuō)起網(wǎng)易有道與AI語(yǔ)音技術(shù)相關(guān)的產(chǎn)品,大家或許都不陌生,比如丁磊多次安利、上市都帶著的有道詞典筆……

相比在市場(chǎng)上取得的認(rèn)可,許多人可能不會(huì)想到,有道AI語(yǔ)音背后的團(tuán)隊(duì)非常年輕:成立不到兩年,大部分都是應(yīng)屆生,來(lái)自知名語(yǔ)音實(shí)驗(yàn)室,或者海外高校深造項(xiàng)目。

「參賽其實(shí)是驗(yàn)證技術(shù)方案」

此次拿獎(jiǎng)的時(shí)來(lái)和Harry Wu(均為花名),就是今年7月剛剛加入網(wǎng)易有道的應(yīng)屆生。

事實(shí)上,打這場(chǎng)比賽,對(duì)于他們而言更像是一次對(duì)工作成果的「突擊測(cè)驗(yàn)」:被通知要參賽時(shí),距離提交測(cè)試結(jié)果的截至日期只剩下10天了。

時(shí)間緊迫,兩人臨時(shí)組隊(duì),又是代表團(tuán)隊(duì)第一次出征算法賽事,但在心態(tài)上他們倒還真一點(diǎn)也不慌。

用有道之前積累的技術(shù)去參賽,10天也足夠了。攻堅(jiān)克難了這么久,是時(shí)候拿出來(lái)檢驗(yàn)一下了。

INTERSPEECH 2020「口音英語(yǔ)語(yǔ)音識(shí)別挑戰(zhàn)賽」由中國(guó)計(jì)算機(jī)學(xué)會(huì)、西北工業(yè)大學(xué)、上海交通大學(xué)、新加坡南洋理工大學(xué)等多家重量級(jí)機(jī)構(gòu)聯(lián)合舉辦,共分為兩個(gè)賽道:

Track1是口音種類識(shí)別,參賽者需要使用官方提供的各種口音英語(yǔ)訓(xùn)練數(shù)據(jù),訓(xùn)練語(yǔ)種分類模型。

Track2則是口音英語(yǔ)語(yǔ)音識(shí)別,參賽者需要使用規(guī)則限定的訓(xùn)練數(shù)據(jù),訓(xùn)練語(yǔ)音識(shí)別模型。

簡(jiǎn)單來(lái)說(shuō),一方面是要做英語(yǔ)口音的分類,另一方面是要做語(yǔ)音識(shí)別,把帶口音的英語(yǔ)語(yǔ)音轉(zhuǎn)成文字。

時(shí)來(lái)和Harry的工位就挨在一起,兩人當(dāng)即一合計(jì),覺(jué)得在語(yǔ)音識(shí)別方面,基本可以原封不動(dòng)地用上現(xiàn)成的技術(shù)——有道詞典、精品課、云筆記等一系列產(chǎn)品里都有ASR技術(shù)的身影,平時(shí)的研發(fā)工作中,早已經(jīng)考慮到了復(fù)雜口音的情況,識(shí)別準(zhǔn)確率和響應(yīng)速度都是經(jīng)過(guò)實(shí)戰(zhàn)檢驗(yàn)的。

而在口音分類這個(gè)比較新穎的任務(wù)上,他們正在研究中的多語(yǔ)種技術(shù)方案正好能夠派上用場(chǎng):

原來(lái)會(huì)覺(jué)得相關(guān)的技術(shù)方案還處在實(shí)驗(yàn)室階段,要實(shí)際應(yīng)用起來(lái)還需要學(xué)術(shù)界進(jìn)一步驗(yàn)證。但既然比賽有這個(gè)機(jī)會(huì),正好可以拿這個(gè)方法試驗(yàn)一下。

程序員打比賽,就是直接開(kāi)干,效率拉滿——就在工位上隨時(shí)討論。而事后兩人回想起來(lái),印象最深的不是時(shí)間有多緊、加了多少班,恰恰是設(shè)計(jì)算法、測(cè)試結(jié)果的這個(gè)過(guò)程:

一開(kāi)始,在口音分類這個(gè)全新的任務(wù)上,兩人想到這會(huì)跟說(shuō)話人的特征有比較強(qiáng)的相關(guān)性。而在引入這一信息之后,他們的方案還真在開(kāi)發(fā)集上取得了令人驚喜的效果。

但在測(cè)試集開(kāi)放之后,進(jìn)一步的驗(yàn)證結(jié)果卻差強(qiáng)人意。直到比賽結(jié)束,測(cè)試集公布,他們才發(fā)現(xiàn)測(cè)試集里說(shuō)話人的數(shù)目,是訓(xùn)練集和開(kāi)發(fā)集加起來(lái)的差不多10倍,即一個(gè)說(shuō)話人非常復(fù)雜的場(chǎng)景。

雖說(shuō)碰上了這樣那樣的小波折,但其實(shí)對(duì)于兩位語(yǔ)音算法工程師而言,這反而更加堅(jiān)定了他們攻關(guān)AI語(yǔ)音技術(shù)的決心:語(yǔ)音領(lǐng)域技術(shù)相對(duì)成熟,但遠(yuǎn)沒(méi)有到「做完了」的程度,現(xiàn)實(shí)的復(fù)雜場(chǎng)景、各種各樣的噪音、方言口音,都仍有值得鉆研之處。

至于最后的結(jié)果,其實(shí)可以說(shuō)是「兩全其美」。

雖然準(zhǔn)備還是有些倉(cāng)促,沒(méi)能拿下冠軍,但對(duì)初出茅廬的網(wǎng)易有道語(yǔ)音團(tuán)隊(duì)而言,面對(duì)強(qiáng)勁的業(yè)內(nèi)對(duì)手,首次「出擊」能拿到頂會(huì)挑戰(zhàn)賽的二等獎(jiǎng),還是證明了現(xiàn)有技術(shù)方案可行、新的設(shè)想值得進(jìn)一步推動(dòng)。

另一方面,團(tuán)隊(duì)組長(zhǎng)孫艷慶也坦承,參與比賽對(duì)整個(gè)語(yǔ)音團(tuán)隊(duì)來(lái)說(shuō),學(xué)習(xí)到了行業(yè)中新的想法和技術(shù),打開(kāi)了后續(xù)開(kāi)發(fā)的新思路。

「秘訣」:技術(shù)以落地為導(dǎo)向

其實(shí)比起單純?nèi)ゴ虮荣悺l(fā)論文,如果和一線的開(kāi)發(fā)者們多聊聊,就能明顯地感覺(jué)到,網(wǎng)易有道的這支語(yǔ)音團(tuán)隊(duì)是非常務(wù)實(shí)的——以技術(shù)落地為導(dǎo)向,以用戶反饋為指標(biāo)。

孫艷慶談到,在內(nèi)部,技術(shù)方案的推動(dòng)一般有兩種途徑。

一種是來(lái)自業(yè)務(wù)端的需求。技術(shù)團(tuán)隊(duì)要做的,是去評(píng)估現(xiàn)有的技術(shù)是否能夠解決問(wèn)題,并真正落地到產(chǎn)品中,給用戶帶來(lái)優(yōu)質(zhì)的體驗(yàn)。

另一種則來(lái)自于工程師們對(duì)新技術(shù)、新用戶需求的敏感度。如果判斷一種新技術(shù)會(huì)被大規(guī)模地應(yīng)用,技術(shù)團(tuán)隊(duì)也會(huì)提前進(jìn)行相應(yīng)的布局。

而評(píng)價(jià)成果的指標(biāo)則更為直接:用戶體驗(yàn)。

這種腳踏實(shí)地的作風(fēng),也給時(shí)來(lái)、Harry這樣的職場(chǎng)新人留下了深刻的印象。

我們大部分的技術(shù),最終都會(huì)聚焦到非常具體的產(chǎn)品上面。不會(huì)去做在將來(lái)一段時(shí)間看來(lái),意義不是很大的一些事情。技術(shù)如果只是停留在學(xué)術(shù)層面上,就沒(méi)辦法真正流行、發(fā)展起來(lái)。落地對(duì)于技術(shù)而言是一個(gè)非常非常核心的點(diǎn)。

解決用戶切實(shí)的問(wèn)題,解決產(chǎn)品中的痛點(diǎn),或許正是在這樣的導(dǎo)向之下,雖然團(tuán)隊(duì)僅成立了不到兩年的時(shí)間,但在產(chǎn)品層面,網(wǎng)易有道在語(yǔ)音方面的許多技術(shù)點(diǎn)已經(jīng)躋身行業(yè)前列。

比如語(yǔ)音識(shí)別(ASR)。以網(wǎng)易有道詞典為例,對(duì)話翻譯、發(fā)音指導(dǎo),各種功能的實(shí)現(xiàn)都離不開(kāi)精準(zhǔn)的語(yǔ)音識(shí)別。而經(jīng)過(guò)測(cè)試,有道語(yǔ)音識(shí)別技術(shù)在一些場(chǎng)景上識(shí)別準(zhǔn)確率超過(guò)98%,并且,不止支持中文、英文,還支持日、韓、法、德等多種語(yǔ)言。

語(yǔ)音合成(TTS)方面,有道語(yǔ)音合成引擎音色逼近真人,同樣支持中、英、日、韓、葡等多種語(yǔ)言。在過(guò)硬的技術(shù)基礎(chǔ)之上,今年9月,有道詞典還用TTS技術(shù)實(shí)現(xiàn)了王源明星語(yǔ)音的上線,效果受到了用戶的廣泛好評(píng)。

并且,為了更好地服務(wù)于產(chǎn)品,這支規(guī)模并不算大的團(tuán)隊(duì),覆蓋的技術(shù)點(diǎn)卻很全面:從錄音、拾音環(huán)節(jié)開(kāi)始,到中間的語(yǔ)義理解,再到語(yǔ)音識(shí)別合成,都有涉及??梢哉f(shuō),在技術(shù)上已經(jīng)形成了比較完整的鏈條。

把「腳踏實(shí)地」寫進(jìn)價(jià)值觀的團(tuán)隊(duì)

事實(shí)上,能以一支小而精的團(tuán)隊(duì)支撐起復(fù)雜業(yè)務(wù)背后的核心算法,團(tuán)隊(duì)內(nèi)部的氛圍是技術(shù)實(shí)力之外的另一個(gè)重要影響因素。

如果你問(wèn)有道語(yǔ)音團(tuán)隊(duì)的工程師們這支團(tuán)隊(duì)的特點(diǎn)是什么,就能獲得這樣幾個(gè)關(guān)鍵詞:年輕、活潑、腳踏實(shí)地。

因?yàn)槟贻p、活潑,即使是新人融入起來(lái)也完全沒(méi)有壓力,不管是技術(shù)的交流還是平時(shí)的相處,都可以暢所欲言。

另一方面,雖然團(tuán)隊(duì)成員們普遍年紀(jì)不大,卻個(gè)個(gè)「身懷絕技」。作為組長(zhǎng),孫艷慶認(rèn)為,一個(gè)腳踏實(shí)地的團(tuán)隊(duì),應(yīng)該給每個(gè)人充分的才華施展空間,而在這個(gè)空間之下,大家潛心鉆研技術(shù),在專注于自己側(cè)重點(diǎn)的情況下,去突破個(gè)人的局限。

腳踏實(shí)地的價(jià)值觀延續(xù)在整個(gè)有道AI團(tuán)隊(duì)。不僅是在語(yǔ)音方面,有道的AI能力還覆蓋神經(jīng)網(wǎng)絡(luò)翻譯(NMT)、圖像識(shí)別(OCR)和自適應(yīng)教育等等。

并且,其發(fā)力深耕的這些AI技術(shù),都切切實(shí)實(shí)落在了產(chǎn)品上,讓C端用戶有了最直觀的體驗(yàn):

NMT翻譯準(zhǔn)確率行業(yè)領(lǐng)先,支持12種語(yǔ)言的中文互譯,9種語(yǔ)言的英文互譯。

OCR可以幫助實(shí)現(xiàn)線下學(xué)習(xí)資料在線化。對(duì)中文文本的識(shí)別準(zhǔn)確度達(dá)到97.5%,對(duì)英語(yǔ)文字的識(shí)別準(zhǔn)確度為95.3%,對(duì)中英文混合文本的識(shí)別準(zhǔn)確度為96.2%,已經(jīng)支持102種主流語(yǔ)言文字識(shí)別。

AI行業(yè)已經(jīng)過(guò)了“風(fēng)口飛豬”的時(shí)代,愈加務(wù)實(shí)的市場(chǎng)更加看重技術(shù)的落地。當(dāng)泡沫散去,唯有腳踏實(shí)地的團(tuán)隊(duì)才能在一代代產(chǎn)品的穩(wěn)定推出中,扎實(shí)生根。

也正是因?yàn)檫@樣的氛圍,在畢業(yè)之際,時(shí)來(lái)、Harry等人毫不猶豫地拒絕了其他offer,選擇加入網(wǎng)易有道。

嗯,一定不是因?yàn)檫@里經(jīng)常聚眾吸貓。

本文系網(wǎng)易新聞?網(wǎng)易號(hào)特色內(nèi)容激勵(lì)計(jì)劃簽約賬號(hào)【量子位】原創(chuàng)內(nèi)容,未經(jīng)賬號(hào)授權(quán),禁止隨意轉(zhuǎn)載。

量子位QbitAI · 頭條號(hào)簽約作者

?"?" ? 追蹤AI技術(shù)和產(chǎn)品新動(dòng)態(tài)

喜歡就點(diǎn)「在看」吧 !

關(guān)鍵詞:

熱門推薦