科大訊飛發(fā)布智能錄音筆和首款TWS耳機(jī),突破離線轉(zhuǎn)寫技術(shù)難點(diǎn)

2020-09-02 11:12:07 sunmedia 2931


9月1日消息,剛剛,科大訊飛連發(fā)三款訊飛智能錄音筆新品,型號(hào)分別為SR901、SR702和SR101,以及首款智能TWS耳機(jī)iFLYBUDS。其中,SR901和SR702首次搭載離線轉(zhuǎn)寫功能,支持OCR文字提取,進(jìn)一步延續(xù)了SR系列在智能轉(zhuǎn)寫、AI高清降噪和智能編輯等方面的優(yōu)勢(shì),SR101是訊飛首款500元級(jí)錄音筆,相比同價(jià)位產(chǎn)品也有著硬件優(yōu)勢(shì)和軟件功能上的突破。

訊飛還面向商務(wù)人士的溝通和記錄需求,推出首款立體聲無線耳機(jī)(TWS)iFLYBUDS,擁有通話實(shí)時(shí)轉(zhuǎn)寫、智能撥號(hào)識(shí)別、通話譯文三大核心AI功能。

科大訊飛副總裁兼消費(fèi)者事業(yè)群副總裁李傳剛

自2019年5月訊飛首款帶屏錄音筆——訊飛智能錄音筆SR系列推出后,國(guó)內(nèi)錄音筆市場(chǎng)隨之掀起了以AI技術(shù)為依托的品類創(chuàng)新浪潮。

作為今年科大訊飛的首場(chǎng)線下新品發(fā)布會(huì),此次訊飛不僅補(bǔ)全了智能錄音筆SR系列從入門到旗艦、再到尊享版市場(chǎng)的拼圖,同時(shí)其首款TWS耳機(jī)的發(fā)布,也意味著訊飛智能語音和轉(zhuǎn)寫技術(shù)業(yè)務(wù)邊界的突破。

“秉承著高效辦公、智慧生活的理念,訊飛消費(fèi)者業(yè)務(wù)已實(shí)現(xiàn)連續(xù)三年大于30%的增速,甚至今年逆勢(shì)增長(zhǎng),在618中獲得22項(xiàng)單品冠軍?!笨拼笥嶏w聯(lián)合創(chuàng)始人&執(zhí)行總裁胡郁在現(xiàn)場(chǎng)談到。

在他看來,訊飛在AI轉(zhuǎn)寫賽道上,不僅希望能為文字工作者的記錄場(chǎng)景賦能,更希望成為每個(gè)人的知識(shí)管理工具。讓每一位用戶在忙碌之中,依然可以輕松地備忘信息、捕捉靈感、記錄觀點(diǎn)?!白屛覀円煌_啟高效記錄新時(shí)代!”胡郁信心滿滿地說到。

那么,這次訊飛將會(huì)給我們帶來它在智能轉(zhuǎn)寫賽道上的哪些技術(shù)和場(chǎng)景應(yīng)用創(chuàng)新?這些創(chuàng)新背后又展露了訊飛哪些行業(yè)創(chuàng)新的戰(zhàn)略和思考?來看現(xiàn)場(chǎng)發(fā)布干貨給我們的答案。

科大訊飛聯(lián)合創(chuàng)始人&執(zhí)行總裁胡郁

一、讓錄音筆長(zhǎng)眼睛:首推離線轉(zhuǎn)寫與OCR識(shí)別功能

與上一代產(chǎn)品相比,訊飛SR901和SR702智能錄音筆的軟硬件性能在轉(zhuǎn)寫、降噪、智能編輯等方面都有了明顯升級(jí),同時(shí)還新增了不少小而美的AI新功能,如OCR能力、圖片拍攝識(shí)別文字、拍攝視頻實(shí)現(xiàn)字幕等。

1、智能轉(zhuǎn)寫:支持無網(wǎng)轉(zhuǎn)寫及12種方言

轉(zhuǎn)寫功能的創(chuàng)新升級(jí)可謂是訊飛此次發(fā)布的重頭戲。

為了幫助用戶進(jìn)一步解決在無網(wǎng)絡(luò)環(huán)境下轉(zhuǎn)寫,以及隱私內(nèi)容轉(zhuǎn)寫的需求,SR901和SR702錄音筆升級(jí)了語音轉(zhuǎn)文字引擎,行業(yè)首發(fā)離線轉(zhuǎn)寫功能。讓用戶無需在4G/Wi-Fi網(wǎng)絡(luò)下就能實(shí)現(xiàn)語音實(shí)時(shí)轉(zhuǎn)寫并立即保存轉(zhuǎn)寫文字。

針對(duì)多語言、多語種的無縫切換識(shí)別和轉(zhuǎn)寫,訊飛推出新一代識(shí)別(轉(zhuǎn)寫)引擎——端到端新引擎,優(yōu)化迭代了端到端語音識(shí)別框架。除了純中文與純英文模式識(shí)別外,端到端新引擎還支持中英混合識(shí)別場(chǎng)景,以及普通話-部分方言識(shí)別。

三款錄音筆在方言和語種轉(zhuǎn)寫,以及專業(yè)領(lǐng)域轉(zhuǎn)寫方面也進(jìn)行了升級(jí),支持粵語、河南話等12種方言轉(zhuǎn)寫;藏語、維吾爾語2種少數(shù)民族語言轉(zhuǎn)寫;中、英、日、韓等8種語言轉(zhuǎn)寫;財(cái)經(jīng)貿(mào)易、醫(yī)療、IT科技等7大專業(yè)領(lǐng)域的轉(zhuǎn)寫。

2、拾音降噪:最遠(yuǎn)拾音15米,可實(shí)現(xiàn)超遠(yuǎn)距離錄音與轉(zhuǎn)寫

硬件方面,SR901采用2顆哈曼MEMS定向麥克風(fēng)+10顆全向麥克風(fēng),SR702采用2顆定向麥克風(fēng)和6顆矩陣麥克風(fēng),SR10采用1顆定向麥克風(fēng)+2顆矩陣麥克風(fēng),且支持AI拾音降噪。

據(jù)稱,訊飛錄音筆最遠(yuǎn)拾音距離為15米,并且還能根據(jù)不同場(chǎng)景自動(dòng)匹配場(chǎng)景算法。同時(shí),它還采用非人聲過濾,能夠自動(dòng)跳過沒有人聲的冗余錄音,節(jié)約用戶整理錄音的時(shí)間。

實(shí)際上,訊飛錄音筆還采用了前端降噪技術(shù),基于自研神經(jīng)網(wǎng)絡(luò)與傳統(tǒng)信號(hào)處理深度結(jié)合的降噪算法(SSA-IME),不僅能有效降低環(huán)境干擾噪聲,還可消除干擾說話人的聲音,從而大幅降低語音識(shí)別的處理難度。

據(jù)了解,該技術(shù)使訊飛錄音筆在無喇叭的情況下,3-10米遠(yuǎn)距離轉(zhuǎn)寫效果提升30%;有喇叭的情況下,超遠(yuǎn)距離(20-50m)演講場(chǎng)景轉(zhuǎn)寫效果為90%以上,這也體現(xiàn)了訊飛在遠(yuǎn)距離降噪轉(zhuǎn)寫技術(shù)上的領(lǐng)先性。

3、智能編輯:上線多人會(huì)議說話人分離

針對(duì)多人交談會(huì)議場(chǎng)景,訊飛錄音筆上線了其與ASR聯(lián)合建模的說話人分離方案。

此外,三款訊飛錄音筆升級(jí)了6項(xiàng)智能編輯功能:

智能語義分段:根據(jù)語義上下文進(jìn)行分段,提升用戶針對(duì)轉(zhuǎn)寫文檔的瀏覽體驗(yàn);

自動(dòng)區(qū)分講話人:根據(jù)錄音及轉(zhuǎn)寫結(jié)果自動(dòng)區(qū)分標(biāo)注講話人,針對(duì)多人討論場(chǎng)景,用戶還可快速檢索目標(biāo)說話人數(shù)據(jù);

口語規(guī)整:可過濾語氣詞、重復(fù)詞、無意義詞,優(yōu)化轉(zhuǎn)寫內(nèi)容;

智能摘要:對(duì)錄音內(nèi)容進(jìn)行全面的語義理解與分析,自動(dòng)抽取關(guān)鍵信息,形成摘要結(jié)果;

個(gè)人詞庫:用戶可提前輸入專屬詞匯,實(shí)現(xiàn)轉(zhuǎn)寫時(shí)的智能編輯優(yōu)化;

文件分享:支持文件分享功能,用戶可自定義多種導(dǎo)出格式或模板,同時(shí)在文件編輯結(jié)束后,可選擇文件分享至郵件。

4、絕招:看圖識(shí)字,還能給視頻配字幕

除了聲音記錄和轉(zhuǎn)寫之外,訊飛在三款新錄音筆上也添加了圖像方面的創(chuàng)新應(yīng)用,如支持OCR文字識(shí)別、圖片拍攝識(shí)別文字、拍攝視頻實(shí)現(xiàn)字幕等。

硬件方面,訊飛智能錄音筆SR901為后置三攝,包括1300萬高像素主攝像頭、800萬像素120°超大廣角攝像頭、800萬像素長(zhǎng)焦攝像頭;SR702為800萬像素?cái)?shù)字變焦后置單攝。

功能方面,SR901和SR702錄音筆能夠提取并實(shí)時(shí)記錄圖片上的文字內(nèi)容,還可錄制視頻,進(jìn)行實(shí)時(shí)收音。

有意思的是,訊飛錄音筆拍攝完成并導(dǎo)出視頻文件時(shí),支持自動(dòng)生成字幕和后期編輯字幕,為錄音筆增添了新的圖像/視頻交互體驗(yàn)。

二、解密:訊飛如何突破離線轉(zhuǎn)寫技術(shù)難點(diǎn)?

在這次訊飛智能錄音筆SR系列的小爆發(fā)背后,是其長(zhǎng)達(dá)多年的技術(shù)積累和創(chuàng)新。

據(jù)智東西了解,此次發(fā)布中最大的技術(shù)亮點(diǎn)在于離線轉(zhuǎn)寫功能。不過,由于離線轉(zhuǎn)寫對(duì)硬件和算法方面都有著較高的要求,因此實(shí)現(xiàn)這項(xiàng)技術(shù)并非易事。

硬件方面,離線轉(zhuǎn)寫與離線聽寫有著很大差異。

離線聽寫多以短語音為主,數(shù)據(jù)是偶爾性調(diào)用,對(duì)瞬間運(yùn)算能力有較大要求;離線轉(zhuǎn)寫多以長(zhǎng)語音為主,數(shù)據(jù)調(diào)用一般持續(xù)1小時(shí)或數(shù)小時(shí)以上,對(duì)硬件的長(zhǎng)時(shí)間算力、CPU功耗和散熱情況等要求更高。

軟件方面,離線轉(zhuǎn)寫需適配訊飛的離線轉(zhuǎn)寫算法,實(shí)現(xiàn)與云端相當(dāng)?shù)膶?shí)時(shí)性和準(zhǔn)確性。同時(shí),還要確保整機(jī)在長(zhǎng)時(shí)間的轉(zhuǎn)寫過程中,溫度始終維持在合適范圍內(nèi),這也是離線轉(zhuǎn)寫算法的關(guān)鍵難點(diǎn)。

針對(duì)這些難點(diǎn),訊飛的轉(zhuǎn)寫技術(shù)主要從兩個(gè)方面進(jìn)行了優(yōu)化和創(chuàng)新。

一方面,訊飛錄音筆采用CPU主頻自適應(yīng)調(diào)整、線程數(shù)動(dòng)態(tài)調(diào)度等方式來緩解設(shè)備發(fā)熱情況,以確保設(shè)備處于離線轉(zhuǎn)寫運(yùn)行時(shí)工作頻率始終保持穩(wěn)定。這樣不僅能保障離線轉(zhuǎn)寫的實(shí)時(shí)性和準(zhǔn)確性,還能保證整機(jī)溫度的適宜。

另一方面,訊飛離線轉(zhuǎn)寫采用和在線轉(zhuǎn)寫幾乎相同的核心算法,針對(duì)錄音筆硬件的特性與指標(biāo)進(jìn)行裁剪與適配,包括模型蒸餾、定點(diǎn)化運(yùn)算、多幀并行等技術(shù),以實(shí)現(xiàn)流暢運(yùn)行的目的。

基于這些突破,訊飛離線轉(zhuǎn)寫功能在此次新推出的智能錄音筆上實(shí)現(xiàn)了首次落地。據(jù)了解,與云端轉(zhuǎn)寫相比,訊飛錄音筆離線轉(zhuǎn)寫所損失的準(zhǔn)確率低于相對(duì)10%。

三、訊飛首款TWS耳機(jī)iFLYBUDS的三大核心亮點(diǎn)

訊飛的創(chuàng)新發(fā)布不僅僅是智能錄音筆,還有智能TWS耳機(jī)iFLYBUDS。

作為訊飛的首款智能TWS耳機(jī),iFLYBUDS在誕生之初就將目標(biāo)瞄準(zhǔn)了商務(wù)應(yīng)用市場(chǎng),滿足商務(wù)人士在自駕、通勤和會(huì)議等多場(chǎng)景中,進(jìn)行高效記錄和溝通的需求。

具體來看,訊飛智能TWS耳機(jī)iFLYBUDS有三大核心優(yōu)勢(shì),分別為通話實(shí)時(shí)轉(zhuǎn)寫、智能撥號(hào)識(shí)別、通話譯文。

iFLYBUDS通話轉(zhuǎn)文字的功能,均支持iPhone和安卓手機(jī),并不需要獲得手機(jī)的通話錄音權(quán)限,只需聲音通過耳機(jī)即可在App上實(shí)現(xiàn)通話語音的轉(zhuǎn)寫。

1、通話實(shí)時(shí)轉(zhuǎn)寫

iFLYBUDS支持常規(guī)電話和網(wǎng)絡(luò)電話,包括微信語音、騰訊會(huì)議和釘釘語音等。在多人會(huì)議場(chǎng)景下,iFLYBUDS還支持自動(dòng)區(qū)分講話人,方便用戶快速查找通話內(nèi)容。

通話時(shí),用戶可隨時(shí)通過一鍵錄音功能,將通話過程轉(zhuǎn)文字,轉(zhuǎn)寫準(zhǔn)確率達(dá)98%;通話結(jié)束后,iFLYBUDS將形成智能摘要,自動(dòng)提煉通話重點(diǎn)內(nèi)容,并支持對(duì)通話內(nèi)容的多終端(手機(jī)端和電腦端)分享和編輯。

2、智能語音撥號(hào)

針對(duì)商務(wù)人士通訊錄中聯(lián)系人重名、同音等情況,iFLYBUDS支持用戶通過多種方式區(qū)分人名,以快速找到正確聯(lián)系人,提升撥號(hào)效率。

一方面,用戶可通過純語音交互,只說聯(lián)系人姓名即可撥號(hào);另一方面,用戶還能通過詞語舉例、歸屬地名稱區(qū)分的方式讓耳機(jī)快速撥號(hào),如“章子怡的章、立早章”、“北京的章總”。

3、通話譯文對(duì)照

在外貿(mào)商務(wù)交流場(chǎng)景中,用戶時(shí)常會(huì)遇到專業(yè)詞生僻等語言溝通障礙。

為了解決這一用戶需求,iFLYBUDS在用戶進(jìn)行英語通話時(shí),能變身“翻譯官”,幫助用戶將通話內(nèi)容實(shí)時(shí)轉(zhuǎn)譯為漢字,輔助用戶英語溝通。

除了三大核心功能外,iFLYBUDS在音質(zhì)、連接、延遲、續(xù)航和降噪方面也有著自己的特色。

其中在續(xù)航方面,iFLYBUDS支持2.5小時(shí)通話時(shí)長(zhǎng),4小時(shí)聽歌時(shí)長(zhǎng),若搭配充電盒使用,可實(shí)現(xiàn)最長(zhǎng)通話10小時(shí),最長(zhǎng)聽歌20小時(shí)。

在極限使用場(chǎng)景下,iFLYBUDS同時(shí)進(jìn)行通話+錄音+轉(zhuǎn)寫的續(xù)航為2小時(shí),搭配充電盒的最長(zhǎng)使用時(shí)長(zhǎng)為6小時(shí)。

降噪方面,iFLYBUDS的智能降噪功能采用雙麥克風(fēng)拾音,CVC降噪算法,保證用戶在機(jī)場(chǎng)、健身房等嘈雜環(huán)境中的清晰流暢通話體驗(yàn)。

此外,iFLYBUDS還支持智能語音助手、自定義輕擊耳機(jī)交互和佩戴檢測(cè)等功能。

訊飛消費(fèi)者業(yè)務(wù)擴(kuò)軍智能錄音筆,新玩法押注TWS賽道

科大訊飛堅(jiān)持做源頭技術(shù)自主創(chuàng)新,我們很榮幸在2019年被列入“實(shí)體清單”。胡郁在發(fā)布會(huì)上笑稱。

美國(guó)當(dāng)?shù)貢r(shí)間2019年10月7日,美國(guó)聯(lián)邦政府宣布,將28家中國(guó)企業(yè)實(shí)體加入“實(shí)體管制清單”,禁止這些企業(yè)購買美國(guó)產(chǎn)品。而被列入實(shí)體管制清單的多為國(guó)內(nèi)人工智能領(lǐng)域國(guó)際領(lǐng)先企業(yè)。

盡管如此,據(jù)發(fā)布會(huì)上公布數(shù)據(jù)顯示,2019年、2020年,“我們(科大訊飛)的智能錄音筆在天貓、京東電商平臺(tái)超過其他錄音筆產(chǎn)品總和?!?/p>

也是在這個(gè)過程中,訊飛生態(tài)產(chǎn)業(yè)鏈中開發(fā)者團(tuán)隊(duì)數(shù)量從2017年1月的53萬、累計(jì)終端17億發(fā)展到今天的開發(fā)者團(tuán)隊(duì)142萬、累計(jì)終端數(shù)29.6億。

據(jù)胡郁介紹稱,目前科大訊飛的核心技術(shù)分為兩個(gè)方面:第一,參與國(guó)家重大戰(zhàn)略規(guī)劃方向——教育、醫(yī)療、智慧城市、智慧司法等。在這些方面,通過科大訊飛的人工智能專家系統(tǒng)替代相關(guān)領(lǐng)域工作人員繁重的工作,提高工作效率;第二,服務(wù)廣大消費(fèi)者。目前科大訊飛發(fā)布的消費(fèi)類產(chǎn)品已經(jīng)覆蓋移動(dòng)場(chǎng)景、家庭場(chǎng)景、辦公場(chǎng)景、生活場(chǎng)景、學(xué)習(xí)場(chǎng)景。2017-1019年,科大訊飛的消費(fèi)者業(yè)務(wù)從每年6億收入、3億毛利增長(zhǎng)到30億收入、15億毛利。

今年上半年除去因?yàn)橐咔橛绊憣?dǎo)致翻譯機(jī)市場(chǎng)波動(dòng)以外,其他硬件產(chǎn)品實(shí)現(xiàn)了200%的增長(zhǎng)。

而今年下半年,對(duì)于國(guó)內(nèi)人工智能產(chǎn)業(yè)來說,仍是一個(gè)逆風(fēng)期,科大訊飛仍需要繼續(xù)努力。

回顧過去幾年錄音筆行業(yè)的發(fā)展,一面是傳統(tǒng)錄音筆市場(chǎng)的破局,一面是AI技術(shù)的迅速發(fā)展與落地。

科大訊飛作為一家國(guó)內(nèi)老牌智能語音企業(yè),緊緊地抓住了傳統(tǒng)行業(yè)變革與新技術(shù)迸發(fā)的發(fā)展機(jī)遇,與過去自身長(zhǎng)達(dá)20余年的語音技術(shù)基因相碰撞,從而催生出AI錄音筆的新品類市場(chǎng)。

這既是訊飛的優(yōu)勢(shì),也是它的挑戰(zhàn)。從最初簡(jiǎn)簡(jiǎn)單單的錄音筆到一塊帶屏智能錄音筆,再到如今訊飛智能錄音筆SR系列的補(bǔ)全,訊飛圍繞語音技術(shù)的AI布局始終具有創(chuàng)新性和挑戰(zhàn)性。

尤其是訊飛首款智能TWS耳機(jī)的誕生,不僅實(shí)現(xiàn)了AI轉(zhuǎn)寫等技術(shù)在多個(gè)設(shè)備的落地和創(chuàng)新應(yīng)用,還進(jìn)一步擴(kuò)張了自身AI戰(zhàn)略版圖,將智能語音和轉(zhuǎn)寫賽道的邊界拓寬到錄音筆行業(yè)之外。

至此,訊飛以智能語音為基礎(chǔ)的產(chǎn)品品類在AI轉(zhuǎn)寫賽道的布局,已愈發(fā)地多元化。同時(shí),訊飛基于這些技術(shù)所帶來的跨邊界融合,也給整個(gè)錄音筆和可穿戴設(shè)備行業(yè)的創(chuàng)新應(yīng)用與發(fā)展,提供了一個(gè)新的思考路徑和解決方向。

未來,訊飛消費(fèi)者業(yè)務(wù)或?qū)⒗^續(xù)打破不同模態(tài)技術(shù)之間的應(yīng)用與融合,將自身業(yè)務(wù)的邊界拓寬到更遠(yuǎn)的領(lǐng)域。

文章來源: 智東西

商媒在線
免責(zé)聲明:商媒在線所提供的信息及圖片除原創(chuàng)外,有部分資訊和圖片從網(wǎng)絡(luò)等媒體收集而來,版權(quán)歸原作者及媒體網(wǎng)站所有,商媒在線力求保存原有的版權(quán)信息并盡可能注明來源;部分因?yàn)椴僮魃系脑蚩赡芤褜⒃行畔G失,敬請(qǐng)?jiān)髡哒徑?,如果您?duì)商媒在線所載文章及圖片版權(quán)的歸屬存有異議,請(qǐng)立即通知商媒在線,商媒在線將立即予以刪除,同時(shí)向您表示歉意!

最新資訊





















亚洲黄视频在线观看| 婷婷婷婷av| 偷情一区二区| 日本xxx在现欢看| 成人在线嗯啊| 搞青青草国产区| 无码在线肉| 亚洲一区在线视频| 夜夜香蕉一区二区| 亚洲av日韩综合一区在线观看| 无吗一区区三区四区| 国产精品亚洲精品久| 少妇自拍内射| 欧亚日韩国产黄片综合| com.黄色品善网| 丁香五月综合野外| 国产精品99久久久久久猫咪 | 成人无码黃色A| 国产播放隔着超薄丝袜进入| 三区AV电影| 国产99久久精品| 亚洲涩首页| 国产精品一品二品| 亚洲天堂久久综合爱| 熟妇人妻av| 蜜臀在线播| 亚洲精品在线不卡| 欧美亚洲成人二区| 欧美精品天堂| 亚洲日韩欧美在| 黄页免费网站| 亚洲av 一二三| 5月婷婷色| 呦呦呦色| 国产精品一二三四| 欧美在线观看一级| 亚洲a∨无码男人的天堂| av丝袜中文字幕版| 最好看的中文字幕2018| 欧洲亚洲综合色图| 久久久久青草线综合超碰|