制服诱惑一二三区,久久久久人妻AⅤ毛片,玖玖资源站强奸乱伦,亚洲爱爱黄片一区二区三区,成人福利影片在线观看,九色熟女乱伦,粉嫩高潮美女一区二区三区,91精品黄网在线观,东京Aⅴ久久99精品,91久久无码人妻一区二区蜜桃

    新聞News

    C廠科技 |探秘“聲音捕手”:這群人如何把生活雜音煉成技術(shù)密碼

    2025-05-16

    你是否曾在視頻會(huì)議中,被背景噪音干擾,聽不清對(duì)方講話?又是否在觀看在線課程時(shí),因混響問題而苦惱,影響學(xué)習(xí)體驗(yàn)?…… 這些干擾溝通的音頻雜音,如何從 “無解” 變?yōu)?“可消”?答案藏在一場(chǎng)充滿意外的科研旅程中。去年榮獲“廣東好人”稱號(hào),視源股份的音頻專家劉榮帶領(lǐng)團(tuán)隊(duì),用生活噪音作燃料、以浴室靈感為火種,打破傳統(tǒng)技術(shù)瓶頸,將復(fù)雜聲場(chǎng)化作清晰人聲—— 這場(chǎng)靜悄悄的音頻革命,讓聲音從此告別模糊,讓每一句對(duì)話都回歸清晰與純粹。 

    圖片


    “噪聲” 收集大作戰(zhàn):一場(chǎng)充滿奇趣的錄制行動(dòng)

    有意思的是,劉榮帶領(lǐng)團(tuán)隊(duì)在布滿荊棘的研發(fā)道路上,上演了一段充滿挑戰(zhàn)與驚喜的特殊“噪聲” 收集故事。

    順著這段奇妙的探索軌跡深入探尋,在視源股份的研發(fā)故事里,有這樣一群人,他們的行為乍一看有些奇怪。在會(huì)議室中,常常能看到兩三人一組,帶著各種奇怪的“裝備”。桌子上擺滿了各式各樣的筆、形狀各異的茶杯,還有尺子、裝修用的小管子、瓷磚碎片等物品。他們神情專注,既不交談,也不做常規(guī)的會(huì)議記錄,而是拿著這些物品,在會(huì)議室的各個(gè)角落“折騰”。一會(huì)兒在桌子上用力丟筆,一會(huì)兒用茶杯在不同位置輕敲桌面,甚至拿著尺子在屏幕上寫寫畫畫,還讓裝修材料相互碰撞,整個(gè)會(huì)議室充斥著各種奇怪的聲音。

    原來,他們是在為音頻降噪技術(shù)的研發(fā)錄制噪聲數(shù)據(jù)。這些看似毫無頭緒的噪聲,在劉榮的團(tuán)隊(duì)里,可是極為寶貴的“寶貝”。“這些噪聲數(shù)據(jù)是神經(jīng)網(wǎng)絡(luò)訓(xùn)練的關(guān)鍵‘養(yǎng)料’,是我們實(shí)現(xiàn)音頻降噪突破的重要基礎(chǔ)。”劉榮解釋道。


    圖片

    之所以要收集如此多樣的噪聲數(shù)據(jù),是為了解決不同場(chǎng)景下的噪聲問題。在音頻降噪技術(shù)的模型訓(xùn)練中,需要輸入帶噪的語音。帶噪語音由純凈語音混合噪聲數(shù)據(jù)構(gòu)成,模型的優(yōu)劣與輸入數(shù)據(jù)的豐富程度密切相關(guān)。“簡(jiǎn)單來說,模型接觸到的噪聲類型越多,它就越‘見多識(shí)廣’適應(yīng)能力也就越強(qiáng),越能精準(zhǔn)地識(shí)別和消除噪聲。所以,收集大量不同的噪聲數(shù)據(jù)至關(guān)重要。” 劉榮補(bǔ)充道。

    而錄制噪聲數(shù)據(jù)的工作繁瑣又耗時(shí)。每次錄制通常由兩三人參與,一組人往往只錄制半小時(shí)左右。這是因?yàn)槊總€(gè)人操作道具的手法不同,為了保證收集到的數(shù)據(jù)足夠豐富多樣,就需要不斷更換人員和場(chǎng)地。從不同風(fēng)格的會(huì)議室,到熱鬧程度不同的餐廳,再到忙碌節(jié)奏各異的廚房,他們不放過任何一個(gè)可能產(chǎn)生獨(dú)特噪聲的角落。“雖然過程很辛苦,但只有讓模型接觸到足夠多不同類型的噪聲,它才能變得更‘聰明’,更好地識(shí)別和消除噪聲。”劉榮說道。

    圖片


    如今模型的“燃料”越來越豐富劉榮團(tuán)隊(duì)已積攢下幾十萬條噪聲數(shù)據(jù)與幾百萬條語音數(shù)據(jù)。訓(xùn)練時(shí),這些數(shù)據(jù)相互搭配,一條噪聲對(duì)應(yīng)一條語音,噪聲幅度隨機(jī)調(diào)整。如此產(chǎn)生的組合數(shù)據(jù)可達(dá)幾千萬甚至更多,且訓(xùn)練時(shí)均為隨機(jī)組合。豐富的數(shù)據(jù)極大增強(qiáng)了模型的學(xué)習(xí)能力,為團(tuán)隊(duì)研發(fā)的音頻降噪技術(shù)筑牢了根基,讓該技術(shù)在各類場(chǎng)景應(yīng)用中表現(xiàn)卓越。


    浴室靈感迸發(fā):一次改變技術(shù)走向的靈光乍現(xiàn)

    收集這些噪聲數(shù)據(jù),就是為了解決音頻降噪領(lǐng)域那些長(zhǎng)期沒攻克的難題。談及研發(fā)初衷,劉榮語氣堅(jiān)定。早年深耕傳統(tǒng)音頻降噪技術(shù),他在麥克風(fēng)信號(hào)處理領(lǐng)域積累頗豐,卻也清晰認(rèn)識(shí)到傳統(tǒng)方法的局限性:像高跟鞋走路聲、拍掌聲這類非穩(wěn)態(tài)噪聲,用傳統(tǒng)頻譜分析處理,很難達(dá)到理想效果。

    其中,提升語音識(shí)別率成為橫在團(tuán)隊(duì)面前的硬骨頭。早在2020年左右,團(tuán)隊(duì)就嘗試用降噪后的數(shù)據(jù)優(yōu)化語音識(shí)別。劉榮回憶道,起初大家滿懷期待,都覺得降噪后的語音會(huì)更利于識(shí)別,可實(shí)際調(diào)試時(shí)才發(fā)現(xiàn),無論怎么調(diào)整降噪、去混響環(huán)節(jié),語音識(shí)別率始終原地踏步。” 這個(gè)難題持續(xù)困擾團(tuán)隊(duì)數(shù)月甚至半年,那段時(shí)間,大家翻遍資料、反復(fù)試驗(yàn),卻始終找不到突破口。

    圖片


    轉(zhuǎn)機(jī)發(fā)生在2023年底的一個(gè)夜晚。當(dāng)時(shí)正在洗澡的劉榮,腦海中突然閃過靈感:傳統(tǒng)信號(hào)自適應(yīng)濾波處理需要參考信號(hào),而應(yīng)用場(chǎng)景里很難獲取,為什么不能用神經(jīng)網(wǎng)絡(luò)處理后的干凈語音替代呢?”“當(dāng)時(shí)我興奮極了,回去單位之后趕緊進(jìn)行試驗(yàn)去驗(yàn)證該想法劉榮回憶道。幸運(yùn)的是,試驗(yàn)結(jié)果令人驚喜——語音識(shí)別率實(shí)現(xiàn)大幅躍升:在原本識(shí)別率較高的場(chǎng)景,從91%92%提升至95%96%;而原本只有60%左右的低識(shí)別率場(chǎng)景,更是躍升至80% - 85%

    這個(gè)靈感就像一束光,徹底打開了研發(fā)新思路。回憶起關(guān)鍵突破時(shí)刻,劉榮仍難掩激動(dòng)。團(tuán)隊(duì)通過研究發(fā)現(xiàn),這一創(chuàng)新核心在于顯著提升信噪比與信混比,有效攻克了噪聲與混響干擾的難題。 


    從實(shí)驗(yàn)室到產(chǎn)品:打響音頻技術(shù)的突圍之戰(zhàn)

    音頻降噪是一個(gè)發(fā)展數(shù)十年的成熟領(lǐng)域,但劉榮團(tuán)隊(duì)另辟蹊徑,聚焦語音信號(hào)增強(qiáng)。我們的目標(biāo),就是在嘈雜環(huán)境里精準(zhǔn)留下人聲。劉榮解釋道,傳統(tǒng)頻譜分析技術(shù)依賴人工標(biāo)注參數(shù),一遇到復(fù)雜場(chǎng)景就難以發(fā)揮作用。

    2021年底,團(tuán)隊(duì)迎來關(guān)鍵突破,將自研的神經(jīng)網(wǎng)絡(luò)降噪和去混響模型應(yīng)用到MAXHUB智能交互平板上,成為行業(yè)首批實(shí)現(xiàn)技術(shù)落地的團(tuán)隊(duì)。當(dāng)時(shí)學(xué)術(shù)界的研究成果雖然不少,但模型參數(shù)多、計(jì)算量大,根本沒法滿足實(shí)時(shí)使用的需求。劉榮回憶說。

    為了讓技術(shù)真正能用,團(tuán)隊(duì)在多個(gè)環(huán)節(jié)大膽創(chuàng)新。當(dāng)時(shí)業(yè)界連去混響的訓(xùn)練數(shù)據(jù)都沒有,他們就從零開始搭建訓(xùn)練框架、生成數(shù)據(jù),還申請(qǐng)了專利。在模型優(yōu)化上,通過精簡(jiǎn)網(wǎng)絡(luò)結(jié)構(gòu)、壓縮計(jì)算量,把實(shí)驗(yàn)室里的理論模型變成了能實(shí)際運(yùn)行的產(chǎn)品方案。如今,這套AI音頻處理技術(shù)已經(jīng)涵蓋回聲消除、聲源定位等多個(gè)功能。

    說起攻克技術(shù)難題的過程,劉榮直言只能硬扛。團(tuán)隊(duì)一方面緊盯學(xué)術(shù)界論文、行業(yè)競(jìng)賽,尋找新思路;另一方面扎根實(shí)驗(yàn)室,在服務(wù)器上反復(fù)調(diào)試模型參數(shù)。需要采集數(shù)據(jù)時(shí),他們就帶著設(shè)備去會(huì)議室、商場(chǎng)等真實(shí)場(chǎng)景錄制音頻。只有讓模型接觸到真實(shí)復(fù)雜的聲音,才能在實(shí)際應(yīng)用中發(fā)揮作用。

    圖片


    這些努力最終換來了顯著成果。和老技術(shù)相比,現(xiàn)在的降噪效果完全是兩個(gè)檔次。劉榮說,以前處理不了的突發(fā)噪聲,現(xiàn)在都能輕松消除。市場(chǎng)反饋也印證了技術(shù)實(shí)力:過去會(huì)議室里常見的聽不清抱怨,如今越來越少了。 


    聲音“美顏”:奔赴從聽清到聽“美”的新探索

    “現(xiàn)在我們雖然解決了基本的聽清問題,但音頻體驗(yàn)不能止步于此。”劉榮說道,“我們希望能讓聲音像經(jīng)過‘美顏’一樣,聽起來更加自然、舒適,給用戶帶來更優(yōu)質(zhì)的聽覺享受。”他形象地比喻道,“就像相機(jī)從單純拍清楚,發(fā)展到如今加入美顏功能,讓照片更賞心悅目。音頻技術(shù)也應(yīng)如此,在保證清晰的基礎(chǔ)上,實(shí)現(xiàn)‘美化’升級(jí)帶給用戶來更愉悅的感受。”

    目前,團(tuán)隊(duì)正在積極探索基于大模型和生成式方式的音頻處理技術(shù)。“我們希望通過識(shí)別語音信號(hào)中的信息,重新生成高質(zhì)量的語音,達(dá)到類似專業(yè)播音的效果。”劉榮充滿信心地說,“雖然這項(xiàng)技術(shù)目前還處于早期研究階段,在算法優(yōu)化、計(jì)算效率等方面面臨諸多挑戰(zhàn),但我們有信心不斷攻克難題,推動(dòng)音頻降噪技術(shù)邁向新的高度。”


    圖片

    從“噪聲獵人” 到 “聲音美容師”,劉榮在音頻降噪領(lǐng)域的創(chuàng)新探索,不僅為視源股份的產(chǎn)品帶來了技術(shù)優(yōu)勢(shì),也為整個(gè)行業(yè)的發(fā)展提供了寶貴的經(jīng)驗(yàn)。這位 “廣東好人” 用匠心與智慧,激勵(lì)著更多科研人員在技術(shù)創(chuàng)新的道路上不斷前行,讓清晰、美好的聲音,成為數(shù)字化時(shí)代的溝通標(biāo)配。