雅虎最近推出一項(xiàng)新的搜索服務(wù),專門(mén)用來(lái)搜索聲音文件,雅虎聲稱該搜索引擎可搜索五千萬(wàn)個(gè)音樂(lè)、對(duì)話或其他聲音文件。但是網(wǎng)民試用后發(fā)現(xiàn)搜索器只為用戶搜索正版音樂(lè),眾所周知,網(wǎng)上免費(fèi)正版音樂(lè)其實(shí)不多,因此能成功通過(guò)這個(gè)搜索引擎找到想要的音樂(lè)文件機(jī)會(huì)并不大。
是新技術(shù)嗎?
實(shí)際上,這類(lèi)聲音搜索其實(shí)也不是新技術(shù),原因在于這些"聲音搜索",一般是以聲音文件的名稱來(lái)辯別文件,準(zhǔn)確度并不高。另一搜索方法是查看聲音文件所在的頁(yè)面,通過(guò)頁(yè)面文字的上下文義,來(lái)估計(jì)聲音文件的內(nèi)容。
以這個(gè)辦法來(lái)搜索聲音文件,其他搜索引擎如Google或AltaVista其實(shí)已可做到??上У氖?,搜索引擎也怕惹糾紛,因此不會(huì)為網(wǎng)民搜索網(wǎng)上的盜版音樂(lè),這樣一來(lái),能通過(guò)搜索引擎找到的免費(fèi)MP3寥寥可數(shù)。
在網(wǎng)民看來(lái),百度在某些方面其實(shí)比Google厲害,以搜索音樂(lè)文件為例,google或雅虎的聲音搜索找不到的文件,百度都可以輕易在內(nèi)地找到大量盜版下載點(diǎn),因此頗受內(nèi)地網(wǎng)民歡迎。百度上市后,是否需改變方向值得關(guān)注。
真正的聲音搜索技術(shù)并不是以上述文件名稱或頁(yè)面內(nèi)容來(lái)搜索,而是以語(yǔ)音辨識(shí)技術(shù),先將內(nèi)容文字化,然后再搜索文字。
以美國(guó)CNN電視臺(tái)自行制作的一個(gè)新聞牌搜索器為例,他們把所有新聞片進(jìn)行一次語(yǔ)音辨識(shí),再把辨識(shí)后的文字以搜索引擎索引排列分類(lèi),當(dāng)將來(lái)記者要搜索某段影片,便可搜索影片中出現(xiàn)過(guò)的句字,找到影片。
電視臺(tái)自行開(kāi)發(fā)軟件
同類(lèi)的語(yǔ)音辨識(shí)搜索系統(tǒng),目前市面上還沒(méi)有一套完整的解決方案出售,因此CNN也要自行編寫(xiě)軟件來(lái)自用。
據(jù)說(shuō)有多家電視臺(tái)想開(kāi)發(fā)同類(lèi)系統(tǒng),但至今仍未見(jiàn)成功案例,其實(shí)各搜索公司也可考慮一下,應(yīng)用有關(guān)的搜索技術(shù)推出類(lèi)似的商業(yè)產(chǎn)品。

