不玩VR/AR了？電視廠商扎堆發(fā)布“智能語音”電視

微笑，一路向前 · 發(fā)表于 2017-4-17 11:09

隨著VR/AR這股熱潮逐漸冷卻之后，2017年電視圈子又火了另外一個(gè)東西——智能語音技術(shù)，還有一種說法叫做人工智能，說的樸素一點(diǎn)就是電視上的語音交互。雖然不是什么新鮮的概念，可是最近所有電視廠商的每一場春季發(fā)布會，幾乎都在著重的強(qiáng)調(diào)自家電視的智能語音技術(shù)，似巧合，又非巧合。智能語音技術(shù)為何在這個(gè)時(shí)間點(diǎn)在智能電視上井噴?值得我們?yōu)榇颂接懸环?br />

　　智能語音的風(fēng)口真來了?

投資界流行這樣一句話：投資要投“第三眼美女”，第一眼、第二眼美女交往的門檻和成本都比較高，而只有第三眼美女是屬于大眾的，對應(yīng)到產(chǎn)品上，就是任何技術(shù)產(chǎn)品都要到第三代才能被大眾廣泛接受，才能長時(shí)間的存在下去。

人工智能技術(shù)從50年代的控制論與早期神經(jīng)網(wǎng)絡(luò)，走到如今的AlphaGo、Master，現(xiàn)在正好在經(jīng)歷技術(shù)發(fā)展的第三個(gè)階段。50年代末是一波高潮很多死掉了，到70年代的時(shí)候國家自然科學(xué)基金會都不支持了。80-90年代又活躍了一次，但許多認(rèn)知科學(xué)家強(qiáng)烈反對當(dāng)時(shí)很火的一個(gè)人工智能概念“物理符號系統(tǒng)假設(shè)”，認(rèn)為身體是推理的必要條件，加上科研經(jīng)費(fèi)的削減，又死了。今天正好是第三波，理論上機(jī)遇比較大。

第三代技術(shù)應(yīng)該足夠下方到消費(fèi)領(lǐng)域，接下來我們看看各電視廠商智能語音技術(shù)具體的應(yīng)用情況如何。

　　TCL：發(fā)布會上TCL著重演示了人工智能助手“小T”，具備感知、認(rèn)知、服務(wù)、學(xué)習(xí)的三大特性。而“小T”是TCL集團(tuán)與騰訊、阿里在人工智能及云服務(wù)上進(jìn)行數(shù)據(jù)打通，實(shí)現(xiàn)資源共享的結(jié)晶。

長虹：推出以電視機(jī)為中心的人工智能平臺AI Center。據(jù)悉長虹除了與IBM、科大訊飛等達(dá)成合作，也與杜比、騰訊、華帝，以及清華大學(xué)、西安交大、微軟、中科院等結(jié)成“人工智能產(chǎn)業(yè)聯(lián)盟”。

　微鯨：微鯨科技推出了微鯨智能語音電視2.0高端產(chǎn)品醉薄A系列，并宣布微鯨全線產(chǎn)品也將進(jìn)入2.0時(shí)代。其與科大訊飛與美國麻省理工媒體實(shí)驗(yàn)室、微軟等，分別在語音遙控、多媒體交互領(lǐng)域、人臉識別等方面達(dá)成了合作。

　　樂視：從樂視一代超級電視開始就搭載有語音功能，超級電視語音技術(shù)經(jīng)歷從合作到自主研發(fā)的過程，樂視的超級語音技術(shù)，不僅包括語音識別和語義分析，其自主研發(fā)的語音合成TTS技術(shù)已全面上線。

幾乎每一個(gè)廠商都在強(qiáng)調(diào)對語音認(rèn)知已從功能層面上升到人工智能。而且背后還有巨大的合作團(tuán)隊(duì)，與知名的語音技術(shù)和人工智能平臺密切合作和研發(fā)。這種全軍出擊的局面，很難否定智能語音在電視行業(yè)的發(fā)展盛況。但盛況并不意味著技術(shù)和商業(yè)的足夠成熟。

　語音識別究竟有多難?

為什么智能語音技術(shù)發(fā)展了這么長時(shí)間，還是做不到對語音和語意的精準(zhǔn)識別呢?我們有必要先了解一下語音識別是怎么做到的。

聲音實(shí)際上是一種波紋，就像自然中的光譜一樣。如果要對聲音進(jìn)行分析，就要先把聲音的這種波紋切分成很很多小片段，就好比一個(gè)視頻由很多幀畫面構(gòu)成，畫面又由很多個(gè)像素點(diǎn)構(gòu)成一樣，語音也可以切分成很多幀。所以語音識別的大概流程可以歸納為以下幾點(diǎn)：

　采集：聲波信息分段采集
編碼：把每一單位長度的語音變成多維向量(內(nèi)容信息)
　訓(xùn)練：從數(shù)據(jù)中學(xué)習(xí)對語音的判斷，而不是用人工的規(guī)則。用數(shù)據(jù)庫和建立模型讓語音系統(tǒng)自我學(xué)習(xí)(如果遇到方言，需要建立獨(dú)立的一套系統(tǒng))
　解碼：用訓(xùn)練好的模型組合起來就可以通過判斷新的語音向量，來識別語音了。
　反饋：將分析結(jié)果通過設(shè)備播放出來。

看似很簡單的一個(gè)過程，其實(shí)每一個(gè)環(huán)節(jié)都有很多難點(diǎn)，有很多不可控的因素存在。一方面是復(fù)雜條件下，識別率顯著下降，比如地方方言、背景噪音，還有說話語速的差異，都是不具規(guī)律性的;另一方面是語音的訓(xùn)練和測試用數(shù)據(jù)的并非完全匹配，如果用人民廣播電臺的語音來訓(xùn)練數(shù)據(jù)庫，那實(shí)際操作中哪有這么多廣播員呢?

這些都還只是皮毛，最重要的是人工智能對于語意的理解才是巨大的困難。就算作為人類，在沒有前后文的情況下，突然扔給你一段話，你也不見得能理解它的意思。而人工智能就更是一臉懵逼了，不同的麥克風(fēng)、噪音、口音以及談話內(nèi)容下，人工智能作出的反應(yīng)可能都截然不同，本質(zhì)上它還不具備意識，對人類的語言缺乏足夠的認(rèn)知。

語音交互在電視上的實(shí)際操作過程中，還會遇到這樣一個(gè)窘境：反應(yīng)速度問題。試想一下如果對電視提出一個(gè)問題，哪怕回答的結(jié)果是準(zhǔn)確的，但是等待時(shí)間卻長達(dá)兩三秒的話，你還有欲望繼續(xù)對它說話嗎?

綜上所述，無論是語音識別算法的亟待革命、語音工程上或缺的奇跡，或者是硬件性能上的各種限制，智能語音發(fā)展到今天遠(yuǎn)遠(yuǎn)還談不上輕車熟路。只不過正好它遇上了這個(gè)時(shí)代，能夠忽略它的不成熟，容忍它的成長過程。因?yàn)樗呀?jīng)發(fā)展的足夠快了。

　除了足夠智能，還需要什么?

如今的智能語音并非完美，但是在電視這個(gè)平臺上，真的需要需要那么智能嗎?

電視的用途主要是什么?搜索-點(diǎn)播-播控，無非就這是三點(diǎn)，深度整合一下在線和離線時(shí)的語音識別工具包，并及時(shí)更新，就能夠基本滿足用戶對此的需求。

但是如果把電視當(dāng)做的人工智能控制中心，那電視就將會高頻率的用起來。那對智能語音的要求就要高很多了。但是有一點(diǎn)作為智能電視的本質(zhì)屬性，是永遠(yuǎn)不會改變的。那就是給用戶提供足夠多的內(nèi)容和服務(wù)。

如果電視沒有足夠多的模塊和功能，沒有足夠多的內(nèi)容和服務(wù)，用戶使用語言的動(dòng)機(jī)就會缺失。如果沒能打通所有家電智能平臺，沒有統(tǒng)一控制協(xié)議，那用戶使用智能語音就會處處受限。

真正要讓用戶把智能語音功能使用起來，優(yōu)秀的語音識別技術(shù)，僅僅是其中很小的一部分，在家庭場景下的解決用戶實(shí)際問題的服務(wù)，才是根本。像很多廠商在電視上加入的人臉識別、兒童教育，配合智能語音，才能發(fā)揮語音技術(shù)在這一場景下的價(jià)值。

總結(jié)：人工智能只有在不斷交互的情形下，它才有使用的意義和進(jìn)步的空間。所以在智能交互不斷更迭的物聯(lián)網(wǎng)時(shí)代，智能語音技術(shù)來得恰是時(shí)機(jī)。很多人把它看做是下一波風(fēng)口，也并非無稽之談。只不過，一切科技的價(jià)值都是圍繞人性服務(wù)而產(chǎn)生，如何用智能語音連接所有家庭環(huán)境下人性的需求，才是技術(shù)研發(fā)的同時(shí)，品牌制造商們迫切需要思考的問題。

krisunny · 發(fā)表于 2017-4-17 11:13

樓主用心了，內(nèi)容非常精彩。

› 綜合交流 / 資源分享區(qū) › 綜合交流大區(qū)