導讀
深藍,就是人工智能。
整整20年前IBM公司創(chuàng)造的超級計算機深藍第一次戰(zhàn)勝了國際象棋世界冠軍卡斯帕羅夫,而今天我們用它的名字來命名這個全新的人工智能報道品牌。
從大部分人看不懂的理論到每一個人都會使用的產(chǎn)品,技術(shù)到應(yīng)用的轉(zhuǎn)化,通常與工業(yè)界的探索息息相關(guān)。在人工智能熱潮大背景下,智能駕駛、NLP/人機交互、圖像識別、語音識別、大數(shù)據(jù)、智能硬件等不同分支都涌現(xiàn)了大量先行者。
無論是大公司還是初創(chuàng)企業(yè),在追逐自己商業(yè)夢想的同時,它們的努力,也將影響人工智能落地日常生活的具體形態(tài)。它們是將人工智能與普通人連接起來的橋梁,是窺探人工智能發(fā)展的一個窗口。
為此,深藍將對人工智能不同方向內(nèi)最具代表性的公司進行報道,了解技術(shù),剖析商業(yè),一同看清潮水的方向。
語言是人類溝通的重要工具,是人類傳達信息的基本載體。NLP(自然語言處理)旨在幫助機器理解人類的語言,通過理解語言來理解人類的想法和意圖,是人工智能中最具魅力和挑戰(zhàn)的問題之一。NLP的進步,會直接影響人類與機器溝通的效果。
因此,深藍的第一個系列報道將以NLP為主題,我們選取了國內(nèi)NLP領(lǐng)域最具代表性的企業(yè),圍繞他們的技術(shù)路徑、商業(yè)模式,進行深度解析。
基本信息:
成立時間:2016年5月
產(chǎn)品名稱:Mor小驀機器人
團隊情況:創(chuàng)始人戴帥湘,原百度大搜主任架構(gòu)師
融資情況:
2016.12.31,A輪,1000萬美元,經(jīng)緯中國、源碼資本、襄禾資本
2016.06.30,天使輪,200萬美元,襄禾資本、經(jīng)緯中國
在電視上訂一杯咖啡,這是驀然認知的員工最愛給訪客演示的產(chǎn)品之一。
看上去,這與過去兩年O2O熱潮中涌現(xiàn)出的那批公司沒什么兩樣,但實際上,驀然認知是一家以NLP(自然語言處理)為主攻方向的人工智能初創(chuàng)企業(yè),它的創(chuàng)始人來自百度。
物聯(lián)網(wǎng)及人工智能技術(shù)進步等多重因素,讓越來越多人將語音交互視為互聯(lián)網(wǎng)的下一代交互方式,想想iPhone帶來的觸摸交互開創(chuàng)了一個怎樣的時代,就不難理解下一代交互方式的巨大意義。但現(xiàn)實情況是,當下的語音交互距離理想狀態(tài)仍有很大差距。
可觀的市場前景與巨大的現(xiàn)實落差往往意味著難得的淘金機會,這吸引了大量的玩家投身其中,戴帥湘及其創(chuàng)辦的驀然認知便是其中一個。
身為驀然認知的創(chuàng)始人,戴帥湘在百度搜索技術(shù)部門擁有超過九年的從業(yè)經(jīng)歷。去年5月,他選擇離職創(chuàng)業(yè),驀然認知是他從大公司離開后,為實現(xiàn)語音交互真正落地而開拓的一片新實驗場。
在百度的九年里,戴帥湘的主要工作是分析用戶在搜索框中輸入的query究竟為何意,理解它們是給出準確搜索結(jié)果的前提。
在驀然認知的一年半時間里,戴帥湘的主要工作是讓用戶與機器之間的溝通從單次搜索進化到多輪對話,做到這一點是實現(xiàn)語音交互的前提。
NLP仍是戴帥湘及其團隊主攻的技術(shù)方向,但要達到理想效果,意味著仍有多個技術(shù)難點需要解決。
人工智能熱潮下,技術(shù)已經(jīng)成為創(chuàng)業(yè)者、大公司甚至普通人津津樂道的話題,而技術(shù)實力也決定著一家人工智能初創(chuàng)公司在投資者眼中的價值。因此,技術(shù)顯然是驀然認知得以成立、運轉(zhuǎn)、發(fā)展的支點,但卻并非它的終點,甚至在戴帥湘勾勒的商業(yè)版圖中,技術(shù)也不是或者說不是唯一核心。
在熱衷談?wù)摷夹g(shù)的新時尚下,技術(shù)出身的戴帥湘有點反其道而行之,他更樂意以技術(shù)為切入點,講述驀然認知規(guī)劃中更大的商業(yè)故事。這是當下人工智能創(chuàng)業(yè)熱潮中,一個頗為另類的樣本。
從單輪到多輪
了解驀然認知的技術(shù)路徑,是了解它其他故事的前提。
回到文章開頭的那個場景:在電視上訂一杯咖啡。這一過程可以更詳細的描述為:通過語音交互,進入訂咖啡的場景,完成購買咖啡的交易。整個過程基于云端解決方案,無需額外安裝服務(wù)應(yīng)用。
例如,你可以直接對著電視說“我要一杯美式咖啡和兩杯星冰樂”,也可以進行多輪對話,“星巴克最近有什么新品(出現(xiàn)篩選結(jié)果),我要第一個(冰拿鐵),確認支付”,隨即就通過全程語音完成了訂咖啡的服務(wù)閉環(huán)。
上述交易包含如下環(huán)節(jié):語音識別、語義理解、多輪對話、調(diào)取服務(wù)、完成支付。其中,語義理解和多輪對話是驀然認知的技術(shù)核心。在戴帥湘眼中,多輪對話的實現(xiàn)效果是這家公司在技術(shù)上的殺手锏。
對機器說一句話與對機器說多句話,在普通用戶的感知中差別并不大,但實際上,這中間有很大區(qū)別。
說一句話的情形下,機器只需理解該句話的意思,然后輸出一個結(jié)果反饋回去即可。但在說多句話的情況下,機器需要記憶多句話內(nèi)容,并結(jié)合上下文語境,才能理解用戶表達的真正意思,進而給出正確反饋。
“你說一句話,它就是一個動作返回;你說多句話,它是一個動作序列。一個動作序列就可以完成一個任務(wù)了,所以這里面核心的,是一個連續(xù)對話的過程?!?
單輪對話的典型場景是搜索,用戶輸入得到結(jié)果,交互結(jié)束。而多輪對話的典型場景目前仍存在于電影中,電影《Her》里如同真人陪伴般的語音助手是所有投身語音交互行業(yè)人員的終極夢想,目前沒有任何公司或團隊真正實現(xiàn)上述效果,大家在朝著同樣的目標努力,盡管選擇的方式可能并不相同。
戴帥湘懷揣同樣的理想:“我在百度做那么多年,我一切的目標就是讓機器能非常非常流暢的理解人的語言,特別是能做到上下文的連續(xù)理解,現(xiàn)在你們可能叫多輪對話,在我們看來就是一個上下文的連續(xù)理解?!?
百度的多年歷練讓戴帥湘積累了實現(xiàn)上下文連續(xù)理解的技術(shù)能力,這一能力是構(gòu)建驀然認知技術(shù)的基礎(chǔ)。
知識圖譜、對話模型和學習系統(tǒng),是驀然認知發(fā)展多輪對話的技術(shù)路徑。戴帥湘告訴深網(wǎng),驀然認知在去年已經(jīng)把整個技術(shù)框架做出來。
而NLP、支持服務(wù)、對話、學習則是驀然認知整體架構(gòu)的四個核心。要真正理解驀然認知在多輪對話上的實現(xiàn)效果,需要將其放在驀然認知的整體商業(yè)邏輯中。
技術(shù)終將平庸
“通過技術(shù)掙錢的東西是不長久的”,在驀然認知的辦公室里,戴帥湘對深網(wǎng)說道,“長遠來說技術(shù)會變得平庸化,二是技術(shù)會變得免費起來,所以你最終還是要有一個完整的產(chǎn)品和平臺,平臺要有盈利模式。”
這一理解源于戴帥湘過往的從業(yè)經(jīng)歷:“我在百度也是做技術(shù)的,我要把這些技術(shù)讓搜索產(chǎn)品、廣告產(chǎn)品、貼吧、知道用,你必須站在它的角度著想,給它帶來流量、收入,帶來流量,你才能給搜索用,帶來搜索,才能給廣告產(chǎn)品用,這是很現(xiàn)實的?!?
對技術(shù)的理念很大程度上決定了驀然認知業(yè)務(wù)運轉(zhuǎn)的邏輯,驀然認知不直接向客戶販賣技術(shù),而是出售一套產(chǎn)品和解決方案,這套產(chǎn)品和解決方案不僅包括了其自研的多輪對話技術(shù),還包括基于技術(shù)所延展出的硬件、語音識別解決方案,以及更重要的,技術(shù)所對接的服務(wù)。
這一鏈條中,語義理解、多輪對話是驀然認知的技術(shù)核心,而硬件、語音識別以及服務(wù),都通過第三方合作進行。
戴帥湘的辦公室被改造成了驀然認知產(chǎn)品的展示中心,坐在深網(wǎng)面前,他拿起了一個帶有語音輸入功能的電視遙控器,用語音與電視交互,要為在場的人各訂一杯咖啡。同時,他還通過電視遙控器,演示了開關(guān)辦公室窗簾、臺燈的效果。
根據(jù)介紹,驀然認知已經(jīng)對接的服務(wù)有外賣、電影票,并正在接入更多的服務(wù),如代駕、停車、跑腿、購物等。
戴帥湘特別強調(diào),驀然認知的產(chǎn)品能直接用語音交互調(diào)取服務(wù)、進入相關(guān)服務(wù)商的支付環(huán)節(jié),完成交易。
在此之前,其他一些語音交互產(chǎn)品到交易環(huán)節(jié),就必須依賴人工介入才能完成。這里面考驗的核心能力即語義理解和多輪對話。
“其實我們整個多輪對話的框架沒怎么變化,從創(chuàng)業(yè)到現(xiàn)在基本上是這樣的框架,我們不斷地優(yōu)化這個框架,現(xiàn)在也沒人做到我們這個水平。所以我們有半年到一年的領(lǐng)先時間,我現(xiàn)在發(fā)現(xiàn)其實我們領(lǐng)先的時間可能更長。”
從接入的服務(wù)中獲得的數(shù)據(jù)對驀然認知非常重要,這些數(shù)據(jù)是驀然認知不斷完善技術(shù)模型的材料。戴帥湘介紹,驀然認知的團隊具備加工新數(shù)據(jù)、從已有數(shù)據(jù)中處理出有用數(shù)據(jù)的能力,同時,也有在小數(shù)據(jù)集上訓練處有效模型的能力。
將接入的諸如咖啡、外賣、電影票等服務(wù)的數(shù)據(jù)進行深加工,同時將用戶的語言對應(yīng)到服務(wù)上,接入交易的閉環(huán)。用特定場景下的數(shù)據(jù)不斷優(yōu)化模型,打造產(chǎn)品,然后向客戶輸出,這是驀然認知的大概業(yè)務(wù)邏輯。
這意味著,驀然認知不僅需要做好技術(shù),還需要有連接服務(wù)的能力。
拓展場景
“對話即應(yīng)用”,這是驀然認知提出的一個概念,這個概念的核心理念是用戶可以通過語音交互直接調(diào)取各種服務(wù),其中蘊含的不僅是產(chǎn)品形態(tài),還有商業(yè)模式。
驀然認知市場總監(jiān)龔思穎介紹,是否能夠滿足用戶的頭部需求是他們選擇接入服務(wù)的評價標準。
“不管是Echo也好,還是國內(nèi)之后跟風的這些音箱也好,都沒有真正把語音交互落地,為什么?因為所有的東西都沒有解決用戶的頭部需求,沒有解決用戶的頭部需求,你就很難讓用戶去用你的語音?!闭劶盀楹我尤敕?wù),驀然認知市場總監(jiān)龔思穎如此解釋。
那么什么是真正的頭部需求?在龔思穎看來,頭部需求就是衣食住行,因此當前驀然認知已經(jīng)接入的都是與日常生活相關(guān)的基本服務(wù)。
接入服務(wù)對驀然認知的商業(yè)模式意義重大,戴帥湘介紹,接入服務(wù)本身就是有價值的,當語音交互占領(lǐng)了越來越多的設(shè)備,服務(wù)商必然需要通過新的渠道觸達用戶;而在接入服務(wù)的同時,驀然認知可以基于對用戶的了解,推送精準廣告;一旦發(fā)生交易,驀然認知、服務(wù)商、設(shè)備商三方會進行分成,未來,基于傳感器或者用戶歷史行為,驀然認知可以主動為用戶推薦產(chǎn)品。
“我們是一個2B2C的模式,用戶不一定需要知道他使用的產(chǎn)品是驀然認知提供的,但是我們2B的最終目的是2C。”
根據(jù)設(shè)想,驀然認知可以通過2B2C的模式獲得用戶并贏得商業(yè)回報,實現(xiàn)理想效果的前提是獲得客戶、進入更多設(shè)備、接入更多服務(wù)、提升產(chǎn)品體驗。
目前,驀然認知正努力在家和車的兩個垂類中拓展場景,戴帥湘透露,他們已經(jīng)與四大電視廠商和兩大車廠達成了合作,不過由于需配合合作方的節(jié)奏,現(xiàn)在尚不能透露具體廠商名稱。
在進入家庭和車內(nèi)場景后,驀然認知的下一步是計劃擴展并打通更多設(shè)備,“優(yōu)先做電視和汽車兩個垂直的場景,好好把這個場景做好,交互得舒服,然后再以這兩個為中心擴展周邊的設(shè)備?!?
對于技術(shù)男戴帥湘而言,當下最大的挑戰(zhàn)來自于市場。怎樣讓更多目標客戶真正成為合作伙伴,需要不斷的向?qū)Ψ捷敵鲇^點。
龔思穎告訴深網(wǎng),他們與車廠的合作就受到市場環(huán)境的很大影響,今年CES上福特與亞馬遜的合作是一劑催化劑,直接促使驀然認知在落地車企上取得了實質(zhì)性進展。
要實現(xiàn)目標,落地還需加快,而除了依賴大環(huán)境的轉(zhuǎn)變,接下來這家人工智能初創(chuàng)公司,還需在市場和商務(wù)上,接受更多考驗。
(編輯:此夕)
