人類對人工智能的探索就像一次征服汪洋大海的過程。從上世紀中期人工智能起步,到如今探索人工智能與應用場景的深度結(jié)合,在“船舶”和“動力”已經(jīng)得到極大保障的前提下,“航海圖”中一旦出現(xiàn)訓練數(shù)據(jù)偏差或者缺少數(shù)據(jù)支持,那我們與目的地將會背道而馳,相距愈遠。
如果把人類探索人工智能的歷程比作是征服汪洋大海的過程,那算力、算法和數(shù)據(jù)就分別代表著船舶、動力和航海圖。柔性線路板小編認為,算力決定了船舶的種類,比如它是郵輪、艦艇還是航母;算法決定了船舶的航行速度,因為它決定船舶是使用蒸汽、柴油還是核動力;數(shù)據(jù)則是一張航海圖,越豐富和精準的數(shù)據(jù)動力,才能越拉近我們和目的地之間的距離。
近幾年,得益于物聯(lián)網(wǎng)、人工智能、5G 等新型技術(shù)的飛速發(fā)展,智能家居在短短數(shù)年間就已經(jīng)相繼渡過了“自動化”、單品智能化”、“物聯(lián)網(wǎng)+家居場景”三個階段,進入了當前的“人工智能+家居場景”的“智能”階段,開啟了智能家居對人的思維和意識的學習與探索。
在電影《鋼鐵俠》中,托尼·史塔克的人工智能管家賈斯維就幾乎滿足了觀眾們對“智能家居”的一切美好幻想。然而,當“它”真正走進現(xiàn)實時,雖然也在一定程度上便利了我們的生活,但離理想中的“完美”還差有一大段距離。
根據(jù)相關(guān)從業(yè)者的調(diào)查,智能家居技術(shù)人員與市場之間并沒有形成良好的互動關(guān)系,雖然他們開發(fā)的產(chǎn)品在技術(shù)上具有先進性,但真實的實用性差、操作復雜,與市場需求脫節(jié)的現(xiàn)實問題仍舊普遍存在。軟板廠了解到,據(jù)公開數(shù)據(jù)顯示,目前市面上的產(chǎn)品中,因人機交互體驗差造成消費者消費熱情不高漲的原因占比達到了 12.7%,而造成這些現(xiàn)象的原因正是由于缺乏豐富且精準的場景數(shù)據(jù)支持。
就像本文開篇所說,我們對人工智能的探索就是一次征服汪洋大海的過程。從上世紀中期人工智能起步,到如今探索人工智能與應用場景的深度結(jié)合,在“船舶”和“動力”已經(jīng)得到極大保障的前提下,“航海圖”中一旦出現(xiàn)訓練數(shù)據(jù)偏差或者缺少數(shù)據(jù)支持,那我們與目的地只會背道而馳,相距愈遠。
AI 數(shù)據(jù)之于智能家居落地,亦如航海圖之于航海
鋼鐵俠之友——賈斯維,或可以看作是人工智能應用于智能家居的最高目標了,它不僅在日常生活中可以跟史塔克上演拌嘴逗趣的經(jīng)典名場面,也可以跟史塔克進行“人機協(xié)作”,默契的配合工作。
這其中都體現(xiàn)了人工智能技術(shù)在智能家居領(lǐng)域中的本質(zhì),云測數(shù)據(jù)總經(jīng)理賈宇航稱之為一場革命,一場 AI 的交互革命。
而這場革命之中,以語音交互、視覺交互等交互技術(shù)為主,以自然語言處理、機器視覺處理等 AI 能力為支撐。同時,這也就意味著人工智能對場景數(shù)據(jù)需求幾乎全面的覆蓋到語音、圖像、文本、視頻等領(lǐng)域。
在 AI 體系中,算力、算法和數(shù)據(jù)是拉動人工智能奔跑的“三駕馬車”,分別承擔著基礎(chǔ)設(shè)施能力、指導方法和算法依據(jù)的作用。而經(jīng)過采集和標注的精準數(shù)據(jù)(語音、圖像、文本、視頻等),反哺用于算法的迭代訓練當中,才能輸出一套完整的人工智能數(shù)據(jù)解決方案。賈宇航將此三者的關(guān)系定義為“相互制約、相互促進”。
由此觀之,應用于智能家居場景下的 AI 數(shù)據(jù)自然是反哺出解決方案的“源頭活水”,要想 AI 技術(shù)在智能家居應用中達到最高目標,AI 數(shù)據(jù)自然不可忽視,而且要包含豐富性與準確性兩個標準,這也就涉及到人工智能的數(shù)據(jù)采集與數(shù)據(jù)標注問題。
其實,人工智能玩家對于 AI 數(shù)據(jù)的態(tài)度還是比較一致的,包括國外的谷歌、微軟、亞馬遜,國內(nèi)的百度、阿里等巨頭,都在 AI 數(shù)據(jù)上有所建樹。除此外,柔性電路板廠發(fā)現(xiàn),云測數(shù)據(jù)作為國內(nèi)數(shù)據(jù)采集與標注方面的領(lǐng)軍者,被媒體與商湯、曠視、涂鴉、地平線稱之為“人工智能五強”。這也是因為業(yè)界深知高質(zhì)量的數(shù)據(jù)對 AI 應用的重要性,才將在算法、算力、數(shù)據(jù)不同領(lǐng)域各有建樹的企業(yè)進行“組合”,或者說這也是業(yè)界對人工智能發(fā)展寄托的一個表達方式。
從語音識別角度來看,比如最近某貓精靈宣布上線了四川話,用戶可以在使用鬧鐘、天氣、你想我猜等日常生活及娛樂功能時,使用四川方言與其進行對話。
但其實除了方言之外,性別、年齡、講話人語速、說話背景、噪音、情緒、語言種類等等因素,都是構(gòu)成一個豐富的、真實的交互樣本的關(guān)鍵。這就需要通過將一些特定的數(shù)據(jù)交給人工智能去強行總結(jié)一個特定的規(guī)律,這個規(guī)律具有一定的適用性,讓真正的用戶在使用過程中,能夠達到一個真實的應用體驗。
又或者從語義識別的角度看,當我們需要打開空調(diào)時,通過說出一個命令,機器或許可以理解并打開空調(diào)。但涉及到富有邏輯的深層次含義時,機器是否能“聽懂”?特別在對應的功能越來越豐富后,會拆分出越來越多的子類,比如空調(diào)打開之后的溫度調(diào)整、風速調(diào)整等等不同的屬性。
因而,智能家居要想真正實現(xiàn)落地,必須要依靠豐富的、高質(zhì)量的 AI 數(shù)據(jù),以此來反哺 AI 算法,以幫助智能家居行業(yè)企業(yè)在發(fā)掘 AI 潛力的道路上提升用戶的體驗,同時達到自身的降本增效。就像航海的船舶要到達目的地,必須要求一張數(shù)據(jù)完整且精準的航海圖一樣。
云測數(shù)據(jù),助力行業(yè)航向成功的彼岸
在《人工智能 2020:落地挑戰(zhàn)與應對——中國人工智能行業(yè)報告》中,云測數(shù)據(jù)作為唯一一家 AI 數(shù)據(jù)領(lǐng)域服務商入選。相比國內(nèi)外巨頭,云測數(shù)據(jù)依靠對 AI 數(shù)據(jù)的獨特見解和商業(yè)模式,成功殺出重圍,成為行業(yè)的頭部玩家。
目前,云測數(shù)據(jù)的數(shù)據(jù)標注業(yè)務已經(jīng)形成超千人規(guī)模的團隊,依托場景實驗室和數(shù)據(jù)標注基地兩大實力支撐,為除了智能家居領(lǐng)域之外的智能駕駛、智慧城市、智慧金融等領(lǐng)域提供高質(zhì)量的場景化 AI 數(shù)據(jù)服務,全方位支持文本、語音、圖像、視頻等各類型數(shù)據(jù)的處理。
面向智能家居行業(yè),云測數(shù)據(jù)的數(shù)據(jù)采集核心能力包括喚醒詞采集、控制詞采集、指定語料采集、人臉采集、情緒類型采集、中英文、國內(nèi)各地方言、東南亞及歐洲、非洲小語種等采集類型,支持智能音箱、智能電視、智能掃地機器人等場景數(shù)據(jù)采集;數(shù)據(jù)標注核心能力包括人物語音轉(zhuǎn)寫、行為意圖、聲紋識別、領(lǐng)域識別、語句泛化、語義分割等標注類型,支持智能音箱、智能電視、智能掃地機器人等場景數(shù)據(jù)標注。
賈宇航認為 AI 數(shù)據(jù)在智能家居領(lǐng)域的發(fā)展趨勢正向多模態(tài)、情感化、細分領(lǐng)域三大方向發(fā)展,對此云測數(shù)據(jù)也建立了自己的服務體系,以持續(xù)滿足智能家居領(lǐng)域的企業(yè)對 AI 數(shù)據(jù)服務的需求。
首先是專業(yè)化、定制化和場景化。AI 數(shù)據(jù)伴隨著 AI 的發(fā)展已經(jīng)經(jīng)歷了較為混亂的發(fā)展期,并衍生出了不同的業(yè)態(tài)。比如通過爬蟲技術(shù)進行數(shù)據(jù)抓取的“史前階段”,又或者在人工智能技術(shù)成長早期,通用數(shù)據(jù)集也“獨有一片天下”。而現(xiàn)在,云測數(shù)據(jù)通過提供場景化的數(shù)據(jù)采集和數(shù)據(jù)標注服務,以此為當下 AI 產(chǎn)業(yè)中即將落地的企業(yè)提供服務。
場景實驗室和數(shù)據(jù)標注基地便是云測數(shù)據(jù)的兩大“法寶”:首先是數(shù)據(jù)場景實驗室,為應對智能家居場景中可能出現(xiàn)的一切場景,比如像光線、噪音、背景等環(huán)境條件,以及針對不同的人種、語言、年齡、性別等因素,云測數(shù)據(jù)可以搭建和模擬針對不同需求的“真實場景”,進而對智能家居領(lǐng)域的客戶提供還原場景的數(shù)據(jù)采集;其次是數(shù)據(jù)標注基地,通過對人工智能訓練師進行專業(yè)的培訓,并且配合自有的數(shù)據(jù)平臺,進行持續(xù)迭代,確保整個數(shù)據(jù)精準的輸出,能為安防、家居、駕駛、金融、互聯(lián)網(wǎng)、零售、教育等領(lǐng)域客戶提供專業(yè)的定制化服務。
其次是高效率、高精準、高質(zhì)量。在人工智能領(lǐng)域中有著這樣一句話:garbage in,garbage out。換而言之,數(shù)據(jù)的好壞是可以通過算法的“錘煉”直接體現(xiàn)在最終的結(jié)果上的。這實際上也是對一家 AI 數(shù)據(jù)服務商對數(shù)據(jù)精準度控制、數(shù)據(jù)流程把控、數(shù)據(jù)質(zhì)量篩查能力的考驗。只有高質(zhì)量的 AI 數(shù)據(jù),才能最大限度的加速人工智能應用落地,幫助企業(yè)降本增效,同時實現(xiàn)市場良幣驅(qū)逐劣幣。
云測數(shù)據(jù)的人工智能數(shù)據(jù)服務團隊已經(jīng)形成了一套包含任務分配、需求分析、需求確認、數(shù)據(jù)清洗、試標確認、進度控制、質(zhì)量保障等流程的完整作業(yè)體系。比如云測數(shù)據(jù)在語音、文本、圖片、視頻等類別標注上都設(shè)置了底層規(guī)則,并設(shè)有多次審核機制,再加上專業(yè)標注邏輯、思維和思考能力以及相關(guān)領(lǐng)域知識,從而高效輸出成一套高質(zhì)、精準的智能家居數(shù)據(jù)解決方案。
最后是重中之重的數(shù)據(jù)隱私安全。云測數(shù)據(jù)對此有著深刻的認識,企業(yè)的數(shù)據(jù)安全是一個企業(yè)構(gòu)成核心競爭壁壘的重要要素之一。所以,在操作流程上,云測數(shù)據(jù)作為行業(yè)獨立第三方的身份,加之 “流程中的數(shù)據(jù)隔離”“絕不復用”等原則,來幫助客戶提升 AI 數(shù)據(jù)競爭力,保證 AI 數(shù)據(jù)的對應價值。
智能家居迸發(fā)美麗火花
咨詢公司 A T Kearney 的一項預測顯示,到 2022 年,亞洲的智能家居市場將增長到 260 億美元,到 2030 年將增長到 1150 億美元,占全球市場的 30%以上。中國將成為亞洲增長的關(guān)鍵。而就智能家居現(xiàn)階段而言,“人工智能+家居場景”的智能化階段將呈現(xiàn)持續(xù)且長期的發(fā)展后勁。AI 數(shù)據(jù)助力下,智能家居行業(yè)必定迎來強勁的增長,迸發(fā)出絢麗的火花。
最后借用云測數(shù)據(jù)總經(jīng)理賈宇航曾說過的一句話,以寄托對智能家居產(chǎn)業(yè)美好未來的希冀。
“我們希望在已有的領(lǐng)域能夠越走越深,同時拓展到更多領(lǐng)域,為更多人工智能企業(yè)服務,也希望更多人工智能企業(yè)的產(chǎn)品和項目可以更快落地、讓人們在日常生活中去使用;真真正正讓用戶感受到理解和溫暖。如果這個愿景達到了,提供數(shù)據(jù)標注和數(shù)據(jù)采集服務的我們也就心滿意足了。”