
于1913年創(chuàng)立全世界第一條汽車(chē)流水裝配線的亨利·福特曾說(shuō)過(guò):“Why is it everytime I ask for a pair of hands, they come with a brain attached?”(為何每次我想要一雙手時(shí),總是有一個(gè)大腦連著?)
如果亨利·福特能夠看到如今各大汽車(chē)工廠中數(shù)以萬(wàn)計(jì)的工業(yè)機(jī)器人,也許會(huì)感到很欣慰。這些機(jī)器人揮舞著鋼鐵手臂,精確地完成各種重復(fù)性的工作。它們的智能程度大多很低,只是在固定的環(huán)境中一遍遍地重復(fù)固定的動(dòng)作,正像是一雙雙沒(méi)有大腦相連的手。
在剛剛過(guò)去短短五年間,中國(guó)勞動(dòng)力成本翻了一番,眾多制造業(yè)、物流業(yè)的企業(yè)都在迫切尋找使用機(jī)器人替代人力的方案。人們將目光投向了已經(jīng)在很多簡(jiǎn)單任務(wù)中證明了自己價(jià)值的工業(yè)機(jī)器人。
這時(shí)人們驀然發(fā)現(xiàn),亨利·福特的問(wèn)題似乎得到了一個(gè)再明白不過(guò)的解答:僅僅有手是遠(yuǎn)遠(yuǎn)不夠的,要完成更復(fù)雜的任務(wù),機(jī)器人必須要有一個(gè)“大腦”相連。人類(lèi)也許永遠(yuǎn)不需要機(jī)器人擁有創(chuàng)造力、想象力、以及感情,但的確需要它們擁有智能。

機(jī)器人智能之痛
很多人對(duì)“機(jī)器人”這個(gè)詞的認(rèn)知主要來(lái)源于科幻作品,但事實(shí)上工業(yè)機(jī)器人的智能程度可能會(huì)讓不明真相的群眾大失所望。以“將物體從一堆物體中一個(gè)個(gè)揀出”這樣人類(lèi)三歲孩子都可以完成的任務(wù)為例,這對(duì)機(jī)器人來(lái)說(shuō)仍是沒(méi)有解決的難題。
因此當(dāng)面對(duì)堆積如山的快遞包裹,或工廠、物流站中常見(jiàn)的紙箱堆、麻袋堆時(shí),沒(méi)有眼睛和大腦的機(jī)器人空有一身力氣卻不知如何下手。工廠中待加工的工件也通常是無(wú)序地放在一起,機(jī)器人也難以獨(dú)自完成抓取、上料的工作。廣泛存在的實(shí)用場(chǎng)景和困難重重的技術(shù)使得混雜物體分揀問(wèn)題(Random Bin-Picking)被稱(chēng)為機(jī)器人學(xué)的圣杯。
龐大而迫切的需求讓機(jī)器人從業(yè)者前赴后繼。工業(yè)機(jī)器人老牌強(qiáng)國(guó)德國(guó)和日本都有多家公司參與,連一貫以芯片、軟件、互聯(lián)網(wǎng)而為人稱(chēng)道的硅谷都有數(shù)家創(chuàng)業(yè)公司進(jìn)入。一些物流企業(yè)也已經(jīng)進(jìn)行了使用機(jī)器臂抓取貨品的演示。然而,智能機(jī)器人仍然有著令人嘆息的痛:高昂的價(jià)格、不盡如人意的效果、復(fù)雜的使用方法都是阻止智能機(jī)器人迅速落地的攔路虎。因此,機(jī)器人在這些新場(chǎng)景中還是遠(yuǎn)遠(yuǎn)沒(méi)有得到大規(guī)模的應(yīng)用。
讓機(jī)器人抓個(gè)東西怎么就這么難呢?
首先要有一雙眼睛
必須要讓機(jī)器人先看到東西才能談得上抓取。而困難首先就來(lái)自于視覺(jué)傳感器。工業(yè)上傳統(tǒng)的2D相機(jī)已經(jīng)被廣泛應(yīng)用于質(zhì)量檢測(cè)、傳送帶跟蹤抓取等應(yīng)用。但是對(duì)于混雜分揀、拆垛等應(yīng)用場(chǎng)景,僅憑單個(gè)2D相機(jī)是不可能完成任務(wù)的。下圖展示了一個(gè)典型的例子。

這是兩張不同角度拍攝的同一組箱子的照片,從側(cè)視圖中可以看出中間小箱子明顯高于其他物體,但是從頂視圖中則完全無(wú)法看出。這說(shuō)明僅憑單一角度的2D圖像無(wú)法準(zhǔn)確判斷物體的位置。而3D相機(jī)就能夠獲取相機(jī)到物體表面每一點(diǎn)的距離,從而感知物體的形狀和距離。近年來(lái)3D成像技術(shù)的應(yīng)用越來(lái)越多,比如很多人都熟悉的可用于體感游戲的Kinect。
Kinect等民用3D體感產(chǎn)品對(duì)于絕對(duì)定位精度并不十分看重:只要能看清人體的相對(duì)位置關(guān)系和姿態(tài)即可(例如:左前方,站立,雙手舉高),而精確的位置信息(例如:x=1235mm, y= 682mm)對(duì)于交互來(lái)說(shuō)其實(shí)并不十分關(guān)鍵。但是對(duì)于機(jī)器人抓取來(lái)說(shuō),3D圖像的絕對(duì)精度就顯得非常重要了。
除了絕對(duì)定位精度夠高,對(duì)于機(jī)器人混雜物體分揀的應(yīng)用來(lái)說(shuō),還希望選用的3D傳感器能足夠快,從而保證機(jī)器人工作的效率;最好還能夠適用于各種物體的表面材質(zhì)、工作距離不要太近、產(chǎn)品穩(wěn)定可靠、價(jià)格合理,等等。雖然這些要求看起來(lái)并不過(guò)分。但是很遺憾,符合要求的傳感器并不容易獲得。

部分典型3D相機(jī)對(duì)比
以德國(guó)老牌廠商IDS公司生產(chǎn)的Ensenso相機(jī)為例。2016年Amazon Picking Challenge的冠軍隊(duì)伍荷蘭代爾夫特理工大學(xué),機(jī)器人龍頭企業(yè)ABB,日本機(jī)器人明星創(chuàng)業(yè)公司Mujin等院校、大公司、和創(chuàng)業(yè)公司,都使用了這一系列相機(jī)做演示。但是通過(guò)后面一組對(duì)比圖,可以看出其成像效果并不盡如人意。而且其高昂的價(jià)格也使得它難以被用于實(shí)際應(yīng)用:一個(gè)名牌輕型機(jī)器臂的價(jià)格也不過(guò)十一二萬(wàn),大部分用戶很難接受再花十幾萬(wàn)元買(mǎi)一個(gè)相機(jī)。
出身微軟的Kinect自2010年面世以來(lái)在學(xué)術(shù)界迅速流行,產(chǎn)生了很多重要的成果。說(shuō)Kinect催生了上千篇高質(zhì)量的論文應(yīng)該也并不為過(guò)。隨后Kinect V2、Intel RealSense等產(chǎn)品的出現(xiàn)更使得3D體感技術(shù)進(jìn)一步大眾化。盡管如此,它們的精度、適用范圍、可靠性等指標(biāo)也并不能直接滿足工業(yè)應(yīng)用的需求。
除了上面提到的相機(jī)外,基于激光線掃描獲得3D圖像的方案也已經(jīng)出現(xiàn)了多年。ISRA、SICK、Cognex等公司都有較成熟的產(chǎn)品,國(guó)內(nèi)外一些創(chuàng)業(yè)公司也做出了類(lèi)似的設(shè)備。但是此類(lèi)產(chǎn)品價(jià)格動(dòng)輒十余萬(wàn)甚至數(shù)十萬(wàn),而且需要數(shù)秒才能完成一次掃描,所以長(zhǎng)久以來(lái)也一直無(wú)法得到廣泛應(yīng)用。
為了解決這一問(wèn)題,梅卡曼德研發(fā)出了Mech-Eye智能相機(jī)方案。它不僅僅是一個(gè)相機(jī):一塊NVIDIA Jetson TX2嵌入式GPU為其注入了澎湃的運(yùn)算力,讓先進(jìn)的人工智能算法可以在其中運(yùn)行。在各種光學(xué)創(chuàng)新和人工智能算法的加持下,Mech-Eye智能相機(jī)可以又快又準(zhǔn)地完成3D和2D感知,速度和精度滿足機(jī)器人抓取的需要,并且可以適應(yīng)相當(dāng)程度的反光和暗色表面。

圓形薄鋁板的表面反光強(qiáng)烈,使其他3D相機(jī)的點(diǎn)云中均出現(xiàn)明顯殘缺。梅卡曼德3D成像方案獲得的點(diǎn)云(最右圖)仍然完整、清晰。

針對(duì)曲面,Kinect獲得的點(diǎn)云可見(jiàn)明顯形變,梅卡曼德3D成像方案獲得的點(diǎn)云(最右圖)形狀準(zhǔn)確。

針對(duì)黑色鋁管,其他3D相機(jī)的點(diǎn)云中均出現(xiàn)明顯殘缺或形變。梅卡曼德3D成像方案獲得的點(diǎn)云(最右圖)仍然完整,準(zhǔn)確。

Mech-Eye可以適應(yīng)相當(dāng)程度的反光和暗色表面,如:銅、鐵、鋁、塑料、麻袋、紙箱膠帶等。
當(dāng)然3D視覺(jué)也不是萬(wàn)能的:比如當(dāng)多個(gè)箱子緊緊貼合在一起時(shí),僅憑3D信息就無(wú)法準(zhǔn)確定位每一個(gè)箱子的位置了。因此,必須要有機(jī)結(jié)合3D和2D傳感器以及相應(yīng)的算法,才能讓機(jī)器人完成任務(wù)。

近年來(lái)深度學(xué)習(xí)在多個(gè)領(lǐng)域取得了重大突破,其中最引人注目的就是對(duì)圖像的分析和理解,如人臉識(shí)別技術(shù)已經(jīng)在一些場(chǎng)景中取得了超越人類(lèi)的效果。相比其他機(jī)器視覺(jué)的應(yīng)用(如人臉識(shí)別),應(yīng)用于工業(yè)機(jī)器人的視覺(jué)算法會(huì)被高頻次反復(fù)地調(diào)用,而且結(jié)果會(huì)引導(dǎo)機(jī)器人完成動(dòng)作(而不只是給出一個(gè)數(shù)據(jù)輸出),因此對(duì)可靠性和運(yùn)算速度的要求要苛刻的多。如果一個(gè)機(jī)器人每3秒完成一次操作,那么99%的正確率意味著這個(gè)機(jī)器人平均每五分鐘就會(huì)犯一次錯(cuò)誤。
視覺(jué)算法可以粗略地分為傳統(tǒng)算法和機(jī)器學(xué)習(xí),其中機(jī)器學(xué)習(xí)又可以分為“傳統(tǒng)”機(jī)器學(xué)習(xí)和深度學(xué)習(xí)。在工業(yè)機(jī)器人的應(yīng)用場(chǎng)景里,這些算法各有所長(zhǎng),并不能簡(jiǎn)單說(shuō)孰高孰低:傳統(tǒng)算法應(yīng)對(duì)簡(jiǎn)單情況時(shí)穩(wěn)定可靠、速度快,但是對(duì)于復(fù)雜的問(wèn)題則往往難以下手;傳統(tǒng)機(jī)器學(xué)習(xí)算法相比深度學(xué)習(xí),需要數(shù)據(jù)量較小、可解釋性好、可以通過(guò)人工調(diào)整迅速適應(yīng)新場(chǎng)景,但是應(yīng)對(duì)極為復(fù)雜的情況則會(huì)遇到性能瓶頸;深度學(xué)習(xí)可以應(yīng)對(duì)非常復(fù)雜的情況,但是準(zhǔn)備數(shù)據(jù)和調(diào)試都非常費(fèi)時(shí)費(fèi)力,也幾乎沒(méi)有可解釋性。
梅卡曼德視覺(jué)方案Mech-Vision中的算法有機(jī)結(jié)合了這三者,讓他們各自發(fā)揮長(zhǎng)處。此外梅卡曼德還研發(fā)出了可視化的機(jī)器視覺(jué)開(kāi)發(fā)框架,讓開(kāi)發(fā)者、集成商、客戶都能夠無(wú)需寫(xiě)任何代碼就完成視覺(jué)算法的調(diào)試和部署。
將手移動(dòng)過(guò)去不就行了?
到這里機(jī)器人已經(jīng)能夠看到并定位物體了,很多人可能會(huì)想,“然后直接讓手移動(dòng)過(guò)去抓不就行了?”但任務(wù)到此其實(shí)只完成了一半:要讓機(jī)器人“正確地”運(yùn)動(dòng)過(guò)去,其難度恐怕遠(yuǎn)遠(yuǎn)超過(guò)一般人的想象。
指導(dǎo)一個(gè)人類(lèi)工人工作時(shí),如果你告訴他“請(qǐng)不要把手撞到箱子壁”或者“請(qǐng)不要把自己手臂別住”他恐怕會(huì)認(rèn)為你在侮辱他的智商。然而工業(yè)機(jī)器人本身幾乎沒(méi)有智能,只是按照簡(jiǎn)單的指令運(yùn)動(dòng),指令不當(dāng)就很容易出現(xiàn)碰撞或奇異點(diǎn)等問(wèn)題。
傳統(tǒng)的機(jī)器人運(yùn)動(dòng)的路徑是固定或受限的,因此可以通過(guò)手工調(diào)整來(lái)避免這些問(wèn)題。但是當(dāng)機(jī)器人通過(guò)視覺(jué)應(yīng)對(duì)復(fù)雜場(chǎng)景時(shí),手工調(diào)整就無(wú)用武之地了,自主、智能的軌跡規(guī)劃的重要性就凸顯出來(lái)。
如果每一個(gè)運(yùn)動(dòng)都需要較長(zhǎng)時(shí)間進(jìn)行規(guī)劃,整個(gè)機(jī)器人運(yùn)動(dòng)就會(huì)很不流暢,嚴(yán)重影響機(jī)器人的工作效率。“效率就是金錢(qián)”在機(jī)器人上可不只是一個(gè)比喻。梅卡曼德研發(fā)團(tuán)隊(duì)在運(yùn)動(dòng)規(guī)劃上有深厚的積累,經(jīng)過(guò)大量艱苦的努力,讓機(jī)器人能夠在0.003秒內(nèi)就完成復(fù)雜的路徑規(guī)劃,有效避免環(huán)境碰撞、自碰撞、奇異點(diǎn)等問(wèn)題。
人人都可以使用機(jī)器人

傳統(tǒng)機(jī)器人編程方法(如上圖左):
基于代碼,指令及編程;
智能程度低;
學(xué)習(xí)成本高。
Mech-Viz編程方法(如上圖右):
完全可視化、圖形化、任務(wù)級(jí)編程;
內(nèi)置軌跡規(guī)劃等多種智能功能;
簡(jiǎn)單直觀,易學(xué)易用。
機(jī)器人“能夠”完成任務(wù)仍然不能保證它可以被大部分人使用:沒(méi)有親手使用過(guò)工業(yè)機(jī)器人的人通常會(huì)大大低估使用機(jī)器人的復(fù)雜性。上世紀(jì)80年代的電腦也可以完成打字、制表等任務(wù),但是真正普及也要等到十年后更簡(jiǎn)單易用的系統(tǒng)出現(xiàn)。那時(shí)會(huì)使用電腦、會(huì)打字都是值得夸耀的專(zhuān)業(yè)技能,正如今天會(huì)使用工業(yè)機(jī)器人一樣。
傳統(tǒng)的工業(yè)機(jī)器人程序類(lèi)似匯編語(yǔ)言,用戶需要對(duì)機(jī)器人的底層運(yùn)動(dòng)指令。想象一個(gè)工人,如果你需要告訴他“把手向上抬高120毫米”,“工具坐標(biāo)移動(dòng)到(x,y,z)的位置”,是會(huì)多么低效。為了解決這一問(wèn)題梅卡曼德開(kāi)發(fā)出了Mech-Viz圖形化編程環(huán)境,讓用戶能夠可視化、圖形化地進(jìn)行任務(wù)級(jí)編程。Mech-Viz遠(yuǎn)遠(yuǎn)不僅是讓界面變得友好很多,其中更內(nèi)置了運(yùn)動(dòng)規(guī)劃、程序檢查等諸多智能算法,并可以和視覺(jué)系統(tǒng)無(wú)縫集成。這使得使用機(jī)器人系統(tǒng)變得直觀、簡(jiǎn)潔。
All Systems Go
將前面展示的所有技術(shù)整合起來(lái)(其實(shí)背后還有大量底層的工作),一個(gè)完整的混雜分揀解決方案就終于可以出現(xiàn)了。

為了讓技術(shù)真正平民化,梅卡曼德的工程師們進(jìn)行了大量努力,將算法性能壓榨到極限,在保證效果和可靠性的前提下最大限度地控制硬件成本。因此相比于國(guó)外廠商動(dòng)輒十余萬(wàn)甚至數(shù)十萬(wàn)的價(jià)格,梅卡曼德產(chǎn)品現(xiàn)在預(yù)訂價(jià)格僅為43999元起,其中包含了智能相機(jī)以及軟件授權(quán)。
智能機(jī)器人是終極技術(shù)競(jìng)爭(zhēng)
隨著人口紅利的消失,中國(guó)的制造業(yè)、物流業(yè)等許多行業(yè)都面臨著巨大的人工成本壓力,各種產(chǎn)業(yè)外流的新聞屢見(jiàn)報(bào)端。我們相信人工智能+機(jī)器人是破局的金鑰匙。通過(guò)人工智能技術(shù),機(jī)器人將會(huì)成為每一個(gè)企業(yè)都能使用的生產(chǎn)力工具,就像電力、計(jì)算機(jī)、互聯(lián)網(wǎng)一樣。需要人手時(shí)不再需要貼招工廣告,而是從網(wǎng)上預(yù)定個(gè)機(jī)器人,這將不再是科幻小說(shuō)的情節(jié),沒(méi)準(zhǔn)還會(huì)出現(xiàn)“掃碼使用共享機(jī)器人”的服務(wù)呢。

上圖是中國(guó)和印度人口結(jié)構(gòu)的對(duì)比。可以清楚地看到,在人口總數(shù)非常接近的情況下,中國(guó)年輕人的數(shù)量顯著的少。中國(guó)依靠廉價(jià)勞動(dòng)力紅利占領(lǐng)低端產(chǎn)業(yè)的日子已不可持續(xù)。
回顧之前的技術(shù)進(jìn)步,都會(huì)使低端產(chǎn)業(yè)從發(fā)達(dá)國(guó)家向其他國(guó)家轉(zhuǎn)移,日韓、中國(guó)港臺(tái)、中國(guó)大陸、乃至現(xiàn)在的東南亞都曾經(jīng)是低端產(chǎn)業(yè)轉(zhuǎn)移的受益者。但是智能機(jī)器人是終極技術(shù)競(jìng)爭(zhēng),因?yàn)檫@一技術(shù)會(huì)使得產(chǎn)業(yè)對(duì)低端廉價(jià)勞動(dòng)力的依賴大大降低,從而將低端產(chǎn)業(yè)變成高端產(chǎn)業(yè)留在高技術(shù)國(guó)。這一技術(shù)之爭(zhēng)中國(guó)沒(méi)有退路。
當(dāng)然讓機(jī)器人變得智能要走的路還有很遠(yuǎn),甚至學(xué)術(shù)界過(guò)去十余年的成果絕大部分都還沒(méi)有得到工業(yè)上的廣泛應(yīng)用。但隨著最近人工智能產(chǎn)生突破性的進(jìn)展,我們認(rèn)為機(jī)器人智能化的腳步將被大大加快。