摘要:毫无疑问,人工智能产物会慢慢渗入人们的工作、生活、娱乐当中,为各行各业带来革命性的变化。未来,产物与产物之间、产物与环境之间、产物与用户之间的边界会非常模糊,人们会在多设备中无缝跳转和紧密连接,形成一个“你中有我,我中有你”的整体。在人工智能时代里,「原生硬件」,「AI 引擎」和「智能 App」是构成完整智能感受和办事闭环的三要素。
图 1 人工智能三元理论
关键词:人工智能,人机交互,交互感受,原生硬件,AI 引擎
引言
从 1956 年在达特茅斯正式提出 Artificial Intelligence,如今已经过去了 60 几个年头,但直到 AlphaGo 大胜李世石和柯洁三负 AlphaGo 后,“人工智能”才成为一个热词进入大众视线。而事实上,最近的一两年,各大科技巨子早已深入布局人工智能领域。从虚拟助手 Siri、微软小冰到各家巨子的智能音箱、智能驾驶,人工智能产物正逐渐融入我们的生活。在这个被视为会颠覆一切的人工智能时代,究竟产物存在什么样的痛点?交互会有如何的改变?什么样的交互设计才能让用户在使用人工能智能产物时获得一个极致感受?
通过对市面一些人工智能产物感受和“AI 导览机”项目(网龙为首届数字中国建设峰会量身定制的智能导览机,可为来宾提供室内寻路、会务信息查询、百科知识解答、拍照合影等智能办事)实现过程的分析得出的一些痛点:
当前人工智能产物感受的痛点
1. 对原生硬件的依赖非常大
智能交互可以明白为是感知->计算处理->执行反应的一个过程,与图形用户界面(Graphical User Interface, GUI)交互中的输入(鼠标或触摸)不同的是,感知是人工智能交互最大的一个特色。受限于权限、进程、设备能力等因素,无论是 App 还是 AI 引擎都难以随时无缝的去访问底层的传感器和计算单元,缺少硬件层面的传感器去感知人与周围坏境,作为信息输入,就无法让感受达到最佳。
2. 没有自动性、自发性
目前,智能家居硬件是人工智能最广为运用的领域,比如各大巨子厂商推出的智能音箱。在与机器人开启对话时,用户必要点击机器人身上的按钮,并且每下发一个指令都必须要唤起一次,然后进行一对一单线程对话。不难发现,这是一种”不自然的语音交互”,其本质也只是更换了一种人工控制的方式。针对现有几款智能音箱(小米小爱、天猫精灵、喜马拉雅小雅、百度小度、叮咚二代),整理了产物在天猫和京东消费用户关于语音交互上反应,可以明显看到用户对于必要频繁唤醒感到不满意:
图 2 智能音箱痛点
而在”AI 导览机”项目前期,也存在技术上和感受上的困惑:
技术:由于会场嘈杂,语音唤起导览机产生交互的成功率会大大降低;
感受:为什么必要等到用户开口要求才给与反应帮助,作为会场办事方,是否能自动去发现明白每一位必要帮助的用户?
再重新梳理情景后,导览机取消语音唤起的方案,而是通过获取人物影像,根据深度距离判断用户是否进入近场交互触发区,根据人脸识别判断用户是否有互动意向(面向时间,且过滤侧面经过的人群),进而自动询问用户:亲爱的来宾,请问有什么可以帮到您?
明白用户和自动办事是人工智能产物具备的优势,也是设计必要翻越的一道鸿沟。从被动接受的指令模式升级为一种自动办事式的智能产物模式,从用户主导变为自动办事的模式,这才是更符合未来人工智能的”自然交互”。
3. 信息获取的准确率与效率
语音用户交互(Voice User Interface, VUI)是人通过自然语言与计算机进行交互,也是目前人工智能产物主流的交互方式。
从人类自身感官的角度来看,视觉吸收的信息量远比听觉高。从内容信息的形态区分,图形用户界面 (Graphical User Interface, GUI)主要为图片和文字,依赖视觉,而语音用户交互(Voice User Interface, VUI)主要为声音文字,依赖听觉。
大脑每秒通过眼睛吸收的信息上限为 100Mbps,通过耳蜗吸收的信息上限为 1Mbps。[1]
如果将图像作为信息载体,视觉阅读的信息远超听觉的 5 倍。眼睛还有一个特别之处,通过扫视的方式一秒内可以看到三个不同的地方。[2]
另一方面,由于缺乏情境感知(Context Awareness)能力,即人的认知,人工智能还无法很好的明白上下文,根据用户是谁、用户情感、当前环境、之前的记忆给出精确下一步的预测。
单纯的语音交互对于用户感受来说是有缺陷的,在信息获取的效率和准确率上都有待进一步提高。