下一个革命性的人机交互方式会是什么？

吴升知，UX/ AR Designer@Google

认同“宁静技术”（Calm technology）的思考方向，那个回答有些地方没讲透，所以再做更深入的补充。

简单的说，就是人机交互逐渐变得隐匿和不可见（invisible），通过对用户的情景感知（contextual awareness）能力，最小化用户的注意力，让计算设备在背景中运行。

展开之前，先回到这个问题的题干，“下一个革命性的人机交互”。什么是革命性的？或者再追问为什么要革命？如果我们前提假设未来会有一个“革命性的交互方式”，那就是假设现有的交互模式有问题、有局限、需要被颠覆。那么现有的交互模式有什么问题？我们不能没有问题来硬要发明问题。我卖个关子，稍后讲这个问题。

先回看一下历史，看看最重要的人机交互革命是在什么情况下诞生的，都解决了什么问题。

图形界面（Graphic User Interface）

图形界面（GUI）应该是人机交互历史上最重要的一次革命。计算机最早是属于实验室的，多人共用一台计算机，而且使用计算机需要是经过专业训练的专家，这个时期被Mark Weiser称为主框架时代（Main Frame）。在这个时期的最早期，人机交互主要是靠命令行（command line），学习门槛很高、效率也低。随着计算机的价值凸显，成本降低，这个时候的最大问题是怎么能让更多没有技术背景的人也能理解并高效的使用计算机。

于是, 1973 年，第一个图形界面（GUI）在当时最前卫的施乐研究中心（Xerox Palo Alto Research Center）诞生了。几乎同时，施乐研究中心的Alan Kay提出了“桌面比喻”（Desktop metaphor）和“纸本范式”（paper paradigm），用比喻的方式把电脑的空间想象成一个桌面，而一个个应用就仿佛是我们桌面上的工具，把文档想象成一张张存在在电子屏幕里的纸，而一个虚拟的文件也第一次以一个文件夹的形式存在。

通过运用比喻（metaphors），GUI 极大的帮助了非技术背景用户理解计算机中的抽象概念，让计算机的操作符合人们在物理世界中的心智模型（mental model），比如，把一个文件删除，可以把这个文件夹的图标拖到垃圾桶图标里，就跟我们扔一个废纸一样。1984 年，在施乐的 GUI 研究的启发下，苹果设计出他们第一代的 Macintosh 图形界面。当然，后来被微软 Bill Gates 复制去了，成功推出当时世界最流行 Windows 操作系统。

早期的 Desktop metaphor 和 Paper paradigm 的设计理念，在今天依然深刻影响了我们的交互界面设计。从 iPhone 最初的拟物化设计（Skeuomorphism），微软的 Fluent design 设计语言，到 Google 如今沿用的 Material Design，无不延续这其中的革命性思想。

其实真正对人机交互产生革命性影响的绝不仅仅是一种具体的交互形式，而是这背后所蕴藏的设计理念和思考，这种思考无论人机交互如何衍化，都能对下一代设计师和设计产生深远的影响。
所以，这里我想强调，我们谈论下一代革命性的交互方式，如果简单地从一个“手势交互”，“语音交互”，“多模交互”，“脑机交互”，“AR 交互”这个交互技术层面去思考其实流于表面了。首先要提问的是，我们为什么需要下一代的交互界面，现有的交互方式有什么问题亟待解决。

先谈谈非常流行的 AR 和手势交互

我自己对 AR/VR 和手势交互有一定研究，做的 AR/VR 项目在IEEE VR，人机交互最顶级的会议CHI‘（Computer Human Interaction）上也有发表过，参与过 HoloKit 的 AR 创业项目，目前在 Google AR 团队做设计师，也参与了Google AR 设计指南的制定，应该对这个领域有一定发言权。

（视频：我在 CMU 的研究生毕业论文项目）

放一段我在 CMU 研究生毕业论文的多设备间的 AR 手势交互设计 Demo 视频，里面都是 Unity 出来的 working demo。我研究生的论文“多设备间手势交互的可供性”出版在下面的链接里

https://www.blurb.com/b/9502756-affordances-for-multi-device-gestural-interactions

说观点，AR 和手势交互很酷，但从人机交互的交互讲，我个人认为很难成为一种主流的人机交互方式。问题如下：

有限的效率提升

我不否认在某些场景下，AR 配合手势交互具备巨大的用户价值，大幅提升效率。但从普通用户日常的生活、娱乐、工作来讲，AR 对效率的提升没有明显的提升。相反，还有所下降。不少人夸大了 3D 和沉浸计算（immersive computing）的价值，从人的认知负荷上讲，实际上 2D 界面让复杂的 3D 信息简单化了，反而更容易让大脑处理和吸收。
举例，经常看到 AR 眼睛的宣传片有 3D 的数据可视化，但实际上，2D 的数据更能让人吸收和做出判断，因为需要认知的纬度少了一维。再有，会画画的人都知道（我是从小学画），对着真实模特写生的难度要远远高于对着照片画，因为照片把 3 维的信息简化提炼到 2 维了。

不符合人体工学（Ergonomic）

《少数派报告》和《复联》等科幻电影中的交互画面很酷炫。但从人体工学角度上讲，人的手是很难没有支撑的在空中停留很长时间的，所以长时间操作手势界面是不现实也不实用的。具体可以参考 Leap Motion 的文章Ergonomics in VR Design。

触感缺失

触感反馈是交互中极为重要的一个体验因素，在 iPhone APP Store 中下载一个 APP 时，有多少人对“叮当”一声所伴随的即时震动反馈心满意足？有多少人体验到 MacBook 触控板在 Keynote 中对齐一个参考线时“嗝铛”一下的触觉反馈，告知用户你的图形 Snap 到参考线上了？这些细节对体验的提升是至关重要的。
且不说这些细腻不易察觉的微交互，你使用手机触屏的时候，清楚的知道手指碰到了屏幕，这也是一种强有力的触觉反馈。但很遗憾，在 AR 手势交互中，你甚至无法通过触觉判断你手指是不是触碰到一个虚拟按键。
有人可能说，你可以通过视觉听觉模拟触觉，那么我们来看看 iPad 的发展，为什么过了这么多年的产品迭代，苹果花了大力气重新给最新的 iPad 设计了键盘和触控板，因为相比于 iPad 上打字，按压物理键盘的触感反馈的体验和效率都是无可替代的。

社会习俗的接纳

语音交互发展到今天，识别准确率和语义理解技术都非常不错了，为什么依然没有成为大流行的趋势，其中一个原因就是社会习俗（social norm）。人们非常不愿意在公共场合和机器对话，因为不符合人的社交习俗，即便语音搜索更快，你愿意在地铁里用语音让 Siri 给你播放你喜欢的歌曲吗？所以语音交互更多还是应用在家庭智能音响的领域。同样地，手舞足蹈的手势交互即便在办公室，依然会影响你同事的注意力，甚至遭来异样的目光。

那么，今天交互设计存在的真正问题是什么？

从更宏观的角度看，今天的交互设计的问题不是缺少一个新的 AR 界面，手势交互，多模态交互或者科幻电影里的脑机交互，新技术可能性带确实可以带来新的可能性和想象，但那些是以科技为中心的设计（这是科技公司非常常见的设计思路，没有贬义，也是科技创新的内在驱动力）。然而，如果所有对未来的 vision 都是以炫酷技术为中心来思考，我们很可能再一次跌入 Google Glass 类似的硅谷技术控的思维陷阱，一不小心就让炫酷科技的狂热凌驾于尊重人性常识之上。

今天交互设计中最大的问题：

无数的智能设备，无数的屏幕，无数的提醒通知，导致大量的信息过载，完全超过用户能消化的范围，用户获取越多的信息，就越焦虑
科技公司 KPI 导向的商业竞争导致每个设备和软件都在争夺用户有限的时间和注意力。
产品和游戏设计挖空心思地让用户上瘾，于是刷个新闻、抖音就仿佛掉进时间陷阱，无穷尽的消耗用户精力和时间。而每个人放下手机的一瞬间，感觉被掏空

在手机刚普及的阶段，有心理学家发现很多人出现幻听自己手机响了的现象，后来把这个现象叫“Phantom vibration syndrome”，也叫 ringxiety（铃声焦虑）。近些年，手机铃声被震动和人们频繁的检查手机的习惯取代了，于是出现了一个新的焦虑“低电量恐惧”，不少人每当手机电量低于 10% 又无法立即充电就产生巨大焦虑感。

这中趋势真的是我们希望科技引领的未来吗？

那么如何解决这些问题，下一代人机交互的方向是什么？

我非常认同 Mark Weiser 的“宁静技术”Calm technology 的理念，其中最重要的一篇文章叫《面向 21 世纪的计算机》（The Computer for the 21st Century）。这个理念的核心建立在普适计算（Ubiquitous computing）的前提下，其实就是今天讲的万物互联。在十几年前，万物互联的交互几乎是个伪命题，因为大家只有 1-2 个计算设备（主要是手机和电脑），但今天随着计算设备的增加，这个问题讲会逐渐凸显。我们曾经一直再给设备做加法（加芯片，加屏幕），未来我们需要给智能设备做减法。让人机交互虽然无处不在，但又隐匿不见。

那么怎么做？我基于“宁静技术”的理念基础上抛砖引玉：

1. 去屏幕 / 超屏幕，最小化用户注意力

好的交互应该像水一样，润物细无声。我们曾经解决问题的方式总是“砸一个屏幕上去”，仿佛一个没有屏幕的产品就不是互联网智能时代的好产品。比较认同 Golden Krishna 的观点“最好的用户界面就是无界面”（和他书的名字一样《The best interface is no interface》）

智能灯泡都配有一个 APP，但为什么不能我回到家、走到房间里就自动开灯？而回到屋子里睡觉时就自动关闭？(当然也又公司在做了，比如 Nanoleaf）
家里的恒温器为什么不能感知我生活习惯，自动根据我的习惯调节温度？（Nest 做到了，也成为欧美地区最畅销的恒温器之一）
当你手里拎满购物袋走到车里的时候，为什么后备箱不能自动打开？（不少车已经支持车主揣着钥匙了踢一脚就能开后备箱，但未来随着计算机视觉的进步，这一步也可以省略，要知道现在大部分车都有后置摄像头）
为什么蓝牙耳机要打开手机蓝牙设置才能连接和断开，为什么不能戴上即连接，摘下即断开？（AirPod 做到了，然后成为全世界最赚钱的耳机，也定义了整个行业标准）

去屏幕、最小化用户注意力的设计思维已经在逐渐发生，并且也证明了其商业价值。超越屏幕思维，拥抱人们最基本的行为习惯说起来再简单不过，但也却是 App 时代留给我们的病根。

2. 感知用户情境（contextual awareness），主动适应（adapt）用户需求

情境感知是利用设备各种传感器来识别和推测用户意图，从而做出最合理的交互决策和推荐。

举个现有的例子，每天早上开车上班，我坐进驾驶室，把手机放到支架上，苹果地图会自动告知我交通堵塞情况，需要几分钟到公司，也会一键找到最优路线导航到公司。

这个贴心的智能推荐怎么做到的，他通过 GPS 数据，知道我位于家附近，然后根据时间推断是我常规上班时间段，然后检测到我的手机通过蓝牙自动链接到了车载系统，于是推测我要去公司。并不是个非常复杂的逻辑，任何了解你生活习惯的人在你坐上车的同时，都能做出同样的判断。通过简单的情境感知和预测用户意图，来用最小的用户输入，用简单的技术来帮助用户完成任务。这里就是 Calm tech 设计原则中讲的

能解决问题所需的最少的技术就是正合适的技术（The right amount of technology is the minimum needed to solve the problem）

Google Home Hub 作为一个家庭的公共设备，能通过摄像头识别用户是谁，从而显示关于这个用户的推送信息也是情景感知的第一步。这种技术能力会随着计算机视觉和各种物联网传感器的丰富而更强大和智能，也更加能让设备更主动适应于每个个体的需求。

3. 让多个设备像一个一样工作

我们在设计每个智能设备时，总是希望能在这个设备中添加更多的功能，而很少去考虑一个设备如何在一个整体网络中扮演自己的角色。于是每个设备都成为一座孤岛，相互独立运作，缺乏沟通协作，甚至是重复干同样的事情。

举一个我几乎每天都用的一个实践案例，当同一个 Apple ID 登陆多个苹果设备时，你可以在一台设备上复制，在另一台设备上直接粘贴。没有任何多余的 UI，甚至连一个从另一个设备上跳出来的 UI 提醒都不需要，交互方式让科技隐形在背后，毫无冗余，实用且易懂。Just works！

再举个日常的糟糕体验的例子，一个用户拥有智能手表，手机，耳机，可能还在看着笔记本电脑，他把一个 IM 软件（比如微信）同时登陆到多个终端上，这时候，来了一条信息或语音通话。于是，突然间，手表震动了，耳机响了，手机亮了，电脑也弹出了提醒。

每当类似的情景发生时，我总是感觉像被冒犯了，就好像一个人来你家敲门，他不仅使劲敲门，给你打电话，还外加同时在门外喊你。唯一的解释就是他有个急迫不得了的事要（比如家里着火了），要不然相信大部分人都能认同这个人非常没有礼貌。而今天，我们的智能设备就是在重复这种“没有礼貌”的行为。

理想情况应该什么样？为了判断给一个提醒通知的正确形态，系统需要判断我在什么状态，希不希望被打扰？这个信息有多重要，是个必须要会复的紧急事件，还是一个公众号更新的推送通知？这个信息是私密的还是可以公开的？我身边有没有其他人？我在什么状态下，比如在跑步，手忙脚乱的做饭，或是做给领导做一个工作汇报？我身边有哪些可以展示这个提醒的表面（手表，音响，手机，电脑等）？基于一系列的判断，来决定究竟是作为手表的一个轻轻震动，还是选择用我身边的一个智能音响把信息朗读出来，或者延迟到晚点提醒我。

再举个多端联动的例子，你如果和你爱人用手机打视频通话，当你走到厨房开始做饭时，视频能不能自动切换到厨房的有屏音响，这样就不需要用湿漉漉的手去拿手机？

随着各个科技公司致力于打造一个智能设备的生态系统，让多个智能硬件和软件多端联动，这个问题会越来越被重视，也是 Google 提出 Ambient computing 的概念的初衷。而这部分的能力，需要从底层 OS 系统搭建，硬件生态和每个具体软件产品的做系统性的思考和战略布局，目前有这种实力的公司也确实屈指可数。

总结：

我不认为下一个革命性的人机交互方式是由某一种具体的媒介来代表（比如手势，AR，语音，多模态）等，因为这些思维模式依然停留在把“人机交互模式”作为问题本身了，交互模式是解决问题的媒介，而不是问题本身。当然，新的交互模式会随着新媒介更广泛的应用而兴起，但我很难把这种改变定义成革命性的改变。图形界面让计算机成为每个人都能使用的工具，手机触碰交互让计算设备和我们形影不离，这都是革命性的。

下一代革命，将会是要解决如何让无数的屏幕，无数的智能设备与环境、与人更好的共生，让人成为更好的人，而不是成为被计算计物化的“用户”。Mark Weiser 的“宁静技术”（Calm technology）在上世纪末就指出可一个可行的道路，这是一条看似与抢夺用户注意力的现代商业逻辑背道而驰的道路，但也许过了很多年我们会发现，大智若愚，或许让科技“消失”在背景，最小化人的注意力，让每个人成为更好的人，才是最智慧的商业逻辑。

我想这场革命可能不会是像 iPhone 出现一样的轰轰烈烈，而会更加润物无声。希望等到 10 年，20 年后，我们的世界不是像 Keiichi Matsuda 视频描绘的一样，变成充斥着 AR 信息和屏幕的反乌托邦（Dystopia）世界，而是秉承宁静技术的理念，让科技隐匿不可见，消失在背景，无声无息地辅助人和人，人和物，人和自然的交互。

最后用 Calm Technology 的倡导者 Amber Case 的一个设计原则结尾：

Technology should amplify the best of technology and the best of humanity
设计应该强化科技和人性最好的一面。

阅读原文

Trade Forex, Commodities, Stocks and more, trade CFDs on the Plus 500 CFD trading platform! *CFD Service. 80.6% lose money - Register a real money account here and get trading right away.

Disclaimer: Please note all prices are for information only, they should not be relied upon for accuracy or trading. All prices quotes are based on CFD prices and are similar though not always identical to real exchange prices. STOCKTRKR or anybody connected with STOCKTRKR will not accept any liability for loss or damage arising from use of any information/commentary/charts or articles which is provided 'as is' for educational purposes only, nothing contained on this website should be considered as investment advice - please seek proper investment advice from registered financial broker or institution if you wish to trade on global markets and ensure you are familiar with the risks.