我邀请了小米探索实验室的计划总监，和你聊聊智能音箱

南迪尔：‍Hi 大家好，我叫南迪尔。我大学毕业后在工业计划领域比较出名的计划公司 LKK 工作，‍‍然后12年加入baidu，‍主要负责baidu云的交互计划，后面成为智能硬件团队的计划经理，负责的项目包括小度Wifi、baidu路由器、智能手表Rom 等一系列智能硬件。‍‍2016年6月份加入小米探索实验室担任计划总监，负责小米路由器、小米VR 还有最近比较火的小米AI音箱小爱同砚。△ 图源：maryanne 志荣：‍你感到‍‍14年做的baidu路由器和现在做的小米路由器有什么不同吗？‍ 南迪尔：‍其实‍‍很多地方还是比较相似的，例如

南迪尔：‍Hi 大家好，我叫南迪尔。我大学毕业后在工业计划领域比较出名的计划公司 LKK 工作，‍‍然后12年加入baidu，‍主要负责baidu云的交互计划，后面成为智能硬件团队的计划经理，负责的项目包括小度Wifi、baidu路由器、智能手表Rom 等一系列智能硬件。‍‍2016年6月份加入小米探索实验室担任计划总监，负责小米路由器、小米VR 还有最近比较火的小米AI音箱小爱同砚。

我邀请了小米探索实验室的计划总监，和你聊聊智能音箱

△ 图源：maryanne

志荣：‍你感到‍‍14年做的baidu路由器和现在做的小米路由器有什么不同吗？‍

南迪尔：‍其实‍‍很多地方还是比较相似的，例如大家都在追求更简单的用户配置流程，‍‍用户对于互联网的‍‍主要需要依然是一个稳定的网络，这个需要不发生变化。‍

志荣：在我的理解里，‍用户的全部网络流量都要通过路由器，而且它是24小时开机的，我感到是不是只要加个语音功用它就能成为中控系统？，后面就不智能音箱的事了？

南迪尔：路由器和智能音箱都是中枢系统。两者的区别在于路由器是一个网络中枢，‍所有的东西都要通过路由器来连接到互联网。‍智能音箱是一个控制中枢，用户通过它来控制其他设备。你刚刚说的可以认为是理想状态或者实验室状态。但实际情况是，如果增加了语音功用，那么会有多少用户愿意花钱买这个路由器？比如说，现在一个路由器的价格大概是100块钱，如果增加一个语音功用，整个产物的价格要接近200元。如果这个路由器可以通过语音控制家庭里的 IoT 产物，问题来了，有多少家庭家里是有 IoT 设备的？如果增加了这个语音功用，这100块已经把不 IoT 产物的所有用户排除在外，而且购买这款产物的人群 IoT 需要到底有多少？用户有可能前两天用起来很爽，但是到后面可能只是用语音来开个灯。这些小需要能不能对得起用户多花的100块？

志荣：有道理。我想了解一下，这几年你都在做智能硬件的项目，你感到你在14年和18年做智能硬件计划时有什么变化吗？

南迪尔：我在baidu的时候，严格来说，当时的baidu硬件积累相对较少，基本将硬件外包给其他厂商，所以当时的我对硬件的把控力度相对较弱，而且了解的比较少，所以基本都是在做软件层面的计划。但到了小米之后，我发现小米的硬件和软件是属于同一个部门，而且小米在硬件上的积累很深。在小米的几年里，我对智能硬件有更深入的理解，包括硬件的组成部分、硬件的定义、软件和硬件的连接、还有它们之间是怎样交互的，同时我能对整个用户体验流程能看得更加完整。我们做计划的时候甚至可以影响硬件的计划。以智能音箱的配置过程为例子。当智能音箱的软件和硬件都摆在你面前的时候，你用手机配置音箱的过程中音箱会不断给予你反应，这会导致你的注意力在手机和音箱之间来回切换，我们感到这不是一个好的计划。我们认为用户的注意力应该集中在一个地方，所以我们有意地把用户注意力先集中在手机上，音箱作为辅助，它只要发出确认的声音就行了。当用户用手机配置成功后，再把用户的注意力转移到音箱上进行互动和操作。如果不这么做的话，用户注意力来回切换会导致整个配置流程很长，也会分散用户的精力。

志荣：那你们当时是怎样考虑智能音箱上的反应计划的？

南迪尔：当时计划小爱同砚的时候，灯光反应更多是辅助功用。灯光亮的时候其实在给你一个信号，意思是「你可以说话了」。灯光是特定的语言，它在模拟两个人对话过程中对方的眼神：对方的注意力是不是在你身上，是的话你就可以说话了。当然这时候的反应不只是灯光，还有声音的反应。声音反应是非常必要的，原因是当你背对着它的时候或者不看它的时候通过声音反应就知道可以操作了。我们第一版的声音反应计划用的是「嘟」，就像小爱同砚冲到你的身边；第二版我们将「嘟」改成「在，我在」，这能让人感觉到更温暖。还有我们的灯光定义了好几种模式。例如说「小爱同砚」，这时候小爱同砚发出的是灯光表示她在响应你以及在聆听；当你说完指令，灯光发生的变化代表她在思量；当她给予反应时灯光会有另外一个变化。这套灯光计划其实仿照了一个人的「我在听你说」、「我在思量」、「我在说」这三种状态。

志荣：你怎么看待最近 Echo show 增加了屏幕？语音交互是否需要屏幕？

南迪尔：这是肯定的，语音交互和屏幕结合是一件好事。我之前在知乎回答过一个问题，语音只适合有明确意图的输入，也就是说可以方便地问问题，但语音不适合输出，语音输出的内容太有限了，因为它是一维的，用户根本记不住。我当时在知乎上举过一个很让人崩溃的例子「中文请按1，English press 2，金葵花客户请按3」，当听过一遍后，我要按哪个来着，忘了，我还得重听一遍。音频选项你是记不住的，顶多就4个选项；但是视觉界面不一样，12个选项都不问题。

志荣：的确，我当时买了小度在家和小爱同砚，但我发现有屏幕的小度在家能做的事情会多很多。

南迪尔：你最近会用小度在家和小爱同砚来做什么？

志荣：不了，好久没用过。

南迪尔：现在小爱同砚更多是用来放歌，问天气，问生活中的一些百科知识，还有 IoT 设备的控制，我感到这是大部分人的场景和需要。

志荣：对，如果我家都不 IoT 产物，我都不知道我买一个智能音箱来干嘛。

南迪尔：用来放歌。

志荣：如果我连这个需要都不，那怎么办。

南迪尔：如果你连听歌的需要都不的话，那你为什么要买一个音箱回家呢？这说明你是一个尝鲜用户。买智能音箱的基本用来听歌。

志荣：如果智能音箱解决的主要需要是播放音乐，不其他需要会不会导致不人去研发其他功用，那语音交互怎么发展？我感到语音交互的发展会受到很大的局限。

南迪尔：语音交互很早就在手机上有了，但不爆发起来，是因为在公共场合的噪音比较大，人们在公众场合使用语音交互效劳不一定高；还有一些人感到对着一个手机说话会有点傻；还有是隐私的问题，所以语音交互的场景是有限的。之所以智能音箱能爆发起来，是因为它在家里，家里比较安静以及它是私密的空间。如果「隐私」和「不适感」这两件事情是人们心理接受程度问题的话，随着时候发展，人们会慢慢被接受。因为语音和搜索相关性比较高，输入效劳非常高。当一个高效的事情能克服不舒适感或者隐私问题，它会有市场的。

我邀请了小米探索实验室的计划总监，和你聊聊智能音箱

△ 图源：maryanne

志荣：那你感到移动互联网的计划和语音交互计划有什么区别？

南迪尔：移动互联网计划和语音交互在一些基本的、隐性的计划上是不区别的，比如说你都要考虑场景和用户的情绪。但语音交互的计划有点不一样，就是它不视觉部分，这会导致它是一个开放性的提问。视觉界面的好处是你能看到边界，你能进行引导；但语音是不边界和引导的，所以你要学会创造引导。比如说设置一个闹钟，视觉界面很简单，几个时候控件就能把你完全限制在这个功用里。但用语音设置闹钟，我可能说「小爱同砚我要设置一个闹钟」，然后它会问你「那你要设置几点呢？」，「八点」，「请问是早上八点还是晚上八点」，「晚上八点」，「好的，设置完毕」，语音交互会通过多轮对话把你的发散范围逐步缩小到这个任务上。

志荣：的确，我之前也想过这个问题，视觉界面能限制用户的想法，语音交互就不能，我们只能在语音上创造限制。要不我们再聊一下 VR 吧。2016年被称为 VR 的元年，突然间17年又变成人工智能的元年，你怎么看待2018年 VR 的发展，它是不是不温不火？

南迪尔：我感到 VR 的发展是正常的。新起的行业第一波总会吹成泡沫，因为投资市场不是冷静的。第一波泡沫过去后留下的人会继续推动这个行业的发展。现在行业的发展还是在硬件的成熟和积累阶段，包括现在的 Oculus Go、Vive，虽然它们现在很不错了，但它们不是最终形状。当它们逐渐接近最终形状的时候，会有越来越多的软件加入，有越来越多的人认识到它们的价值然后依赖于它们，最后他们才能形成最终的形状。

志荣：那你感到 VR 跟移动互联网的产物有什么本质的区别吗？

南迪尔：移动互联网的产物我们可以分两类，一类是 Save Time，它是省时候的，例如外卖、baidu；另外一类是 Kill Time，它是杀时候的，例如抖音、爱奇艺、今日头条。VR 目前来看更多是杀时候的，基本不包括省时候这个类别。VR 本身的硬件形状就决定了它不手机更省时候，因为你要戴上笨重的头盔，在里面看不到你的手指和不合适的键盘，你的输入效劳并不高；而且现在的头盔携带性不好，不能随身到处带着。如果 VR 想像移动互联网这样爆发的话，它的硬件形状一定要比掏手机更省事；而且价格很低。

志荣：我15年的时候写过一篇文章来分析 VR 和 AR 哪一个会先火起来进入大众的视野，最后我选择了 AR。我感到 VR 体验不只是依赖视觉和听觉，你的触觉、嗅觉都是息息相关的。但是 AR 不会有这么多的限制，它不会有这么多的技术瓶颈在这里，只要你搞定了图像识别基本就够了，你感到呢？

南迪尔：我感到手机普及速度很快的原因是它 Save Time 的功用很多，它能帮你联系到人、订外卖、查资料、买东西。同理，AR 能做很多 Save Time 的事情，所以我相信它的普及速度会比较快。VR 更多走的是 PlayStation 和 Xbox 的道路，就是娱乐和消费。如果 VR 想要走进大众的视野，在效劳层面一定要超过手机，现在某些领域 VR 的效劳优势非常明显，比如说看房，有了 VR 你就不用到现场看房了，还有像室内计划这些 ToB 的领域 VR 都有可能超越手机/PC 的体验和效劳。

志荣：那你感到做 VR 计划和做移动互联网计划有什么不一样的地方吗？

南迪尔：你计划的对象变了、计划的场景变了、计划的工具变了、计划的平台变了，但计划本质没什么变化。在形式计划上，你考虑更多的是 VR 平面和空间变得无限大，有前后和层次关系。

志荣：我感到还有一个因素：时候的变化。空间和时候是结合在一起的，平面就不一样，你可以盯着它去看很久，但你看 VR 电影的时候，你看左侧时右侧就看不到了，信息不能被用户接收，我感到这个也是 VR 和平面计划的很大区别。

南迪尔：对，你说的有道理。还有就是，有些信息有自己的展现形状，它们的传递是不需要三维空间的，例如图片、笔墨，它们不一定要转换成3D。当你要看一本小说，你把笔墨加厚变成立体的笔墨，其实不任何意义，因为笔墨的二维形状就是最优解了。VR 增强的是你的体验，在信息传递的角度来看它不太大的变化。但是有些东西本来就是三维产物，它们是带有三维信息的，例如你从一张照片里看到的房间和走进这个空间里看到的房间，感受是完全不一样的，三维信息在 VR 里展现才能突出 VR 的优势。如果你用一个高维度的工具来看低维度的内容，低维度的内容还是低维度的内容。所以你问 VR 的界面计划有什么不同，当你的二维内容从平面移植到三维空间时，其实不什么不同，只是展示面积变得更大了，计划时我能用更多的层次关系，但本质上笔墨还是笔墨，光标还是光标。

我邀请了小米探索实验室的计划总监，和你聊聊智能音箱

△ 图源：maryanne

志荣：最后一个问题，年轻的计划师怎么拓展自己的视野？还有怎么提高自己的思量深度？

南迪尔：我感到拓展视野分两个维度。第一个维度是知识的积累，你可以上知乎或者国内外的网站学习相关的知识以及阅读相关的报道，但我感到视野更重要的一部分是你要亲眼看到一些人做过的事情，你才会有感觉。例如你可以多参加一些展会和演讲，亲眼学习这些计划师是用了什么思路，最后做出什么样的产物。思量深度这个要多问自己几个为什么，时候长了就会形成习惯，你就会往最本质的原因去想。如果你想形成这样的思维习惯，一开始需要一定的刻意练习。刻意练习就是遇到一个问题，思量它背后的原因，然后把原因记下来，再去想这个原因背后的原因，如此重复下去，想到不能再想了。通过刻意练习的训练，你的思量方式会逐渐变化并形成惯性。还有就是别光想，一定要用笔墨写下来，大脑是一个很强的 CPU，但是它的内存不足，所以你要把笔墨和思量写到纸上，然后只让大脑去做思量的事情。

志荣：今天的收获蛮多的，非常感谢南迪尔的分享！

{{userData.name}}已认证

我邀请了小米探索实验室的计划总监，和你聊聊智能音箱

从景观到 AI 产品，这个设想师自己开发了一个「招行版鹿班」！

设想师如何在智能化时代持续进修和成长？来看高手的方法！

刚刚，AI颠覆物理模拟：一句话精准仿真，学术圈半壁江山联手耗时24个月研究成果

历时2年，华人团队力作，震撼开源生成式物理引擎Genesis，可模拟世界万物

细节表现超Sora，网友：真正的国产之光！MiniMax视频模型再上新

2024年AI 编程现在可以做到什么程度？

超越所有SOTA！最新UniScene：视频点云Occ三大生成任务全部暴力提升~

实测来了！Kimi发布k1视觉思考模型，实力颠覆K12教育赛道，涌现能力强得可怕，免费可用！网友：国产之光！

腾讯基于 RAG 和 Agent 技术的混元大模型业务落地实践

抢跑OpenAI！谷歌Gemini 2.0震撼登场：全面转向Agent，多模态输入输出，免费随便玩