穿颜色成对的袜子，追最新的剧：这群coder正帮视障者移走身上的大山

在你的印象中，视障集体一般会从事哪些职业？如果被问到这个题目，大多数人想到的第一个答案可能都是推拿师、按摩师。恐怕，没有人会想到「化妆师」。「瞽者怎么还能化妆、拍抖音、回私信呢？是骗人的吧！」抖音视频博主「瞽者美妆师肖佳」经常会受到这类质疑。和无数视障人士一样，肖佳最初也从事过按摩工作，但这份工作并没有束缚住她。北漂的经历让她发现了自己人生的更多可能性并找到了兴趣所在。6 年间，她教会了数千名视障女性化妆。肖佳的抖音视频截图本来从肖佳的身上不难看到，随着技能的进步，视障集体的就业范围早就不再局限于推拿、按摩等传

在你的印象中，视障集体一般会从事哪些职业？如果被问到这个题目，大多数人想到的第一个答案可能都是推拿师、按摩师。恐怕，没有人会想到「化妆师」。

「瞽者怎么还能化妆、拍抖音、回私信呢？是骗人的吧！」抖音视频博主「瞽者美妆师肖佳」经常会受到这类质疑。

和无数视障人士一样，肖佳最初也从事过按摩工作，但这份工作并没有束缚住她。北漂的经历让她发现了自己人生的更多可能性并找到了兴趣所在。6 年间，她教会了数千名视障女性化妆。

穿颜色成对的袜子，追最新的剧：这群coder正帮视障者移走身上的大山

肖佳的抖音视频截图

本来从肖佳的身上不难看到，随着技能的进步，视障集体的就业范围早就不再局限于推拿、按摩等传统行业，越来越多的视障者渴望或正在从事和明眼人一样的工作，比如有声主播、云客服、数据标注师等。只是，这一人群所占的比例还比较小。

这其中的原因是多重的，包括工作机会少、无障碍支持做得还不够等等，这导致无数视障者在「迈出家门」这一步就被卡住了。

为了改变这一集体的境遇，社会各界正从各个方向发力，科技是其中一个比较有效的方向，包括近年来已经在各行各业找到应用场景的 AI 技能。

不过，对于技能人员来说，实验用 AI 帮助视障集体可能并不容易，因为这类项目的用户调研更难开展，可借鉴的成熟模式也比较有限。就像字节跳动的一位算法工程师所说，「我们隐约觉得视障集体会因为看不见东西而面临无数困难，但是具体有什么困难我们也不知道」。

在 AI 技能圈，抱有相同疑惑的工程师不在少数。因此，从去年 8 月份开始，字节跳动就组织了一场以「AI 助力视障集体」为主题的大赛，即「2022 技能公益创新杯大赛」，希望助力视障集体在生活和工作上更好地融入社会。

为了确保选手对视障人群有足够的了解，同时确保他们的创意作品有足够的迭代时间，大赛在比赛初期就引入了肖佳等受益人评委，而且用 5 个多月的时间组织了初赛、复赛、决赛三大环节。双方在经历了多轮沟通、交流之后都对要解决的题目、可应用的技能有了新的认识，也为广大想要在这一领域有所贡献的技能人员提供了一些参考。

关于视障需要的一些「误解」

哪些是「真需要」？哪些是「伪需要」？

对于明眼人来说，生活中能够感知到的无障碍设施本来并不多，盲道算是最为明显的一个。无数人会吐槽盲道会导到树上或沟里，用起来令人胆战心惊。但受益人评委之一、北京一加一残障公益集团合伙人傅平地却说，这些吐槽本来并没有抓住重点，视障者本身有办法避开上述障碍。

比起吐槽中提到的题目，更加困扰傅平地的本来是一些开阔区域盲道的缺失，比如斑马线。这些地方参照物少得可怜，视障者很容易走歪、进错路，这恰恰是盲道应该发挥作用的地方。

在比赛中，选手们也经历着类似的认知冲击。

想要做一款「助视辅具」帮助视障人群了解周边环境的微光团队回忆说，他们起初设计的产品包含危险物品的识别，比如提醒视障者前面有个坑，或周围有刀具。但在进行深入的用户访谈后，他们放弃了这个功用。因为视障者借助盲杖等工具也能探测到危险物品。在熟悉的环境中，他们甚至能把周边物体的位置背下来。

主打「对话式视觉助手」的灵瞳团队也遇到了需要理解不到位的题目。他们的产品逻辑是让 AI 理解视障者拍的照片，以问答的办法告诉他们照片上的信息。在最初的版本中，他们设计了一个提醒视障者物品是否入镜的功用，不过后来因为交互起来不够简洁又把这个功用删掉了。但傅平地告诉他们，这个功用对于视障用户还是很重要的，所以他们最后又把这个功用捡了回来，并实验用更简洁的交互逻辑来实现它。

穿颜色成对的袜子，追最新的剧：这群coder正帮视障者移走身上的大山

灵瞳团队作品功用介绍

视障者＝瞽者？

无数人在听到「视障者」这个词的时候，都会简单地将其等同于「瞽者」，这无疑是一种误解。

本来，截至 2021 年，我国总共有 1750 万视障集体，其中瞽者有 875 万，其余可以被归为「低视力」等范畴。在傅平地身上，微光团队看到了这两类集体的差异。傅平地本身属于低视力，所以他希望助视辅具不仅告诉他某个餐馆在屏幕的哪个方向，还要提供一个放大镜功用，方便他贴到眼睛上看。「这是之前没有想到的需要，」微光的队长坦言。

除了视力，视障集体对光的感知能力也是不同的。有光感的肖佳习惯于晚上开灯，因为那种「亮亮的感觉」让她觉得很舒服。但没有光感的另一位视障用户同样习惯于晚上开 / 关灯，因为他需要以此为信号告诉别人他是否在休息。不过，和肖佳不同，他还需要借助某种方法判断灯是开着还是关着。在了解到这一需要后，微光团队把将亮度检测功用加入了自己的作品。

这类光谱式的需要点挖掘让受益人评委深感欣慰。傅平地评价说，「我们社会并不是所有人对残障的认知都达到了正确理解的程度。同学们的作品本来开了一个好头，就是识别用户。在这个用户光谱里，还有无数处在渐变色的中间用户，本来这部分用户是最值得被挖掘出来的。」

眼睛不好，补两颗智能的就能解决题目？

在明确了视障集体的需要之后，选手们接下来面临的题目就是怎么满足这些需要，以什么产品形态来满足。

普通技能人员最容易想到的品类可能就是智能眼镜，因为这和人的眼睛在形态、功用上是最像的。这类眼镜往往用摄像头采集数据，然后用耳机把 AI 处理后的结果播报给用户。这些年，傅平地已经见过不下五款智能眼镜，设计者的想法基本都是「你眼睛不好，我就给你补两颗智能的」。

起初，微光团队的助视辅具也有这类倾向，但傅平地的一番解释让他们明白了为什么这类形式行不通。

首先，从信息采集办法来看，人的头部在行走过程中是不稳定的。

其次，眼镜 + 耳机的形式大量占用耳朵，而耳朵又是视障者接收周围信息的重要感官。为了保持听觉的灵敏，他们下雨天甚至都不怎么打伞。

最后，视障者本来希望在接受技能辅助时拥有自主权。他们不需要辅具时时刻刻工作，只想在需要的时候拿出来用一下。因此，他们希望这款辅具是方便摘取且按需播报的。

「我们期望技能能解决的，就是遵循现有的办法，让视障者的学习成本更低、便利性更高。如果想做一款设备来替代人的器官，目前来看，这类思路基本都不可行。」傅平地解释说。

在听取了傅平地的建议后，微光团队把助视辅具的形态改成了颈挂式，交互办法也演变成了用扬声器按需播报。这款设备可以满足日常生活、出行的一些基本需要，比如物体、信息识别，建筑物内导航等。此外，该设备还支持向附近在线的人发起求助。

穿颜色成对的袜子，追最新的剧：这群coder正帮视障者移走身上的大山

微光团队作品3D打印样品

一份「超出期待」的答卷

「您试用过选手的作品吗，感觉怎么样？」在被问及这个题目时，傅平地的回答是：超出期待。

以灵瞳团队的「对话式视觉助手」为例，傅平地对它的期待原本是：能实现一个功用就很有价值了，结果灵瞳做出了无数个。通过对话式主动智能，你既可以问视觉助手衣服的款式和价格、袜子的颜色是否一致、薯片的口味和保质期，也可以和它聊聊文章的配图、电商主播的穿搭……

，时长00:25

灵瞳团队作品demo

这类主动式的对话办法有多方便呢？在一个视频中，肖佳曾介绍过她如何获取药品信息：先把说明书拍下来，然后找一个 OCR 软件进行识别，最后再借助读屏软件把所有信息读出来。这类信息获取办法是非常低效的，因此听语速飞快的倍速语音成为了每个视障者必备的技能。但在主动式对话交互中，视障者不需要再忍受这类折磨，在接收技能辅助的时候拥有了更多自主权。

这类超出期待的能力离不开多模态技能的支持。灵瞳团队介绍说，目前国际学术界无数人都在实验用 VQA（视觉问答）等多模态方法解决视障类题目，只是还没有实现大规模工程落地。

穿颜色成对的袜子，追最新的剧：这群coder正帮视障者移走身上的大山

vizwiz 公开的用于解决视障类题目的 VQA-Grounding 数据集。照片由视障者拍摄。

同样采用了多模态技能的还有聆影听光团队，他们的目标是用 AI 实现视频无对白片段的内容理解，进而为这些片段生成旁白，方便视障集体追剧、看电影、刷视频。与传统的人工办法相比，他们的方法会显著降低无障碍视频的制作成本和周期，满足了视障者想和朋友沟通最新影视作品的愿望。

，时长00:35聆影听光团队作品demo

当然，受到多模态技能发展水平和可用数据集等方面的限制，这些应用的准确率现在还达不到那么高，因此选手会担心把这样的产品拿给视障集体用是不负责任。但傅平地很喜欢这些作品，因为根据他自己的体验，视障者本来对这些 AI 技能是有一定的容错能力的，比如「你即使把 57 路公交车看成 51 路，我也能判断车它是 57，因为我知道这个站点没有 51 路」。

「只要是在正确的路上，有就比没有强，」傅平地总结说。

从「面对面」到「肩并肩」，「改变」正在发生

「视障是压在身上的一座大山。你从小就是被否定的，你看不见就做不了这，做不了那，你自己也那么认为。」肖佳这番话道出了无数人对于视障集体的刻板观念，这也是无数视障题目迟迟难以解决的根源。

持有这类观念的明眼人在帮助视障集体时往往会以一种「面对面」而非「肩并肩」的态度来看待事情。「比如我们想象一个画面，在飞机座舱里面，一个空乘背着一个肢体障碍者。可能从外界的角度，他很容易看到航空公司提供了温暖的服务。但从障碍者的角度来看，他会想为什么飞机上没有轮椅。作为被背着的那个人，他本来没有那么舒服。」傅平地解释说。

在傅平地看来，灵瞳、微光等团队的可贵之处在于，他们在帮助视障集体的过程中完成了从「面对面」到「肩并肩」的视角切换，真正做到了站在视障者的视角去解决题目。

这类让视障者更加自主的解决题目的办法对于他们建立自信也非常重要。当做无数小事的学习成本降下来之后，他们会更加愿意实验。就像肖佳所说，视障者学会了化妆就不会只想做按摩师，也会想实验主播等新兴职业。

穿颜色成对的袜子，追最新的剧：这群coder正帮视障者移走身上的大山

在经历了 5 个多月的赛程后，2022 技能公益创新杯终于在前段时间迎来了决赛。文中提到的几个团队均在决赛中取得了优异的成绩。其中，灵瞳和聆影听光团队获得了大赛一等奖，灵瞳还和微光团队一起获得了最受欢迎奖。

虽然比赛已经告一段落，但从更长的时间维度来看，它只是一个开始。目前，大赛的相关人员已经开始着手后续的孵化工作，希望大赛中诞生的这些 idea 能够让更多的视障者过上更加体面的生活。

{{userData.name}}已认证

穿颜色成对的袜子，追最新的剧：这群coder正帮视障者移走身上的大山

我用ChatGPT写神经网络：一字不改，结果竟然很好用

和TensorFlow一样，英伟达CUDA的垄断格局将被打破？

微软开源 bitnet.cpp 1-bit LLM 推理框架：不靠 GPU 可本地运行千亿参数 AI 模型，能耗最多降低 82.2%

消息称微软 AI 助手 Copilot 已可在中国内地正常使用

成功率提升15%，浙大、碳硅智慧用LLM进行多属性分子优化，登Nature子刊

Meta 为 WhatsApp 即时通信软件引入 AI 机器人聊天记忆功能，可提供个人化推荐

谷歌这款新概念键盘，治好了我多年的老病

突破视频多模态大模型瓶颈！「合成数据」立大功，项目已开源

以图灵机为师：通过微调训练让大语言模型懂执行计算过程

智谱清言上线情感语音模型 GLM-4-Voice：可理解情感，有情绪表达和共鸣