AI 很火,大模型很火,但是国内没有任何一家 AI 公司赚钱,文心一言从上线到现在据说营收不超过 50 万美元。
各家都在想着怎么使用 AI 才能造出新产物,但是在移动互联网时代用户的需求已经被挖掘的差不多了,现在鲜少能有令用户 wow 一声的产物出现。作家觉得现在更应该做的是:使用 AI 这种新才能。以感受更好的方式解决用户的旧需求。
那么在不同的细分场景中,AI 才能是如何对用户的旧需求从事感受重造的呢?下文就以微信念书为例,来从事详细的分析。
微信念书 APP 前几天上线了 AI 问书相关的性能,作家使用下来感觉很不错。其实微信念书之前已经上线了不少 AI 相关的才能,有 AI 纲领、AI 听书、还有 AI 翻译。下面我们就一起从这四个具体的性能来看一下,微信念书与 AI 才能融合之后,在阅览这个细分场景下是如何晋升用户感受的?
一、首先来看最新上线的「AI 问书」
AI 问书其实就是一个搜寻性能。用户在阅览的过程中,如果遇到了不懂的概念,就可以将对应的笔墨选中,然后点击 AI 搜寻,就可以出现对这个词的搜寻结果。如下图:
在我读 ChatGPT 技能原理的一本书时,遇到不懂的链式法则概念就用到了 AI 搜寻性能,可以看到在第二页给出了非常详细的解释,而且生成速度在 10 秒之内。除此之外,还会根据用户的问题判断用户可能想问的其他问题,帮用户列出来,这一点也十分重要,因为当面对一个新领域的知识时,用户有可能处于不知道自己必要学习什么的状态。
如果只是这样的话,那这也只是一个搜寻性能,微信念书的感受优秀之处还可以分为两个方面来讲:
第一方面是:搜寻的起点和终点都发生在同一款产物的同一个页面之中。
阅览本身就是一种非常必要沉浸的行为,如果像以前那样,我们遇到了一个不懂的新概念,然后跑到手机浏览器上去搜寻,那会产生两个问题,第一个问题是发生了不同手机应用之间的切换,这会导致用户沉浸式阅览的行为被中断。
另一个问题是在浏览器中从事搜寻时有可能在不同网站之间从事切换来对比这个概念的含义,才能够比较准确的判断出在自己的阅览场景中什么样的解释是符合语境的。
前者对于用户使用时长显然存在不利的影响,后者也晋升了用户离开微信念书这款产物的时长,并且整个过程感受也很差。而在微信念书上线了 AI 搜寻的才能之后,我们可以直接在某本书某段笔墨上从事选择,然后结果就会直接在当前页面用一个浮窗的形式显示,并可以结合上下文来判断用户此时选择的这个词语的最佳用义是什么。这样就可以给出用户一个最必要的,最合适的结果。
有些词语可能没有正确之分,但是一定有合不合适语境的区别。举个例子,如果我在搜寻引擎中搜寻的是一个「苹果」的词语,那么结果到底应该显示出来红富士苹果还是苹果手机?这就是没有结合上下文从事搜寻时,搜寻引擎无法做出最正确判断的例子。作家本人就遇到过多次想在拼多多买点水果,结果搜寻结果页列出来了一堆手机的情况。
第二方面是搜寻结果的准确度、易了解程度的问题。
我们都知道,在通用大模型产物刚刚上线不久的时候,我们与 ChatGPT 这类产物对话时,经常会遇到胡说八道的情况。
虽然现在已经好很多了,但是很多用户包括作家自己,有时候依然会怀疑 AI 给出的答案是否是可信的,所以现在很多 AI 搜寻产物在给出答案的时候都会将答案的来源列出来来增加回答的可信度(另一方面意思是为了方便用户去原文链接中查找更多信息)
刚刚作家说了准确度,易了解程度这两个维度的感受。首先来说准确度。由于微信念书的搜寻结果基本是从整个产物中不可计数的书中从事查找的,所以对于概念的准确的基本是有保障的。虽然作家也是做自媒体,但是不得不承认,很多情况下已经出版的书中对一些概念名词的解释是更为准确、校对更加严格的。
再来说丰富度(或者叫结构化),从上面的截图中,大家也可以看到,当我搜寻链式法则这个词语的时候,整个搜寻结果给我列出了它的定义、应用、了解等三个部分的实质。正是由于从多方面,多角度给出的信息,帮助了用户更轻松的去了解搜寻词的含义,有的时候他甚至还会给你举个例子来帮助用户了解。
除了在书实质页面可以从事 AI 搜寻之外,在书商城的搜寻框中同样可以从事 AI 搜寻。我们假设一个场景:我想看余华最新出版的作品,但是我又忘了这本书叫什么名字,于是我在搜寻框中输入了笔墨「余华最新出版的书」。
搜寻结果虽然给出了很准确的回答,但却并没有直接给我打开这本书的入口,而我们直接搜寻第七天这个书名时,其实能够发现这本书已经在微信念书 app 中上架了。所以我们能够推测,在这里从事搜寻时,其实还是根据书实质从事的。
在前面的分析中,我们提到了微信念书结合具体的产物使用场景,为 AI 才能做了很细致的融合。但是这里就没有考虑使用场景,或者说没有对用户的意图做出进一步的判断。(意图识别将是很多 AI 产物的核心才能,这方面的分析将会在下一篇长文中从事详细解释)。作家觉得在一个阅览产物中输入某某的作品,那这个时候用户的意图应该是非常明确的,就是想找到这本书去阅览。这里没有做出更便捷的设计确实有些遗憾。不过也可以了解,毕竟这个性能叫做 AI 问书,而不是 AI 搜寻。当然从整体上来说,AI 问书性能还是一个具体场景与 AI 才能结合之后,对用户感受晋升非常大的案例。
接下来我们继续来聊聊 AI 纲领、AI 听书、AI 翻译。
二、AI 听书
听书性能其实是一个出现了非常多年的性能,那么为什么微信念书这里一定要把这个性能叫做 AI 听书呢?
大家还记不记得刚开始出现笔墨转语音性能的时候,那些笔墨的发音都是什么样的?简单来说就是一个字是一个字的发音,没有词语的发音,语气词和儿化音的发音也都特别生硬。可以想象一下开心麻花的小品中,这位饰演机器人的妹子的发音。
后来随着技能的进步,笔墨转成的语音慢慢变得更加流畅,更加有感情了,在这个过程中其实就是 AI 才能的体现,在不同的词语中,哪些词哪些字应该重读,哪个字应该快读,哪个字应该慢读,以及、音色、音量等等,更加复杂的算法变得更加接近于人的声响了。甚至停顿、笑声也都有被比较准确的模拟出来。
如果大家曾经用过起点念书这款产物的话,也能发现在听书时选择「说书先生」选项相对于其他选项明显更加接近于人朗读笔墨的感觉。语音转笔墨才能是 AI 才能非常重要的一部分,在多模态交互中,不同模态信息之间的转换是工程师们的重要研究课题。
如果大家感兴趣,可以随便找一款比较山寨的阅览产物,试一试里面的听书性能的感觉和微信念书这个 AI 听书的感觉有多大的差距。
AI 才能为产物带来的可能不是一个全新的用户没有见过的才能,而更多的会发生在对已有性能的感受升级上。可能是更舒适,可能是更高效。所以作家觉得 AI 与用户感受之间的融合这方面的研究是非常有潜力的。还是那句话:用新才能,为旧需求,带来新感受,卖更多钱
如果我们从技能角度来解读一下 AI 听书相关才能的话,其实也有很多值得讲的点。这个性能主要集成了自然语言处理(NLP)、语音合成(TTS,Text-to-Speech)等人工智能技能的创新应用。以下是该性能的一些关键技能分析:
在听书性能启动时,系统首先必要解析电子书的文本实质。这一过程包括识别文档结构、章节划分、以及笔墨实质的准确提取。这一步骤对于确保流畅和准确的听书感受至关重要。
文本被解析后,通过语音合成技能将文本转换成自然人声。TTS 技能涉及到文本分析、韵律建模、语音合成引擎等多个子领域。高质量的 TTS 能够生成接近真人的声响,包括语调、停顿、重音等,以增强听书的沉浸感和了解度。微信念书可能采用了先进的深度学习模型,如 WaveNet 或 Tacotron 系列,这些模型能够生成更加自然流畅的语音。
用户可以根据自己的偏好调整朗读的语速、音色(如果应用供给多种声响选项的话)等参数。这背后的技能支持可能包括对预训练的 TTS 模型从事微调,或者利用算法动态调整音频输出参数,以满足用户的个性化需求。
虽然主要性能是听书,但结合“AI 问书”性能,微信念书还可能具备一定的问答才能,能够在用户有疑问时供给即时解释。这要求系统具备一定的自然语言了解和知识图谱技能,能精准定位到用户提出问题的相关文本,并给出合了解答。
听书过程中,微信念书还会同步用户的阅览进度,支持书签性能,使得用户在不同设备间切换时能无缝继续听书。这必要高效的云服务支持,以及良好的数据同步机制。
可以看到,在用户视角下,一个比较简单的性能,但是其中的技能过程还是非常复杂的。所以,当 AI 才能与各种应用传统的核心使用场景相结合时,如果想晋升用户感受还是必要更加系统性的思考。
三、AI 纲领
AI 纲领最重要的意思是增强了用户在索引、记忆和阅览灵活性等方面的才能。使用 AI 技能对书实质从事分析和提炼,形成结构化的纲领,读者就能在短时间内掌握全书的主旨和框架。这不仅可以节省读者的时间,还建议更好地了解和记忆实质。用户还可以通过 AI 纲领定位到自己感兴趣的部分,从事深入阅览,或是选择阅览,以此来优化个人的学习或休闲阅览策略。尤其在现在这种碎片化信息充斥着视野的环境下,用户们阅览长文章的耐心(才能)其实已经比较低了。而书恰恰是更长的文章,如果没有信息检索才能帮助用户找到必要阅览的重点,那阅览感受将会很差。甚至没阅览完就放弃了。
在阅览实质详实、信息量大的书时,用户往往面临信息过载的问题,难以快速把握全书要点。AI 纲领可以帮助用户在短时间内掌握书核心框架和各章节重点,提高了阅览效率和信息筛选才能。
对于知识型书,读者通常必要深入了解并记住关键概念。AI 纲领通过突出显示每个部分的主要论点和结论,辅助读者构建知识体系,加深了解和记忆,避免因遗漏重要信息而影响对整体实质的了解。用户在完成阅览后,想要复习或回顾特定章节时,AI 纲领也供给了一个方便快捷的途径。用户可以直接通过纲领找到感兴趣或必要复习的部分,无需再次浏览全文,节省了时间。
对于时间有限或偏好跳跃式阅览的用户,AI 纲领允许他们根据个人兴趣或需求选择阅览顺序。用户可以直接跳转到自己最关心的章节从事深度阅览,增加了阅览的灵活性和个性化。
以上是 AI 纲领在阅览前、阅览中和阅览后的一些意思,而对于一些特殊角色例如学生、研究人员等必要大量阅览和整理资料的群体,AI 纲领性能相当于一个自动化的总结和笔记工具,帮助他们快速归纳书实质,为撰写论文、报告或做研究供给了便利。
AI 纲领的技能原理流程图大致如下:
四、AI 翻译
由于这个性能的意思相对简单,所以放到最后,AI 翻译在跨语言阅览难题、即时了解、专业术语了解等方面都能为用户解决极大痛点。
在阅览外文书或遇到不懂的外语词汇时,AI 翻译性能可以直接供给翻译,帮助用户克服语言障碍,从更多来源获取信息。也无需切换应用或查阅纸质词典,AI 翻译的即时性让用户在阅览时能迅速了解难点,保持阅览思路的连贯性沉浸性。同时对于专业术语了解:针对专业书或领域特定词汇,AI 翻译的优势也比较大,要知道很多外文包括英文并非像汉语一样,是有很多单字来组词满足一些专业术语和新词语的需求,而是出现一个新的概念就必要一个新的单词来从事表示。
例如,“计算机”(computer)这个词是由“计算”(to calculate)和“机”(machine)组合而成。这样的方法使得汉语能够快速生成新词,而不必要完全创造新的字符。
以英文为例,一个人的博学程度几乎可以用他掌握的单词数量来计算,以前作家看到一篇新闻就是以埃隆·马斯克掌握大量工程学、航天技能、人工智能和商业等领域的专业术语而体现其才能。
对于整个产物而言,便捷的语言转换服务,还可以极大地拓宽了不同母语用户的用户群体,这也是很重要的一点。
作家认为 AI 技能将继续以多种方式深刻改变用户感受,从个性化、交互性、效率、可达性、情境感知、到创造性和便捷性等多个维度全面晋升。以下是一些具体的改变方式:
个性化感受:AI 通过分析用户行为、偏好和历史数据,供给个性化推荐,如个性化实质、产物、服务或广告,使用户感受更加贴合个人需求,增加用户粘性。例如,电商平台的个性化商品推荐,音乐和视频流媒体的定制化播放列表。
智能交互:自然语言处理和语音识别技能让 AI 能了解并响应用户的口头指令,供给语音交互,如虚拟助手、AI 客服,减少用户操作步骤,晋升便捷性和友好性。同时,AI 还能通过表情识别和情绪分析,晋升交互的情感智能。
自动化与效率:AI 自动化处理重复任务,如信息摘要、文档整理、数据分析,释放用户时间,使他们专注于更有价值的活动。AI 还加速响应时间,如即时翻译、搜寻结果,晋升效率。
情境感知:AI 能根据用户所处的情境(位置、时间、设备、历史行为)智能调整服务,如智能家居根据作息自动调节灯光和温度,旅行应用根据天气和交通状况推荐行程。
创造性辅助:AI 生成式技能,如文本、图像、音乐生成,为创作家供给灵感和辅助,加快创作过程,同时个性化实质创作,晋升用户参与度和娱乐感受。
无障碍晋升:AI 助力实现无障碍设计,如自动字幕、语音转文本,帮助视障、听障人士,使技能惠及更广泛人群,推动包容性设计。
教育与知识获取:AI 个性化学习平台,通过智能适应性学习路径和反馈,供给定制化教育资源,使学习更有效,同时 AI 辅助答疑,如“AI 问书”,即时解答疑惑。
健康:AI 在健康管理、心理健康支持、疾病预防和远程医疗方面发挥作用,通过监测、预警、分析数据,供给个性化建议,改善健康维护感受。
金融与服务:AI 在金融领域的应用,如风险管理、欺诈检测、智能投顾,晋升安全性同时个性化金融服务,简化流程,为用户供给更快捷、安全的金融服务感受。
AI 技能通过深度融入产物和服务的各个层面,不仅仅是供给定制化和即时的解决方案,还在创造新的交互方式,目前比较确定的就是未来的智能硬件产物将会以多模态交互的形式与用户从事交流,而不是今天的以触屏为主。
以最新发布的 ChatGPT-4o 为例来讲讲多模态交互的意思大概如下:
如果仅仅把多模态交互才能了解成了我们可以不仅仅使用笔墨和 GPT 交流了,这么了解实在太小看多模态交互才能了。要知道,人类通过笔墨表达和声响表达,即使是完全同样的文本。所包含的信息也有很大的差别。笔墨只是静态的信息,而声响包含更多维度的信息。例如语音、语调、音量、语速、停顿、重音等等。同样是「你好」,笔墨只能表达 1 种含义,而声响可能能表达 4-6 种。对于程序来说,多模态交互意味着从更多来源获得信息(指视、听、文、环境等来源)。也意味着获得更多信息(例如刚刚所说的声响维度的语音、语调、音量、语速、停顿、重音)。这仅仅是从声响一种模态中可以扩展出的新信息,而多模态包括视觉、语音、图像、文本、触觉等等很多方面的信息通道。
从多来源获得信息并获得更多信息,GPT 就可以缩短推理、判断等过程,更快速的给与用户回复。这就像是用户自动的把提问描述的更详细了,把自己的要求说的更清楚了,如此一来 GPT 给与反馈的速度和质量自然会有对应的晋升。(当然同样也有模型方面带来的晋升)
除了声响之外,GPT-4o 的多模态交互才能还包括视觉了解才能,例如能识别图像中的人脸,分析性别、年龄、表情等信息。这同样是我们刚刚所说的从更多来源获得信息以及获得更多信息。
以上是多模态交互才能中,人向 GPT 输入过程中的意思,那么对于人机交互的另一部分:GPT 向人输出的阶段,同样意思非凡。
GPT-4o 可以根据必要以最合适的模态从事回应,在之前 GPT 只能以笔墨从事回复,但之后则可以是笔墨、声响、图像。声响模态的意思是支持更多交流场景以及对无障碍交互的包容。图像的意思就不用多说了,无论是取代了命令行的图形化界面,还是晋升答辩时准备的 PPT,都能体现图像相对于笔墨的优势。
这里稍微展开了一点儿多模态交互的实质。如果想要完全说明多模态交互的整个体系可能必要几万字,后面有时间再慢慢更新吧。欢迎留言讨论~