看视频、画CAD、运动想像鉴别!75B的多模态产业大模型太能干了

今年升级的重点在于引入了多模态大模型才能。当 Sora 和 Suno 所创造的视频和音乐作品在全球范围内引起视听革命时,产业领域的大规模多模态利用又将如何演进?3 月 27 日,作为中国领先的「AI 制造」解决方案提供商,革新奇智揭开了他们的前瞻性答案。经过半年努力,革新奇智在北京举办的发布会上发布了更为强大的奇智孔明产业大模型 2.0 版本( AInno-75B ),几款大模型原生利用也首次亮相,包括 ChatVision 、ChatCAD,ChatRobot 也升级到 Pro 版本 。             

今年升级的重点在于引入了多模态大模型才能。

当 Sora 和 Suno 所创造的视频和音乐作品在全球范围内引起视听革命时,产业领域的大规模多模态利用又将如何演进?3 月 27 日,作为中国领先的「AI+制造」解决方案提供商,革新奇智揭开了他们的前瞻性答案。

经过半年努力,革新奇智在北京举办的发布会上发布了更为强大的奇智孔明产业大模型 2.0 版本( AInno-75B ),几款大模型原生利用也首次亮相,包括 ChatVision 、ChatCAD,ChatRobot 也升级到 Pro 版本 。

看视频、画CAD、运动想像鉴别!75B的多模态产业大模型太能干了

                               革新奇智 CTO 张发恩在发布会上

Scaling laws 的发现有助于研究人员和工程师们预测增加模型规模所带来的功能收益,以及为了达到特定功能目标需要的参数数量。如今业界已经形成一些共识,参数的提升可以让模型功能提升。较之 AInno-15B ,AInno-75B 在规模和功能方面取得了显著增长。

今年升级的重点在于引入了多模态大模型才能。张发恩解释说,这个进阶的大模型能够处理包括文本、图片、视频在内的多种信息模态,甚至能够融合产业场景中特有的数据类型,比如 CAD 图纸和 EEG 信号。它的输出同样多样,能够生成文本、图像、视频、CAD 安排图或者具体操作行为。

看视频、画CAD、运动想像鉴别!75B的多模态产业大模型太能干了

一、ChatCAD: 产业“文生图”之美

C端AIGC利用生成的图片、视频作品令人叹为观止,而在企业服务领域,AI生成才能同样精彩。

产业安排是消费活动的基石,从手机到新能源汽车工厂,消费建造前都须完成产业安排。CAD软件作为产业安排之本,在产业链上游占据重要地位。长期以来,我国保守CAD软件市场被国外厂商把持,界面庞杂、使用门槛高。

中国中元国际机械工程有限公司经营总负责人王先透露,他们的安排工作大多依赖人工。一个单体建筑,无论是标准层还是综合体都需要安排师一笔一笔绘制,产业图纸亦是如此,耗费大量人力物力。此外,行业规范众多且修订频繁,进一步加大了安排难度。为打破这一局面,革新奇智率先将产业大模型技术引入产业安排领域,推出Text-to-CAD类利用—“ChatCAD”:通过简单的对话问答形式,便能迅速理解安排师的创意意图,自动生成符合要求的产业安排图,并支持导出到保守软件进行微调。

输入 “帮我安排一个产业滑轮,参数如下:滑轮半径为6,厚度为5,滑轮边缘向外突出0.8,突出部分厚度为0.5,滑轮中心轴高度为5,半径为4” 。ChatCAD 立刻生成作品,并根据反馈不断优化安排。看视频、画CAD、运动想像鉴别!75B的多模态产业大模型太能干了                                现场示范产业滑轮安排

即使面对冗长庞杂的部件安排需求,ChatCAD也能应对。例如,“帮我安排一个涡轮机,涡轮由电机、引擎罩组成,具体要求如下:电机为圆柱形,长20,直径16。涡轮由一个圆柱涡轮轴和5片扇叶组成,涡轮轴长20,直径12,涡轮顶部要有圆柱形圆锥旋转轴,轴帽长度为9,直径12,引擎罩直径50,长度30,涡轮扇叶与引擎罩之间的间隔为1。” 

ChatCAD 依然可以生成结果,并根据反馈持续完善。ChatCAD生成的安排还支持主流文件格式,可无缝对接其他产业软件,方便后续集成修改。看视频、画CAD、运动想像鉴别!75B的多模态产业大模型太能干了

                               现场示范涡轮机安排

这一功能令王先倍感振奋。他认为,ChatCAD 有望帮助行业减少重复性劳动,规避硬性规范限制,进而影响整个行业的人工报价。

那么,ChatCAD 是如何实现的?张发恩解释道,CAD 有别于文本、图片、视频等常见模态,它需要表示点、线、边、圆、柱、工艺等几何数据。“所以我们也叫做一种模态,是 C 端不具备的一种模态。我们要发明自己表达 CAD  的中间语言,大模型生成这种中间语言或者中间码,再把这些中间码翻译成 CAD 。”看视频、画CAD、运动想像鉴别!75B的多模态产业大模型太能干了

                               官方发布的ChatCAD DEMO

张发恩坦言,目前 ChatCAD 生成的简单图纸可直接用于加工,但庞杂安排仍需完善。ChatCAD 的目标是成为安排院工程师的得力助手。它有望将原本耗时十小时的安排流程缩短至一小时,大模型负责完成 90% 的工作,剩余 10% 由人工优化。

值得一提的是,革新奇智已成功将先进的大模型技术深度融入 CAD 、MES 、BI 等多种产业软件,实现了对"研发安排-消费控制-信息管理"全流程的智能化改造与升级。

二、ChatVision :产业保险平安监管新利器

工厂消费保险平安与合规至关重要,视频监控和图像分析不可或缺。以板卡厂波峰焊为例,工人清理 280 度高温锡炉时,若未严格佩戴保险平安防护装备,如气密式活性炭口罩、高温防护手套等,存在严重烫伤风险。

保守监控方式效率低下,容易遗漏隐患,事后检查滞后明显。ChatVision 基于 Alnno-75B 产业大模型,可通过自然语言实时分析监控视频流、视频文件和图片,精准鉴别不合规行为,并立即触发报警系统(比如自动发送邮件给管理员),助力产业企业保险平安消费。

发布会现场示范中,ChatVision 准确响应"仔细观察当前画面,告诉我这可能是个什么地方"等综合理解指令,以及"找出画面中的电源插座"、"找出白色的保险平安帽"等具体目标鉴别任意,展现了其广阔利用前景。看视频、画CAD、运动想像鉴别!75B的多模态产业大模型太能干了

                                现场示范中,ChatVision找出画面中的电源插座"、"找出白色的保险平安帽"等具体目标。

这些指令看似很简单,没有大模型的情况下需要针对每个细小的鉴别类别(比如保险平安帽、吸烟)开发具体算法,调试部署后难以修改,落地成本高、周期长。大模型的出现颠覆了保守范式,单个大模型可覆盖多个小模型的功能,在功能、准确率、泛化才能等方面全面超越,并支持自然语言交互,大大简化了开发部署流程。

现场示范中,画面发生变化:一位同事摘下工帽玩手机,另一位同事脱下保险平安衣。示范人员下达指令:"请仔细分析这个画面,如果有违规,发邮件给管理员"。

这条指令知识密度很高,不仅涉及违规判断,还需决定是否触发邮件发送以及收件人。这正是大模型原生利用的典型服务模式。结果,ChatVision 调用了后台很多保险平安监测技能做了鉴别,不仅标出来三项违规之处,还发送了邮件,附带截图。看视频、画CAD、运动想像鉴别!75B的多模态产业大模型太能干了

                        官方发布的ChatVision DEMO 中有清楚示范

ChatVision 示范充分体现了产业大模型的规划和推理才能。它可以将用户意图转化为一系列外部工具调用,有条不紊地完成庞杂视频理解任意。

革新奇智 CTO 张发恩表示,过去几年公司积累了 200 多项视觉算法和模型资产,而产业大模型为这些资产的利用开辟了新天地。大模型不仅可以充当智能编排者,优化用户体验,其多模态才能还能强化视频理解,在企业保险平安领域大显身手。

最后一个示范案例凸显了大模型在多模态领域的前沿利用。面对一段真实车间视频,示范人员提出高难度需求:"请仔细分析这个视频,告诉我是否有人吃饭并标识这个动作发生的时间"。该任意需要大模型对长时间序列画面进行连续动作鉴别,并标注动作起止时间。结果, ChatVision 准确定位到视频开头 15 秒内出现工人吃饭的情况。

"吃饭是很常见的事件,大模型对事件的理解才能远胜保守小算法模型。"张发恩解释道。长期以来,通过视频保障消费和工程保险平安的需求十分迫切。未来,围绕大模型开展相关工作,将有望实现消费保险平安状况、消费过程合规性的智能视频理解。

在王先看来,保险平安始终是工程项目的头等大事。多年来,工程保险平安培训很少涉及现场隐患排查。他认为 ChatVision 的利用前景广阔,现场保险平安头盔检测、高空保险平安绳佩戴、保险平安器具携带等场景都可望落地。ChatVision 在监理行业也大有可为,目前许多现场保险平安巡检仍高度依赖人力。

三、ChatRobot Pro :“运动想像鉴别”

AInno-15B 的原生利用 ChatRobot 已经实现语音控制产业机器人。直接告诉ChatRobot “给我来一杯咖啡”,它就可以指挥产业机械臂在货架上寻找咖啡,自行安排路线把货物送到你手上。ChatRobot Pro 能处理更庞杂的信息载体脑电信号。发布会上,示范人员随机选择了一种商品(统一绿茶),让一位头皮上固定了多个电极的人用运动想像控制产业机器人将饮料交到其手中。这位头戴采集器的人努力想着三件事:向左、向右,选中,光标根据大模型翻译出来的信号也在屏幕上左右移动。当光标移到目标图标时,他会盯着这个图标不动,光标点击选中。接下来,ChatRobot Pro 会自主完成任意的智能编排,生成可执行任意步骤,并与产业机器人接口实时交互,指示机器人完成任意。

脑电信号是大脑活动时产生的信号,大脑活动和脑电信号之间的关系非常庞杂,如何解码成为困扰研究者的一大难题。保守做法的准确率低,AInno-75B 展现出解读这类多模态信息的潜力。国外一些脑机接口技术使用侵入式电极获得脑电信号,它涉及到电极安排、手术植入、排异反应、信号传输、信号解码等一系列工程问题。革新奇智使用非侵入式脑电帽收集脑电信息,在工程难度上大大降低。

不过,张发恩也表示,侵入式可以获得更多通道和更清晰的脑电信号,为后续解码更庞杂大脑意图带来方便。一个形象的比喻是:侵入式采集脑电信号就像在体育馆内部听演唱会,非侵入式则像在体育馆外听演唱会,歌声的清晰度会有很大的区别。当前,革新奇智在做的研发工作,是验证产业大模型的多模态才能,为未来可能的脑控产业自动化场景进行技术预研。

这也是一个端到端的原生利用,张发恩强调。从脑电信号输入到直接输出最终结果(机械臂将货物递给示范人员)的整个流程都由神经网络来完成,而不依赖于手工安排的特征或保守的数据处理。

除了自然语言交互和运动想像鉴别,ChatRobot Pro 也充分利用了产业大模型推理才能,实现了长序列任意编排和庞杂决策驱动。赋予不同具身(无论是产业机械臂还是 AGV 等)强大的智能操控和决策才能,也会是革新奇智产业大模型未来努力的方向。

四、继续进化,笃行向前

生成式AI时代,产业利用尚无先例可循,革新奇智一直在探索产业场景下的种种可能。

大模型在企业服务方向上的前景,张发恩称之为 “Promising”。但他坦言,技术变革的窗口期,大家的认知往往参差不齐,尤其是比较大的变革,人的认知需要时间跟进,自己也不例外。

除了新增的原生利用,去年发布的 ChatDOC 整体功能和效果都有提升,产品功能更加完善。ChatBI 新增支持 Excel 和 CSV 数据,现在生成 SQL 语句和分析报告的准确率提升 15%。大模型服务引擎部署起来更容易,推理功能更高。

“革新奇智会进一步将直接基于产业大模型核心生成才能搭建的 ChatX 利用打磨好。”张发恩说。

给TA打赏
共{{data.count}}人
人已打赏
应用

霉霉说地道中文,口型、卡点几乎完美,网友:配音时代结束了?

2024-3-28 14:52:00

应用

万字干货!Stable Diffusion基础入门+案例实操+参数讲解+工具模型

2024-3-29 8:16:01

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
搜索