模态

baidu文库宣布“橙篇”行业首创 10 万字长文生成及多模态编写能力
baidu文库昨日宣布，新产品“橙篇”行业首创 10 万字长文生成及多模态编写能力，成为行业首个“查阅创编”一站式 AI 自在创作平台。据IT之家此前报道，baidu文库于 5 月 30 日发布 AI 原生应用“橙篇”，“橙篇”是一个知识检索和问答、超长图文了解和生成、深度编写和跨模态自在创作的综合性 AI 产品。“橙篇”有以下功效：长文生成写作资料搜寻：专业学术搜寻与 AI 全网搜寻文档总结：支…
AI
- 7
- 0
沛霖（实习）6月20日
松鼠Ai崭新多模态智符合大模型发布会重磅召开，智符合教训软硬件片面晋级
近日，松鼠Ai崭新多模态智符合大模型发布会于上海隆重召开。本次发布会盛况空前，不仅震撼揭晓了松鼠Ai多模态智符合教训大模型及系统的全方位晋级，还重磅推出了多款崭新智符合教训硬件产品。凭借软硬件生态的片面革新，松鼠Ai不仅展示了其在教训科技领域的片面突破，更宣告了智符合教训新时代的到来。智符合教训大模型重磅晋级，迈向多模态大模型新纪元此次发布上，松鼠Ai揭晓了重磅晋级的智符合教训大模型，其在多模态智…
应用
- 10
- 0
新闻助手6月19日
GPT-4o 更容易逃狱？北航 & 南洋理工上万次测试给出详细分析
GPT-4o，比上一代更容易被逃狱攻打了？来自北航和南洋理工的研究人员，通过上万次的 API 查问，对 GPT-4o 各种模态的危险性进行了详细测试。结果发现，GPT-4o 新引入的语音模态带来了新的攻打面，而且多模态整体危险性不敌 GPT-4V。具体来说，研究人员针对 4 个常用的基准测试，对 GPT-4o 支持的三种模态（文本、图象、音频）进行了测试。测试一共涉及到 4000 初始文本查问的优…
AI
- 22
- 0
清源6月12日
ECCV 2024 Workshop主动驾驭难例场景多模态明白与视频生成征稿与挑战赛火热启动！
Workshop主页：。近年来，多模态大模型（如GPT-4V）展示了其在多模态感知与明白方面前所未有的进步。然而，利用MLLMs来应对主动驾驭中复杂场景，特别是罕见但关键的难例场景，仍然是一个未解的挑战难题。本次Workshop旨在促进多模态大模型感知与明白、先进的AIGC技术在主动驾驭系统中的应用、端到端主动驾驭等方面的创新研究。Workshop征稿本次论文征稿关注主动驾驭场景多模态感知与明白、…
应用
- 52
- 0
新闻助手6月3日
baidu文库颁布 AI 原生利用“橙篇”：长文理解、总结、生成与编辑
2024 baidu移动生态万象大会今日在苏州举办，会上baidu副总裁、文库事业部负责人王颖颁布了综合性 AI 原生利用“橙篇”。利用“橙篇”，用户可以对“超大量、超多花式、超长实质”的文件进行理解、总结与问答。该利用还支持“超长篇幅”的长文生成、深度编辑以及多模态的自由创作。依托baidu文库、baidu学术以及全网数十亿的专业信息和资料，用户可以在“橙篇”上进行 AI 全网智能检索和学术检索…
AI
- 12
- 0
沛霖（实习）5月30日
港大字节提出多模态大模型新范式，模拟人类先感知后认知，精确定位图中物体
当前，多模态大模型（MLLM）在多项视觉任意上展现出了强大的认知理解本领。然而大部分多模态大模型局限于单向的图象理解，难以将理解的内容映射回图象上。比如，模型能轻易说出图中有哪些物体，但无法将物体在图中准确标识出来。定位本领的缺失直接限制了多模态大模型在图象编辑，自动驾驶，机器人控制等下游领域的应用。针对这一问题，港大和字节跳动商业化团队的研究人员提出了一种新范式 Groma——通过地区性图象编…
AI
- 6
- 0
清源5月27日
面壁智能推出 MiniCPM-Llama3-V 2.5 开源端侧多模态模型：8B 参数、高效部署手机
感谢面壁智能昨晚推出并开源 MiniCPM 系列最新的端侧多模态模型 MiniCPM-Llama3-V 2.5，支援 30 种说话，宣称可兑现：最强端侧多模态综合性能：超出 Gemini Pro 、GPT-4VOCR 才能 SOTA（IT之家注：State-of-the-Art）：9 倍像素更清晰，难图长图长文本精确辨认图像编码快 150 倍：首次端侧系统级多模态减速▲ OpenCompass 模…
AI
- 14
- 0
泓澄（实习）5月21日
Meta 首发「变色龙」挑战 GPT-4o，34B 参数引领多模态革命！10 万亿 token 训练刷新 SOTA
【新智元导读】GPT-4o 发布不到一周，首个敢于挑战王者的新模型诞生！最近，Meta 团队发布了「混杂模态」Chameleon，可以在单一神经网络无缝处理文本和图象。10 万亿 token 训练的 34B 参数模型本能接近 GPT-4V，刷新 SOTA。GPT-4o 的横空出世，再次创立了一个多模态模型发展的新范式！为什么这么说？OpenAI 将其称为「首个『原生』多模态」模型，意味着 GPT-…
AI
- 8
- 0
清源5月19日
vivo 自研蓝心大模型升级“自研 AI 多模态大模型”
在在举行的 vivo 影象新宏图暨 X 系列新品发布会上，vivo 宣布自研蓝心大模型升级「自研 AI 多模态大模型」，多模态技能让大模型从最原始的视觉、声音、空间等方面接触、感知、理解世界，让大模型更全面、更聪明、更强大。此外，vivo 瞥见 | 多模态大模型技能使用 ——「vivo 瞥见蓝心升级版」，帮助视障用户更好地“瞥见”世界。去年 11 月 1 日，在 2023 vivo 开发者大会上，…
AI
- 7
- 0
远洋5月13日
从基因组到蛋白质组连续翻译，南开大学开发通用跨模态数据分解步骤
编辑 | 萝卜皮近期，科学家在单个细胞内同时分解多组学模态的进展，使得细胞异质性和分子层次结构的钻研成为可能。然而，技术限制导致多模态数据的高噪声和高昂的成本。在这里，南开大学的钻研团队提出了 scButterfly，一种基于双对齐变分自动编码器和数据巩固方案的多功能单细胞跨模态翻译步骤。通过对多个数据集的全面实验，钻研职员证明 scButterfly 在保留细胞异质性、同时翻译各种背景的数据集和…
理论
- 5
- 0
ScienceAI5月4日
参数量不到10亿的OctopusV3，如何媲美GPT-4V和GPT-4？
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：[email protected]；[email protected]。
理论
- 22
- 0
机器之心5月1日
颜水成挂帅，昆仑万维2050全球钻研院联合NUS、NTU发布Vitron，奠定通用视觉多模态大模型终极形态
近日，由颜水成教授带队，昆仑万维2050全球钻研院、新加坡国立大学、新加坡南洋理工大学团队联合发布并开源了Vitron通用像素级视觉多模态大谈话模型。这是一款重磅的通用视觉多模态大模型，支援从视觉懂得到视觉生成、从低层次到高层次的一系列视觉义务，解决了困扰大谈话模型产业已久的图象/视频模型割裂问题，提供了一个全面同一静态图象与动态视频内容的懂得、生成、分割、编辑等义务的像素级通用视觉多模态大模型，…
应用
- 5
- 0
新闻助手4月26日
鉴于Transformer的高效单阶段短时RGB-T单方向追踪格式
引言如图 1所示，现有的三阶段 RGB-T 单方向追踪收集通常采用两个独立的特色提取分支，分别负责提取两个模态的特色。然而，相互独立的特色提取分支会导致两个模态在特色提取阶段缺乏有效的信息交互。因此，一旦收集完成离线训练，其仅能从每个模态图象中提取固定的特色，无法根据实际的模态状态动态调整，以提取更具针对性的动态特色。这一局限性制约了收集对多样的方向双模态外表，以及模态外表间动态对应关系的适应能力…
理论
- 6
- 0
特邀精选4月22日
开启智能座舱AI时代，蔚来NOMI GPT端云多模态大模型正式上线
4月12日，蔚来宣布NOMI GPT正式开启推送。此次推送的更新是基于崭新技术架构，为NOMI量身打造NOMI GPT端云多模态大模型。NOMI GPT包含自研多模态感知、自研认知中枢、情绪引擎、多专家Agent，实行蔚来产品、服务、社区的全域贯通，提供更高效、愉悦的AI服务。升级NOMI GPT功能后，用户可以体会到大模型百科、无限趣聊、魔法氛围、趣玩表情、用车问答、AI场景生成在内的多项崭新交…
应用
- 28
- 0
新闻助手4月12日
中山大学团队“梗王”大模型，靠讲笑话登上 CVPR
谁能想到，只是让大模型讲笑话，论文竟入选了顶会 CVPR（国际计算机视觉与模式识别会议）！没开玩笑，这还真真儿的是一项正儿八经的研讨。例如看下面这张图，如果让你根据它来讲个笑话或梗，你会想到什么？现在的大模型看完后会说：脑子短路。再看一眼蜘蛛侠的海报，大模型会配一句“刚擦的玻璃不能弄脏”。李云龙、奥本海默也被玩得飞起：导师读了我的论文之后……真男人不回头看爆炸。还有酱紫的：不得不说，大模…
AI
- 11
- 0
清源4月11日
「清华系」视频生成公司生数科技宣布完成新一轮数亿元融资
近日，北京生数科技有限公司（以下简称“生数科技”）宣布完成新一轮数亿元融资，由启明创投领投，达泰资本、鸿福厚德、智谱AI、老股东BV百度风投和卓源亚洲继续跟投。本轮融资将主要用于多模态基础大模型的迭代研发、应用产品革新及市场拓展。本轮由华兴资本担任独家财务顾问。生数科技成立于2023年3月，是环球领先的多模态大模型公司，致力于图象、3D、视频等原生多模态大模型的研发。生数科技核心团队来自清华大学人…
AI
- 8
- 0
机器之心3月12日
可多模态数据集成、插补和跨模态生成，中科院&树兰医院&北师大团队开发带有掩码模块的深度生成框架
编辑 | 红菜苔随着单细胞技术的发展，许多细胞特性可以被测量。此外，多组学分析技术可以同时联合测量单个细胞中的两个或多个特征。为了快速处理积累的各种数据，需要多模态数据集成的计算方法。树兰医院、中国科学院和北京师范大学的合作团队提出了 inClust ，一个用于多组学分析的深度生成框架。它建立在之前针对转录组数据所开发的 inClust 的基础上，并增加了两个专为多模式数据处理设计的掩码模块：编码…
应用
- 6
- 0
ScienceAI2月5日
开源多模态调理根蒂根基模型RadFM，首次支持2D/3D喷射影象输出
上海交大&上海AI Lab发布开源多模态调理大模型RadFM
理论
- 14
- 0
FM4Medicine23年11月20日
IDC发布中国计算机视觉解决方案厂商评估，联汇科技作为主要厂商上榜
近日，国际数据公司IDC公布了《IDC MarketScape：中国计算机视觉解决方案厂商评估，2023》报告显示，2022 年，中国AI赋能的计算机视觉解决方案商场规模达123.0亿元人民币。联汇科技凭借出色的本领措施（Capabilities），包括技巧产物、服务项目与客户需要满足等本领，以及关键战略（Strategies）中的优势，成为中国计算机视觉行业领先的主要厂商（Major Playe…
应用
- 6
- 0
新闻助手23年10月27日
178页！GPT-4V（ision）调理领域首个全面案例测评：离临床应用与实际决策尚有距离
上海交大&上海AI Lab发布178页GPT-4V调理案例测评，首次全面揭秘GPT-4V调理领域视觉性能。
AI
- 5
- 0
FM4Medicine23年10月18日
锦秋基金独家投资，生数科技完成数千万元天使+轮融资
近日，北京生数科技有限公司（简称“生数科技”）完成了数千万元天使轮融资，本轮融资由锦秋基金独家投资。此轮资金将主要用于算法研发、产物开发和团队扩充。值得一提的是，今年六月生数科技刚获得蚂蚁集团、BV百度风投、卓源资本的近亿元天使轮融资，不到两个月的时间内已经连续获得两轮投资。生数科技是寰球领先的生成式人工智能基础设施及使用提供商，致力于打造可控多模态通用大模型，团队于今年3月发布9.5亿参数开源…
AI
- 7
- 0
机器之心23年8月10日
所见，所问，所答：上海交大&上海AI Lab发布最新调理多模态问答框架PMC-VQA
PMC系列持续更新，大规模医学视觉问答数据集PMC-VQA强势来袭！
AI
- 5
- 0
FM4Medicine23年7月17日
字节团队提出猞猁Lynx模型：多模态LLMs理解认知生成类榜单SoTA
文章首次提出包括图象和视频任意的开放式视觉问答评价集 Open-VQA
AI
- 4
- 0
机器之心23年7月15日
清华系面壁智能开源华文多模态大模型VisCPM ：支援对话文图双向生成，吟诗作画才能惊艳
再现破壁式成就，VisCPM强势来袭！
AI
- 7
- 0
机器之心23年7月3日