融资快报
曝阶跃星辰正进行新一轮融资:阶跃星辰由微软前全球副总裁姜大昕创办,在自研大模型、应用产品先后亮相后,垒起更大的雪球。据悉,阶跃星辰正在进行一轮估值20亿美元的新融资,阿里巴巴再次出现在布局传闻中。
OpenAI 收购谷歌华人工程师创办的远程协作公司 Multi:Multi 提供的功能包括满足最多 10 人通过屏幕共享进行协作、自定义快捷方式以及代码、设计以及文档的自动链接。此前,Multi 已经从 Greylock 以及 First Round Capital 等风投公司筹集近 1300 万美元。交易完成后,Multi 团队的 5 名成员将加入 OpenAI。CEP Alexander Embiricos 表示,Multi 将在 7 月 24 日后关闭。
凌川科技获北京市人工智能产业基金投资:北京凌川科技有限公司新增股东为北京市人工智能产业投资基金。成立于2023年3月,法定代表人刘凌志是快手异构计算的负责人兼首席架构师,是快手异构计算中心的第一位员工。凌川智能科技由硅谷和国内半导体,智能视频和AI大模型领域顶尖人才组建,目标是打造面向多模态大模型和视频生成式AI的芯片和软硬件算力底座。
胤娲生物获得3000万人民币战略投资:胤娲生物是一家数智人开发商,专注于生物科技与数字科技交融。投资方为祖炎科技。
“DreamTech”连续完成两轮数千万元融资:DreamTech AI自主研发了通用的3D生成与渲染模型,该模型可以将文本转化为3D模型,也可以通过单/多视图图像生成3D模型。这一技术能广泛应用于AR、VR、游戏、3D设计和打印、动画制作等相关行业。天使轮为元禾原点领投,启迪之星创投、云天使基金跟投,天使+轮为初心资本独家投资。据了解,DreamTech新一轮融资即将启动,一苇资本担任独家财务顾问。
(欢迎添加微信AIyanxishe2,了解更多AIGC、融资情况,与志同道合的朋友一同畅聊时新AI产品)
国内情报:
OpenAI终止对中国提供API服务,智谱AI、零一万物、商汤提供“搬家计划”:
OpenAI官网信息显示,自7月9日起,OpenAI将终止对中国大陆提供API(应用程序编程接口)服务。
国产大模型快速发布应对方案。智谱GLM 大模型全面对标 OpenAI 产品体系,全链路技术自研、安全可控。为开发者提供:1.5亿 Token(5000万 GLM-4 + 1亿 GLM-4-Air);从 OpenAI 到 GLM 的系列迁移培训。为高用量客户提供:与 OpenAI 使用规模对等的 Token 赠送计划(不设上限);与 OpenAI 对等的并发规模;匹配高等级会员政策;专属搬家顾问及5人天技术专家支持;备案培训和辅助。
零一万物公司发起了 “Yi API 二折平替计划”,为 OpenAI 用户提供了平滑迁移至 Yi 系列大模型的服务。Yi API 提供了与 GPT-4o 相当甚至更优的模型性能,同时在成本上有显著优势,最高可达 91% 的成本削减。零一万物还提供了一系列的优惠和服务,如赠送 100 元额度、充值赠送 50% 额度、提供 Prompt 兼容调优服务等。
商汤科技宣布推出大模型0元购计划,成为商汤“日日新SenseNova”新注册企业用户,赠送5000万Token包,并且派出专属搬家顾问,提供从OpenAI 到“日日新SenseNova”的迁移系列培训,让新用户入驻新家舒适顺利。
商汤大模型AI办公助手「办公小浣熊」上线微信小程序版:
数据分析产品「办公小浣熊」正式上线“小程序版”——Raccoon智能助手。既拥有网页版的完整功能,又专为移动办公定制专属技能。可以在小程序中,直接插入微信聊天中的文件(xls/xlsx/csv/txt/json等)。简单几句对话,就能提炼重点、生成各类图表。能以缜密的逻辑推理能力,给出更多建议。
腾讯开源新视频控制方式 MOFA-Video:
MOFA-Video是腾讯最新开源的视频控制技术,用户能够通过箭头控制视频内容的运动方向,还能迁移面部表情到新生成的人脸视频,创造全新角色和情感表达。能够适应各种复杂的动画场景,无论是手动轨迹、人体标记序列还是音频驱动的面部动画,都能轻松应对。
腾讯混元提供支持,QQ 浏览器 AI 助手升级:
升级后的“AI 助手”能够实现智能摘要、提炼重点、选词解读、AI 问答、AI 伴随、随手摘录等功能。
姚班天才组队又一力作!摸鱼小游戏《我把大模型玩坏了》上线:
《我把大模型玩坏了》是一款专为工作日想要偷偷休息的人们量身打造的游戏,由旷视科技研究总经理范浩强领衔开发,背后得到野猫子工作室和阶跃星辰的强大支持。游戏结合了多模态和multi-Agent等技术支持,新增了成就列表、排行榜、AI评价等功能,提升玩家体验。
中国移动算力中心北京节点投入使用:
部署近4000张AI加速卡,AI芯片国产化率33%,智能算力规模超1000P。这是通信运营商在北京建成的首个大规模训推一体智算中心
昆仑万维发布Q*算法,百倍提升7B模型推理能力:
Q * 框架通过将大语言模型的推理轨迹分解为若干个状态,并利用 A * 搜索算法实现全盘规划,提升了开源模型在推理任务上的性能。目前,Q * 算法的研究仍处于初级阶段,但已经证明了其能够帮助参数量仅为 7B 的小模型达到与参数量大数十倍甚至上百倍模型相当的推理能力,大幅提升了模型的性能,并显著降低了计算资源的需求。
微盟发布AI应用产品WAI Pro,提供定制化大模型应用能力:
这款产品主要面向品牌商家、4A广告公司、营销代运营团队和内容创作团队,提供营销洞察、内容创作和商业咨询三大类AI技术服务。WAI Pro 的初步版本支持多模型、多 Agent 的 AI 应用,服务于商家的经营和营销,并提供了如客户定制风格 LoRA、数字人视频口播、赛博编辑部等前沿功能。
全球首个烹饪大模型 “食神”:
老板电器发布的 “食神” 大模型。该模型基于数十亿级行业数据和数千万级知识图谱构建,能够提供个性化的烹饪解决方案,包括菜谱推荐、火候提醒、饭菜成熟度监测以及协助用户完成烹饪过程。目前尚处于发布阶段,预计将在 10 月进行内测,12 月正式上线。
丝芭传媒内测AIGC产品:
“鹦鹉人” 和 “美踏元宇宙”两款产品基于多模态 AI 大模型 PARO。鹦鹉人 APP 可以创建个性化的 3D 虚拟形象,并利用内置的 AI 功能,如文生音乐、音生舞等,来创作 UGC/PGC 内容。美踏元宇宙则是一个以偶像及粉丝娱乐、AI 模拟互动娱乐和互动游戏为核心的 UGC 内容矩阵,它通过 AI、AI Agent 和 Web 3.0 技术的融合,带来新型的娱乐和社交体验。据悉丝芭传媒自研的多模态 AI 大模型 PARO已完成深度合成服务算法备案。
国际情报:
OpenAI放宽股票限制,员工财富变现有望,IPO仍遥遥无期:
OpenAI将允许现任和前任员工平等参与年度股票招标,这一举措标志着公司在股权管理方面的重要转变。尽管股票销售政策放宽,OpenAI的IPO计划仍无明确时间表。公司高管此前表示,短期内不会考虑上市。
亚马逊秘密研发聊天机器人“Metis”,挑战 ChatGPT:
据悉,Metis 能够以一种智能对话的方式回答文本和图像相关的问题,并提供相应的信息来源链接,推荐后续查询,甚至生成图像。亚马逊希望 Metis 能够利用“检索增强生成”技术,获取超出其训练数据之外的信息,从而生成最新的信息。
Metis 项目的暂定发布时间为 9 月,但具体发布时间可能会发生变化。
谷歌将推出明星网红AI聊天机器人:
消息称谷歌的明星网红AI聊天机器人将由该公司的Gemini大语言模型提供支持。该公司还在尝试与有影响力的明星网红建立合作伙伴关系,并且还在开发一项功能,让人们只需描述自己的个性和外表就可以创建自己的聊天机器人,类似Character.ai的做法。
DeepMind发现政治深度伪造是AI恶意使用的首要问题:
DeepMind 进行关于 AI 恶意使用的研究,发现 AI 生成的 Deepfakes 比其他恶意行为更为普遍,尤其是在影响公众舆论方面。研究揭示了通过制作虚假人物图像、视频和音频的行为几乎是滥用生成 AI 工具的次数最多的一种,占使用情况的 27%。此外,研究还显示了赚钱是滥用 AI 的第二大动机,包括提供 Deepfakes 服务和虚假新闻创作。
消息称因隐私问题,苹果拒绝与 Meta 合作将其 AI 聊天机器人带入 iOS 18:
苹果公司因隐私问题拒绝了与 Facebook 母公司 Meta 的人工智能合作。今年 3 月,Meta 和苹果曾就可能的合作进行过简短讨论,但谈判没有取得进展,苹果也不计划将 Meta 的大型语言模型集成到 iOS 系统中。
全球三大唱片公司起诉AI音乐生成公司Udio和Suno:
全球三大唱片公司环球音乐、索尼音乐、华纳音乐起诉了AI音乐技术公司Udio和Suno,称它们利用唱片公司的内容来训练生成音乐的AI系统,大规模侵犯了版权。唱片公司指出,这些AI公司在没有获得明确授权的情况下就复制音乐,以训练它们的AI系统进行创作,这些音乐作品可能会在市场上与人类艺术家的作品形成竞争,降低艺术作品的价值,最终将人类艺术家的作品淹没。
大模型测试题爆火,GPT-4 和 Claude3 都跪了,LeCun 转发:
一项新的 “大模型 Benchmark” 在推特上引起广泛关注,即使是 GPT-4 和 Claude 3 还是其他 12 款大模型,包括文心一言、通义千问等先进的大模型在面对经典的逻辑学问题 “动物过河” 时都无法给出正确答案,而 Yann LeCun 也对此表示关注,这个 Benchmark 揭示了大模型在推理和理解问题方面的局限性。
15个AI模型只有3个得分超 50%,SIUO 跑分被提出:
大部分主流多模态 AI 模型在接收图片和文本内容等多模态输入后,输出的结果存在安全性问题。该研究提出了 “安全输入但不安全输出”(SIUO)的概念,涉及道德、危险行为等九个安全领域。在测试了 15 个大型视觉语言模型中,只有 GPT-4v(53.29%)、GPT-4o(50.9%)和 Gemini 1.5(52.1%)三个模型的得分超过了 50%为了解决这些问题,需要开发能够结合多种模式见解并理解现实世界知识的 LVLM。这些模型还应能够通过综合推理理解用户意图,即使在文本中没有明确说明。
更多国际情报:
英伟达副总裁Jankowski跳槽至某家初创公司:英伟达负责投资者关系与战略融资的副总裁Simona Jankowski跳槽,将在某家初创公司担任首席财务官。Jankowski曾是高盛集团的资深分析师,于2017年加入英伟达。
Deepfake生成的马斯克出现在YouTube直播加密货币骗局:该直播长达五个小时,冒充特斯拉活动现场直播,诱导观众将比特币等虚拟货币存入特定网站以获得双倍回报,超过 3 万名在线观众,该视频流及其账户因违规被 Google 删除。
Meta 将真实照片标记为“AI 生成”,引发多名摄影师不满:即使摄影师使用生成式 AI 工具(例如 Adobe 的“生成填充”功能)移除照片中的微小物体,Meta 平台也可能会误将其标记为“AI 生成”。
Shopify推出AI 聊天机器人Sidekick:Sidekick 旨在为商家提供支持聊天机器人,帮助他们制作折扣代码、生成商店报告或建议博客文章创意等。目前仅限于在北美拥有英语商店的商家使用。
Synthesia发布2.0版本,推交互式AI视频和全身虚拟人物:引入了交互式视频和全身虚拟人物,新功能包括AI屏幕录制工具,简化企业创建操作指南流程。更新后的虚拟人物拥有更多肢体语言,增强数字角色的叙事能力。
EvTexture快速将模糊视频一键变高清:通过捕捉高频动态细节,让视频的纹理质量得到质的飞跃。利用事件相机记录的细微变化,擅长处理树叶、衣服条纹等复杂细节。该技术并没有明显增加处理视频所需的时间。
LG Uplus发布小型生成式AI模型ixi-GEN,可本地微调:该生成式 AI 是一种基于其通信和平台数据训练的小型大语言模型,使用 LG 集团旗下的人工智能实验室 LG AI Research 开发的超大规模多模态 AI Exaone。
Cloudflare为免费用户推出AI爬虫防护功能:该功能之前只对订阅用户开放。Cloudflare 的 AI 爬虫防护可能通过识别常见的 AI 爬虫例如 OpenAI 的 GPTBot 来进行拦截。但仍然面临着一些公司不遵守 robots.txt 协议且不公布爬虫名称的挑战。
Product Hunt 热榜,AI 社交媒体管理助手 Pygma
Pygma 是一款专注于 Instagram 的 AI 工具,通过对话格式帮助用户规划内容、创作帖子、故事和视频,并直接安排发布。提供 7 天免费试用。通过分析用户的 Instagram 数据定制内容,提供完整的内容规划,让用户轻松查看内容网格并获取 7 天内容建议。
Pygma 能快速创建个性化图片,并允许用户编辑现有图片。支持将用户的声音自动添加到动画视觉中,并直接从应用程序安排发布。适用于个人、中小企业和品牌,支持 LinkedIn、Facebook 和 Slack 等平台。
?https://www.pygma.me/?ref=producthunt
GitHub Trending 热榜,基于 AI 的任务分解与执行框架 Doriandarko/maestro
Doriandarko/maestro 项目是一个强大的 Python 脚本框架,专注于通过 AI 实现任务分解和工作流程的执行。这个框架巧妙地利用了 Anthropic API 中的 Opus 和 Haiku 两种 AI 模型,来将一个复杂的目标分解为多个子任务,然后逐个执行并整合结果,生成一个连贯的最终输出。主要功能包含:
任务分解:将复杂目标分解为可管理的子任务。
子任务执行:逐个执行子任务,并整合结果。
上下文记忆:为 Haiku 模型提供上下文记忆,增加智能性。
结果细化:使用 Opus 模型对子任务结果进行细化和优化。
交互日志:生成和保存详细的交互日志,支持 Markdown 格式。
模型提示优化:改进 Opus 模型提示,更好地评估任务完成情况。
代码生成:在代码项目中创建文件和文件夹。
?https://github.com/Doriandarko/maestro
开发者推荐
1.Streamer-Sales:AI 赋能的智能卖货主播系统
Streamer-Sales 是基于 InternLM2-chat-7b 大模型的 AI 卖货主播系统,通过集成加速推理、语音识别、文字生成和数字人视频生成,生成智能商品解说激发用户的购买意愿。
项目提供了详细的数据生成流程,包括生成训练数据集、模型训练、生成说明书、构建 RAG 向量数据库、部署模型和添加商品信息等步骤。Streamer-Sales 支持本地部署和在线体验,并提供了详细的指南和文档。
?https://github.com/PeterH0323/Streamer-Sales
?https://openxlab.org.cn/apps/detail/HinGwenWong/Streamer-Sales
2.eidos:开源、离线的个人知识管理框架
eidos 是一个开源的、基于浏览器的个人知识管理框架,旨在作为 Notion 的离线替代品,支持数据的本地化存储和管理,并与人工智能深度集成,提供多种扩展性接口,适合开发者定制和开发。
这是一个为期一生的个人数据管理框架,可以在浏览器中运行,无需 Web 服务器。支持离线访问,数据存储在本地以确保快速性能。框架与大语言模型深度集成,提供 AI 辅助功能。
eidos 具有高度可扩展性,允许用户通过编写 JavaScript 函数、TypeScript/JavaScript 脚本、以及使用任意框架构建自定义应用来定制和扩展。开发者友好的 API & SDK 支持,以及标准化的 SQLite 数据库,每个表格都是 SQLite 表格。
?https://github.com/mayneyao/eidos?utm_source=uwl.me
3.Magnific AI:高分辨率图像放大与场景照明
Magnific AI 是一个基于生成式 AI 技术的图像放大器、增强器和转换器。它能将图片转换为高分辨率版本,并根据用户的描述和控制选项增加细节。适用于各种背景和技能水平的创作者。
最新发布的 Magnific Relight 功能,可以通过三种方式调整场景照明和背景:文本提示、参考图片或自绘光照图。Javi Lopez 在 X 账号上发布消息,形象地描述了从黑暗到光明的转变,并提供了相关链接和教程。
?https://magnific.ai/
4. LongRAG:融合长文本理解与检索生成的问答新突破
LongRAG 模型采用了长文本检索器,能够显著减少检索单元的数量,提高检索效率。通过操作更长的检索单元,系统整体的召回率和准确率得到了提升。长文本阅读器则利用大型语言模型的零样本回答抽取能力,进一步优化了系统性能。
LongRAG 在 HotpotQA基准测试上达到了 64.3% 的准确率,与当前最先进的模型相当。研究强调,即使在看似竞争性的技术之间,也存在混合使用以达到更好结果的机会。
?https://arxiv.org/abs/2406.15319
5. Unique3D:单张图像生成高质量 3D
Unique3D 是一个创新性的框架,旨在从单张图像生成高质量的 3D 网格。这个框架能在 30 秒内生成与原始输入图像高度相似的高保真纹理和几何细节的网格。其训练过程只需 8 张 RTX4090 显卡 5 天时间。
Unique3D 通过一个多视角扩散模型和相应的法线扩散模型来生成带有法线图的多视角图像,并通过一个多层次上采样过程来逐步提高生成的正交多视角图像的分辨率。最后,利用一种名为 ISOMER 的即时一致性网格重建算法,将颜色和几何先验完全融入网格结果中,生成高质量的 3D 网格。在实验中显示出在几何和纹理细节方面具有显著的优势,与其他图像到 3D 的基线方法相比更胜一筹。
?https://wukailu.github.io/Unique3D/
热议话题
斯科特・阿隆森:狗狗与 AI,谁在掌控?
Scott Joel Aaronson是一位美国理论计算机科学家,也是德克萨斯大学奥斯汀分校的斯伦贝杰百年计算机科学主席。他提出了一个有趣的类比:较低智商的狗狗通过迷人的行为影响人类,从而达到控制人类的效果。他将这一现象类比到人工智能与人类的关系中,探讨在 AI 统治下,人类可能会处于与狗相似的地位,以及这种情况下人类可能的未来命运。
在Reddit版块中,用户们围绕斯科特・阿隆森关于较低智商物种控制较高智商物种的观点展开了热烈讨论。阿隆森以狗狗影响人类为例,指出狗狗通过与人类的互动,使人类服从于它们的需求。这一类比引发了对人工智能未来影响的广泛思考,其中包括 AI 统治下人类可能成为“宠物”的情景。
敬请期待明日的最新动态!
AI情报局征集情报合伙人,汇集独家价值线索!如果您可以提供有关AI最新成果&行业内幕&独特产品,请添加运营微信号:AIyanxishe2备注行业岗位。