资讯列表

ChatGPT搜索与Her打通了!搜索免费开放,居然还剧透明日直播主题

ChatGPT今天带来的是搜索功能方面的一些迭代升级(更像谷歌了)。 主要有三点,私以为最大亮点是第二:根据用户反馈,优化搜索体验,移动端搜索更快,并能搜索出多模态信息;结合前几日发布的Her功能,可以在实时通话的时候进行语音搜索;免费,接下来逐步向所有ChatGPT用户开放。 官方信息显示,ChatGPT Search背后是微调后的GPT-4o模型,使用新颖的合成数据生成技术进行post-trained(包括从OpenAI o1-preview中提炼输出合成数据)。

华为诺亚解析:推荐系统的技术演进及大模型应用实践

一、推荐系统问题和背景首先来简要介绍一下个性化推荐系统。 实际上,我们每个人每天都在与众多推荐系统进行交互。 例如,购买衣物、阅读新闻或聆听音乐时,我们打开的每一个应用程序或网页,其展示的内容即为推荐系统所呈现。

本地构建Llama 3.2-Vision多模态LLM聊天应用实战

译者 | 朱先忠审校 | 重楼本文将以实战案例探讨如何在类似聊天的模式下从本地构建Llama3.2-Vision模型,并在Colab笔记本上探索其多模态技能。 简介视觉功能与大型语言模型(LLM)的集成正在通过多模态LLM(MLLM)彻底改变计算机视觉领域。 这些模型结合了文本和视觉输入,在图像理解和推理方面表现出令人印象深刻的能力。

OpenAI 为 ChatGPT 增加实时搜索功能,逐步向所有用户免费开放

用户可以获得快速、及时的答案,并附有相关网络来源的链接。ChatGPT 会根据用户的要求进行搜索,或通过点击网络搜索图标手动进行搜索。

把一个脑洞发展成1场顶会Workshop,阿里妈妈只用了1年|直击NeurIPS'24

学术打野NeurIPS 2024,好多人啊(发出周迅的声音)! 最热闹最值得回味的,咱都总结好了:学术追星:和Ilya、FeiFei、Kaiming、Saining拘谨但不失礼貌地合照。 现场开吃:分为吃瓜Bengio和OpenAI员工吵起来版 & “学术蝗虫”狂炫会上的饭和下午茶版。

谷歌 Gemini 2.0 成“P 图神器”,各种 P 图只需一句话

输入指令“把这辆车改装成敞篷车”,它就能立马将文字指令和图片结合起来,完成一键 P 图。

消息称今年智元临港工厂预计下线超 900 台人形机器人

据澎湃新闻今晚报道,稚晖君(真名:彭志辉)率领的智元机器人方面称,截至12月底,位于临港奉贤的工厂将总计下线超过900台机器人,“其中自用两百多台,发货将近700台。”

汤姆猫:AI 语音陪伴机器人将于本月底前正式发售

汤姆猫透露,公司目前在研发的 AI 产品包括汤姆猫 AI 语音情感陪伴机器人、AI 讲故事 App、AI 游戏等系列产品。其中,汤姆猫 AI 语音陪伴机器人将于 2024 年 12 月底前正式发售。

微软 CEO 纳德拉力挺 OpenAI:在人工智能竞赛中领先两年,几乎“没有竞争对手”

据《商业内幕(Business Insider)》报道,微软首席执行官萨提亚·纳德拉最近表示,OpenAI在人工智能领域拥有两年的领先优势,使其几乎“没有竞争对手”(pretty much uncontested)。

Gemini 2.0成P图神器,各种P图只需一句话的事儿,可把网友馋哭了

Gemini 2.0说说话就能一键P图的功能爆火,把玩不了的大伙儿都馋哭了! 比如一辆小车车:输入指令“把这辆车改装成敞篷车”,它就能立马将文字指令和图片结合起来,完成一键P图。 让我们来找茬儿,发现除了车变成了敞篷的,其它元素木有变化,很好地保持了一致性。

Kimi 数理化能跟 o1 掰手腕了?新模型 k1 有点儿强

最直接的实测例子是:当我们把杨振宁、伽利略等世界知名科学家的研究手稿拍照、上传后,k1 居然能识别图片中的文字,生动解读背后的物理、天文学等科学知识,从而回答用户的提问并给出清晰完整的推理思考过程。 例如,当我们上传杨振宁的手稿并向 k1 提问,k1 给出了超乎小编知识范畴所能辨真伪的答案:这是杨振宁的手稿图片——这是我们的询问:这是物理学家杨振宁的手稿照片,请你一步一步分析,杨振宁在计算什么,他可能在想什么,当时可能是什么背景? 这是 k1 的回答:上下滑动查看长图虽然小编既不懂电磁场、也不懂粒子动力学,但看完 k1 的答案着实大吃一惊!

Ilya错了,预训练没结束!LeCun等反击,「小模型时代」让奥特曼预言成真

最近,Ilya在NeurIPS 2024中宣布:预训练结束了! 在他看来,数据如同化石燃料般难以再生,因此训练模型需要的海量数据即将枯竭。 作为前OpenAI首席科学家,Ilya的这番话,有可能影响之后数十年的AI发展方向。

两个用于科研的开源 AI Agent,改变知识研究的方式

想象一下,如果可以让爱因斯坦、埃隆·马斯克、费曼、史蒂夫·乔布斯、简·古道尔和尤瓦尔·诺亚·赫拉利和你一起合作共同研究并编写研究报告,这是一种什么感受? 我们每天产生的信息比过去一年产生的信息还要多,假如研究人员想在一个小时内访问一万个网站、研究分析数据、并编写报告,这实际上是不可能的。 如今,随着AI 大模型技术的发展,使用AI Agent却可以轻松地做到这一点。

国产万卡系统究竟怎么样了?中国工程院院士郑纬民:国产万卡很重要,但也很难,异地卡联合训练不太可行

编辑 | 言征出品 | 51CTO技术栈(微信号:blog51cto)临近年底,业内曝出了不少大新闻,比如大模型撞墙、谷歌的Gemini 2 Flash和量子芯片Willow,再比如英伟达面临着中国反垄断调查的危机等,所有这些,让国产AI算力的话题再次成为圈内的热议点。 那么,国产算力中心构建究竟什么情况? 背后支撑大模型训练和推理的计算机系统现在都面临着怎样的难题?

图像领域再次与LLM一拍即合!idea撞车OpenAI强化微调,西湖大学发布图像链CoT

OpenAI最近推出了在大语言模型LLM上的强化微调(Reinforcement Finetuning,ReFT),能够让模型利用CoT进行多步推理之后,通过强化学习让最终输出符合人类偏好。 无独有偶,齐国君教授领导的MAPLE实验室在OpenAI发布会一周前公布的工作中也发现了图像生成领域的主打方法扩散模型和流模型中也存在类似的过程:模型从高斯噪声开始的多步去噪过程也类似一个思维链,逐步「思考」怎样生成一张高质量图像,是一种图像生成领域的「图像链CoT」。 与OpenAI不谋而和的是,机器学习与感知(MAPLE)实验室认为强化学习微调方法同样可以用于优化多步去噪的图像生成过程,论文指出利用与人类奖励对齐的强化学习监督训练,能够让扩散模型和流匹配模型自适应地调整推理过程中噪声强度,用更少的步数生成高质量图像内容。

英国测试 AI 摄像头抓酒驾:可通过驾车行为和道路使用情况判断

据BBC当地时间14日报道,英国交通管理部门正在德文郡和康沃尔郡测试一种新型摄像头,利用人工智能技术识别可能存在酒驾或毒驾行为的驾车者。

全球首个全模态理解开源端模型:长语音自动总结,图文音啥都会!300%推理速度领先,来自无问芯穹

全球首个端侧全模态理解开源模型来了! 在菜单里帮忙选奶茶,不在话下:还能帮忙轻松提炼长语音,再也不用对着一串几十秒语音头皮发麻(doge)。 就在刚刚,无问芯穹宣布开源目前世界上首个端侧全模态理解的开源模型Megrez-3B-Omni,不仅体积轻巧,速度飞快,更是一个多才多艺的全能选手,能够轻松处理图片、音频、文本三种模态数据。

Kimi又上新!抢先实测视觉思考模型k1,甚至比o1更聪明

用强化学习,改变大模型技术范式。 国产大模型,正在引领 AI 技术新方向。 今天上午,月之暗面 Kimi 正式发布了视觉思考模型 k1,并已经上线了最新版的网页版以及安卓和 iOS APP。