llm

提示工程：更好地释放LLM的能力
提示工程，正如其名，主要聚焦于探究如何创作提示词。存在提示工程的一个关键缘由在于，大模型在不同人群的视角下所发挥的作用差异显著。普通使用者往往仅将大模型视作聊天机器人，他们着重关注的是大模型能否迅速且精准地予以反馈。
理论
- 974
- 0
greencoatman11月27日
如何借助Cortex运行本地LLM
译者 | 布加迪审校 | 重楼AI行业正在经历一场转变，转向更小巧更高效的大语言模型（LLM），从而使用户能够在本地机器上运行模型，无需功能强大的服务器。本教程将指导你借助Cortex运行本地LLM，着重介绍其独特的功能和易用性，使任何拥有标准硬件的人都可以享用AI。注意：Cortex目前正在积极开发中，这可能会导致bug或某些功能无法正常运行。
理论
- 975
- 0
布加迪11月27日
UC伯克利：给大模型测MBTI，Llama更敢说但GPT-4像理工男
如果你经常在不同大模型之间来回切换，或许会发现不同模型的回复语气有细微差异，如同有不同的性格。那么，LLM究竟有没有「性格」这种维度的特征？最近加州大学伯克利分校发表的新研究VibeCheck就证实了这种推测。
理论
- 979
- 0
新智元11月26日
七个用于运行 LLM 的优秀开源 WebUI
无论是希望将AI大模型集成到业务流程中，还是寻求企业客户服务自动化，亦或者是希望创建一个强大的个人学习工具。可能都需要考虑数据安全、灵活度以及更具有可控性的使用和开发基础。值得考虑的一个方案是：将大模型（LLM）私有化并且创建一个好用的LLM WebUI系统。
理论
- 986
- 0
zone711月22日
微调大型语言模型（LLM）的五个技巧
译者 | 李睿审校 | 重楼数据质量、模型架构以及偏见缓解方面的专家建议开发人员可以掌握LLM微调来提高人工智能开发的性能和效率。为什么微调至关重要大型语言模型（LLM）配备了处理广泛任务的通用能力，包括文本生成、翻译、提取摘要和回答问题。尽管LLM的性能表现非常强大，但它们在特定的任务导向型问题或特定领域（例如医学和法律等）上仍然效果不佳。
理论
- 978
- 0
李睿11月21日
LLM为何频频翻车算术题？研究追踪单个神经元，「大脑短路」才是根源
由于缺少对运行逻辑的解释，大模型一向被人称为「黑箱」，但近来的不少研究已能够在单个神经元层面上解释大模型的运行机制。例如Claude在2023年发表的一项研究，将大模型中大约500个神经元分解成约4000个可解释特征。而10月28日的一项研究，以算术推理作为典型任务，借鉴类似的研究方法，确定了大模型中的一个模型子集，能解释模型大部分的基本算术逻辑行为。
理论
- 971
- 0
新智元11月19日
提升人工智能性能的三种关键的LLM压缩策略
译者 | 布加迪审校 | 重楼在当今快节奏的数字环境中，依赖人工智能的企业面临着新的挑战：运行人工智能模型的延迟、内存使用和计算能力成本。随着人工智能快速发展，幕后推动这些创新的模型变得越来越复杂、资源密集。虽然这些大模型在处理各种任务中取得了出色的性能，但它们通常伴随着很高的计算和内存需求。
理论
- 970
- 0
布加迪11月19日
谷歌又捣鼓出好东西！有了这款AI学习神器，考试起码多考50分
AI好好用报道编辑：杨文谷歌AI版「十万个为什么」，让学习不再是「苦差事」。谷歌真的藏了不少好东西！继火遍全网的 NotebookLM 后，谷歌又「献」出了另一款实用型工具 ——Learn About！
基础
- 983
- 0
AI好好用11月18日
Nature:「人类亲吻难题」彻底难倒LLM，所有大模型全部失败！LLM根本不会推理，只是工具
LLM究竟是否拥有类似人类的符合理解和推理能力呢？许多认知科学家和机器学习研究人员，都会认为，LLM表现出类人（或「接近类人」）的语言能力。然而，来自帕维亚大学、柏林洪堡大学、得克萨斯大学休斯顿健康科学中心、纽约大学、巴塞罗那自治大学的研究者却提供了一些最全面的证据，表明目前它们基本没有！
理论
- 970
- 0
新智元11月18日
在AI和LLM架构中实现零信任：安全且负责任的AI系统实践指南
在AI和大型语言模型快速发展的背景下，安全不能再被视为事后的考虑。随着这些技术成为企业运营不可或缺的一部分，实施强有力的安全措施至关重要，然而，AI的安全超越了传统的网络安全实践——它还必须涵盖伦理考量和负责任的AI原则。本指南为IT从业人员和决策者提供了一种在AI和LLM架构中应用零信任原则的综合方法，强调从基础层面融入伦理考量。
理论
- 971
- 0
Vaibhav Malik11月15日
简单了解大模型（LLM）智能体，传统软件工程思维依然适用
说到大模型应用的理想态，我相信很多人都可以想到《钢铁侠》里面的贾维斯，可以根据环境、天气、对手火力等情况，给钢铁侠提供决策指导或者自主决策。大模型Agent就是人们希望借助大模型实现的类似于贾维斯一样智能助手能力，它具备环境感知能力、自主理解、决策制定以及行动执行的能力。在实现Agent架构过程中，有很多思维方式和传统软件工程思维是相似的。
理论
- 980
- 0
春哥大魔王11月14日
关于战略人工智能的深度综述
译者 | 朱先忠审校 | 重楼本文将全面探索战略性人工智能的概念、发展及相关博弈论理论，并对战略人工智能的未来发展方向提出建议。开场白1997年5月11日，纽约市。这是纽约市一个美丽的春日，天空晴朗，气温攀升至20摄氏度。
理论
- 971
- 0
朱先忠11月14日
在家中完成LLM微调高效指南（上）
编辑 | 言征出品 | 51CTO技术栈（微信号：blog51cto）LLM在生成文本和理解信息方面非常有效，但它们最终受限于训练数据的语料库。例如，如果你让一个通用的预训练模型回答与你的业务特定流程或操作有关的问题，最好的结果是它拒绝，最坏的情况是它会信誓旦旦地给出一个看似合理但错误的答案。当然，你可以通过自己训练一个模型来解决这个问题，但所需的资源往往超出实际可行的范围。
理论
- 970
- 0
言征11月11日
谷歌、MIT等开发多智能体医疗决策框架MDAgents，医学LLM新用法
编辑 | 白菜叶基础模型正在成为医学领域的宝贵工具。然而，尽管它们前景广阔，但在复杂的医学任务中如何最好地利用大型语言模型 (LLM) 仍是一个悬而未决的问题。麻省理工学院、谷歌研究院和首尔国立大学医院的研究人员提出了一种新颖的多智能体框架，称为医疗决策智能体 (MDAgents)，它通过自动为 LLM 团队分配协作结构来帮助解决这一差距。
基础
- 11
- 0
ScienceAI11月8日
OpenAI o1太贵？那就自己做一个！纯提示方法让普通LLM进化出复杂推理能力
九月份，OpenAI o1正式登场。作为新一代的老大哥，o1系列专注于复杂的推理任务，一经推出也是直接屠榜了大模型竞技场。图片在下面这些难度较大的数学、编码、科学等任务中，o1不仅比GPT-4o强上一大截，甚至比人类专家还要凶猛。
理论
- 971
- 0
新智元11月7日
借助LLM实现模型选择和试验自动化
译者 | 布加迪审校 | 重楼大语言模型（LLM）已成为一种工具，从回答问题到生成任务列表，它们在许多方面简化了我们的工作。如今个人和企业已经使用LLM来帮助完成工作。代码生成和评估最近已经成为许多商业产品提供的重要功能，以帮助开发人员处理代码。
理论
- 969
- 0
布加迪11月7日
轻松搭建AI版“谁是卧底”游戏，muAgent框架让知识图谱秒变编排引擎，支持复杂推理+在线协同
全新Agent框架，将知识图谱从知识获取来源直接升级为Agent编排引擎。蚂蚁集团推出muAgent，兼容现有市面各类Agent框架，同时可实现复杂推理、在线协同、人工交互、知识即用四大核心差异技术功能。这套框架目前在蚂蚁集团内多个复杂DevOps场景落地验证，同时可通过快速搭建的创新AI文本游戏“谁是卧底”游戏快速感受一下。
理论
- 971
- 0
admin11月6日
谷歌内部项目：大模型 AI 智能体发现了代码漏洞
开源数据库引擎 SQLite 有 bug，还是智能体检测出来的！通常，软件开发团队会在软件发布之前发现软件中的漏洞，让攻击者没有破坏的余地。模糊测试（Fuzzing）是一种常见的软件测试方法，其核心思想是将自动或半自动生成的随机数据输入到一个程序中，并监视程序异常。
理论
- 970
- 0
机器之心11月4日
创新能力超越AI Scientist，上海AI Lab「AI 科研团队」VirSci来了
编辑 | ScienceAI由上海人工智能实验室提出的 VirSci（Virtual Scientists）系统是一个基于大语言模型（LLM）的多智能体协作平台，专注于模拟科学家团队的合作过程，从而加速科研创新。不同于以往的单智能体系统，VirSci 通过使用真实科学家的数据来模拟科学团队的多人协作，不仅可以通过团队成员的合作讨论来生成更具创新性和影响力的科研想法，还展现出作为「科学学」（Sci…
应用
- 15
- 0
ScienceAI11月4日
LLM 比之前预想的更像人类，竟也能「三省吾身」
子曾经曰过：「见贤思齐焉，见不贤而内自省也。」自省可以帮助我们更好地认识自身和反思世界，对 AI 来说也同样如此吗？近日，一个多机构联合团队证实了这一点。
理论
- 8
- 0
机器之心11月3日
可令 AI 助理同时进行快 / 慢速思考，谷歌 DeepMind 公布具备两种思维模式的 Talker-Reasoner 框架
谷歌 DeepMind 上周公布了一个号称“具备两种思维模式”的 Talker-Reasoner 框架，旨在让 AI 助理能够同时进行快速和慢速思考，目前相关论文已发布于 ArXiv 上（点此访问）。据介绍，这款框架采用“双系统”设计，能够在与用户进行对话的同时并行多步骤推理任务（一边快速回答用户问题，一边高速思考），其中系统 1 Talker LLM 主要负责快速、直觉和合成的语言回应，用于与…
应用
- 12
- 0
漾仔10月27日
AI 驱动化学空间探索，大语言模型精准导航，直达目标分子
作者 | 「深度原理」陆婕妤编辑 | ScienceAI现代科学研究中，化学空间的探索是化学发现和材料科学的核心挑战之一。过渡金属配合物（TMCs）的设计中，由金属和配体组成的庞大化学空间为多目标优化的搜索带来了难度。为了解决这一问题，来自「深度原理」 (Deep Principle) 和康奈尔大学的研究者们开发了一种名为 LLM-EO（Large Language Model for Evo…
理论
- 9
- 0
ScienceAI10月25日
成功率提升15%，浙大、碳硅智慧用LLM进行多属性分子优化，登Nature子刊
编辑 | 萝卜皮优化候选分子的物理化学和功能特性一直是药物和材料设计中的一项关键任务。虽然人工智能很适合处理平衡多个（可能相互冲突的）优化目标的任务，但是例如多属性标记训练数据的稀疏性等技术挑战，长期以来阻碍了解决方案的开发。在最新的研究中，浙江大学侯廷军团队、中南大学曹东升团队以及碳硅智慧团队联合开发了一种分子优化工具 Prompt-MolOpt。
理论
- 20
- 0
ScienceAI10月23日
把 AI 放进《我的世界》服务器：GPT-4o 杀牛宰羊，Claude3.5 把家拆了
把《我的世界》交给大模型，会怎么样？GPT-4o 鲨牛宰羊，Claude3.5 不停在人类身旁放炸药包和敌人，还把家拆了。GPT-4o mini 玩《我的世界》belike：来到游戏里面，GPT-4o mini（玩家 karolina）一开始还蛮礼貌的：你好世界！
应用
- 4
- 0
清源10月21日