评价

超越现有指标57.3%，邢波教授、胡志挺教授团队提出统一NLG评价框架

长期以来，评价机器生成的文本比较困难。近日，CMU邢波（Eric Xing）教授和UCSD胡志挺（Zhiting Hu）教授的团队提出用一种运算符，统一各类生成任务的评价方式，为未来各种新任务、新要求提供了更加统一的指导。实验表明，基于统一框架设计的评价指标，在多个任务上超过了现有指标与人工评分的相似度，现在通过PyPI和GitHub可以直接调用。

1/28/2022 5:12:00 PM

机器之心

「Pop SOTA！List for AI Developers 2021」社区评价 TOP 128 价值工作完整名录发布！

2022 年初，我们对 2021 年度发布于 arXiv 的「SOTA」AI 论文进行了一轮分析，试图找到 2021 年度，对 AI 开发者最具价值的「Pop SOTA！」工作。但面对超过 2 万篇的「SOTA」工作，我们产生了疑惑 —— 自称「SOTA」的工作就一定是先进的吗？对广大 AI 开发者来说，什么样才是先进的技术工作？是思路具有启发性？还是跑出的实验分数高？是易于实现，对数据资源、计算资源的需求可控？还是放出的代码实现即插即用，可用性强？

1/27/2022 2:05:00 PM

SOTA模型

资讯热榜

上海AI实验室开源InternVL3系列多模态大型语言模型「交交」媲美GPT-4o！上海交大推出口语对话情感大模型，首个纯学术界自研！ Haisnap横空出世，小白用户也能轻松打造AI应用 kimi开源视觉语言模型 Kimi-VL 与 Kimi-VL-Thinking，多项基准超越 GPT-4o 本地部署DeepSeek+DiFy平台构建智能体应用韩国初创公司 RLWRLD 获 1480 万美元融资，致力于机器人基础模型开发 ChatGPT重磅更新：新增图像库功能，可查看自己用GPT生成的所有图片击败DeepSeek-R1！豆包新推理模型仅用前者参数量1/3！还将开源两个基准，瞄准通用推理能力！

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习开源 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达神经网络腾讯计算研究 Sora AI for Science 3D Anthropic AI设计机器学习 GPU 开发者场景华为预测伟达 Transformer 百度苹果深度学习 AI视频模态人形机器人驾驶 xAI 文本搜索字节跳动大语言模型 Copilot Claude 具身智能神器推荐 LLaMA 算力安全应用视频生成科技视觉亚马逊干货合集 2024 AGI 特斯拉 DeepMind 训练