网站

「AI 数据荒」雪上加霜,MIT 发现网页数据的公开共享正走向衰落

人工智能系统依靠充足、高质量的训练数据来获得高性能,但 MIT 等机构最近的一项研究发现,曾经免费提供的数据在多个方面变得越来越难获取。随着 GenAI 产品开发和研究变得越来越广泛,训练数据的抓取许可也越来越成为受关注的话题。最近,吴恩达在网站 The Batch 上提及了一篇有关数据许可的研究,其结果似乎让本就迫近的「AI 数据荒」雪上加霜。研究人员发现,C4、RefineWeb、Dolma 等开源数据集所爬取的各种网站正在快速在收紧他们的许可协议,曾经触手可及的开放数据越来越难以获取。这不仅会影响商用 AI

AI 时代如何遏制优质内容被过度抓取?谷歌探索网络货币化模式

AI 时代如何避免优质内容被抓取?谷歌正在 Chrome 浏览器中探索网络货币化解决方案,为站长、创作者提供新的营收模式。广告时代走下坡路很多内容创作者、站长都依赖广告维持运营成本,访问网站的人越多,他们和谷歌获得的收入就越多。不过在 AI 时代,用户可以绕过访问这些网站,就能获取他们想要的答案,因此导致内容创作者、站长的收入减少。货币化方案AI在线曾于今年 2 月报道,谷歌正在开发网络货币化规范,用户可以直接向网站付费,通过小额支付预览相关内容,帮站长在广告、订阅等其他传统方式之外开辟新的收入渠道。软件工程师亚历

无视网站反 AI 抓取政策,Anthropic 爬虫机器人惹多个网站所有者不满

据 The Verge 当地时间 26 日报道,Anthropic 公司使用的 ClaudeBot 在短短 24 小时之内,就访问了 iFixit 网站近百万次,此举违反了该网站的使用条款。这一显得有些疯狂的举动,引起 iFixit 的 CEO Kyle Wiens 直接在 X(推特)上开怼,AI在线附大意如下:“如果这些请求(指访问)中的任何一个访问了我们的使用条款,那么它会告诉你我们的内容被明确禁止使用。别问我,去问 Claude!”“我知道你渴望获得数据,Claude 也真的很聪明!但是,你真的有必要在 24

Reddit 被曝屏蔽多个搜索引擎和 AI 爬虫,官方称与谷歌合作无关

感谢今年 2 月,谷歌宣布与 Reddit 达成一项新协议,Reddit 数据将用于训练谷歌的 AI 模型,并在谷歌搜索结果中着重显示 Reddit 结果。彭博社报道称,这笔交易的金额约为 6000 万美元。从那时起,Reddit 在谷歌搜索中的展示次数也大幅增加。而最新消息称,Reddit 已禁止其他搜索引擎检索其网站内容。外媒 404 Media 最先报道了此行为,并指出 Reddit 已更新其 robots.txt 文件(AI在线注:网站与爬虫的协议文件),阻止所有机器人抓取网站的任何内容。AI在线查询 Re

Mozilla 升级 AI 建站服务 Solo:添加动画、放宽字符限制,最多上传 30 张图片

Mozilla 于 2023 年 12 月出名为 Solo 的全新项目,面向没有任何编程经验的用户,通过融入 AI 能力,所创建的网站可以媲美专业开发者的开发效果。Mozilla 时隔将近半年时间,推出了 Solo AI 1.0 重磅更新,通过引入更丰富的动画,让你的网站看起来更加精致。Mozilla 公司表示:“我们的首要目标是让您轻松创建和发布网站。现在,我们的下一个目标是帮助您拓展业务。在接下来的几个月里,我们将陆续推出新功能,为您提供帮助。”Mozilla 还放宽了网站的字符限制,现在每个网站最多可上传 3

B站粉丝超130万,最火最直观数学网站3b1b终于有了文字版!网友:点燃对数学的爱

学习知识有更优雅的方法。如果你无法理解高等数学、比特币、深度学习这些概念,可能有人会向你推荐 3blue1brown 的视频——这是一个专门制作可视化讲解视频的频道,其内容覆盖数学、人工智能等领域,每门课都配有直观生动的动画演示,帮助观众加深对概念定理的理解。它火到什么程度?除了 YouTube 上 380 万订阅者之外,3b1b 在 B 站上还有官方账号,粉丝数量超过 130 万,每个视频都是 10 万以上播放量,甚至有老师在课堂上播放该频道的视频。对于一个硬核教学 UP 主来说,这样的成绩几乎是无人可及了。不过
  • 1