字节自研大模型,却因用ChatGPT被封号惹争议?官方回应了

没想到,字节的大模型项目是被这样曝光的。上周末,有外媒报道称,字节跳动在运用 OpenAI 技能开发自有大语言模型时,因违背 OpenAI 效劳条目从而遭账号禁用。据 The Verge 报道,字节跳动里面正在研发的大语言模型项目名为「种子打算」(Project Seed)。由于训练大模型需要大量问答知识,该项目被曝出一直在秘密运用 OpenAI 的技能来充实数据集。在大模型领域,利用其他 AI 生成的实质用于训练的「取巧」举动虽然并不少见,但经常会被认为是一种超出底线的举动。在 ChatGPT 上,滥用 AI 生

没想到,字节的大模型项目是被这样曝光的。

上周末,有外媒报道称,字节跳动在运用 OpenAI 技能开发自有大语言模型时,因违背 OpenAI 效劳条目从而遭账号禁用。

据 The Verge 报道,字节跳动里面正在研发的大语言模型项目名为「种子打算」(Project Seed)。

由于训练大模型需要大量问答知识,该项目被曝出一直在秘密运用 OpenAI 的技能来充实数据集。

在大模型领域,利用其他 AI 生成的实质用于训练的「取巧」举动虽然并不少见,但经常会被认为是一种超出底线的举动。在 ChatGPT 上,滥用 AI 生成的数据直接违背了 OpenAI 的效劳条目,其规定其模型输出不能用于「开发任何与我们的产品和效劳竞争的人工智能模型」。

字节自研大模型,却因用ChatGPT被封号惹争议?官方回应了

在 11 月 14 日 OpenAI 对于 ChatGPT、DALL・E 的条目更新中还规定了用户:

不得举行逆向工程、反编译或参与模型提取或窃取,包括模型和系统;

不得以自动或程序的方式提取生成实质;

不得把 ChatGPT 生成的实质伪装成人类生产的实质。

字节自研大模型,却因用ChatGPT被封号惹争议?官方回应了

OpenAI 对于违规用户的处理办法就是在通知后终止效劳。

完整协议:https://openai.com/policies/business-terms

那么,字节跳动「种子打算」的具体实质以及如何被怀疑违背 OpenAI 运用条目的呢?

根据 The Verge 取得的里面文件消息,字节跳动更多是在「种子打算」的早期运用 OpenAI 的技能,并在大约几个月前指示该团队在模型开发的任何阶段停止运用 GPT 生成的文本。大约同一时期,字节跳动发布了自有 AI 大模型豆包(Doubao)。

有关员工非常清楚自身的举动,并讨论过如何通过「数据脱敏」方式来举行规避。不过他们仍然经常达到 OpenAI API 的最大考察上限。

当地时间周五,OpenAI表示,字节跳动的账户已被暂停运用。

OpenAI 发言人 Niko Felix 在给 The Verge 的一份声明中表示,「所有 API 客户都必须恪守 OpenAI 的运用条目,以确保我们的技能得到恰当地运用。虽然字节跳动对我们 API 的运用量很少,但在进一步调查的同时,我们已经暂停他们的账户。如果最终发现字节跳动的运用不符合政策,则将要求他们举行必要的更改或终止他们的账户。」

字节跳动发言人 Jodi Seth 做出了回应,否认公司有任何不当举动,并澄清取得了运用 GPT API 的权限。

她表示,「字节跳动已取得微软授权,可以运用 GPT API。GPT 生成的数据只在种子打算早期开发中用来注释模型,并已于今年年中从字节跳动的训练数据中移除了。我们运用 GPT 来支持非中国市场的产品和功能,而在中国市场运用我们自研的模型来支持豆包。」

字节自研大模型,却因用ChatGPT被封号惹争议?官方回应了

图源:https://the-decoder.com/openai-bans-tiktok-company-bytedance-from-chatgpt-due-to-possible-data-theft/

同时,微软发言人 Frank Shaw 也发表了一份声明,「像 Azure OpenAI 效劳这样的 AI 解决方案是我们有限考察框架的一部分,所有客户必须申请并取得微软批准后才能考察。我们制定标准并提供资源,帮助客户负责任地运用这些技能,并恪守有关效劳条目。我们还制定流程来检测滥用举动,并在企业违背准则时停止他们的考察权限。」

12 月 17 日,字节跳动有关负责人回应了机器之心的置评请求,称公司在运用 OpenAI 有关效劳时,强调要恪守其运用条目,其正与 OpenAI 联系沟通,以澄清外部报道可能引发的误解。

以下是字节跳动对运用 OpenAI 效劳有关情况的介绍:

1、今年年初,当技能团队刚开始举行大模型的初期探索时,有部分工程师将 GPT 的 API 效劳应用于较小模型的实验性项目研究中。该模型仅为测试,没有打算上线,也从未对外运用。在 4 月公司引入 GPT API 调用规范查抄后,这种做法已经停止。

2、早在今年 4 月,字节大模型团队已经提出了明确的里面要求,不得将 GPT 模型生成的数据添加到字节大模型的训练数据集,并培训工程师团队在运用 GPT 时恪守效劳条目。

3、9 月,公司里面又举行了一轮查抄,采取措施进一步保证对 GPT 的 API 调用符合规范要求。例如分批次抽样检测模型训练数据与 GPT 的相似度,避免数据标注人员私自运用 GPT。

4、未来几天里,我们会再次全面查抄,以确保严格恪守有关效劳的运用条目。

自 ChatGPT 出现以来,各大科技公司都在加紧研发能够与之匹配的竞品,不过由于面向 C 端和海外市场,面临更多技能和法规等方面挑战,字节对于大模型的宣传相对低调。在今年 6 月,火山引擎发布了大模型平台火山方舟,8 月份,字节自研大模型「云雀」通过备案,开启了 AI 对话产品「豆包」的对外测试。

在技能和落地应用等方面,今年的生成式 AI 可谓有了飞跃式的进步,但在安全和隐私保护等问题上,目前人们仍然存在一些疑虑。

参考实质:

https://www.theverge.com/2023/12/15/24003151/bytedance-china-openai-microsoft-competitor-llm

https://www.businessinsider.com/bytedance-openai-tech-artificial-intelligence-tiktok-sam-altman-2023-12

给TA打赏
共{{data.count}}人
人已打赏
应用

未来集成到AI中?以78%准确率鉴别声音,「生物算计机」将实验室培养的脑组织与电子硬件融合

2023-12-18 16:21:00

应用

清华大学张璇、周光敏团队在联邦进修实行服役电池共同分类收受接管研究中取得新进展

2023-12-18 16:26:00

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
搜索