ERA:AIGC创业用爬虫技术做个知乎版GPT机器人合法吗？

今年，GPT、AI绘画等人工智能大模型工具火热，许多人也想来追一波AI创业热潮，相关创业项目层出不穷。优质数据对AI大模型训练至关重要，只有拥有足够多的数据，才能训练出智能、强大的AI工具。我国互联网蓬勃发展二十余年，还能缺少数据？这不，曼昆律师最近接到网友咨询，准备用爬虫爬取知乎数据，做一个知乎GPT机器人岂不美哉？且慢，这其中的法律风险不可忽视。

01 爬虫是把双刃剑

爬虫技术是一种通过编程自动从互联网上获取数据的技术。它的名字形象、生动地表明了它的工作原理：模拟人类在网页浏览器中浏览网页的过程，进行数据采集和数据抓取。

网络爬虫广泛应用于搜索引擎、数据采集、广告过滤、大数据分析等领域。作为一种功能强大的信息采集程序，它能够显著提高工作效率，尤其是对海量数据的收集和整理。

币安东欧副总裁和俄罗斯独联体总监宣布离职:金色财经报道，币安东欧和俄罗斯业务负责人Gleb Kostarev于9月6日在Facebook上宣布离开币安。Kostarev在声明中表示，今天是他在币安长期工作的最后一天，将辞去负责东欧、独联体、土耳其、澳大利亚和新西兰业务的副总裁职务。几个月前我也辞去了亚太区职务。

此外，币安俄罗斯和独联体地区总监Vladimir Smerkis随后也在Facebook上宣布离职。[2023/9/6 13:22:16]

然而，一旦技术被不正当使用，也会引发“虫灾”，导致网络拥堵、崩溃、服务器瘫痪甚至引发数据安全风险。我们熟悉的“裁判文书网”也不能幸免：

CZ：Binance将于8月在日本新平台上开始提供全面服务:7月25日消息，加密交易平台Binance创始人CZ表示，Binance将于8月在日本新平台上开始提供全面服务。[2023/7/25 15:57:26]

图：2019年，最高人民法院发布的《关于“中国裁判文书网”网站建设建议的答复》

02 使用爬虫技术的风险

爬虫作为一项获取数据的技术手段，并未被法律禁止。但使用方式及使用目的决定了是否会产生违法的行为和后果。

使用爬虫技术，能在短时间内对网站进行大量访问，频繁抓取页面和数据。这可能会导致网站的带宽和服务器负载急剧增加，从而影响网站的正常运行，甚至导致宕机或响应缓慢，干扰被访问网站的正常运营，严重时可构成犯罪。

DigiDaigaku系列NFT近24小时交易额涨幅达370.49%:金色财经报道，据NFTGo最新数据显示，DigiDaigaku系列NFT过去24小时的交易额为153,486美元，增长率为370.49%。截至发稿时，NFTGo数据显示，DigiDaigaku地板价为6.67ETH，24小时跌幅为21.11%。[2022/9/8 13:17:02]

杨某授权公司员工张某开发某信贷系统软件，该软件内的“网络爬虫"功能能与深圳市居住证网站链接。2018年5月，该软件连续两小时对深圳市居住证系统查询大量访问，致使深圳市居住证系统无法正常运作，极大地影响了该居住证系统使用方深圳市局人口管理处的日常运作。二人均构成破坏计算机信息系统罪。【(2019)粤0305刑初193号】

与使用方式相比，如何使用爬取的信息和数据，对爬虫行为的定性影响更大。

Ripple高级产品总监Craig DeWitt宣布其已成为美国快速支付委员会的副主席:12月18日消息，Ripple高级产品总监Craig DeWitt宣布其已成为美国快速支付委员会的副主席，将协调委员会在跨境支付领域的活动，还将研究央行数字货币 (CBDC) 和其他先进数字支付工具在跨境价值转移中的前景。（U.Today）[2021/12/19 7:48:28]

非法使用爬取的数据和信息主要有：

（1）盗取个人信息：使用爬虫技术恶意抓取网站上的个人信息，可能涉及侵犯他人隐私、个人信息，严重可构成侵犯公民个人信息罪。

（2）商业竞争中的不正当行为：使用爬虫技术获取竞争对手的商业秘密、定价信息、用户数据等，对数据整合后“搬家”到其他平台，通过这种便捷的方式获取大量有价值的数据、信息，以谋取不正当竞争优势。

动态 | Craig Wright声称已提交了666项区块链专利申请:据bitcoin.com报道，自称是中本聪的Craig Wright和他的公司Nchain声称迄今已提交了666项区块链专利申请。此前据thenextweb报道，在过去19个月中，世界知识产权组织已经发布了155项由澳本聪提出的区块链及加密货币相关专利申请。[2019/3/22]

在“酷米客诉车来不正当竞争纠纷案”中，法院认为，未经权利人许可，利用网络爬虫技术进入权利人的服务器后台的方式非法获取并无偿使用权利人的实时公交信息数据的行为，实为一种“不劳而获”、“食人而肥”的行为，且具有非法占用他人无形财产权益，破坏他人市场竞争优势，构成不正当竞争。

（3）侵犯知识产权：爬取受版权保护的内容，然后用于未经授权的公开传播或商业用途，属于侵犯知识产权的行为。

03 爬虫数据“投喂”大模型的风险

通过前面的分析可知，使用爬虫技术的风险主要在于爬取的方式以及爬取的内容，那是不是控制爬取的频率和内容，爬取公开内容，用来训练机器人就没有什么风险了呢？

首先，知乎官方账号早在2018年就发布了《关于知乎用户权益保护升级的公告》，提到：知乎对第三方开放知乎内容的使用采取白名单制，第三方需要通过官方合作渠道进行申请。如果爬取行为违反了知乎的服务条款，知乎可能采取封禁账号、IP地址或者其他法律行动。

摘自《知乎机构号使用规范》（试行）

其次，知乎上的内容通常由用户原创或授权发布，著作权归用户本人所有。未经授权地爬取和使用这些内容，可能涉及侵犯知乎的版权和著作权。

其实，训练AI大模型，“数据盗窃”并非个案。上个月，笔神作文公开指控昔日合作伙伴学而思，认为学而思通过爬虫方式“偷数据”训练自家AI产品。笔神作文表示，将通过司法程序解决纠纷，要求“学而思”支付1元赔偿金，公开道歉，并删除已爬取的数据。

04 小结

在人工智能创业的热潮中，数据变得越来越重要。在面对爬虫技术带来的诱惑时，应当认识到，虽然爬虫技术本身并未被禁止，但其不当使用可能导致法律问题，尤其是在涉及个人信息、隐私、版权和不正当竞争等方面。

《生成式人工智能服务管理暂行办法》中明确提到，训练数据处理活动时，应当使用具有合法来源的数据和基础模型。各位老板在创业过程中，要确保数据采集的合法性和道德性。如果想要使用爬取的数据训练AI大模型，务必事先获得数据来源方的授权，并遵守相关平台的规定。

刘红林律师

个人专栏

阅读更多

Foresight News

金色财经 Jason.

白话区块链

金色早8点

LD Capital

-R3PO

MarsBit

深潮TechFlow

郑重声明：本文版权归原作者所有，转载文章仅为传播更多信息之目的，如作者信息标记有误，请第一时间联系我们修改或删除，多谢。

FILINC:测算 EIP-4844 对 Layer2 协议费用和利润的影响

第二层解决方案（L2）如Rollups（Arbitrum、Optimism、zkSync）能解决以太坊的可扩展性问题,同时EIP-4844的实施将降低L1成本开销.

比特币价格今日行情ERA:金色观察 | TVL临近腰斩、EraLend被黑 zkSync Era要出局？

作者：Climber,金色财经EraLend 交互一场,仿佛去了一趟缅甸,zkSync Era里的水太深.

酷币BAS:玩转 Base 指南：除了模因币外 Base 链还有哪些值得参与的项目？

由 Coinbase 基于 OP Stack 推出的 L2 网络 Base 最近引起了加密社区的热议,原因在于发行于 Base 之上的模因币 BALD 造就了“一日百倍神话”.

莱特币最新价格EKE:MEKE—OpBNB链上首个去中心化衍生品交易协议

近日,香港金发局发布的2022/23年报（下称“年报”）指出,香港正在将自己定位为开发虚拟资产的全球领导者.

链链资讯

ERA:AIGC创业用爬虫技术做个知乎版GPT机器人合法吗？

链链资讯