切换到宽版
统计排行
基本信息
到访IP统计
管理团队
管理统计
在线会员
会员排行
版块排行
帖子排行
银行
邀请注册
转帖工具
帮助
山庄导航页(收藏)
下拉
用户名
电子邮箱
用户名
密 码
记住登录
登录
找回密码
注册
快捷通道
关闭
您还没有登录,快捷通道只有在登录后才能使用。
立即登录
还没有帐号? 赶紧
注册一个
山庄首页
积分转换
积分充值
卡密充值
茶馆
山庄综艺
山庄贵宾厅
申请山庄VIP(特价中)
帖子
用户
版块
帖子
搜索
★金币如何兑换成道行★
申请山庄VIP享受视觉大餐!
如何不发帖就快速得到
金币
和
道行
道券兑换
,奖券兑换,勋章购买
武当休闲山庄
>
数码讨论
>
加强规范,不让网络爬虫变“害虫”
发帖
回复
返回列表
新帖
779
阅读
3
回复
[数码讨论]
加强规范,不让网络爬虫变“害虫”
[复制链接]
上一主题
下一主题
离线
huozm32831
UID:
329002
注册时间
2007-11-29
最后登录
2024-11-08
在线时间
19926小时
发帖
105983
搜Ta的帖子
精华
1097
金币
9595
道行
19523
原创
29307
奖券
17205
斑龄
189
道券
10126
获奖
0
访问TA的空间
加好友
用道具
UID:
329002
精华:
1097
职务:
超级斑竹
级别: 玉清道君
关闭
个人中心可以申请新版勋章哦
立即申请
知道了
发帖
105983
金币
9595
道行
19523
原创
29307
奖券
17205
斑龄
189
道券
10126
获奖
0
座驾
设备
EOS—7D
摄影级
专家级认证
在线时间: 19926(小时)
注册时间:
2007-11-29
最后登录:
2024-11-08
加关注
发消息
只看楼主
倒序阅读
使用道具
楼主
发表于: 2021-03-22
— 本帖被 兵马大元帅 执行锁定操作(2021-04-24) —
近年来,随着移动互联、人工智能、大数据、云计算等新技术的迅速发展与普及应用,人们的工作、交往和生活方式都发生了深刻变化,数据成为驱动社会发展的新型生产要素、各行各业增强竞争力的重要源泉。但在大数据收集过程中,也存在着各种违法犯罪问题。网络爬虫(Web Crawler)作为一种能快速精准地获取数据信息的基础性网络技术,近年来得到了越来越多的青睐和应用。如何对其进行规制,驱动其向好向善,成为当前重要的法治议题。
“小爬虫”的“大角色”
网络爬虫,又称为“网页蜘蛛”“网络机器人”,是一种按照一定的规则,自动抓取网络信息的程序或者脚本。它能在特定程序的驱动下,模仿人工点击从网站、手机应用、小程序或搜索引擎中检索、提取、存储数据。我们可以形象地将它们理解为一种爬行在网络上的蜘蛛,它们根据程序的指令,通常沿着URL(网址)这根蛛丝,在互联网这张大网上爬来爬去,寻找和带回所需要的数据资源。我们熟知的百度、搜狗、谷歌等搜索引擎,其技术核心元素之一就是“网络爬虫”。例如百度蜘蛛,它通过互联网入口爬取网页,实时存储并更新索引,然后为用户提供检索服务。
自从1993年第一个网络爬虫程序——“互联网漫游者”被开发出来,网络爬虫这种便捷高效的搜索技术便得到了业界关注。特别是随着数据资源的爆炸式增长,网络爬虫的应用场景也变得越发广泛与多元,长期活跃于市场调查、产品研发、金融分析、舆情监控、风险预测等领域。近年来,一些运用爬虫技术为客户提供数据服务的互联网企业,也获得了快速发展。对个人而言,我们可以利用爬虫软件等计算机编程语言,让网络爬虫为自己服务。例如想买到理想的房子,就可爬取房产中介的公开信息,分析房源数据与趋势以辅助决策。
网络的本质与价值在于连接,核心是实现数据的流动与分享。网络爬虫作为数据抓取的技术工具,通过爬行增强了网络节点间的联络,提升了网络的整体价值,是构建互联网开放与共享理念的重要技术基石。但网络爬虫所行之处,并非总是鲜花和掌声,特别是涉及隐私领地和网络安全之时。因此,为了规范爬虫,维护网络秩序,1994年诞生了“robots.txt协议”,该协议虽然只是一个“君子协议”,但它逐渐被视为网络空间爬虫技术应用公认的行业准则,也成为判定爬取行为是否获得网站许可的主要依据。在2014年百度公司诉奇虎360违反robots协议案中,法院在判决时就认为,被告没有遵守原告网站的robots协议,其行为明显不当,应当承担相应的不利后果。
科技异化:“好爬虫”和“坏爬虫”
科技本身是一种中立性工具,向善向恶、合法与非法,关键在于使用者的选择。原本通过robots协议,一方获得了数据与信息,一方增加了流量与关注,皆大欢喜。但robots协议能防“君子”却难防“小人”,有些爬虫程序不遵守规则,随心所欲地爬取别人不愿意分享的数据信息,并大量挤占服务器资源,变成了“网络害虫”。例如近年来一些大数据风控公司利用爬虫技术,在网络上非法收集用户个人信息并转卖给第三方,借以谋取经济利益。
网络爬虫设计的初衷是通过计算机技术,自动为网站编纂索引,更新信息,为用户提供高效的检索服务。具有访问、下载和解析(对数据进行分析与筛选)三种基本功能。目前,爬虫作恶主要是对前两种功能的异化,体现为三类作恶方式。
一是恶意抓取非授权数据。访问数据是“网络爬虫”的行为起点,也是其价值本源,一些企业或个人为了经济利益或其他特殊目的,想方设法让网络爬虫突破道德规则与技术障碍(网站“反爬虫”措施),爬取未经授权或超过授权范围的数据。例如2018年2月至4月间,马某通过编写“爬虫”程序,窃取手机应用及网站的用户信息约20万条,然后通过微信出售给他人,非法获利共计2.4万元,这种行为就构成了侵犯公民个人信息罪。
二是恶意侵犯知识产权。一些网络爬虫在数据爬取过程中,未经版权方的许可,就下载、复制或传播文字、图片和视频等内容,并以此获利。通常形式是,爬虫对具有版权归属的文学或影视作品等设置加框链接,吸引用户点击,然后通过售卖广告等形式牟利。例如段某建立的“窝窝电影”网站,利用爬虫技术对多家视频网站的500余部影视作品设置了加框链接,吸引用户点击播放,并赚取广告费100余万元,这种行为就触犯了著作权法。
三是恶意扰乱系统运行。网络爬虫访问系统时,跟人工点击原理一样,因此当巨量爬虫同时访问某一网站时,就会占用大量的带宽资源,造成服务器不堪重负甚至崩溃。业内专家表示,2019年有近40%的网络流量来自爬虫,其中20%来自恶意爬虫,而且比例还将不断上升。出行行业即是重灾区。以中国铁路“12306网站”为例,自2011年上线运营以来,春运期间多次出现因爬虫(主要是抢票软件)攻击而无法访问的情况。据统计,2018年春运期间,网站最高峰时1天内页面浏览量达813.4亿次,其中近90%是“爬虫”所为。
合理规制,让“爬虫”向善向上
据统计,截至2020年12月,我国网民规模达9.89亿。增强网络空间治理,保障个人信息和数据安全,已成为重大的时代命题。
目前我国对网络爬虫的规制还没有专门的法律法规,主要依靠民法典、反不正当竞争法、著作权法、网络安全法以及刑法中的相关法律条款。但从法律规制效果来看,情况不容乐观。一方面是由于互联网技术的快速发展,以及网络所具有的开放性、虚拟性和流动性等特征,让对违法犯罪行为的监管和证据提取较为困难,特别是随着数据抓取从网页拓展至手机应用程序、小程序等移动端平台,抓取手段就更加复杂与隐蔽;另一方面是网络世界和数字服务发展迅猛,法律法规还具有较大的滞后性,司法实践对网络爬虫技术滥用引发的法律问题缺乏足够的司法经验,而相关的司法解释亦未能予以足够关注,难以形成有效规制。例如2017年今日头条与新浪微博之间因“微头条”业务同步“微博”发言内容的纠纷案例,其实质是数据权属难以确定的问题。但由于缺乏明确的司法解释指引,引发了实践中的普遍争议。
2019年5月,国家互联网信息办公室公布了《数据安全管理办法(征求意见稿)》,该办法专门针对利用网络开展数据收集、存储、传输、处理、使用等活动进行了规制,有望对网络爬虫等技术行为进行有效治理。该办法强调,国家坚持保障数据安全与发展并重,鼓励研发数据安全保护技术,积极推进数据资源开发利用,保障数据依法有序自由流动。这也提醒我们,网络爬虫等本质上是顺应数字经济发展需求而生,既要从法律层面高度重视,也要把握好法律规制的边界,力求达到数据利用与合理规制之间的良性平衡,以便让网络技术更好地服务经济社会与人民生活,助推数字中国建设。
共
1
条评分
,
金币
+10
兵马大元帅
金币
+10
验证通过,感谢支持
2021-04-24
山庄提示:
道行不够,道券不够?---☆点此充值☆
回复
举报
分享到
淘江湖
新浪
QQ微博
QQ空间
开心
人人
豆瓣
网易微博
百度
鲜果
白社会
飞信
在线
smen
京师四门提督神爷
UID:
309051
注册时间
2007-10-27
最后登录
2024-11-09
在线时间
25955小时
发帖
385776
搜Ta的帖子
精华
39
金币
747
道行
12539
原创
906
奖券
1369
斑龄
0
道券
1233
获奖
0
访问TA的空间
加好友
用道具
UID:
309051
精华:
39
级别: 天外仙宗
发帖
385776
金币
747
道行
12539
原创
906
奖券
1369
斑龄
0
道券
1233
获奖
0
座驾
C200L
设备
摄影级
高级认证
在线时间: 25955(小时)
注册时间:
2007-10-27
最后登录:
2024-11-09
加关注
发消息
只看该作者
沙发
发表于: 2021-03-22
申请VIP---在山庄畅通无阻还送FTP单独下载账号!
好歹都是专业人士啊
共
1
条评分
,
金币
+2
兵马大元帅
金币
+2
验证通过,感谢支持
2021-04-24
如何不发帖就快速得到
金币
和
道行
回复
举报
离线
日出印象
UID:
2033259
注册时间
2016-09-03
最后登录
2024-11-08
在线时间
1770小时
发帖
5683
搜Ta的帖子
精华
0
金币
13743
道行
509
原创
62
奖券
825
斑龄
0
道券
146
获奖
0
访问TA的空间
加好友
用道具
UID:
2033259
精华:
0
级别: 开山鼻祖
发帖
5683
金币
13743
道行
509
原创
62
奖券
825
斑龄
0
道券
146
获奖
0
座驾
设备
摄影级
在线时间: 1770(小时)
注册时间:
2016-09-03
最后登录:
2024-11-08
加关注
发消息
只看该作者
板凳
发表于: 2021-03-22
网络爬虫,是我们的好伙伴!
首先,网络是个公共场所。既然你的资料决定上传到网络就存在被别人利用转载的可能。你明知而又为之,视同公开发布。
其次,侵权行为必须具备主观上有牟利或有损他人的恶意。没有故意,自然也就构不成侵权。
就像我在书店浏览书籍收集素材然后创作文章一样。你不能说读者的行为就是侵权。
第三,要有法可依。不能仅以损害事实归罪,造成因果颠倒。同样的东西,在你手里没赚到钱。到别人手里赚到钱了,回头你告人家侵权。情何以堪啊?
[ 此帖被日出印象在2021-03-22 17:09重新编辑 ]
共
1
条评分
,
金币
+18
兵马大元帅
金币
+18
精彩回复
2021-04-24
如何不发帖就快速得到
金币
和
道行
回复
举报
离线
happy2021
UID:
2141287
注册时间
2020-12-16
最后登录
2021-07-20
在线时间
94小时
发帖
702
搜Ta的帖子
精华
0
金币
348
道行
114
原创
23
奖券
39
斑龄
0
道券
4
获奖
0
访问TA的空间
加好友
用道具
UID:
2141287
精华:
0
级别: 武当真人
发帖
702
金币
348
道行
114
原创
23
奖券
39
斑龄
0
道券
4
获奖
0
座驾
奔驰GLE43
设备
佳能1DX2
摄影级
在线时间: 94(小时)
注册时间:
2020-12-16
最后登录:
2021-07-20
加关注
发消息
只看该作者
地板
发表于: 2021-03-23
任何事情都有两面性,“网络爬虫”是同样的道理。
技术的发展,必然带来双重性,积极的一面会推动技术的革新,消极的一面会利用技术做祸国殃民的事情;消极的一面又有两面性,加快技术进一步革新,来堵住这些漏洞或不足,另一方面是损失一部分人的利益。
共
1
条评分
,
金币
+10
兵马大元帅
金币
+10
精彩回复
2021-04-24
如何不发帖就快速得到
金币
和
道行
回复
举报
发帖
回复
返回列表
隐藏
快速跳转
山庄政厅
站务公告
荣誉申请&公布
新手试贴区
PHPwind Board
默认分类
原创摄影厅
综合摄影
风景游记
人物人像
美食诱惑
原创街拍
T台展会
泡面专区
山庄晒台
模拍私房
原创讨论厅
道优辩论
足球讨论
艺术探讨
理财投资
汽车讨论区
旅游讨论
四大名著
数码讨论
职场讨论
道友个人版块厅
个版管理处
温柔印像
休闲生活厅
茶余饭后
生活百科
影音娱乐厅
影视交流
综艺娱乐
在线影院
音乐交流
贵宾上宾厅
VIP 贵宾专区
VIP资源一区
4K超清秀场
国艺经典
VIP资源三区
高级私房区
艺术摄影
高级VIP资源区
道友贴图厅
闲情雅趣
唯美人像
山庄原创厅
原创贴图
原创图文
原创培训
道友像册
原创文学
山庄文化
求助&技术厅
综合求助
电脑求助
医疗求助
法律求助
关闭
关闭
选中
1
篇
全选