自我中文

字:
关灯 护眼
自我中文 > 大时代之巅 > 第768章 爬虫

第768章 爬虫

  第768章 爬虫 (第2/2页)
  
  r=(“
  
  html=xt
  
  print(html)
  
  难怪说3月份的时候,北科有两个计算机系的大学生被开除了。
  
  这技术好像是不太难。
  
  因为大四写论文,可用谷歌、百度、微点等搜索引擎,却搜不到别人写的相关论文。怎么办?就有计算机系的学生,自己写了段爬虫算法。
  
  然后成功的爬取到了几百篇相关论文。
  
  接下来就好办了,摘抄、重组、整合。
  
  如果查重不过关,也简单,用谷歌翻译,先汉译英、再英译汉。再人工地把句子整理通顺,查重就顺利通过。
  
  可能是北科的创业环境被周不器给带起来了,那俩大学生就有了通过技术牟利的心思,玩起了帮同学写论文的生意。
  
  被发现后,俩人都被开除了。
  
  要不是周不器出面力保,上缴了非法所得,并安排到了校内网工作,他俩说不定就要蹲监狱了,前程就全毁了。
  
  王小船接着说:“这是静态网站的爬取,如果是优酷、朋友网的这种动态页面,算法会相对复杂。可不管怎样,这都是很基础的工具。我们做搜索引擎,难点已经从复杂性变为规模量了。”
  
  周不器皱皱眉,“老马……就是阿里的那位。他跟我说,要屏蔽百度对淘宝的爬虫,怎么回事?”
  
  王小船笑道:“这事也简单,爬虫和网站之间有一个爬取协议,业内叫Robot协议。这个协议会声明,该网站的哪些内容可以爬取,哪些内容不能爬取,并规定白名单里的爬虫可以爬取主页内容。淘宝如果要屏蔽百度,只需要把百度的爬虫加到黑名单里就行了。”
  
  “嗯!”
  
  周不器点了点头。
  
  这就是他想要的答案。
  
  爬虫黑名单!
  
  王小船似乎看出了什么,试探着说:“老板,你……你要对百度下手吗?”
  
  周不器道:“我看了一下微知网的数据,过去3个月,有超过1.1亿的访问量,是来自百度。”
  
  王小船没有惊喜,深吸了口气,忧心忡忡的说:“微知的访问量本来就不高,如果屏蔽了百度,流量就更低了。”
  
  周不器并不在乎,“微知不需要流量,微知需要的是优质内容。你都说了,百度的算法不如谷歌,很难通过简单的数据处理完成对一些有深度内容的检索,来爬取微知的内容,是简洁途径。有不少用户都是通过百度来访问微知,我们要断了这条线!”
  
  王小船眨眨眼,“真要屏蔽吗?”
  
  “当然。”
  
  “可Robot协议没有法律效力。”
  
  “啥?”
  
  “这个协议,是一种行业约束,君子协定,不是法律条文。如果百度真想爬取微知的内容,完全可以通过技术手段跳过协议,强行爬取。”
  
  周不器若有所思,“君子协定啊……如果强行爬取,有违商业道德?”
  
  王小船点了点头,“可以这么理解。”
  
  心中深深的不以为然。
  
  商业道德?
  
  这东西是一层窗户纸,一捅就破。
  
  “如果违反了怎么办?”
  
  “国外有过类似的案子,违反了协议,也被处罚了。因为法官认为这个协议虽不是法律条文,但作为广泛被接受的行业规则,就应该被遵守。不过国内好像不太行。就像RSS聚合器似的,可以去各个网站上订阅信息。网站拒绝了RSS订阅,依旧可以通过技术手段强行订阅。”
  
  周不器想了一下,语气轻松,笑着说:“没事,百度在美国上市,不敢玩的太出格。先这么做吧,第一步,微知网屏蔽百度的爬虫。你这边也做准备,我打算一步步的、全面彻底的跟百度切割。”
  
  王小船睁大眼睛,“全都切割?”
  
  周不器淡淡地道:“对!”
  
  “这行吗?”
  
  “你觉得切割了,对谁的危害更大?”
  
  “这……”
  
  王小船有些犹豫,不太好说。
  
  周不器冷冷的道:“紫微星不主动欺负别人,却也不会任人欺负。百度从校内网挖了十几个人,把一个满建制的小组都给挖走了。不亮亮肌肉,李大老板以为我脾气好,好说话呢!”
  
  都屏蔽了,当然对微点搜索最有利。
  
  可王小船格局没这么小,不认为这是个好主意,好心的提示一句,“咱们自身的利益也会受损。百度是最大的搜索引擎,是流量分发平台。”
  
  周不器却很有信心,“平台的优势是轻量级,劣势是容易被人卡脖子。联想电脑品牌这么响,你知道联想最怕什么吗?最怕微软的系统授权和英特尔的芯片断供。每一次发生分歧,都要支付一大笔钱。如果把百度比作联想电脑,紫微星就需要成为最大的零配件供应商。微知、朋友网、校内网,接下来,我们还会有今日头条和微博。比比看!”
  
  
『加入书签,方便阅读』
热门推荐
极品全能学生 凌天战尊 御用兵王 帝霸 开局奖励一亿条命 大融合系统 冷情帝少,轻轻亲 妖龙古帝 宠妃难为:皇上,娘娘今晚不侍寝 仙王的日常生活