2018香港六喝彩2018年开奖记录,2018年香港六和彩资料,九龙图库,香港九龙图库,九龙彩色图库

小汉回应奔驰高层失眠论:每

梅赛德斯车手汉密尔顿针对车队高层有关自己会在争冠前夜失眠的说法进行了回应,称自己曾在2007年和2008年的争冠前夜都睡得很好,从来没有眠的情况。 在昨天晚上进行的阿布

read more

推荐
文章

三亚专业结构加固多少钱{联

天空彩票与你同行手机报码

激发自然律动2014NikeFree系

2018新版直通车养词方法

互联网或进入“第三阶段”:

python项目实战我用python爬

小汉回应奔驰高层失眠论:每

python项目实战我用python爬虫爬取糗事百科的段子

python项目实战我用python爬虫爬取糗事百科的段子

2018-06-20 02:59

  前面入门已经说了那么多基础知识了,下面我们做几个实战项目来挑战一下吧。那么这次为大家带来,Python爬取糗事百科的小段子的例子。

  首先,糗事百科大家都听说过吧?糗友们发的搞笑的段子一抓一大把,这次我们尝试一下用爬虫把他们抓取下来。

  糗事百科是不需要登录的,所以也没必要用到Cookie,另外糗事百科有的段子是附图的,我们把图抓下来图片不便于显示,那么我们就尝试过滤掉有图的段子吧。

  好,现在我们尝试抓取一下糗事百科的热门段子吧,每按下一次回车我们显示一个段子。

  首先我们确定好页面的URL是 ,其中最后一个数字1代表页数,我们可以传入不同的值来获得某一页的段子内容。

  我们初步构建如下的代码来打印页面代码内容试试看,先构造最基本的页面抓取方式,看看会不会成功

  嘿嘿,这次运行终于正常了,打印出了第一页的HTML代码,大家可以运行下代码试试看。在这里运行结果太长就不贴了。

  正则表达式是对字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符串”,这个“规则字符串”用来表达对字符串的一种过滤逻辑。

  正则表达式是用来匹配字符串非常强大的工具,在其他编程语言中同样有正则表达式的概念,Python同样不例外,利用了正则表达式,我们想要从返回的页面内容提取出我们想要的内容就易如反掌了。

  2.如果每一个字符都能匹配,则匹配成功;一旦有匹配不成功的字符则匹配失败。

  正则表达式通常用于在文本中查找匹配的字符串。Python里数量词默认是的(在少数语言里也可能是默认非),总是尝试匹配尽可能多的字 符;非的则相反,总是尝试匹配尽可能少的字符。例如:正则表达式”ab*”如果用于查找”abbbc”,将找到”abbb”。而如果使用非的数量 词”ab*?”,将找到”a”。

  与大多数编程语言相 同,正则表达式里使用”\”作为转义字符,这就可能造成反斜杠困扰。假如你需要匹配文本中的字符”\”,那么使用编程语言表示的正则表达式里将需要4个反 斜杠”\\\\”:前两个和后两个分别用于在编程语言里转义成反斜杠,转换成两个反斜杠后再在正则表达式里转义成一个反斜杠。

  Python里的原生字符串很好地解决了这个问题,这个例子中的正则表达式可以使用r”\\”表示。同样,匹配一个数字的”\\d”可以写成r”\d”。有了原生字符串,妈妈也不用担心是不是漏写了反斜杠,写出来的表达式也更直观勒。

  好了,今天的知识就分享到这里,欢迎关注爱编程的南风,私信关键词:学习资料,获取更多学习资源,如果文章对你有有帮助,请收藏关注,在今后与你分享更多学习python的文章。同时欢迎在下面评论区留言如何学习python。

网站统计