无法在这个位置找到: head_index.htm
当前位置: 主页 > 单双王 >

Python爬取新浪英超曼联文章内页--bs4jsontxt和csv以及编码

时间:2019-10-31 08:12来源:未知 作者:admin 点击:
这个页面是新浪英超曼联新闻的首页,直接用lxml爬取,得到它是动态的爬不到, 白小姐开奖结果 。所以要考虑它的信息处理机制,使用Chrome审查元素,在Network--Priview中可以找到它的json源。通常可以把callbacak=直到最后删除,之前的信息似乎没什么用处,

  这个页面是新浪英超曼联新闻的首页,直接用lxml爬取,得到它是动态的爬不到,白小姐开奖结果。所以要考虑它的信息处理机制,使用Chrome审查元素,在Network--Priview中可以找到它的json源。通常可以把&callbacak=直到最后删除,之前的信息似乎没什么用处,有用的时候再说。

  虽然爬取网页信息,爬的不多,但是通常有两大方法:一个是从网页本身入手用lxml定位相应的h5元素,另一个是直接找信息源,通常是json。

  没做完的部分:将标题,内容都整理好,只爬取前20条信息就足够了(或者加上后面10页的内容),进入内页后,将文章的文字部分也提取出来。

  显然,所有有用的信息都已经在jsData这个列表里面,而现在为止,有两个问题:

  首先,下一页的数据。点击底下的页码的时候,数据变化,而浏览器地址栏是不变的,所以还是要从json源的地址入手。而通过观察json源地址:可知,page=1,这个1很可能是相应页码,同时,共114页,我们只取前20。

  像这种:就不解析了,所以还要用到Python的try...except。另外就是把标题,时间,内容,都存储为csv和txt,后面我分别写。

  最终的程序,把文章标题,日期,和内容存储在txt文档中(爬小说像不像):

  原理:分析从上至下,构建从下至上。首先分析树状结构,之后再构建解析文章解析文章列表。但是,这样单线程似乎有点慢,如果用多线程的方式,首先需要构建文章列表,再用函数进行统一解析。

  尴尬!鲁尼找对手换球衣被拒 来自曼城的恨(图)----2017年01月08日01:11

  新浪体育讯曼联4-0大胜雷丁一战,对于鲁尼本人意义非凡,此役他追平了队史射手王查尔顿爵士249球的纪录。按理说,这样一场比赛,谁都想沾沾鲁尼的喜气,但是雷丁后卫乔治-埃文斯便是个另类,他拒绝了鲁尼主动交换球衣的请求,原因是什么呢?

  request负责获取html页面,json负责解析数据源,bs负责解析html内页获取相关内容(中间涉及编码问题,在stackoverflow找到答案),最后是写入txt(自带函数),写入csv(csv和codecs模块)。

Copyright © 2002-2011 DEDECMS. 织梦科技 版权所有 Power by DedeCms
买马十二生肖表| 香港赌神一码中特网站| 香港赛马会挂正牌挂牌| 本港现场开奖结果报码| 一肖免费中特王中王| 深圳心水福坛| 一码中特平码三中三书| 香港摇钱树中特网网站| 雷锋报天机一句话彩图| 港京印刷图源图库跑狗图|