怎么写爬虫网页世界多姿多彩、亿万网页资源供你选择

发布时间:2021-07-08 18:01 点击:

爬虫也可以称为 Python 爬虫

不知何时,Python这个语言和爬虫就像一对恋人。两者就像胶水和漆一样,形影不离。你中有我,我中有你。说到爬虫,大家就会想到 Python。说到 Python,就会想到人工智能……和爬虫

所以,说到爬虫,大部分程序员都会下意识的联想到Python爬虫。为什么会这样?我认为有两个原因:

任何学习 Python 的程序员都应该或多或少看过甚至研究过爬虫。当时写Python的目的很纯粹就是为了写爬虫。所以这篇文章的目的很简单,就是谈谈我个人对Python爬虫的理解和实践。作为一名程序员,我认为只有了解爬虫的相关知识才对你有好处,所以看完这篇文章,如果你能帮到你,那就太好了

什么是爬虫

爬虫是一个程序。该程序的目的是抓取万维网上的信息资源。比如你每天使用的谷歌等搜索引擎,所有的搜索结果都依赖爬虫定期获取。

图片

看看上面的搜索结果。除了wiki相关的介绍,所有爬虫相关的搜索结果都有Python。前辈说的是Python爬虫,现在看来真的不骗我了~

爬虫的目标对象也很丰富,无论是文字、图片、视频,任何结构化和非结构化数据爬虫都可以爬取。经过爬虫的发展,衍生出各种爬虫类型:

不想讲这些笼统的概念,我们以一个网页内容获取为例,从爬虫技术本身开始,来谈谈网络爬虫,步骤如下:

什么是爬虫,这是爬虫:

"""让我们根据上面说的步骤来完成一个简单的爬虫程序"""
import requests
from bs4 import BeautifulSoup
target_url = 'http://www.baidu.com/s?wd=爬虫'
# 第一步 发起一个GET请求
res = requests.get(target_url)
# 第二步 提取HTML并解析想获取的数据 比如获取 title
soup = BeautifulSoup(res.text, "lxml")
# 输出 soup.title.text
title = soup.title.text
# 第三步 持久化 比如保存到本地
with open('title.txt', 'w') as fp:
    fp.write(title)

注释不到20行代码,你就完成了一个爬虫。简单。

如何编写爬虫

网络世界丰富多彩,有数以亿计的网络资源供您选择。如何让你的爬虫程序在面对不同的页面时健壮耐用是一个值得讨论的问题

俗话说,磨刀不误砍柴,开始写爬虫之前,需要掌握一些基础知识:

这两个描述体现了爬虫开发者需要掌握的基础知识,但是一个基本的后端或者前端工程师都可以做到这一点哈哈,这也说明爬虫入门的难度是极低的。从这两句话,你能想到爬虫必备的知识点吗?

有了这些知识储备,你就可以选择一种语言,开始编写自己的爬虫程序了。或者按照上一节中提到的三个步骤,然后以Python为例。做好这些准备:

掌握了以上这些,就可以放开手脚,做很多功课了。万维网是你的名利场,加油~

我认为目标网站的网页可以分为以下四种:

什么意思?这可能看起来有点令人费解,但你明白这一点。写完爬虫后,只需要在脑海中浏览网页的类型,然后应用对应类型的程序(写多了应该有一套自己的通用代码库),写的速度爬虫自然不会慢

单页单目标

通俗地说,在这个网页中,我们的目标只有一个。假设我们需要抓取这部电影的名字——肖申克的救赎,首先打开网页右键review元素,找到电影名字Location对应的元素,如下图:

图片

单页python爬虫有什么用,看是否只有一个target,标题的CSS Selector规则一目了然:#content> h1> span:nth-child(1), 然后我写了自己常用的库,不到十行代码就可以写一个爬取这个页面的电影名的爬虫:

关于我们

pix

水族爬虫植物百科网是包含了水族鱼类爬虫养殖植物种植的专业性宠物百科.在更多

联系我们

联系我们