LXML、BeautifulSoup、PyQuer等解析库安装教程

发布时间：2020-04-24 17:08:29 来源：亿速云阅读：346 作者：三月栏目：编程语言

本文主要给大家介绍LXML、BeautifulSoup、PyQuer等解析库安装教程，其所涉及的东西，从理论知识来获悉，有很多书籍、文献可供大家参考，从现实意义角度出发，亿速云累计多年的实践经验可分享给大家。

抓取下网页代码之后，下一步就是从网页中提取信息，提取信息的方式有多种多样，可以使用正则来提取，但是写起来会相对比较繁琐。在这里还有许多强大的解析库，如 LXML、BeautifulSoup、PyQuery 等等，提供了非常强大的解析方法，如 XPath 解析、CSS 选择器解析等等，利用它们我们可以高效便捷地从从网页中提取出有效信息。

本节我们就来介绍一下这些库的安装过程。

1.2.1 LXML的安装

LXML 是 Python 的一个解析库，支持 HTML 和 XML 的解析，支持 XPath 解析方式，而且解析效率非常高。

1. 相关链接

官方网站：http://lxml.de
GitHub：https://github.com/lxml/lxml
PyPi：https://pypi.python.org/pypi/...

2. Mac下的安装

pip3 install lxml

如果产生错误，可以执行如下命令将必要的类库安装：

xcode-select --install
Python资源分享qun 784758214 ,内有安装包，PDF，学习视频，这里是Python学习者的聚集地，零基础，进阶，都欢迎

之后再重新运行 Pip 安装就没有问题了。

LXML 是一个非常重要的库，后面的 BeautifulSoup、Scrapy 框架都需要用到此库，所以请一定安装成功。

3. 验证安装

安装完成之后，可以在 Python 命令行下测试。

$ python3
>>> import lxml

如果没有错误报出，则证明库已经安装好了。

1.2.2 BeautifulSoup的安装

BeautifulSoup 是 Python 的一个 HTML 或 XML 的解析库，我们可以用它来方便地从网页中提取数据，它拥有强大的 API 和多样的解析方式，本节我们了解下它的安装方式。

1. 相关链接

官方文档：https://www.crummy.com/softwa...
中文文档：https://www.crummy.com/softwa...
PyPi：https://pypi.python.org/pypi/...

2. 准备工作

BeautifulSoup 的 HTML 和 XML 解析器是依赖于 LXML 库的，所以在此之前请确保已经成功安装好了 LXML 库，具体的安装方式参见上节。

3. Pip 安装

目前 BeautifulSoup 的最新版本是 4.x 版本，之前的版本已经停止开发了，推荐使用 Pip 来安装，安装命令如下：

pip3 install beautifulsoup4

命令执行完毕之后即可完成安装。

4. 验证安装

安装完成之后可以运行下方的代码验证一下。

from bs4 import BeautifulSoup
soup = BeautifulSoup('<p>Hello</p>', 'lxml')
print(soup.p.string)

运行结果：

Hello

如果运行结果一致则证明安装成功。

注意在这里我们虽然安装的是 beautifulsoup4 这个包，但是在引入的时候是引入的 bs4，这是因为这个包源代码本身的库文件夹名称就是 bs4，所以安装完成之后，这个库文件夹就被移入到我们本机 Python3 的 lib 库里，所以识别到的库文件名称就叫做 bs4，所以我们引入的时候就引入 bs4 这个包。

因此，包本身的名称和我们使用时导入的包的名称并不一定是一致的。

1.2.3 PyQuery的安装

PyQuery 同样是一个强大的网页解析工具，它提供了和 jQuery 类似的语法来解析 HTML 文档，支持 CSS 选择器，使用非常方便，本节我们了解下它的安装方式。

1. 相关链接

GitHub：https://github.com/gawel/pyquery
PyPi：https://pypi.python.org/pypi/...
官方文档：http://pyquery.readthedocs.io

2. Pip安装

pip3 install pyquery

3. 验证安装

安装完成之后，可以在 Python 命令行下测试。

$ python3
>>> import pyquery

如果没有错误报出，则证明库已经安装好了。

1.2.4 Tesserocr的安装

爬虫过程中难免会遇到各种各样的验证码，而大多数验证码还是图形验证码，这时候我们可以直接用 OCR 来识别。

1. OCR

OCR，即 Optical Character Recognition，光学字符识别。是指通过扫描字符，然后通过其形状将其翻译成电子文本的过程。那么对于图形验证码来说，它都是一些不规则的字符，但是这些字符确实是由字符稍加扭曲变换得到的内容。
例如这样的验证码，如图 1-22 和 1-23 所示：
LXML、BeautifulSoup、PyQuer等解析库安装教程

图 1-22 验证码

LXML、BeautifulSoup、PyQuer等解析库安装教程

图 1-23 验证码
对于这种验证码，我们便可以使用 OCR 技术来将其转化为电子文本，然后爬虫将识别结果提交给云服务器，便可以达到自动识别验证码的过程。
Tesserocr 是 Python 的一个 OCR 识别库，但其实是对 Tesseract 做的一层 Python API 封装，所以它的核心是 Tesseract，所以在安装 Tesserocr 之前我们需要先安装 Tesseract，本节我们来了解下它们的安装方式。

2. 相关链接

Tesserocr GitHub：https://github.com/sirfz/tess...
Tesserocr PyPi：https://pypi.python.org/pypi/...
Tesseract下载地址：http://digi.bib.uni-mannheim....
Tesseract GitHub：https://github.com/tesseract-...
Tesseract 语言包：https://github.com/tesseract-...
Tesseract 文档：https://github.com/tesseract-...

3. Mac下的安装

Mac 下首先使用 Homebrew 安装 Imagemagick 和 Tesseract 库：

brew install imagemagick 
brew install tesseract 
Python资源分享qun 784758214 ,内有安装包，PDF，学习视频，这里是Python学习者的聚集地，零基础，进阶，都欢迎

接下来再安装 Tesserocr 即可：

pip3 install tesserocr pillow

这样我们便完成了 Tesserocr 的安装。

4. 验证安装

接下来我们可以使用 Tesseract 和 Tesserocr 来分别进行测试。
下面我们以如下的图片为样例进行测试，如图 1-26 所示：
LXML、BeautifulSoup、PyQuer等解析库安装教程

图 1-26 测试样例
图片链接为：https://raw.githubusercontent...，可以直接保存或下载。
我们首先用命令行进行测试，将图片下载保存为 image.png，然后用 Tesseract 命令行测试，命令如下：

tesseract image.png result -l eng &amp;&amp; cat result.txt

运行结果：

Tesseract Open Source OCR Engine v3.05.01 with Leptonica
Python3WebSpider

我们调用了 tesseract 命令，第一个参数为图片名称，第二个参数 result 为结果保存的目标文件名称，-l 指定使用的语言包，在此使用 eng 英文，然后再用 cat 命令将结果输出。
第二行的运行结果便是图片的识别结果，Python3WebSpider。
我们可以看到这时已经成功将图片文字转为电子文本了。
然后我们还可以利用 Python 代码来测试，这里就需要借助于 Tesserocr 库了，测试代码如下：

import tesserocr
from PIL import Image
image = Image.open('image.png')
print(tesserocr.image_to_text(image))

如果在运行期间python3闪退，出现下面错误：

!strcmp(locale, "C"):Error:Assert failed:in file baseapi.cpp, line 209

就需要这样运行了：

import locale
locale.setlocale(locale.LC_ALL,'C')

import tesserocr
from PIL import Image
image = Image.open('image.png')
print(tesserocr.image_to_text(image))

在这里我们首先利用 Image 读取了图片文件，然后调用了 tesserocr 的 image_to_text() 方法，再将将其识别结果输出。
运行结果：

Python3WebSpider

另外我们还可以直接调用 file_to_text() 方法，也可以达到同样的效果：

import tesserocr
print(tesserocr.file_to_text('image.png'))
Python资源分享qun 784758214 ,内有安装包，PDF，学习视频，这里是Python学习者的聚集地，零基础，进阶，都欢迎

运行结果：

Python3WebSpider

如果成功输出结果，则证明 Tesseract 和 Tesserocr 都已经安装成功。

看了以上LXML、BeautifulSoup、PyQuer等解析库安装教程介绍，希望能给大家在实际运用中带来一定的帮助。本文由于篇幅有限，难免会有不足和需要补充的地方，大家可以继续关注亿速云行业资讯板块，会定期给大家更新行业新闻和知识，如有需要更加专业的解答，可在官网联系我们的24小时售前售后，随时帮您解答问题的。

向AI问一下细节

LXML、BeautifulSoup、PyQuer等解析库安装教程

1.2.1 LXML的安装

1. 相关链接

2. Mac下的安装

3. 验证安装

1.2.2 BeautifulSoup的安装

1. 相关链接

2. 准备工作

3. Pip 安装

4. 验证安装

1.2.3 PyQuery的安装

1. 相关链接

2. Pip安装

3. 验证安装

1.2.4 Tesserocr的安装

1. OCR

2. 相关链接

3. Mac下的安装

4. 验证安装

猜你喜欢

最新资讯

相关推荐

相关标签