来自科技 2020-05-14 18:02 的文章

学习Python的第45天，我终于彻底明白怎么安装爬虫

终于开始跟着老师开始一起输入代码。

没想到一上来就遇到问题。

用 # 备注，之前黑马课程讲 # 后面是要有个空格的，而这个老师全都是没有的。

咱也不知道该听谁的，而不加空格的话萍、PyCharm 会有下划线提示，索性，那就都加上吧。

这行代码 if __name__ == "__main__: 老师称为程序的入口。

也就是在查看代码时候，一看到这句话，就知道是从这行代码开始执行的，中间不会再有其他的执行点。

引入模块

讲述模块的概念，这个在之前黑马的课程学习过，轻松加愉快了。

跟之前的课程区别在于，他是在一个文件夹下新建py文件进行说明。

所以代码中，不是简单的用 import 导入模块，而是 from... import 方法导入。

本次案例主要需要使用到的模块是： sys 、 bs4、 re、 urllib、 xlwt。

安装模块，有个挺有意思的办法：在 PyCharm 下方，点 Terminal 竟然直接就能进入 cmd 窗口，进去之后再使用 pip 命令安装就可以了。

当然，老师最推荐的，还是在 PyCharm 中，用 setting 来安装，这个我在之前的文章有说过的。

让我更明白的一点是，原来上述两种方法是只使用后面一种就可以了，我之前一直以为是两个要同时都使用呢。

后面的办法最大的优点，就是在安装包的同时，你可以关闭窗口继续输入代码，不用去管它。

而像命令提示行的办法，就只能傻傻等着了。

现在，把所有需要的库一次性导入吧，哪个没装也都给他装上。

构建流程

一个小技巧：在 PyCharm 中，如果文字没有变色（比如灰色），说明没有被调用过；而变了颜色（如橙色、蓝色等），就是被调用过了。没有变色的代码，将其删除，不影响程序的运行。

简单来说，爬取豆瓣，分三个大步骤：爬取网页、解析数据、保存数据。

事实上，每个步骤也都是个大工程，所以把每个步骤提取成一个函数，方便后期管理。

这里因为第一步和第二步可以说是交错进行，所以两个放在了一起。

第三步保存数据，需要给他指定一个路径，这里用到转义字符。

课程学到这里，还都是感觉不难。

不过，貌似明天就该应该挑战了。

加油，奥利给！

作者简介：冯十一，40岁仍然坚持学习的哏儿都老男人。多平台签约作者，日更写作践行者，每周阅读一本书。欢迎关注@天津冯十一