Loading...
1. 获取当前目录下的所有文件可以使用 os.listdir(path) 函数,它可以返回 path 指定的文件夹包含的 文件 或 文件夹 的名字的列表。使用方法如下:import os # 打开文件 path = "D://data/" dirs = os.listdir( path ) # 输出所有文件和文件夹 for file in dirs: print...
我们可能会遇到这样一种情况,有两个文件夹,里面大部分的文件相同,少部分不一致,我们需要找出两个目录下差异的文件。主要用到的函数为 os.wall() 和 shutil.copy() ,前者用来遍历文件夹,后者用来拷贝文件。1. 遍历目录os.walk() 函数的用法前一篇中讲过,这里用它将 path 路径下的所有文件遍历找到。fileList = [] for root, dirs, fil...
网络请求有两种方式 GET 和 POST ,在浏览器的开发者工具中,网络Network 模块可以很方便的抓取到网站发起的所有网络请求,在请求的详情信息中, Request Method 即表示该请求的方法是 GET 还是 POST。我们知道, 网络请求方式 GET 和 POST 最直观的区别就是,传递参数时候的不同,GET 把参数包含在 URL 中,POST 通过 request body ...
BS4 全称是 BeatifulSoup,它提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。我们可以通过它很方便的完成爬虫中的 html 解析工作。本文简单介绍一些 bs4 里常用的函数,可以应付大多数的情况。1. 定位标签首先,爬取之前需要定位到数据所在的标签,这个使用 F12 开发者工具中的这个按钮,点一下按钮,然后点一下网页,可以很快定位到页面中的相应标签,具...
本文提供了一个简单的python小脚本,可以将浏览器中的headers部分一键格式化,可以极大的方便我们写爬虫时的工作。
在程序中,经常会遇到字符串拼接的情况,本文整理了用 python 进行字符串拼接的几种方式,教你如何优雅的拼接字符串。1. 直接拼接s = "Hello" "World" print(s) # 输出:HelloWorld两个字符串直接写一起,会视为字符串拼接。但是它只能拼接字符串常量,不能拼接变量。类似如下写法,是不允许的,会报语法错误。a = &qu...
在使用爬虫程序下爬数据时候,经常会遇到 `乱码` 的问题,那遇到乱码该怎么办呢?
使用爬虫爬数据,总要涉及到数据持久化,也就是数据存储的问题。本篇博客主要记录如何通过 Python 连接 MySQL 数据库,并进行增删改查操作。
本文详细介绍了python 开发环境的搭建方法,包括了 Anaconda3 的安装,系统环境变量的设置,以及 jupyter notebook 的简单使用,希望可以使新手更好的完成 python 学习的入门。