Python爬虫

[toc]

正则表达式

语法

该表格可能出现显示错误，建议直接看课件

操作符	说明	实例
.	表示任何单个字符
[]	字符集，对单个字符给出取值范围	[abc]表示a、b、c，[a‐z]表示a到z单个字符
	非字符集，对单个字符给出排除范围	^abc表示非a或b或c的单个字符
*	前一个字符0次或无限次扩展	abc* 表示ab、abc、abcc、abccc等
+	前一个字符1次或无限次扩展	abc+ 表示abc、abcc、abccc等
?	? 前一个字符0次或1次扩展	abc? 表示ab、abc
\		左右表达式任意一个abc	def 表示abc、def
{m}	扩展前一个字符m次	ab{2}c表示abbc
{m,n}	扩展前一个字符m至n次（含n）	ab{1,2}c表示abc、abbc
^	匹配字符串开头	^abc表示abc且在一个字符串的开头
$	$匹配字符串结尾	$abc表示abc且在一个字符串的结尾
()	分组标记，内部只能使用\	操作符	(abc)表示abc，(abc\	def)表示abc、def
\d	数字，等价于[0‐9]
\w	单词字符，等价于[A‐Za‐z0‐9_]

经典正则表达式

^[A‐Za‐z]+$ 由26个字母组成的字符串
^[A‐Za‐z0‐9]+$ 由26个字母和数字组成的字符串整数形式的字符串
^‐?\d+$ 正整数形式的字符串
^[0‐9]*[1‐9][0‐9]*$ [1‐9]\d{5} [\u4e00‐\u9fa5] 中国境内邮政编码，6位匹配中文字符
\d{3}‐\d{8}|\d{4}‐\d{7} 国内电话号码，010‐68913536

正则表达式主要功能函数

(raw string)原始字符串中，反斜杠（\）不会被解释为转义字符，而是作为普通字符处理。可以通过在字符串前加上 r 或 R 来创建原始字符串。

re.search()在一个字符串中搜索匹配正则表达式的第一个位置，返回match对象
re.match() 从一个字符串的开始位置起匹配正则表达式，返回match对象
re.findall()搜索字符串，以列表类型返回全部能匹配的子串
re.split() 将一个字符串按照正则表达式匹配结果进行分割，返回列表类型
re.finditer()搜索字符串，返回一个匹配结果的迭代类型，每个迭代元素是match对象
re.sub() 在一个字符串中替换所有匹配正则表达式的子串，返回替换后的字符串

import re

# 使用 re.search() 在字符串中搜索匹配的模式，并返回第一个匹配对象
search = re.search(r'[1-9]\d{4}', 'BIT 100081')
if search:
    print(search.group(0))  # 打印匹配到的结果
# 输出结果：10008

# 使用 re.match() 在字符串的开头匹配模式，并返回匹配对象
match = re.match(r'[1-9]\d{4}', '100081 BIT')
if match:
    print(match.group(0))  # 打印匹配到的结果
# 输出结果：10008

# 使用 re.findall() 在字符串中查找所有匹配的模式，并返回一个包含所有匹配字符串的列表
findall = re.findall(r'[1-9]\d{5}', 'BIT100081 TSU100084 123123')
if findall:
    print(findall)  # 打印所有匹配到的结果
# 输出结果：['100081', '100084']

# 使用 re.split() 将字符串分割成多个部分，返回一个分割后的列表
split = re.split(r'[1-9]\d{5}', 'BIT100081 TSU100084 TAB123')
if split:
    print(split)  # 打印分割后的结果
# 输出结果：['BIT', ' TSU', ' TAB123']

# 使用 re.split() 分割字符串，但最多只进行一次分割
split = re.split(r'[1-9]\d{5}', 'BIT100081 TSU100084 TAB123', maxsplit=1)
if split:
    print(split)  # 打印分割后的结果
# 输出结果：['BIT', ' TSU100084 TAB123']

# 使用 re.finditer() 在字符串中查找所有匹配的模式，并返回一个迭代器
# 遍历迭代器并打印匹配到的结果
for finditer in re.finditer(r'[1-9]\d{5}', 'BIT100081 TSU100084 TAB123'):
    if finditer:
        print(finditer.group(0))
# 输出结果：
# 100081
# 100084

Re库的两种用法

>>> rst = re.search(r'[1‐9]\d{5}', 'BIT 100081')
函数式用法：一次性操作

>>> pat = re.compile(r'[1‐9]\d{5}')
>>> rst = pat.search('BIT 100081')
面向对象用法：编译后的多次操作

Match对象

Match对象是一次匹配的结果，包含匹配的很多信息

属性：

.string 待匹配的文本
.re 匹配时使用的patter对象（正则表达式）
.pos 正则表达式搜索文本的开始位置
endpos 正则表达式搜索文本的结束位置

方法：

.group(0) 获得匹配后的字符串
.start()匹配字符串在原始字符串的开始位置
.end()匹配字符串在原始字符串的结束位置
.span() 返回(.start(), .end())

import re
string = "BIT100081 TSU100084"
m = re.search(r'[1-9]\d{5}', string)
print(m.string)
print(m.re)
#BIT100081 TSU100084
#re.compile('[1-9]\\d{5}')

print(len(string))
print(m.pos)
print(m.endpos)
#19
#0
#19

print(m.group(0))
#100081

print(m.start())
print(m.end())
print(m.span())
# 3
# 9
# (3, 9)

贪婪匹配与最小匹配

默认贪婪匹配，即匹配最长字串
最小匹配，最短字串

*? 前一个字符0次或无限次扩展，最小匹配
+? 前一个字符1次或无限次扩展，最小匹配
??前一个字符0次或1次扩展，最小匹配
{m,n}? 扩展前一个字符m至n次（含n），最小匹配


match = re.match(r'A*?', '114514')
print(match.string)

match = re.match(r'A+?', 'ABBBBB')
print(match.string)

match = re.match(r'A??', 'BBBBBB')
print(match.string)

match = re.match(r'A{2,4}?', 'AABBAA')
print(match.string)
# 114514
# ABBBBB
# BBBBBB
# AABBAA

淘宝商品信息定向爬虫

https://s.taobao.com/search?ie=utf8&initiative_id=staobaoz_20240418&js=1&page=1&q=%E4%B9%A6%E5%8C%85&tab=all

问问chatgpt3.5：
https://s.taobao.com/search?：是淘宝的搜索页面基础链接。
ie=utf8：指定搜索页面使用UTF-8编码格式来解析搜索关键词。
initiative_id=staobaoz_20240418：这个参数可能是用于跟踪和统计的，标识了搜索发起的来源和时间。
js=1：这个参数可能表示是否启用JavaScript，这里设置为1表示启用。
page=1：指定搜索结果的页数，这里是第一页。
q=%E4%B9%A6%E5%8C%85：搜索的关键词"书包"的URL编码。
tab=all：指定搜索的标签类型，这里是"全部"，表示搜索所有类型的商品。



经过测试，直接访问	https://s.taobao.com/search?page=1&q=书包	也可以爬取页面信息

但是淘宝首页JavaScript 动态生成内容，暂时还不会这样的爬虫。标记为

//TODO

股票数据定向

同样是javascript动态生成。

//TODO