python中的正则表达式介绍

Scroll Down

re模块的使用

re.match从头匹配一个符合规则的字符串,从起始位置开始匹配,匹配成功返回一个对象,未匹配成功返回None。

import re
# re.match(正则表达式,要匹配的字符串)
result = re.match("hello","helloworld")
print(result) # <re.Match object; span=(0, 5), match='hello'>
# 可以使用group方法来提取数据
print(result.group()) # hello

或者这样写

import re
# 这样避免多次定义正则表达式
result = re.compile("hello")
result .match("helloworld")
print(result.group())

表示字符

字符功能
.匹配任意一个字符(除了\n)
[ ]匹配[ ]中列举的字符
\d匹配数字,即0-9
\D匹配非数字,即不是数字
\s匹配空白,即空格、tab键
\S匹配非空白
\w匹配单词字符,即0-9、a-z、A-Z
\W匹配非单词字符

表示数量

字符功能
*匹配前一个字符出现0次或无限次,即可有可无
+匹配前一个字符出现1次或无限次,即至少出现一次
?匹配前一个字符出现1次或0次,即要么有1次,要么没有
匹配前一个字符出现m次
{m,}匹配前一个字符至少出现m次
{m,n}匹配前一个字符出现从m到n次

表示边界

字符功能
^匹配字符串开头
$匹配字符串结尾
\b匹配一个单词的边界
\B匹配非单词边界

匹配分组

字符功能
|匹配左右任意一个表达式
(ab)将括号中的字符作为一个分组
\num引用分组num匹配到字符串
(?P<name>)给分组起别名
(?P=name)引用别名为name的分组匹配到字符串

贪婪和非贪婪

python中数量词默认是贪婪的,总是尝试匹配尽可能多的字符。非贪婪则相反,总是尝试尽可能少的字符。
在*、?、+、{m,n}后面加上?,使贪婪变成非贪婪。

import re
re.match(r"aa(\d+)","aa2343ddd").group() # 贪婪模式,匹配aa2343
re.match(r"aa(\d+?)","aa2343ddd").group() # 非贪婪模式,匹配aa2

re模块的其他用法

search(正则表达式, 要匹配的字符串)

  • 浏览全部字符串,匹配第一符合规则的字符串,浏览整个字符串去匹配第一个,未匹配成功返回None。
  • match()函数 与 search()函数基本是一样的功能,不一样的就是match()匹配字符串开始位置的一个符合规则的字符串,search()是在字符串全局匹配第一个合规则的字符串。

findall(正则表达式, 要匹配的字符串)

  • 浏览全部字符串,匹配所有合规则的字符串,匹配到的字符串放到一个列表中,未匹配成功返回空列表。

sub(正则表达式, 要替换的字符串, 要匹配的字符串)

  • 替换匹配成功的指定位置字符串

匹配模式

可通过修改re.compile()第二个参数flag、re.match、re.search、re.findall的第三个参数flag和re.sub中的第四的参数来修改匹配模式。(用的不多一般默认即可,除非有特殊要求)
|修饰符| 描述 |
|--|--|
|re.I | 使匹配对大小写不敏感 |
|re.L|做本地化识别(locale-aware)匹配|
|re.M|多行匹配,影响 ^ 和 $|
|re.S|使 . 匹配包括换行在内的所有字符|
|re.U|根据Unicode字符集解析字符。这个标志影响 \w, \W, \b, \B.|
|re.X|该标志通过给予你更灵活的格式以便你将正则表达式写得更易于理解|