正则表达式

正则表达式，又称正规表示法、常规表示法（Regular Expression，在代码中常简写为regex、regexp或RE），是一种用于匹配和处理文本的强大工具，它使用特定的字符和符号组合来描述文本模式。以下是关于正则表达式的基本介绍和使用方法：

基本概念

字符类：用方括号[]表示，用于匹配方括号内的任意一个字符。例如，[abc]可以匹配a、b或c中的任意一个字符。
元字符：具有特殊含义的字符。例如^表示匹配字符串的开始位置，$表示匹配字符串的结束位置。如果在字符类中使用^，则表示取反，如[^abc]表示匹配除了a、b、c之外的任意字符。
量词：用于指定前面的字符或字符组出现的次数。例如，*表示匹配前面的字符或字符组零次或多次，+表示匹配前面的字符或字符组一次或多次，?表示匹配前面的字符或字符组零次或一次。{n}表示恰好匹配n次，{n,}表示至少匹配n次，{n,m}表示匹配n到m次。
转义字符：反斜杠\用于转义特殊字符，使其失去特殊含义，仅仅表示字符本身。例如，\.表示匹配实际的点号字符，而不是元字符的点号。

常用操作

匹配：检查一个字符串是否符合某个正则表达式定义的模式。例如，判断一个字符串是否是合法的邮箱地址，可以使用正则表达式^[a-zA-Z0-9_.+-]+@[a-zA-Z0-9-]+\.[a-zA-Z0-9-.]+$。在Python中，可以使用re模块的match()函数来进行匹配操作，示例代码如下：

import repattern = r'^[a-zA-Z0-9_.+-]+@[a-zA-Z0-9-]+\.[a-zA-Z0-9-.]+$'
string = 'test@example.com'
match = re.match(pattern, string)
if match:print('匹配成功')
else:print('匹配失败')

查找：在一个字符串中查找所有符合正则表达式模式的子串。例如，在一段文本中查找所有的电话号码。在Python中，使用re模块的findall()函数，示例如下：

import repattern = r'\d{3}-\d{8}|\d{4}-\d{7}'  # 匹配电话号码格式，如010-12345678或020-1234567
string = '我的电话号码是010-12345678，或者020-1234567'
matches = re.findall(pattern, string)
print(matches)

替换：将符合正则表达式模式的子串替换为其他内容。例如，将文本中的所有数字替换为*。在Python中，通过re模块的sub()函数来实现，示例如下：

import repattern = r'\d+'
string = 'abc123def456ghi'
new_string = re.sub(pattern, '*', string)
print(new_string)

分割：根据正则表达式模式将字符串分割成多个子串。例如，根据逗号或空格将一个字符串分割成多个单词。在Python中，使用re模块的split()函数，示例如下：

import repattern = r'[,\s]+'
string = 'apple,banana orange;pear'
parts = re.split(pattern, string)
print(parts)

不同的编程语言对正则表达式的支持和使用方式可能会略有不同，但基本的原理和语法是相似的。在实际使用中，需要根据具体的需求和编程语言来选择合适的方法和函数。

以下是一些常见的正则表达式

数字相关

整数：^-?\d+$，用于匹配整数，包括正整数、负整数和0。其中^和$分别表示字符串的开始和结束位置，-?表示可选的负号，\d+表示一个或多个数字。
正整数：^[1-9]\d*$，匹配大于0的整数，[1-9]表示首位数字是1到9中的一个，\d*表示后面可以跟零个或多个数字。
浮点数：^-?\d+(\.\d+)?$，可以匹配浮点数，如3.14、-2.5等。(\.\d+)?表示可选的小数部分，其中\.表示匹配小数点，\d+表示小数点后面的数字。

字符串相关

非空字符串：^.+$，匹配至少包含一个字符的字符串，.+表示匹配一个或多个任意字符。
字母字符串：^[a-zA-Z]+$，用于匹配由字母组成的字符串，[a-zA-Z]表示匹配任意一个大小写字母，+表示一个或多个。
字母数字字符串：^[a-zA-Z0-9]+$，匹配由字母和数字组成的字符串。

日期时间相关

YYYY-MM-DD格式日期：^\d{4}-\d{2}-\d{2}$，用于匹配如2024-01-01格式的日期，\d{4}表示四位数字的年份，\d{2}表示两位数字的月份和日期。
HH:MM:SS格式时间：^\d{2}:\d{2}:\d{2}$，可以匹配如12:30:00格式的时间，\d{2}分别表示小时、分钟和秒的两位数字。

其他

邮箱地址：^[a-zA-Z0-9_.+-]+@[a-zA-Z0-9-]+\.[a-zA-Z0-9-.]+$，用于验证邮箱地址的合法性，前面部分[a-zA-Z0-9_.+-]+匹配邮箱用户名，中间@为分隔符，后面[a-zA-Z0-9-]+\.[a-zA-Z0-9-.]+匹配域名部分。
手机号码（中国大陆）：^1[3-9]\d{9}$，匹配以1开头，第二位是3到9中的一个数字，后面跟着9位数字的手机号码。
身份证号码（中国大陆）：^\d{17}[\dXx]$或^\d{15}$，18位身份证号码匹配^\d{17}[\dXx]$，其中前17位是数字，最后一位可以是数字或X（大小写均可）；15位身份证号码匹配^\d{15}$，全部为数字。
URL：^https?://[^\s/$.?#].[^\s]*$，用于匹配常见的URL地址，https?表示匹配http或https协议，://为协议分隔符，[^\s/$.?#]表示域名的开始字符不能是空格、/、$、.、?、#，[^\s]*表示匹配除空格以外的任意字符。

参考：正则表达式手册

基本概念

常用操作

数字相关

字符串相关

日期时间相关

其他

相关资讯

热文排行

最新新闻

推荐新闻

热搜词