使用字符串
3.4 字符串方法
前面介绍了列表的方法,而字符串的方法要多得多,因为其很多方法都是从模块string那里
“继承”而来的。(在较早的Python版本中,这些方法为模块string中的函数。如果需要,现在依 然能够找到这些函数。)
字符串的方法太多了,这里只介绍一些最有用的。完整的字符串方法清单请参阅附录B。这 里描述字符串的方法时,将列出其他相关的方法。如果这些相关方法在本章做了介绍,将用“另 请参见”标识,否则用“附录B”标识。
模块string未死
虽然字符串方法完全盖住了模块string的风头,但这个模块包含一些字符串没有的常量 和函数。下面就是模块string中几个很有用的常量①。
string.digits:包含数字0~9的字符串。
string.ascii_letters:包含所有ASCII字母(大写和小写)的字符串。
string.ascii_lowercase:包含所有小写ASCII字母的字符串。
string.printable:包含所有可打印的ASCII字符的字符串。
string.punctuation:包含所有ASCII标点字符的字符串。
string.ascii_uppercase:包含所有大写ASCII字母的字符串。
虽然说的是ASCII字符,但值实际上是未解码的Unicode字符串。
3.4.1 center
方法center通过在两边添加填充字符(默认为空格)让字符串居中。
>>> "The Middle by Jimmy Eat World".center(39) ' The Middle by Jimmy Eat World '
>>> "The Middle by Jimmy Eat World".center(39, "*") '*****The Middle by Jimmy Eat World*****'
附录B:ljust、rjust和zfill。
3.4.2 find
方法find在字符串中查找子串。如果找到,就返回子串的第一个字符的索引,否则返回-1。
>>> 'With a moo-moo here, and a moo-moo there'.find('moo') 7
>>> title = "Monty Python's Flying Circus"
>>> title.find('Monty') 0
>>> title.find('Python')
——————————
① 有关模块的详尽描述,请参阅“Python库参考手册”的6.1节(https://docs.python.org/3/library/string.html)。
1
>>> title.find('Flying') 15
>>> title.find('Zirquss') -1
第2章初识成员资格时,我们在垃圾邮件过滤器中检查主题是否包含'$$$'。这种检查也可使 用find来执行。(在Python 2.3之前的版本中,这种做法也管用,但in只能用于检查单个字符是否 包含在字符串中。)
>>> subject = '$$$ Get rich now!!! $$$'
>>> subject.find('$$$') 0
注意 字符串方法find返回的并非布尔值。如果find像这样返回0,就意味着它在索引0处找到 了指定的子串。
你还可指定搜索的起点和终点(它们都是可选的)。
>>> subject = '$$$ Get rich now!!! $$$'
>>> subject.find('$$$') 0
>>> subject.find('$$$', 1) # 只指定了起点 20
>>> subject.find('!!!') 16
>>> sep.join(seq) # 尝试合并一个数字列表 Traceback (most recent call last):
File "<stdin>", line 1, in ?
TypeError: sequence item 0: expected string, int found
>>> seq = ['1', '2', '3', '4', '5']
>>> sep.join(seq) # 合并一个字符串列表 '1+2+3+4+5'
>>> dirs = '', 'usr', 'bin', 'env'
>>> '/'.join(dirs) '/usr/bin/env'
>>> print('C:' + '\\'.join(dirs)) C:\usr\bin\env
如你所见,所合并序列的元素必须都是字符串。注意到在最后两个示例中,我使用了一系列 目录,并按UNIX和DOS/Windows的约定设置其格式:通过使用不同的分隔符(并在DOS版本中 添加了盘符)。
另请参见:split。
3.4.4 lower
方法lower返回字符串的小写版本。
>>> 'Trondheim Hammer Dance'.lower() 'trondheim hammer dance'
在你编写代码时,如果不想区分字符串的大小写(即忽略大小写的差别),这将很有用。例 如,假设你要检查列表中是否包含指定的用户名。如果列表包含字符串'gumby',而指定的用户 名为'Gumby',你将找不到它。
>>> if 'Gumby' in ['gumby', 'smith', 'jones']: print('Found it!') ...
>>>
当然,如果列表包含'Gumby',而指定的用户名为'gumby'或'GUMBY',结果同样找不到。对于 这种问题,一种解决方案是在存储和搜索时,将所有的用户名都转换为小写。这样做的代码类似 于下面这样:
>>> name = 'Gumby'
>>> names = ['gumby', 'smith', 'jones']
>>> if name.lower() in names: print('Found it!') ...
Found it!
>>>
另请参见:islower、istitle、isupper、translate。 附录B:capitalize、casefold、swapcase、title、upper。
词首大写
一个与lower相关的方法是title(参见附录B)。它将字符串转换为词首大写,即所有单
词的首字母都大写,其他字母都小写。然而,它确定单词边界的方式可能导致结果不合理。
>>> "that's all folks".title()
"That'S All, Folks"
另一种方法是使用模块string中的函数capwords。
>>> import string
>>> string.capwords("that's all, folks") That's All, Folks"
当然,要实现真正的词首大写(根据你采用的写作风格,冠词、并列连词以及不超过5个 字母的介词等可能全部小写),你得自己编写代码。
1 3.4.5 replace
方法replace将指定子串都替换为另一个字符串,并返回替换后的结果。
>>> 'This is a test'.replace('is', 'eez') 'Theez eez a test'
>>> '1+2+3+4+5'.split('+') ['1', '2', '3', '4', '5']
>>> '/usr/bin/env'.split('/') ['', 'usr', 'bin', 'env']
>>> 'Using the default'.split() ['Using', 'the', 'default']
注意,如果没有指定分隔符,将默认在单个或多个连续的空白字符(空格、制表符、换行符 等)处进行拆分。
另请参见:join。
附录B:partition、rpartition、rsplit、splitlines。
3.4.7 strip
方法strip将字符串开头和末尾的空白(但不包括中间的空白)删除,并返回删除后的结果。
>>> ' internal whitespace is kept '.strip() 'internal whitespace is kept'
与lower一样,需要将输入与存储的值进行比较时,strip很有用。回到前面介绍lower时使用
的用户名示例,并假定用户输入用户名时不小心在末尾加上了一个空格。
>>> names = ['gumby', 'smith', 'jones']
>>> name = 'gumby '
>>> if name in names: print('Found it!') ...
>>> if name.strip() in names: print('Found it!') ...
这个方法只删除开头或末尾的指定字符,因此中间的星号未被删除。
附录B:lstrip、rstrip。
3.4.8 translate
方法translate与replace一样替换字符串的特定部分,但不同的是它只能进行单字符替换。
这个方法的优势在于能够同时替换多个字符,因此效率比replace高。
这个方法的用途很多(如替换换行符或其他随平台而异的特殊字符),但这里只介绍一个比 较简单(也有点傻)的示例。假设你要将一段英语文本转换为带有德国口音的版本,为此必须将 字符c和s分别替换为k和z。
然而,使用translate前必须创建一个转换表。这个转换表指出了不同Unicode码点之间的转 换关系。要创建转换表,可对字符串类型str调用方法maketrans,这个方法接受两个参数:两个 长度相同的字符串,它们指定要将第一个字符串中的每个字符都替换为第二个字符串中的相应字 符①。就这个简单的示例而言,代码类似于下面这样:
>>> table = str.maketrans('cs', 'kz')
如果愿意,可查看转换表的内容,但你看到的只是Unicode码点之间的映射。
>>> table
{115: 122, 99: 107}
创建转换表后,就可将其用作方法translate的参数。
>>> 'this is an incredible test'.translate(table) 'thiz iz an inkredible tezt'
调用方法maketrans时,还可提供可选的第三个参数,指定要将哪些字母删除。例如,要模
仿语速极快的德国口音,可将所有的空格都删除。
>>> table = str.maketrans('cs', 'kz', ' ')
>>> 'this is an incredible test'.translate(table) 'thizizaninkredibletezt'
另请参见:replace、lower。
3.4.9 判断字符串是否满足特定的条件
很多字符串方法都以is打头,如isspace、isdigit和isupper,它们判断字符串是否具有特定 的性质(如包含的字符全为空白、数字或大写)。如果字符串具备特定的性质,这些方法就返回 True,否则返回False。
附录B:isalnum、isalpha、isdecimal、isdigit、isidentifier、islower、isnumeric、 isprintable、isspace、istitle、isupper。
——————————
① 也可传入下一章将介绍的字典,将一些字符映射到其他字符(如果要删除这些字符,则映射到None)。
1 2 3 4 5
15 6 7 8 9 10 11 12 13 14 3.5 小结
本章介绍了字符串的两个重要方面。
字符串格式设置:求模运算符(%)可用于将值合并为包含转换标志(如%s)的字符串,
这让你能够以众多方式设置值的格式,如左对齐或右对齐,指定字段宽度和精度,添加 符号(正号或负号)以及在左边填充0等。
字符串方法:字符串有很多方法,有些很有用(如split和join),有些很少用到(如istitle 和capitalize)。
3.5.1 本章介绍的新函数
函 数 描 述
string.capwords(s[, sep]) 使用split根据sep拆分s,将每项的首字母大写,再以空格为分隔符将它们合并起来
ascii(obj) 创建指定对象的ASCII表示
3.5.2 预告
列表、字符串和字典是三种最重要的Python数据类型。你已经学习了列表和字符串,接下来 将介绍什么呢?下一章将介绍字典,它不仅支持整数索引,还支持其他类型的键(如字符串或元 组)。另外,字典还提供了一些方法,但是数量无法与字符串相比。