问题
一个字符串里有单词、数字、标点等各种内容,而我只需要获得其中的单词部分。为了方便,我直接用 Python 的 re
包里的 split
,将非字母部分作为分隔符来去除非字母部分。
1 | doc = "aaa bbb 11" |
但是这样出现了一个问题,由于这里空格和 1 都不属于 a-z
,因此空格和每一个 1 都会分别作为分割符。这样会导致分割出很多的空字符串。比如此时得到的 words
包含五个元素 ['aaa', 'bbb', '', '', '']
。但事实上我只需要字母部分,因此需要把后面的空元素从 list
中除去。
解决方案
1 | # 将 list 中不为空的内容取出,组合成新的 list 重新存到 words 中 |