问题
一个字符串里有单词、数字、标点等各种内容,而我只需要获得其中的单词部分。为了方便,我直接用 Python 的 re 包里的 split,将非字母部分作为分隔符来去除非字母部分。
1 | doc = "aaa bbb 11" |
但是这样出现了一个问题,由于这里空格和 1 都不属于 a-z,因此空格和每一个 1 都会分别作为分割符。这样会导致分割出很多的空字符串。比如此时得到的 words 包含五个元素 ['aaa', 'bbb', '', '', '']。但事实上我只需要字母部分,因此需要把后面的空元素从 list 中除去。
解决方案
1 | # 将 list 中不为空的内容取出,组合成新的 list 重新存到 words 中 |