简而言之:
df['Text'].apply(word_tokenize)
df['tokenized_text'] = df['Text'].apply(word_tokenize)
有专门针对Twitter文本编写的标记生成器,请参见http://www.nltk.org/api/nltk.tokenize.html#module- nltk.tokenize.casual
使用方法nltk.tokenize.TweetTokenizer
:
from nltk.tokenize import TweetTokenizer
tt = TweetTokenizer()
df['Text'].apply(tt.tokenize)