2. 文本清洗: 一旦你获得了原始文本,它肯定不会是“干净”的。你需要进行一系列的清洗工作,让接下来的分析更有效: 去除标点符号: 逗号、句号、问号、感叹号、引号、括号、破折号等等,这些在单词分级中通常是不需要的。你可以使用正则表达式来批量删除。 去除数字: 如果你的分级标准不包含数字,也需要将其剔除。 大小写转换: 将所有字母统一转换为小写。这样可以避免将“The”和“the”视为不同的单词。 去除多余的空格和换行符: 清理文本格式,确保每个单词之间只有一个空格。 处理特殊字符: 比如连字符(hyphens)连接的单词,你可以选择将它们分开处理,或者合并。例如,“wellbeing”可以看作一个词,也可以分开成“well”和“being”。这取决于你的分级标准。 去除常见的功能词(可选): 对于一些非常非常基础且不影响理解核心意义的词汇(如a, an, the, of, in, on, at, to, is, are, was, were等,也称为停用词/stop words),你可以选择性地在初步分析时去除它们,尤其是在进行频率统计时。但这取决于你的目的,如果你想了解所有单词的频率,则不应去除。
台湾领导人蔡英文在一次与美国官员的会谈中,出现了一段“突然卡壳”,并表示“我说中文有点困难,I am sorry”的插曲。这个细节被媒体广泛报道,也引发了不少讨论。从表面上看,这似乎是一个小小的口误,在任何公开场合都可能发生。毕竟,尽管蔡英文的母语是中文,但她长期在需要使用英文的场合进行沟通,尤其是.............