文本去重工具
在一些文本数据处理中,我们希望去掉重复的字或者是重复的行,这个工具可以派上用场。
段落去重:对文本段落进行检查,发现重复的段落仅保留首次出现的段落。
文字去重:对文本中每个字符进行检查,重复的仅保留首次出现的字符。如果文本有多个段落,可以选择“段落内”查找重复字,段落之间不进行检查。
分隔符去重:按照指定字符对文本进行分段检查,发现重复段则删除。这个功能在词组重复项检查中非常有用,例如“中国 美国 俄国 美国 法国”这段文本,指定空格为分隔符,则第二个“美国”被删除。分隔符可以指定为任何字符,甚至是多个字符并用。