文本去重工具
在一些文本数据处理中,我们希望去掉重复的字或者是重复的行,这个工具可以派上用场。
段落去重:对文本段落进行检查,发现重复的段落仅保留首次出现的段落。
文字去重:对文本单个段落中每个字进行检查,发现重复的字仅保留首次出现的字。如果文本有多个段落,段落之间不进行检查。
分隔符去重:按照指定字符对文本进行分段检查,发现重复段则删除。这个功能在词组重复项检查中非常有用,例如“中国 美国 俄国 美国 法国”这段文本,指定空格为分隔符,则第二个“美国”被删除。分隔符可以指定为任何字符,甚至是多个字符并用。