最稳妥做法是用std::unordered_set边遍历边查重并构建结果字符串,保持首次出现顺序;原地去重则用双指针配合resize截断。

直接用 std::set 或 std::unordered_set 记录已见字符,遍历原字符串时跳过重复项——这是最稳妥、可读性高且不易出错的做法。
用 std::unordered_set 实现稳定去重(保持顺序)
去重要求“首次出现的字符保留,后续重复的跳过”,本质是「去重 + 保序」。此时不能用 std::set 直接构造(会排序),而应手动遍历:
-
std::unordered_set查重是 O(1) 平均复杂度,比std::set更快 - 必须边遍历边检查、边构建结果,不能先塞进 set 再转回 string
- 注意:
std::string的+=在 C++11 后有 amortized O(1) 性能,无需预分配
std::string removeDuplicates(const std::string& s) {
std::unordered_set seen;
std::string result;
for (char c : s) {
if (seen.find(c) == seen.end()) {
seen.insert(c);
result += c;
}
}
return result;
}
原地去重(不额外分配 string,但会破坏原串)
若输入可修改、且内存敏感,可用双指针原地操作。适用于函数签名为 void removeDuplicatesInPlace(std::string& s) 场景:
- 用
writeIndex指向下一个要写入的位置,readIndex遍历全部字符 - 每遇到新字符,写入
s[writeIndex++],并加入seen - 最后调用
s.resize(writeIndex)截断尾部冗余内容 - 注意:不能用
std::string::erase()在循环中反复删,会导致迭代器失效或 O(n²) 复杂度
void removeDuplicatesInPlace(std::string& s) {
std::unordered_set seen;
size_t writeIndex = 0;
for (size_t readIndex = 0; readIndex < s.length(); ++readIndex) {
if (seen.find(s[readIndex]) == seen.end()) {
seen.insert(s[readIndex]);
s[writeIndex++] = s[readIndex];
}
}
s.resize(writeIndex);
}
忽略大小写的去重怎么处理?
关键在「比较前统一大小写」,但要注意:不能简单用 std::tolower 直接作用于 char——它接受 int,且对负值行为未定义(尤其在 char 默认为 signed 的平台):
立即学习“C++免费学习笔记(深入)”;
- 务必先转为
unsigned char,再传给std::tolower - 去重用的 key 应该是小写形式,但结果中保留原始大小写(首次出现的那个)
- 因此需用
std::unordered_map或类似结构记录「该小写字符是否已见」,而不是只存char
std::string removeDuplicatesIgnoreCase(const std::string& s) {
std::unordered_set seenLower;
std::string result;
for (char c : s) {
unsigned char uc = static_cast(c);
unsigned char lc = static_cast(std::tolower(uc));
if (seenLower.find(lc) == seenLower.end()) {
seenLower.insert(lc);
result += c;
}
}
return result;
}
真正容易被忽略的是字符集假设:以上所有方法默认处理 ASCII 字符。如果字符串含 UTF-8 多字节字符(比如中文、emoji),char 级别操作会把一个汉字拆成多个无效字节,导致逻辑崩溃。真要支持 Unicode,得先用库(如 ICU 或 utf8cpp)做正确解码,再按 char32_t 或 code point 去重——那已不是「简单方法」范畴了。











