ID: 19472

传统题

1000ms

128MiB

尝试: 5

已通过: 2

难度: 10

上传者:

tobyforever

我将原本关于“Unordered HashMap实现原理”的讲解内容，改写为了一道标准的NOI风格题目，并配以金牌教练视角的解题思路引导。

题目名称：手写hashmap实现原理

题目描述

在信息学奥赛中，标准库（STL）的 std::unordered_map 虽然方便，但在某些极端数据下可能会因为哈希冲突导致性能退化，或者因为常数过大而超时。为了掌控一切，我们需要能够手写一个高效的哈希表。

请你设计并实现一个哈希表（Hash Map），该数据结构需要支持以下三种操作，且要求能够处理哈希冲突（推荐使用拉链法/链地址法）以及动态扩容（Rehash）：

put(key, value): 向哈希表中插入一个键值对 $(key, value)$ 。如果 $key$ 已经存在，则更新其对应的 $value$ 。
get(key): 查询 $key$ 对应的 $value$ 。如果 $key$ 不存在，则返回 -1。
remove(key): 如果存在该 $key$ ，则将其从哈希表中移除。

为了保证效率，当哈希表中的元素数量超过当前容量的 $0.75$ 倍（负载因子 Load Factor）时，你需要将哈希表的容量扩大为原来的 $2$ 倍，并将所有现有元素重新哈希（Rehash）到新的表中。初始容量设为 $769$ （或者一个较小的素数/2的幂次，本题约定初始为 16 以方便测试扩容逻辑，实际比赛建议使用大素数）。

输入格式

第一行包含一个正整数 $N$ ，表示操作的总次数。接下来的 $N$ 行，每行包含一个操作指令，格式如下：

put x y: 表示插入或更新键 $x$ (整数) 和值 $y$ (整数)。
get x: 表示查询键 $x$ 。
remove x: 表示删除键 $x$ 。

输出格式

对于每一个 get 操作，输出一行一个整数，表示查询结果。 put 和 remove 操作不产生输出。

样例数据

Sample Input

8
put 1 1
put 2 2
get 1
get 3
put 2 100
get 2
remove 2
get 2

Sample Output

数据范围与提示

$1 \leq N \leq 10^5$
$0 \leq key, value \leq 10^9$
保证操作合法，输入均为整数。
提示：本题旨在考察对哈希表底层原理的理解，包括哈希函数的选取、冲突解决（链表法）以及扩容机制。

👨‍🏫 金牌教练的思路提示

你好！作为你的教练，我很高兴看到你开始挑战底层数据结构的实现。这道题看似只是在造 STL 的轮子，但它是理解“时空权衡”和“均摊复杂度”的绝佳练习。

1. 预备知识点总结

在动手写代码前，请确认你已经掌握了以下工具：

数组（Array）：作为哈希表的主体（Buckets/Slots），用于提供 $O(1)$ 的索引访问。
链表（Linked List）：用于**拉链法（Chaining）**解决哈希冲突。当两个不同的 key 算出同一个下标时，我们把它们串在同一个下标的链表里。
哈希函数（Hash Function）：核心公式 idx = hash(key) % capacity。特别是处理负数 key 时，要注意取模后的符号修正。
指针与动态内存（C++ Basics）：如果不使用 std::vector 模拟链表，你需要熟练操作 struct Node*，包括 new 和 delete。
均摊分析（Amortized Analysis）：理解为什么扩容虽然是 $O(N)$ 的，但均摊下来单次操作依然是 $O(1)$ 。

2. 启发式推理过程（草稿纸上的演练）

来，拿出草稿纸，我们画图来理解这个过程。

第一步：构建骨架

想象哈希表就是一个大柜子（数组），柜子有很多抽屉（下标）。

问题：Key 是 $10^9$ ，柜子没那么大怎么办？
解决：用取模运算。设柜子大小 capacity = 16。
- Key = 1 $\rightarrow$ 放进 1 % 16 = 1 号抽屉。
- Key = 17 $\rightarrow$ 放进 17 % 16 = 1 号抽屉。
冲突：1 和 17 都要进 1 号抽屉，打架了怎么办？
解决：拉链法。1 号抽屉里不直接放东西，而是放一个记事本（链表头指针）。先来的写第一页，后来的写第二页。

第二步：动态扩容（Rehash）—— 难点！

场景：如果 $N=10000$ ，容量一直由 16 不变，那每个抽屉里的链表会变得很长，查找就变成了 $O(N)$ ，这就退化成了遍历链表。
策略：当 元素总数 / 柜子数 > 0.75 时，我们要买个新柜子，大小是原来的 2 倍。
操作：
1. 申请 new_capacity = 32 的新数组。
2. 注意：不能直接把旧链表搬过去！因为 17 % 16 = 1，但 17 % 32 = 17。
3. 必须遍历旧表中的每一个节点，重新计算 Hash 值，插入到新表中。
4. 删除旧表。

3. 核心逻辑伪代码（流程图版）

为了让你清晰地看到逻辑分支（特别是边界情况），我用流程图的形式展示核心函数的逻辑。

注意：这里的伪代码遵循 C++14 风格，但逻辑通用。

(1) `put(key, value)` 操作流程

flowchart TD
    Start((开始 put)) --> CalcHash["计算下标 idx = key % capacity"]
    CalcHash --> Find{"遍历 buckets[idx] 链表\n寻找 key 是否存在?"}
    
    Find -- "找到了 (key 存在)" --> Update["更新该节点的 value = new_value"]
    Update --> End((结束))
    
    Find -- "没找到 (key 不存在)" --> Create["创建新节点 Node(key, value)"]
    Create --> InsertHead["头插法: 新节点->next = buckets[idx]\nbuckets[idx] = 新节点"]
    InsertHead --> IncSize["size++"]
    
    IncSize --> CheckLoad{"检查负载因子\nsize / capacity > 0.75?"}
    CheckLoad -- "是" --> Rehash[["调用 resize() 扩容"]]
    CheckLoad -- "否" --> End
    Rehash --> End

(2) `get(key)` 操作流程

flowchart TD
    Start((开始 get)) --> CalcHash["计算下标 idx = key % capacity"]
    CalcHash --> VisitHead["获取当前链表头 buckets[idx]"]
    
    VisitHead --> CheckNull{"当前节点是空吗?"}
    CheckNull -- "是 (链表走完了)" --> RetFail["返回 -1"]
    RetFail --> End((结束))
    
    CheckNull -- "否" --> CheckMatch{"当前节点.key == 目标 key?"}
    CheckMatch -- "是" --> RetVal["返回 当前节点.value"]
    RetVal --> End
    
    CheckMatch -- "否" --> Next["当前节点 = 当前节点.next"]
    Next --> CheckNull

(3) `remove(key)` 操作流程 (考察链表删除)

flowchart TD
    Start((开始 remove)) --> CalcHash["计算下标 idx = key % capacity"]
    CalcHash --> SetPtrs["设置 prev = null, curr = buckets[idx]"]
    
    LoopStart{"curr 不为空?"}
    LoopStart -- "否 (没找到)" --> End((结束))
    LoopStart -- "是" --> CheckMatch{"curr.key == 目标 key?"}
    
    CheckMatch -- "否" --> MoveNext["prev = curr\ncurr = curr.next"]
    MoveNext --> LoopStart
    
    CheckMatch -- "是 (找到删除目标)" --> CheckHead{"prev 是 null 吗?\n(是不是头节点)"}
    
    CheckHead -- "是 (删除头节点)" --> DelHead["buckets[idx] = curr.next"]
    DelHead --> Free["释放 curr 内存\nsize--"]
    
    CheckHead -- "否 (删除中间节点)" --> DelMid["prev.next = curr.next"]
    DelMid --> Free
    
    Free --> End

(4) `resize()` 扩容辅助函数 (Rehash 原理)

flowchart TD
    Start((开始 resize)) --> CalcNew["old_cap = capacity\nnew_cap = capacity * 2"]
    CalcNew --> Alloc["创建 new_buckets[new_cap]"]
    Alloc --> LoopOld["遍历 old_buckets 的每一个槽位 i"]
    
    LoopOld --> CheckDone{"i < old_cap?"}
    CheckDone -- "否 (遍历完成)" --> Swap["buckets = new_buckets\ncapacity = new_cap\n删除 old_buckets"]
    Swap --> End((结束))
    
    CheckDone -- "是" --> GetList["获取链表 node = old_buckets[i]"]
    
    LoopList{"node 不为空?"}
    LoopList -- "否 (槽位 i 处理完)" --> IncI["i++"]
    IncI --> LoopOld
    
    LoopList -- "是" --> SaveNext["next_node = node.next (保存后续)"]
    SaveNext --> Recalc["计算新下标 new_idx = node.key % new_cap"]
    Recalc --> MoveNode["头插法插入到 new_buckets[new_idx]\nnode.next = new_buckets[new_idx]\nnew_buckets[new_idx] = node"]
    MoveNode --> Advance["node = next_node"]
    Advance --> LoopList

4. 复杂度分析与优化建议

时间复杂度

平均情况：put, get, remove 均为 $O(1)$ $O (1)$ 。
- 原因：哈希函数将数据均匀分散，链表长度趋近于常数。
最坏情况： $O(N)$ $O (N)$ 。
- 原因：所有 key 都冲突（哈希攻击），所有数据都在一条链表上。
扩容（Rehash）：单次扩容是 $O(N)$ ，但因为扩容频率随着数据量增加指数级降低，均摊复杂度仍是 $O(1)$ 。

空间复杂度

$O(N + M)$ ，其中 $N$ 是元素个数， $M$ 是数组（Buckets）大小。

金牌优化 Tips (C++14)

取模优化：如果不使用素数做容量，而是使用 $2^k$ （如初始 16，扩容变 32），那么 key % capacity 可以优化为位运算 key & (capacity - 1)。这在计算机底层非常快。
避免频繁 new/delete：可以使用静态数组模拟链表（数组模拟邻接表的写法），或者预先分配一大块内存池，这样可以显著减少系统调用的时间开销。
抗哈希攻击：为了防止出题人故意造数据卡你的哈希函数（例如针对模数构造等差数列），可以在哈希函数中引入一个随机种子（Random Seed）或者使用类似 splitmix64 的高强度哈希算法，而不是简单的 x % mod。

5. 读题关键词 (Reading Comprehension)

做此类题目时，请第一时间在题面中圈出以下关键词：

"Unordered" / "Hash"：提示你不需要维持元素的顺序，可以使用哈希表。
"Conflict" / "Collision"：如果题目没提，你也要默认存在。必须写链表或开放寻址。
"Memory Limit"：如果内存极小（如 2MB），可能无法使用大量指针的链表法，需考虑开放寻址法（Open Addressing）。
"Load Factor" / "Resize"：如果题目明确要求了扩容逻辑，必须严格遵守，否则可能会因为数组开得太大爆内存，或者太小导致超时。

好了，拿起你的键盘，试着把上面的流程图转化为 C++ 代码吧！如果能通过样例，恭喜你，你已经掌握了哈希表的灵魂。

#19472. 手写hashmap实现原理

手写hashmap实现原理

题目名称：手写hashmap实现原理

题目描述

输入格式

输出格式

样例数据

数据范围与提示

👨‍🏫 金牌教练的思路提示

1. 预备知识点总结

2. 启发式推理过程（草稿纸上的演练）

第一步：构建骨架

第二步：动态扩容（Rehash）—— 难点！

3. 核心逻辑伪代码（流程图版）

(1) `put(key, value)` 操作流程

(2) `get(key)` 操作流程

(3) `remove(key)` 操作流程 (考察链表删除)

(4) `resize()` 扩容辅助函数 (Rehash 原理)

4. 复杂度分析与优化建议

时间复杂度

空间复杂度

金牌优化 Tips (C++14)

5. 读题关键词 (Reading Comprehension)

状态

开发

支持

关于

#19472. 手写hashmap实现原理

手写hashmap实现原理

题目名称：手写hashmap实现原理

题目描述

输入格式

输出格式

样例数据

数据范围与提示

👨‍🏫 金牌教练的思路提示

1. 预备知识点总结

2. 启发式推理过程（草稿纸上的演练）

第一步：构建骨架

第二步：动态扩容（Rehash）—— 难点！

3. 核心逻辑伪代码（流程图版）

(1) put(key, value) 操作流程

(2) get(key) 操作流程

(3) remove(key) 操作流程 (考察链表删除)

(4) resize() 扩容辅助函数 (Rehash 原理)

4. 复杂度分析与优化建议

时间复杂度

空间复杂度

金牌优化 Tips (C++14)

5. 读题关键词 (Reading Comprehension)

状态

开发

支持

关于

还没有账户？

登录

(1) `put(key, value)` 操作流程

(2) `get(key)` 操作流程

(3) `remove(key)` 操作流程 (考察链表删除)

(4) `resize()` 扩容辅助函数 (Rehash 原理)