哈希（hash） - 哈希算法的应用

2024-05-09

1. 哈希（hash） - 哈希算法的应用

 通过之前的学习，我们已经了解了哈希函数在散列表中的应用，哈希函数就是哈希算法的一个应用。那么在这里给出哈希的定义： 将任意长度的二进制值串映射为固定长度的二进制值串，这个映射规则就是哈希算法，得到的二进制值串就是哈希值 。   要设计一个好的哈希算法并不容易，它应该满足以下几点要求：
   哈希算法的应用非常广泛，在这里就介绍七点应用：
   有很多著名的哈希加密算法：MD5、SHA、DES...它们都是通过哈希进行加密的算法。   对于加密的哈希算法来说，有两点十分重要：一是很难根据哈希值反推导出原始数据；二是散列冲突的概率要很小。   当然，哈希算法不可能排除散列冲突的可能，这用数学中的 鸽巢原理 就可以很好解释。以MD5算法来说，得到的哈希值为一个 128 位的二进制数，它的数据容量最多为 2 128  bit，如果超过这个数据量，必然会出现散列冲突。   在加密解密领域没有绝对安全的算法，一般来说，只要解密的计算量极其庞大，我们就可以认为这种加密方法是较为安全的。
   假设我们有100万个图片，如果我们在图片中寻找某一个图片是非常耗时的，这是我们就可以使用哈希算法的原理为图片设置唯一标识。比如，我们可以从图片的二进制码串开头取100个字节，从中间取100个字节，从结尾取100个字节，然后将它们合并，并使用哈希算法计算得到一个哈希值，将其作为图片的唯一标识。   使用这个唯一标识判断图片是否在图库中，这可以减少甚多工作量。
   在传输消息的过程中，我们担心通信数据被人篡改，这时就可以使用哈希函数进行数据校验。比如BT协议中就使用哈希栓发进行数据校验。
   在散列表那一篇中我们就讲过散列函数的应用，相比于其它应用，散列函数对于散列算法冲突的要求低很多（我们可以通过开放寻址法或链表法解决冲突），同时散列函数对于散列算法是否能逆向解密也并不关心。   散列函数比较在意函数的执行效率，至于其它要求，在之前的我们已经讲过，就不再赘述了。
    接下来的三个应用主要是在分布式系统中的应用 
   复杂均衡的算法很多，如何实现一个会话粘滞的负载均衡算法呢？也就是说，我们需要在同一个客户端上，在一次会话中的所有请求都路由到同一个服务器上。
   最简单的办法是我们根据客户端的 IP 地址或会话 ID 创建一个映射关系。但是这样很浪费内存，客户端上线下线，服务器扩容等都会导致映射失效，维护成本很大。
   借助哈希算法，我们可以很轻松的解决这些问题：对客户端的 IP 地址或会话 ID 计算哈希值，将取得的哈希值域服务器的列表的大小进行取模运算，最后得到的值就是被路由到的服务器的编号。
   假设有一个非常大的日志文件，里面记录了用户的搜索关键词，我们想要快速统计出每个关键词被搜索的次数，该怎么做呢？
   分析一下，这个问题有两个难点：一是搜索日志很大，没办法放到一台机器的内存中；二是如果用一台机器处理这么大的数据，处理时间会很长。
   针对这两个难点，我们可以先对数据进行分片，然后使用多台机器处理，提高处理速度。具体思路：使用 n 台机器并行处理，从日志文件中读出每个搜索关键词，通过哈希函数计算哈希值，然后用 n 取模，最终得到的值就是被分配的机器编号。   这样，相同的关键词被分配到了相同的机器上，不同机器只要记录属于自己那部分的关键词的出现次数，最终合并不同机器上的结果即可。
   针对这种海量数据的处理问题，我们都可以采用多机分布式处理。借助这种分片思路，可以突破单机内存、CPU等资源的限制。
   处理思路和上面出现的思路类似：对数据进行哈希运算，对机器数取模，最终将存储数据（可能是硬盘存储，或者是缓存分配）分配到不同的机器上。
   
   
                                           你可以看一下上图，你会发现之前存储的数据在新的存储规则下全部失效，这种情况是灾难性的。面对这种情况，我们就需要使用一致性哈希算法。
   哈希算法是应用非常广泛的算法，你可以回顾上面的七个应用感受一下。
   其实在这里我想说的是一个思想： 用优势弥补不足 。   例如，在计算机中，数据的计算主要依赖 CPU ，数据的存储交换主要依赖内存。两者一起配合才能实现各种功能，而两者在性能上依然无法匹配，这种差距主要是： CPU运算性能对内存的要求远高于现在的内存能提供的性能。    也就是说，CPU运算很快，内存相对较慢，为了抹平这种差距，工程师们想了很多方法。在我看来，散列表的使用就是利用电脑的高计算性能（优势）去弥补内存速度（不足）的不足，你仔细思考散列表的执行过程，就会明白我的意思。
   以上就是哈希的全部内容

哈希（hash） - 哈希算法的应用

2. Hash算法简介

哈希算法（Hash Algorithm），又称散列算法，是一种从任意数据中提取小的数字的方法。散列算法就是一种以较短的信息来保数据唯一性的标志，这种标志与数据的每一个字节都相关，而且难以找到逆向规律。因此，当原数据发生改变时，其标志值也会发生改变。
  
 一个优秀的 hash 算法，将能实现：
  
 但在不同的使用场景中，如数据结构和安全领域里，其中对某一些特点会有所侧重。
  
 以HashMap为例，key（hash值）对应一个(或多个数据)，key的作用是，对于抗碰撞的要求没有那么高。换句话说，hash出来的key，只要保证value大致均匀的放在不同的桶里就可以了。但整个算法的set性能，直接与hash值产生的速度有关，所以这时候的hash值的产生速度就尤为重要，如JDK中的String.hashCode()：
  
 在密码学中，hash算法的作用主要是用于消息摘要和签名，对整个消息的完整性进行校验。这对于抗碰撞和抗篡改能力要求极高，对速度的要求在其次。以MD5为例，其输出长度为128位，设计预期碰撞概率为1/(2^128)，这是一个极小极小的数字.
  
 目前流行的 Hash 算法包括 MD5、SHA-1 和 SHA-2。
  
 可以看出，上面这几种流行的算法，它们最重要的一点区别就是”强抗碰撞性”。

3. 什么是哈希表和哈希算法?

哈希算法并不是一个特定的算法而是一类算法的统称。哈希算法也叫散列算法,一般来说满足这样的关系:f(data)=key,输入任意长度的data数据,经过哈希算法处理后输出一个定长的数据key。同时这个过程是不可逆的,无法由key逆推出data。如果是一个data数据集,经过哈希算法处理后得到key的数据集,然后将keys与原始数据进行一一映射就得到了一个哈希表。一般来说哈希表M符合M[key]=data这种形式。哈希表的好处是当原始数据较大时,我们可以用哈希算法处理得到定长的哈希值key,那么这个key相对原始数据要小得多。我们就可以用这个较小的数据集来做索引,达到快速查找的目的。稍微想一下就可以发现,既然输入数据不定长,而输出的哈希值却是固定长度的,这意味着哈希值是一个有限集合,而输入数据则可以是无穷多个。那么建立一对一关系明显是不现实的。所以"碰撞"(不同的输入数据对应了相同的哈希值)是必然会发生的,所以一个成熟的哈希算法会有较好的抗冲突性。同时在实现哈希表的结构时也要考虑到哈希冲突的问题。密码上常用的MD5,SHA都是哈希算法,因为key的长度(相对大家的密码来说)较大所以碰撞空间较大,有比较好的抗碰撞性,所以常常用作密码校验。
麻烦采纳，谢谢!

什么是哈希表和哈希算法?

4. 哈希表算法的介绍

哈希表是种数据结构，它可以提供快速的插入操作和查找操作。哈希表也有一些缺点它是基于数组的，数组创建后难于扩展某些哈希表被基本填满时，性能下降得非常严重。这个问题是哈希表不可避免的，即冲突现象：对不同的关键字可能得到同一哈希地址。

5. 哈希表算法的哈希表的概念及作用

一般的线性表，树中，记录在结构中的相对位置是随机的，即和记录的关键字之间不存在确定的关系，因此，在结构中查找记录时需进行一系列和关键字的比较。这一类查找方法建立在“比较“的基础上，查找的效率依赖于查找过程中所进行的比较次数。理想的情况是能直接找到需要的记录，因此必须在记录的存储位置和它的关键字之间建立一个确定的对应关系f，使每个关键字和结构中一个唯一的存储位置相对应。哈希表最常见的例子是以学生学号为关键字的成绩表，1号学生的记录位置在第一条，10号学生的记录位置在第10条...如果我们以学生姓名为关键字，如何建立查找表，使得根据姓名可以直接找到相应记录呢？用上述得到的数值作为对应记录在表中的位置，得到下表：上面这张表即哈希表。如果将来要查李秋梅的成绩，可以用上述方法求出该记录所在位置：李秋梅:lqm 12+17+13=42 取表中第42条记录即可。问题：如果两个同学分别叫 刘丽 刘兰 该如何处理这两条记录？这个问题是哈希表不可避免的，即冲突现象：对不同的关键字可能得到同一哈希地址。

哈希表算法的哈希表的概念及作用

6. 哈希表算法的哈希表的构造方法

1、直接定址法例如：有一个从1到100岁的人口数字统计表，其中，年龄作为关键字，哈希函数取关键字自身。但这种方法效率不高,时间复杂度是O(1),空间复杂度是O(n),n是关键字的个数2、数字分析法有学生的生日数据如下：年.月.日75.10.03　　75.11.23　　76.03.02　　76.07.12　　75.04.21　　76.02.15　　...经分析,第一位，第二位，第三位重复的可能性大，取这三位造成冲突的机会增加，所以尽量不取前三位，取后三位比较好。3、平方取中法取关键字平方后的中间几位为哈希地址。4、折叠法将关键字分割成位数相同的几部分（最后一部分的位数可以不同），然后取这几部分的叠加和（舍去进位）作为哈希地址，这方法称为折叠法。例如：每一种西文图书都有一个国际标准图书编号，它是一个10位的十进制数字，若要以它作关键字建立一个哈希表，当馆藏书种类不到10,000时，可采用此法构造一个四位数的哈希函数。如果一本书的编号为0-442-20586-4,则：5、除留余数法取关键字被某个不大于哈希表表长m的数p除后所得余数为哈希地址。H(key)=key MOD p (p

7. 哈希表算法的哈希表的优缺点

哈希表是种数据结构，它可以提供快速的插入操作和查找操作。第一次接触哈希表时，它的优点多得让人难以置信。不论哈希表中有多少数据，插入和删除（有时包括侧除）只需要接近常量的时间即0(1）的时间级。实际上，这只需要几条机器指令。对哈希表的使用者一一人来说，这是一瞬间的事。哈希表运算得非常快，在计算机程序中，如果需要在一秒种内查找上千条记录通常使用哈希表（例如拼写检查器)哈希表的速度明显比树快，树的操作通常需要O(N)的时间级。哈希表不仅速度快，编程实现也相对容易。哈希表也有一些缺点它是基于数组的，数组创建后难于扩展某些哈希表被基本填满时，性能下降得非常严重，所以程序虽必须要清楚表中将要存储多少数据（或者准备好定期地把数据转移到更大的哈希表中，这是个费时的过程）。而且，也没有一种简便的方法可以以任何一种顺序〔例如从小到大〕遍历表中数据项。如果需要这种能力，就只能选择其他数据结构。然而如果不需要有序遍历数据，并且可以提前预测数据量的大小。那么哈希表在速度和易用性方面是无与伦比的。

哈希表算法的哈希表的优缺点

8. 哈希表哈希表

选D
哈希表是根据设定的哈希函数H(key)和处理冲突方法将一组关键字映象到一个有限的地址区间上，并以关键字在地址区间中的象作为记录在表中的存储位置，这种表称为哈希表或散列，所得存储位置称为哈希地址或散列地址。作为线性数据结构与表格和队列等相比，哈希表无疑是查找速度比较快的一种。
关键字是需要比较的。