From Zero to Hero

发表于2025-06-10|编程技术后端开发计算机科学

关联式容器一般来说，STL容器分为：序列式容器(vector/list/deque/stack/queue/heap)，和关联式容器。其中，关联式容器又分为set(集合)和map(映射表)两大类，以及这两大类的衍生体multiset(多键集合)和multimap(多键映射表)，这些容器均以RB-tree（red-black tree,...

5.01

发表于2025-06-10|程序设计算法分析编程技巧

最大连续乘积子串题目描述给一个浮点数序列，取最大乘积连续子串的值，例如 -2.5，4，0，3，0.5，8，-1，则取出的最大乘积连续子串为3，0.5，8。也就是说，上述数组中，3 0.5 8这3个数的乘积30.58=12是最大的，而且是连续的。分析与解法此最大乘积连续子串与最大乘积子序列不同，请勿混淆，前者子串要求连续，后者子序列不要求连续。也就是说，最长公共子串（Longest CommonSubstring）和最长公共子序列（LongestCommon Subsequence，LCS）是：子串（Substring）是串的一个连续的部分，子序列（Subsequence）则是从不改变序列的顺序，而从序列中去掉任意的元素而获得的新序列；更简略地说，前者（子串）的字符的位置必须连续，后者（子序列LCS）则不必。比如字符串“ acdfg ”同“ akdfc ”的最长公共子串为“ df ”，而它们的最长公共子序列LCS是“ adf...

6.03

发表于2025-06-10|计算机技术算法设计大数据处理

simhash算法方法介绍背景如果某一天，面试官问你如何设计一个比较两篇文章相似度的算法？可能你会回答几个比较传统点的思路：一种方案是先将两篇文章分别进行分词，得到一系列特征向量，然后计算特征向量之间的距离（可以计算它们之间的欧氏距离、海明距离或者夹角余弦等等），从而通过距离的大小来判断两篇文章的相似度。另外一种方案是传统hash，我们考虑为每一个web文档通过hash的方式生成一个指纹（finger print）。下面，我们来分析下这两种方法。采取第一种方法，若是只比较两篇文章的相似性还好，但如果是海量数据呢，有着数以百万甚至亿万的网页，要求你计算这些网页的相似度。你还会去计算任意两个网页之间的距离或夹角余弦么？想必你不会了。而第二种方案中所说的传统加密方式md5，其设计的目的是为了让整个分布尽可能地均匀，但如果输入内容一旦出现哪怕轻微的变化，hash值就会发生很大的变化。举个例子，我们假设有以下三段文本： the cat sat on the mat the cat sat on a mat we all scream for ice...

6.02

发表于2025-06-10|算法数据结构大数据处理

...

6.04

发表于2025-06-10|计算机技术算法设计

外排序方法介绍所谓外排序，顾名思义，即是在内存外面的排序，因为当要处理的数据量很大，而不能一次装入内存时，此时只能放在读写较慢的外存储器（通常是硬盘）上。外排序通常采用的是一种“排序-归并”的策略。在排序阶段，先读入能放在内存中的数据量，将其排序输出到一个临时文件，依此进行，将待排序数据组织为多个有序的临时文件；尔后在归并阶段将这些临时文件组合为一个大的有序文件，也即排序结果。假定现在有20个数据的文件A：{5 11 0 18 4 14 9 7 6 8 12 17 16 13 19 10 2 1 3 15}，但一次只能使用仅装4个数据的内容，所以，我们可以每趟对4个数据进行排序，即5路归并，具体方法如下述步骤：我们先把“大”文件A，分割为a1，a2，a3，a4，a5等5个小文件，每个小文件4个数据 a1文件为：5 11 0 18 a2文件为：4 14 9 7 a3文件为：6 8 12 17 a4文件为：16 13 19 10 a5文件为：2 1 3 15 然后依次对5个小文件分别进行排序 a1文件完成排序后：0 5 11...

6.05

发表于2025-06-10|计算机技术大数据云计算

...

6.06

发表于2025-06-10|计算机技术数据处理

...

6.07

发表于2025-06-10|计算机基础编程技术面试题库

Bitmap 方法介绍什么是Bit-map 所谓的Bit-map就是用一个bit位来标记某个元素对应的Value，而Key即是该元素。由于采用了Bit为单位来存储数据，因此在存储空间方面，可以大大节省。来看一个具体的例子，假设我们要对0-7内的5个元素(4,7,2,5,3)排序（这里假设这些元素没有重复）。那么我们就可以采用Bit-map的方法来达到排序的目的。要表示8个数，我们就只需要8个Bit（1Bytes），首先我们开辟1Byte的空间，将这些空间的所有Bit位都置为0(如下图：) 然后遍历这5个元素，首先第一个元素是4，那么就把4对应的位置为1（可以这样操作 p+(i/8)|(0×01<<(i%8))...

6.08

发表于2025-06-10|计算机科学系统架构算法原理

Bloom Filter 方法介绍一、什么是Bloom Filter Bloom Filter，被译作称布隆过滤器，是一种空间效率很高的随机数据结构，Bloom filter可以看做是对bit-map的扩展,它的原理是：当一个元素被加入集合时，通过K个Hash函数将这个元素映射成一个位阵列（Bit array）中的K个点，把它们置为1**。检索时，我们只要看看这些点是不是都是1就（大约）知道集合中有没有它了：如果这些点有任何一个0，则被检索元素一定不在；如果都是1，则被检索元素很可能在。其可以用来实现数据字典，进行数据的判重，或者集合求交集。但Bloom Filter的这种高效是有一定代价的：在判断一个元素是否属于某个集合时，有可能会把不属于这个集合的元素误认为属于这个集合（false positive）。因此，Bloom Filter不适合那些“零错误”的应用场合。而在能容忍低错误率的应用场合下，Bloom Filter通过极少的错误换取了存储空间的极大节省。 1.1、集合表示和元素查询下面我们具体来看Bloom...

6.09

发表于2025-06-10|算法与数据结构编程技术计算机基础

...