tags
type
status
date
slug
summary
category
password
icon
# 数据结构
数据结构(data structure)就是数据的组织和存储形式。描述一个数据结构,需要指出其逻辑结构、存储结构(数据在物理存储器上存储的方式)和可进行的操作
逻辑结构:集合结构、线性结构、树结构、图结构
存储结构:顺序结构、链接结构、索引结构、散列结构
# 线性表
元素类型相同,所占内存长度相同,分为顺序表和链表
顺序表支持随机访问
顺序表比链表更加Cache友好
为了防止链表悬空,可以加入一个空的头结点
队列的实现(也是python实现list的方式):可以先开一个有限空间的循环队列(空置一个位置,不然没法判断head=tail到底是空时满),如果一次push之后超过范围,就新开一个k(如1.2)倍的空间,把整个队列复制过去。这样平均复杂度是O(1)的。
也可以用两个栈实现队列。执行push(x)操作时,将x压入栈inStack,执行pop()或front()操作时,看另一个栈outStack是否为空,若不为空,弹出栈顶元素或访问栈顶元素即可;若为空,则先将inStack中的全部元素弹出并依次压入outStack,然后再弹出或访问outStack的栈顶元素。
库:collections中的deque
# 递归
注意在递归时不要直接传递整个数组,那样每次传递复杂度都是O(n),可以用闭包把数组放在外层函数,内层只传递位置信息
# 动态规划
能用动规解决的问题的特点:
- 问题具有最优子结构性质。如果问题的最优解所包含的子问题的解也是最优的,我们就称该问题具有最优子结构性质。(否则无法用一样的方法求出子问题的解)
- 无后效性。当前的若干个状态值一旦确定,则此后过程的演变就只和这若干个状态的值有关,和之前是采取哪种手段或经过哪条路径演变到当前的这若干个状态,没有关系。(否则说明状态还要扩展)
记一次动态规划的优化
- 题面
将正整数n 表示成一系列正整数之和,n=n1+n2+…+nk, 其中n1>=n2>=…>=nk>=1 ,k>=1
正整数n的这种表示称为正整数n的划分。
输入
标准的输入包含若干组测试数据。每组测试数据是一行输入数据,包括两个整数N 和 K。(0 < N <= 50, 0 < K <= N)
输出
对于每组测试数据,输出以下三行数据:第一行: N划分成K个正整数之和的划分数目第二行: N划分成若干个不同正整数之和的划分数目第三行: N划分成若干个奇正整数之和的划分数目
- 想法一
f[n][k][max]表示把n分成k份,其中ni的最大值恰好为max的方法数
从大到小分,枚举这次从i里面分出x(且最大值就是x因为从大到小),那么剩下的数自然是i-x,剩余次数为j-1,把f[i - x][j - 1][max ≤ x]的全部加到f[i][j][x]上就行
对于后面两个问题,略微改变循环的边界即可,最后再对k求和
递推完备性:算f[i][j]的时候,比i小、比j小的状态一定都已经确定
答案会算重吗?不同的max一定是不同方案,归纳可证不会重复
- 想法二
对于后面两个问题,其实k根本不重要,f[n][max]表示把n分解且最大值恰好为max的方法数,于是有以下n^3递推
- 想法三
既然上面要对max≤x的求和,干嘛不搞个前缀和呢,于是优化到n^2
此时,f[n][max]表示把n分解,且最大值不超过max的方法数。注意的是,在x的循环中计算的还是恰好为max的方法数,因为如果此时把>max的也更新,复杂度又会来到n^3。而在x循环完之后一起加则解决了这个问题。
- 想法四
能不能把问题一也优化优化呢?联想到组合数分组问题里,≥好约束,直接把总数去掉一些就行;而≤却难以约束。所以能不能从小到大选呢?f[n][k]表示把n分成k份,且每个数≥1的方案数
其中,i-x-(x-1)*(j-1)就是把x去掉之外,再把剩下的数≥x的约束直接反映到“n”这项上。而这就要求x*j≤i,因此可以缩减x的范围,这样复杂度为
至此,已经能通过本题
- 想法五-还能更简单
想法四的瓶颈在于,必须同时枚举最小数x并且确定“这一个就是它了”,但其实也可以不确定。
f[i][j] = f[i - 1][j - 1] + f[i - j][j]
分两种情况计数:一种min=1,则就是f[i - 1][j - 1],与想法四x=1情况相同;如果min>1,那么f[i - j][j]就是后面所有x的情况下的总和,这里j没有减1,所以使得当前这个可以取遍2~i//j
- 后记
为什么问题2和3的答案总是相同呢?有没有证明?
# 二叉树
二叉树是有限个元素的集合。空集合是一个二叉树,称为空二叉树。一个元素(称其为“根”或“根结点”),加上一个被称为“左子树”的二叉树,和一个被称为“右子树”的二叉树,就能形成一个新的二叉树。要求根、左子树和右子树三者没有公共元素。
二叉树的左右子树是有区别的
结点的度(degree):结点的非空子树数目。也可以说是结点的子结点数目。
叶结点(leaf node):度为0的结点。
分支结点:度不为0的结点。即除叶子以外的其他结点。也叫内部结点。(包括根)
祖先(ancestor):从父节点到根的所有节点,包括根
子孙(descendant):与祖先相反
兄弟结点(sibling):父结点相同的两个结点,互为兄弟结点。
结点的深度(depth)、层次(level):树根是第0层的。如果一个结点是第n层的,则其子结点就是第n+1层的。
二叉树的高度(height):二叉树的高度就是结点的最大深度。只有一个结点的二叉树,高度是0。结点一共有n层,高度就是n-1。
完美二叉树(perfect binary tree):每层都填满
完全二叉树(complete binary tree)
满二叉树(full binary tree):没有1度结点的二叉树(采用国际定义)
任意二叉树中,n0=n2+1
非空二叉树中,空子树数目等于其结点数目加1
(空子树=2n0+n1=n0+n2+1+n1=n+1)
完全二叉树中,n0=floor((n+1)/2)(因为完全二叉树中n1=0或1),n=2n0-1或2n0,且两种一定均能构建
非递归中序遍历
# 堆
区别于二叉搜索树!堆只要求儿子>父亲,是完全二叉树;而二叉搜索树不一定
原地建堆:把list看成一棵完全二叉树,从倒数第二层开始依次进行“下沉”操作。复杂度O(n)
# 并查集
f[getf(y)] = getf(x)
两边都要到根# 二叉搜索树
key的关系:Left<Root<Right
- 添加
根节点的key==x,则直接更改根节点信息;否则如果key>x则进入左子树,key<x则进入右子树
- 删除
- 节点为叶子节点:直接删除
- 节点只有左儿子:左儿子替代该节点的位置
- 节点只有右儿子:右儿子替代该节点的位置
- 节点即有左儿子又有右儿子:找左子树中最大者(从左儿子开始一直向右走)or右子树中最小者(从右儿子开始一直往左走),用它覆盖要删除的节点并删除它(化归为前3种情况,因为找到的这个节点不可能既有左儿子又有右儿子)
# 平衡树
在二叉搜索树的基础上,在每个节点引入平衡因子(Balance Factor, BF),定义为左子树高度-右子树高度。在任意一次操作完成后,总是保证BF在-1,0,1中,即左右子树高度差不超过1
- 添加
- cur的BF从0变成+-1,则显然以cur为根的子树高度+1,因此cur的父亲BF应+1(cur为左儿子)或-1(cur为右儿子)
- cur的BF不变,或者从+-1变成0,则cur的父亲不用变
按二叉搜索树方法先加入节点,然后从下到上依次更新从新节点到根的BF。具体地,讨论两种情况:
如果更新过程中发现cur.BF不在-1,0,1中,则触发调整。调整后一定有cur.BF=0,因此所有祖先的BF都不用变。由此可看出,添加一个节点时至多进行一次旋转操作。
- 旋转
分四种
# KMP
nxt[i]表示1~i的子串的前后缀长度。如ABABA,nxt[3]=1。也就是说,从nxt+1开始匹配
实际上,把第二段匹配的代码改成a[pa]与b[pb+1]匹配而不是a[pa]与b[pb]匹配,代码一致性会更高
#图
无向图两个顶点之间最多一条边,有向图两个顶点之间最多两条方向不同的边。
无向图连接顶点u,v的边,记为(u,v)
有向图连接顶点u,v的边,记为<u,v>
路径的长度:路径上的边的数目
简单路径:除了起点和终点可能相同外,其它顶点都不相同的路径
度:相连的边的数量(有向图则为入度+出度)
连通无向图:图中任意两个顶点u和v互相可达。
强连通有向图:图中任意两个顶点u和v互相可达。【带“强”的都是对有向图而言的】
子图:从图中抽取部分或全部边和点构成的图
网络:带权无向连通图
连通分量(极大连通子图):无向图的一个子图,是连通的,且再添加任何一些原图中的顶点和边,新子图都不再连通。
无向图的极小连通子图(去掉一条边就不连通的子图)就是生成树
强连通分量:有向图的一个子图,是强连通的,且再添加任何一些原图中的顶点和边,新子图都不再强连通。
- dfs复杂度:邻接矩阵O(V^2),邻接表O(V+E)
- Prim:每次找一条权值最小的边,两个点一个在树内,一个不在树内。
维护Dist数组,Dist[i]表示Vi到T的“距离”,即Vi和T中所有的点的连边的最小权值,开始所有Dist[i] = 无穷大, T 为空集
1) 若|T| = N,最小生成树完成。否则取Dist[i]最小的不在T中的点Vi, 将其加入T
2) 松弛操作:更新所有与Vi有边相连且不在T中的点Vj的Dist值:Dist[j] = min(Dist[j],W(Vi,Vj))
复杂度:用邻接矩阵O(V^2);用邻接表+堆优化取dist,O(ElogV)
- Kruskal:把边按权值排序,从小到大依次验证
复杂度:O(ElogE),适用于稀疏图
#Hash(散列表)
Python的dict和set都是散列表
hash函数要求:1.简单计算快 2.尽量均匀分布 3.尽量减少冲突 4.可以覆盖整个存储区间。h(key) 的结果越没有规律(相似的key的h(key)不相似)越能满足后3条。key中的信息被h(key)用到越多(比如每个二进制bit都有用),越能满足后3条。
常见Hash函数设计思路:
- 数字分析法,抽取整数的若干位
- 折叠法,将较长的关键字切成几段,然后合并
- 平方取中法,取整数关键字的平方中的若干位。在实际运算中,却二进制形式的若干位速度更快。平方取中法的随机性比较突出。
- 取余法,计算速度快,但是有规律,容易冲突
- 基数转换法,将整数的十进制表示看作是一个k进制数,然后再转换成十进制。之后取余or折叠
冲突消解:分为内消解和外消解
- 内消解,探查序列:,P为不超过表长度的最大质数。若已经被占据,就考虑放在 D=0,1,2..称为线性探查;也可以另外设计一个Hash函数g,称为再散列函数,令,称为双散列探查,比线性探查更能避免元素聚集。
在这种情况下检索key的元素:槽分为空、闲、满三类。依次检索位置的槽,如果是空则没有该元素;如果是闲or满但匹配不上,都要接着检查,因为“闲”是之前插入的元素又删除了,而当前要找的key可能因为冲突的原因在后面。
- 外消解,溢出区。用另外一个列表顺序存放冲突的数据。查询时先看散列值的位置,没找到则到溢出区顺序查找。 冲突多时时间接近线性。
- 外消解,桶散列。每个槽都挂一条链表。
装载因子=(满槽+闲槽数)/ 总槽数。装载因子小于0.75时,散列表的性能基本都是O(1)
Python的散列表选择了冲突内消解,而且装载因子大于2/3 就会重新分配空间。
#排序
对内存上的数据进行排序称为内排序,复杂度不可能优于nlogn。对外存上的数据进行排序称为外排序。
插入排序
直接用给定列表进行排序:左边有序,右边无序。每次x=右边无序的第一个元素,把左边的有序元素从右往左依次右移,直到找到合适位置插入x。
时间复杂度平均O(n^2),最好已经有序O(n),最坏O(n^2)
额外空间O(1)
稳定。
改进:在找插入位置的时候用二分,但是不改变总的时间复杂度因为仍然需要依次移动元素
希尔排序
在插入排序的基础上改进。取一些D>1,把下标同余的分成一组先进行插入排序。D依次减小,最后直到D=1,化归为插入排序。这样看起来步骤变多了,但是由于之前的很多预排序,最后依次插入排序中需要移动元素的次数总体降低了。
时间复杂度平均O(n^1.5),最好O(n),最坏O(n^2)
额外空间O(1)
不稳定。
选择排序
序列左边有序,右边无序。每次找无序部分最小的放在有序部分的后一个。
时间复杂度无论如何都是O(n^2)
额外空间O(1)
不稳定。
冒泡排序
无序部分依次相邻比较
时间复杂度无论好坏都是O(n^2)。改进后(如果扫一遍没有交换就结束)最好时间复杂度可以到O(n)
额外空间O(1)
稳定。
归并排序
合并两个已经有序的子序列,需要另外开一个数组,双指针扫描。
时间复杂度无论好坏都是O(nlogn)
额外空间O(n)+递归栈空间O(logn)
稳定。
快速排序
要完成的事情:选定一个元素key,经过一定重排之后左边小于它右边大于它。
实现方式:左右两个指针扫描,扫到不满足要求的就把key扔过去。可以保证key的位置总在ij之间。
时间复杂度最好&平均O(nlogn),最坏倒序or基本有序(一个不满足的元素可能会导致很多次交换)O(n^2)
额外空间:对两次递归的普通写法,最坏情况需要递归n层,需要n层栈空间,复杂度O(n)。最好情况和平均情况递归log(n)层,复杂度O(log(n))
不稳定。
时间优化:办法1) 排序前O(n)随机打乱
办法2) 若待排序段为a[s,e],则选a[s],a[e],a[(s+e)/2]三者中的中位数作为分隔基准元素
空间优化:采用一次递归的尾递归优化写法,只递归排序短的那一半,可以做到最坏情况O(log(n)),最好O(1)
尾递归优化
如果递归调用在return,且return的表达式中不包含其他局部变量,那么当递归下一层时这一层栈里的东西就没有用了,递归栈空间就不用加深。
第一种方式不是尾递归,空间复杂度为O(n);第二种是尾递归,空间复杂度O(1),只要在递归栈空间中存当前的product&counter即可。
堆排序
把一个列表原地变成堆,O(n)。采取的方式为:先把列表看成一课完全二叉树,然后从最下一层非叶子节点开始,每层的节点依次“下沉”。
时间复杂度无论好坏均为O(nlogn)
额外空间:如果采用递归写法为O(logn),但是可以优化到O(1)
不稳定。
桶排序
时间复杂度无论好坏均为O(n+Max)
额外空间:O(n+Max)
基数排序
将待排序元素看作由相同个数的原子构成的元组(e1,e2...ed)。长度不足的元素,用最小原子补齐左边空缺的部分。从ed开始依次按照关键词进行稳定排序
时间复杂度O(d*(n+radix)),radix为各个关键词取值可能值的个数
额外空间O(d*radix+n)
稳定。
总结
- 作者:XiaoTianyao
- 链接:https://www.xty27.top/article/shusuanb
- 声明:本文采用 CC BY-NC-SA 4.0 许可协议,转载请注明出处。