数据结构与算法 - 算法 - 经典排序

《数据结构与算法-王争》学习笔记，记录备查

排序是我们最常用接触最早的算法，经典常用的排序算法有：

O(n^2): 冒泡排序、插入排序、选择排序
O(nlogn): 快速排序、归并排序
O(n): 桶排序、计数排序、基数排序

学习排序算法，我们除了学习算法原理、代码实现外，还要掌握如何评价、分析一个排序算法。

# 如何分析一个排序算法

# 排序算法的执行效率

1、三种时间复杂度：最好情况、最坏情况、平均情况时间复杂度。

有些排序算法区分这三种时间复杂度。
不同数据形式，有序无序对排序算法也是有影响的，要从三种时间复杂度去看。

2、时间复杂度的系数、常熟、低阶。

不同的数据规模对排序算法影响较大。

3、比较次数和交换（或移动）次数。

排序算法，基于比较的算法较多，比较次数和交换移动次数，也会影响执行效率。

# 排序算法的内存消耗

内存消耗，可以使用空间复杂度来衡量。

空间复杂度底的排序算法，自然更好。我们把空间复杂度为O(1)的排序算法叫做 原地排序。

# 排序算法的稳定性

稳定性是说，如果待排序的序列中存在值相等的元素，经过排序后，相等元素之间的先后顺序不变。

稳定的排序算法，常被用来在进行多次才能获取结果的排序中。这样就可以保持上次排序的关键词的顺序。

# 经典排序算法

# 冒泡排序（Bubble Sort）

冒泡排序只会操作相邻的两个数据。每次冒泡操作都会对相邻的两个元素进行比较，看是否满足大小关系要求。如果不满足就让它俩互换。一次冒泡会让至少一个元素移动到它应该在的位置，重复 n 次，就完成了 n 个数据的排序工作。

冒泡排序针对有一定顺序的序列时，只要没有可以交换元素时，即说明排序完成。

原地排序
稳定的排序算法
最好时间复杂度：O(n) 最坏时间复杂度：O(n^2) 平均时间复杂度：O(n^2)

我们可以使用有序度和逆序度来推导平均时间复杂度。

有序度：数组中具有优先关系的元素对的个数。默认从小到大为有序。逆序度：也是元素对，顺序与有序度正好相反。

对于一个倒叙排列的数组，有序度是0；对于一个完全有序的数组，有序度为 n*(n-1)/2。我们把这种完全有序的数据的有序度叫做满有序度。这几个概念有个公式：

逆序度=满有序度-有序度

有序度，是序列的初始状态，没交换一个元素，有序度加1，逆序度减1。最终达到满有序度，结束。换句话说，交换次数就等于逆序度，根据公式得出：

交换次数 = n(n-1)/2 - 有序度*

交换次数，最好的情况下为0 ，最坏的情况下为 n*(n-1)/2 。取平均值为 n*(n-1)/4。比较次数远大于交换次数，所以也是平方级别的，且上限为 O(n^2)。

冒泡排序的复杂度，主要取决于比较和交换的复杂度，根据平均情况，忽略系数我们得到平均复杂度为 O(n^2)。

# 插入排序（Insertion Sort）

首先，我们将数组中的数据分为两个区间，已排序区间和未排序区间。初始已排序区间只有一个元素，就是数组的第一个元素。插入算法的核心思想是取未排序区间中的元素，在已排序区间中找到合适的插入位置将其插入，并保证已排序区间数据一直有序。重复这个过程，直到未排序区间中元素为空，算法结束。

原地排序（空间复杂度为O(1)）
稳定排序（插入时，人为控制保持相同元素出现先后，插入前或后）
最好时间复杂度：O(n) 最坏时间复杂度： O(n^2) 平均时间复杂度：O(n^2)

插入排序，是根据比较和移动元素的次数推断出来的时间复杂度，和冒泡排序相同。

# 选择排序（Selection Sort）

选择排序算法的实现思路有点类似插入排序，也分已排序区间和未排序区间。但是选择排序每次会从未排序区间中找到最小的元素，将其放到已排序区间的末尾。

原地排序（空间复杂度为O(1)）
不稳定排序（排序时，只能放到已排序区间的队尾，当相同元素在队尾时，就需要交换，前后顺序就变了，如序列：5，8，5，2，9）
最好时间复杂度：O(n) 最坏时间复杂度： O(n^2) 平均时间复杂度：O(n^2)

时间复杂度分析同冒泡、插入排序。

插入排序和选择排序，都分已排和未排区间。区别在于，插入排序是在插入已排区间时，进行比较，从而找到合适位置插入。选择排序，是在未排区域取数据时比较，从而找到最小值，且只能插入到已排区域的末尾。

# 归并排序（Merge Sort）

归并排序，把数组从中间分成前后两部分，然后对前后两部分分别排序，再将排好序的两部分合并在一起，这样整个数组就都有序了。

归并排序是使用了分治思想。分治是一种解决问题的处理思想，递归是一种编程技巧。

归并排序，拆分之后，在合并的同时进行排序。利用相同空间的暂存数组，依次从拆分的序列中取元素比较，小的入临时数组，直到一个拆分元素全部完成。

非原地排序，因为需要合并数组，使用了额外的存储空间。
稳定排序。在合并数组时，我们可以人为的控制相同元素的顺序。
归并排序，每次合并都需要申请，一个临时的数组空间。但是，任何时间在CPU中只有一个临时空间在用。所以，归并排序的空间复杂度是O(n)。
归并排序和原始数组的有序程度无关，最好、最坏、平均时间复杂度都是 O(nlogn)

归并排序是使用递归方法来实现排序的，时间复杂度也可以使用递归的推导式来标识：

# 其中 K 等于将两个子问题 b、c 的结果合并成问题 a 的结果所消耗的时间
T(a) = T(b) + T(c) + K

# 递归得出
T(1) = C；   n=1时，只需要常量级的执行时间，所以表示为C。
T(n) = 2*T(n/2) + n； n>1

1
2
3
4
5
6

最后计算得出，时间复杂度为 O(nlogn)

# 快速排序（Quick Sort）

如果要排序数组中下标从 p 到 r 之间的一组数据，我们选择 p 到 r 之间的任意一个数据作为 pivot（分区点，一般选择下标为r的元素）。我们通过游标 i 把 A[p…r-1]分成两部分。A[p…i-1]的元素都是小于 pivot 的，我们暂且叫它“已处理区间”，A[i…r-1]是“未处理区间”。我们每次都从未处理的区间 A[i…r-1]中取一个元素 A[j]，与 pivot 对比，如果小于 pivot，则将其加入到已处理区间的尾部，也就是 A[i]的位置。一轮处理完成，再继续处理privot前后的区域。

快速排序和归并排序区别，快速排序是自上而下的处理顺序，归并排序是自下而上的处理顺序。

原地排序
非稳定排序
空间复杂度为：O(1)
时间复杂度：最好为 O(nlogn) 最坏 O(n^2) 平均 O(nlogn)~O(n^2)（极小概率）

# 分治思想应用

解决在一组数组中查找第K大的元素

普通解法：

依次比较，将最大元素放到数组最前边，第K个元素就是第K大的元素。时间复杂度为 O(K*n)，当K 足够大的时候，退化为 O(n^2)。

分治思想解法：

我们选择数组区间 A[0…n-1]的最后一个元素 A[n-1]作为 pivot，对数组 A[0…n-1]原地分区，这样数组就分成了三部分，A[0…p-1]、A[p]、A[p+1…n-1]。如果 p+1=K，那 A[p]就是要求解的元素（排序是从大到小）；如果 K>p+1, 说明第 K 大元素出现在 A[p+1…n-1]区间，我们再按照上面的思路递归地在 A[p+1…n-1]这个区间内查找。同理，如果 K < P+1, 那么我们就在A[0…p-1]区间继续查找。

时间复杂度为O(nlogn)。

#数据结构与算法 #排序

上次更新: 2023/03/19, 15:09:33