排序算法
排序算法是《数据结构与算法》中最基本的算法之一。
排序算法可以分为内部排序和外部排序,内部排序是数据记录在内存中进行排序,而外部排序是因排序数据很大,一次不能容纳全部的排序记录,在排序过程中需要访问外存。常见的排序算法有:冒泡排序、选择排序、插入排序、希尔排序、归并排序、快速排序、计数排序、基数排序、堆排序、桶排序。
排序算法 | 平均时间复杂度 | 最好情况 | 最坏情况 | 空间复杂度 | 排序方式 | 稳定性 |
---|---|---|---|---|---|---|
冒泡排序 | O(n2) | O(n2) | O(1) | $$ | In-place | 稳定 |
排选择序 | O(n2) | O(n2) | O(1) | $$ | In-place | 不稳定 |
插入排序 | O(n2) | O(n) | O(1) | $$ | In-place | 稳定 |
希尔排序 | O(nlogn) | O(nlog2n) | O(nlog2n) | O(1) | In-place | 不稳定 |
归并排序 | O(nlogn) | O(nlogn) | O(nlogn) | O(n) | Out-place | 稳定 |
快速排序 | O(nlogn) | O(nlogn) | O(n2) | O(logn) | In-place | 不稳定 |
堆排序 | O(nlogn) | O(nlogn) | O(nlogn) | O(1) | In-place | 不稳定 |
计数排序 | O(n+k) | O(n+k) | O(k) | $$ | Out-place | 稳定 |
桶排序 | O(n+k) | O(n+k) | O(n2) | O(n+k) | Out-place | 稳定 |
基数排序 | O(n×k) | O(n×k) | O(n×k) | O(n+k) | Out-place | 稳定 |
平方阶O(n2)排序:插入、选择和冒泡排序;
现行对数阶O(nlogn)排序:快速排序、堆排序和归并排序;
**O(n+x)**排序:x
是介于0和1之间的常数,比如希尔排序;
线性阶O(n)排序:基数排序、桶排序。
稳定的排序算法:冒泡、插入、归并和基数排序;
不稳定的排序算法:选择、快速、希尔、堆排序。
名词解释:
n
: 数据规模k
: 桶的个数In-place
: 占用常数内存,不占用额外内存Out-place
: 占用额外内存- 稳定性:排序后2个相等键值的顺序和排序之前它们的顺序相同
# 冒泡排序
# 冒泡排序原理
冒泡排序(Bubble Sort),又称为泡式排序。它遍历要排序的数列,一次比较两个元素,如果它们的顺序错误把它们交换一下。遍历工作重复进行直到没有再需要交换的数据,也就是说该数列已经排序完成。这个算法的名字由来是因为越小的元素会经由交换慢慢浮到数列的顶端。
# 冒泡排序步骤
第一次迭代:
- 从第一个下标开始,也就是
0
,比较第一个和第二个元素; - 如果第一个元素比第二个元素大,就交换两者;
- 然后比较第二个元素和第三个元素,如果两者也不是升序,那交换两者;
- 一直比较和交换,直到最后。
第二次的迭代:冒泡排序就是不断重复迭代的过程,随着不断的交换,大的元素会和动图一样交换到后面,小的元素则会换到前面。
最后一次迭代:
# 冒泡排序的实现
@Test
public void testBubbleSort() {
int[] data = { -2, 45, 0, 11, -9 };
int size = data.length;
for (int i = 0; i < size - 1; i++) {
for (int j = 0; j < size - i - 1; j++) {
if (data[j] > data[j + 1]) {
int temp = data[j];
data[j] = data[j + 1];
data[j + 1] = temp;
}
}
}
for (int k = 0; k < size; k++) {
System.out.println(data[k]);
}
}
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
# 冒泡排序的复杂度
时间复杂度 | |
最优 | O(n) |
最坏 | O(n2) |
平均 | O(n2) |
空间复杂度 | O(1) |
平均复杂度的计算方法:
循环 | 比较的次数 |
---|---|
1st | (n−1) |
2nd | (n−2) |
3rd | (n−3) |
... | ... |
last | 1 |
所以,比较的次数是
(n−1)+(n−2)+(n−3)+...+1=2n(n−1)
基本上等于
O(n2)
# 选择排序
选择排序是一种简单直观的排序算法,无论什么数据进去都是O(n2)的时间复杂度,所以用到它的时候,数据规模越小越好。唯一的好处可能就是不占用额外的内存空间。
# 选择排序算法步骤
- 首先在未排序序列中找到最小(大)元帅,存放到排序序列的起始位置;
- 再从剩余未排序元素中继续寻找最小(大)元素,然后放到已排序序列的末尾;
- 重复第二步,直到所有元素均排序完毕。
# 选择排序代码实现
/**
* 选择排序
*/
@Test
public void testSelectSort() {
int size = array.length;
// 每次循环找到最小索引
int minIndex;
// 每次循环找到的最小值
int temp;
for (int i = 0; i < size; i++) {
temp = array[i];
minIndex = i;
for (int j = i + 1; j < size; j++) {
if (temp > array[j]) {
temp = array[j];
minIndex = j;
}
}
if (i != minIndex) {
array[minIndex] = array[i];
array[i] = temp;
}
}
showArray();
}
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
# 插入排序
插入排序,一般也被称为直接插入排序。对于少量元素的排序,它是一个有效的算法。插入排序的基本思想是将一个记录插入到已经排好序的有序表中,从而一个新的,记录数增1
的有序表。在其实现过程使用双层循环,外层循环对除了第一个元素之外的所有元素,内层循环对当前元素前面有序表进行待插入位置查找,并进行移动。时间复杂度为 O(n2),空间复杂度为 O(1)。
插入排序的代码虽然没有冒泡排序和选择排序那么简单粗暴,但它的原理应该是最容易理解的,因为只要打过扑克牌的人都应该可以秒懂。插入排序是一种简单直观的排序算法,工作原理是通过构建有序序列,对于未排序数据,在已排序序列中从后向前扫描,找到相应的位置并插入。
插入排序和冒泡排序一样,也有一种排序算法,叫拆半插入。
# 插入排序算法步骤
- 将待排序序列第一个元素看做一个有序序列,把第二个元素到最后一个元素当成是未排序序列
- 从头到尾依次扫描未排序序列,将扫描到的每个元素插入有序序列的适当位置(如果待插入元素与有序序列中的某个元素相等,则将待插入元素插入到相等元素的后面)
# 插入排序代码实现
/**
* 插入排序
*/
@Test
public void testInsertSort() {
int size = array.length;
// 从下标为1的元素开始选择合适的位置插入,因为下标为0的只有一个元素,默认是有序的
for (int i = 1; i < size; i++) {
// 记录要插入的数据
int temp = array[i];
// 从已经排序的序列最右边开始比较,找到比其小的数
int j = i;
while (j > 0 && temp < array[j - 1]) {
array[j] = array[j - 1];
j--;
}
// 存在比其小的数,插入
if (j != i) {
array[j] = temp;
}
}
showArray();
}
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
# 希尔排序
希尔排序,也称递减增量排序算法,是插入排序的一种更高小的改进版本。但希尔排序是不稳定排序算法。
希尔排序是基于插入排序的以下两点性质提出的改进方法:
- 插入排序在对几乎已经排好序的数据操作时,效率高,即可以达到线性排序的效率;
- 插入排序一般是低效的,因为插入排序每次只能将数据移动一位。
希尔排序的基本思想是:先将整个待排序的记录序列分割称为若干子序列分别进行直接插入排序,待整个序列中的记录基本有序时,再对全体记录进行依次直接插入排序。
# 希尔排序算法步骤
选择一个增量序列 t1, t2, ..., ti, tj, tk,其中 ti > tj, tk = 1;
按增量序列个数k,对序列进行k趟排序;
每趟排序,根据对应的增量ti,将待排序列分割成若干个长度为m的子序列,分别对各子表进行直接插入排序。仅增量因子为1时,整个序列作为一个表来处理,表长度即为整个序列的长度。
# 希尔排序算法分析
- 希尔排序的时间复杂度:O(nlogn) ~ O(n2)
- 希尔排序的效率取决于它的增量序列
- 分析希尔排序的时间复杂度很困难,在特定情况下可以估算排序的比较和元素的移动次数,但要想弄清楚希尔排序的比较次数和元素移动次数与增量选择之间的依赖关系,并给出完整的数学分析,还没有人能够做到。
# 希尔排序代码实现
/**
* 希尔排序
*/
@Test
public void testShellSort() {
int size = array.length;
int temp;
for (int step = size / 2; step >= 1; step /= 2) {
for (int i = step; i < size; i++) {
temp = array[i];
int j = i - step;
while (j >= 0 && array[j] > temp) {
array[j + step] = array[j];
j -= step;
}
array[j + step] = temp;
}
}
showArray();
}
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
# 归并排序
归并排序(Merge sort)是建立在归并操作上的一种有效的排序算法。该算法是采用分治法(Divide and Conquer)的一个非常典型的应用。
作为一种典型的分而治之的算法应用,归并排序的实现有两种方法:
- 自上而下的递归(所有递归的方法都可以用迭代重写,所以就有了第2中方法);
- 自下而上的迭代;
和选择排序一样,归并排序的性能不受输入数据的影响,但表现比选择排序好的多,因为始终都是O(nlogn)的时间复杂度。代价是需要额外的内存空间。
# 归并排序算法步骤
- 申请空间,使其大小为两个已经排序序列之和,该空间用来存放合并的序列;
- 设定两个指针,最初位置分别为两个已经排序序列的起始位置;
- 比较两个指针所指向的元素,选择相对小的元素放入到合并空间,并移动指针到下一位置;
- 重复步骤3直到某一指针达到序列尾;
- 将另一序列所剩下的所有元素直接复制到合并序列尾。
分而治之:
可以看到上面的结构很像一棵完全二叉树,本文的归并排序我们采用递归实现,也可采用迭代的方式实现。分阶段可以理解为就是递归拆分子序列的过程,递归深度为log2n。
合并相邻有序子序列:在来看治阶段,我们需要将两个已经有序的子序列合并成一个有序序列,比如上图中的最后一次合并,要将[4, 5, 7, 8]和[1, 2, 3, 6]两个已经有序的子序列,合并为最终序列[1, 2, 3, 4, 5, 6, 7, 8],来看下实现步骤:
# 归并排序代码实现
/**
* 归并排序
* @throws Exception
*/
@Test
public void testMergeSort() throws Exception {
int[] result = sort(array);
for (int num : result) {
System.out.println(num);
}
}
private int[] sort(int[] sourceArray) throws Exception {
if (sourceArray.length < 2) {
return sourceArray;
}
int middle = (int) Math.floor(sourceArray.length / 2);
int[] left = Arrays.copyOfRange(sourceArray, 0, middle);
int[] right = Arrays.copyOfRange(sourceArray, middle, sourceArray.length);
return merge(sort(left), sort(right));
}
private int[] merge(int[] left, int[] right) {
int[] result = new int[left.length + right.length];
int i = 0;
while (left.length > 0 && right.length > 0) {
if (left[0] <= right[0]) {
result[i++] = left[0];
left = Arrays.copyOfRange(left, 1, left.length);
} else {
result[i++] = right[0];
right = Arrays.copyOfRange(right, 1, right.length);
}
}
while (left.length > 0) {
result[i++] = left[0];
left = Arrays.copyOfRange(left, 1, left.length);
}
while (right.length > 0) {
result[i++] = right[0];
right = Arrays.copyOfRange(right, 1, right.length);
}
return result;
}
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
# 快速排序
快速排序是由东尼·霍尔所发展的一种排序算法。在平均状况下,排序n
个项目要O(nlogn)次比较,在最坏状况下则需要O(n2)次比较,但这种状况并不常见。
事实上,快速排序通常明显比其他O(nlogn)算法更快,因为它的内部循环(inner loop)可以在大部分的架构上很有效率地被实现出来。
快速排序使用分治法(Divide and conquer)策略来把一个串行(list)分为两个子串行(sub-lists)。
快速排序又是一种分而治之思想在排序算法上的典型应用。本质上来看,快速排序应该算是在冒泡排序基础上的递归分治法。
快速排序的名字起的简单粗暴,因为听到名字就知道它存在的意义,就是快,而且效率高!它是处理大数据最快的排序算法之一,虽然最坏情况下的时间复杂度为O(nlogn),但大多数情况下都比平均复杂度为O(nlogn)的排序算法表现要更好。
快速排序的最坏运行情况是O(n2),比如说顺序数列的快排,但它的平摊期望时间是O(nlogn),且O(nlogn)记号中隐含的常数因子很小,比复杂度稳定等于O(nlogn)的归并排序要小很多。所以,对绝大多数顺序性较弱的随机数列而言,快速排序总是优于归并排序。
# 快速排序算法步骤
- 从数列中挑出一个元素,称为基准(pivot);
- 重新排序数列,所有元素比基准值小的摆放在基准前面,比基准大的摆在基准的后面(相同的数可以放到任一边)。在这个分区退出之后,该基准就处于数列的中间位置。这个称为分区(partition)操作;
- 递归地(recursive)把小于基准值元素的子数列和大于基准值元素的子数列排序。
# 快速排序代码实现
/**
* 快速排序
*/
@Test
public void testQuickSort() {
int[] result = quickSort(array, 0, array.length - 1);
for (int num : result) {
System.out.println(num);
}
}
private int[] quickSort(int[] source, int left, int right) {
if (left < right) {
int partitionIndex = partition(source, left, right);
quickSort(source, left, partitionIndex - 1);
quickSort(source, partitionIndex + 1, right);
}
return source;
}
private int partition(int[] source, int left, int right) {
// 设定基准值(pivot)
int pivot = left;
int index = pivot + 1;
for (int i = index; i <= right; i++) {
if (source[i] < source[pivot]) {
swap(source, i, index);
index++;
}
}
swap(source, pivot, index - 1);
return index - 1;
}
private void swap(int[] source, int i, int j) {
int temp = source[i];
source[i] = source[j];
source[j] = temp;
}
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
# 堆排序
堆排序(Heapsort)是指利用堆这种数据结构所设计的一种排序算法。堆是一个近似完全二叉树的结构,并同时满足堆的性质:即子节点的键值或索引总是小于(或者大于)它的父节点。堆排序可以说是一种利用堆的概念来排序的选择排序。分为两种方法:
- 大顶堆:每个节点的值都大于或等于其子节点的值,在堆排序算法中用于升序排列;
- 小顶堆:每个节点的值都小于或等于其子节点的值,在堆排序算法中用于降序排列;
堆排序的平均时间复杂度为O(nlogn)。
# 堆排序算法步骤
- 创建一个堆 H[0....n-1];
- 把堆首(最大值)和堆尾互换;
- 把堆的尺寸缩小1,目的是把新的数组顶端数据调整到相应位置;
- 重复步骤2,直到堆的尺寸为1。
# 堆排序代码实现
/**
* 堆排序
*/
@Test
public void testHeapSort() throws Exception {
int[] result = heapSort(array);
for (int num : result) {
System.out.println(num);
}
}
private int[] heapSort(int[] source) throws Exception {
int size = source.length;
buildMaxHeap(source, size);
for (int i = size - 1; i > 0; i--) {
swap(source, 0, i);
size--;
heapify(source, 0, size);
}
return source;
}
private void buildMaxHeap(int[] source, int len) {
for (int i = (int) Math.floor(len / 2); i >= 0; i--) {
heapify(source, i, len);
}
}
private void heapify(int[] source, int i, int len) {
int left = 2 * i + 1;
int right = 2 * i + 2;
int largest = i;
if (left < len && source[left] > source[largest]) {
largest = left;
}
if (right < len && source[right] > source[largest]) {
largest = right;
}
if (largest != i) {
swap(source, i, largest);
heapify(source, largest, len);
}
}
private void swap(int[] source, int i, int j) {
int temp = source[i];
source[i] = source[j];
source[j] = temp;
}
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
# 计数排序
技术排序的核心在于将输入的数据值转化为键存储在额外开辟的数组空间中。作为一种线性时间复杂度的排序,计数排序要求输入的数据必须是有确定范围的整数。
当输入的元素是 n
个 0
到 k
之间的整数时,它的运行时间是 O(n+k)。计数排序不是比较排序,排序的速度快于任何比较排序算法。
由于用来计数的数组 C
的长度取决于待排序数组中数据的范围(等于待排序数组的最大值与最小值的差加上1
),这使得计数排序对于数据范围很大的数组,需要大量的时间和内存。例如:计数排序是用来排序 0
到 100
之间的数字的最好的算法,但是它不适合按字母顺序排序人名。但是,计数排序可以用在基数排序中来排序数据范围很大的数组。
通俗地理解,例如有 10
个年龄不同的人,统计出有 8
个人的年龄比 A
小,A
的年龄就排在第 9
位,用这个方法可以得到其他每个人的位置,也就排好了序。当然,年龄有重复时需要特殊处理(保证稳定性),这就是为什么最后要反向填充目标数组,以及将每个数字的统计减去 1
的原因。
# 计数排序算法步骤
- 找出待排序的数组中最大和最小元素
- 统计数组中每个值为
i
的元素出现的次数,存入数组C
的第i
项 - 对所有的计数累加(从
C
中的第一个元素开始,每一项和前一项相加) - 反向填充目标数组:将每个元素
i
放在新数组的第C(i)
项,每放一个元素就将C(i)
减去1
。
# 计数排序实现代码
/**
* 计数排序
*/
@Test
public void testCountSort() {
int bucketLen = getMaxValue(array);
int[] result = countSort(array, bucketLen);
for (int num : result) {
System.out.println(num);
}
}
private int[] countSort(int[] source, int bucketLen) {
int size = bucketLen + 1;
int[] bucket = new int[size];
for (int value : source) {
bucket[value]++;
}
int sortedIndex = 0;
for (int i = 0; i < size; i++) {
while (bucket[i] > 0) {
source[sortedIndex++] = i;
bucket[i]--;
}
}
return source;
}
private int getMaxValue(int[] source) {
int max = source[0];
for (int value : source) {
if (max < value) {
max = value;
}
}
return max;
}
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
# 桶排序
桶排序是计数排序的升级版,它利用了函数的映射关系,高效与否的关键就在于这个映射函数的确定。为了使桶排序更加高效,我们需要做到这两点:
- 在额外空间充足的情况下,尽量增大桶的数量
- 使用的映射函数能够将输入的
N
个数据均匀的分配到K
个桶中
同时,对于桶中元素的排序,选择何种比较排序算法对于性能的影响至关重要。
当输入的数据可以均匀的分配到每一个桶中时最快。
当输入的数据被分配到同一个桶中时最慢。
元素分布在桶中:
元素在每个桶中排序:
# 桶排序代码实现
/**
* 桶排序
* @throws Exception
*/
@Test
public void testBucketSort() throws Exception {
int[] result = bucketSort(array, 5);
for (int num : result) {
System.out.println(num);
}
}
private int[] bucketSort(int[] source, int bucketSize) throws Exception {
if (source.length == 0) {
return source;
}
int minValue = source[0];
int maxValue = source[0];
for (int value : source) {
if (value < minValue) {
minValue = value;
} else if (value > maxValue) {
maxValue = value;
}
}
int bucketCount = (int) Math.floor((maxValue - minValue) / bucketSize) + 1;
int[][] buckets = new int[bucketCount][0];
// 利用映射函数将数据分配到各个桶中
for (int i = 0; i < source.length; i++) {
int index = (int) Math.floor((source[i] - minValue) / bucketSize);
buckets[index] = append(buckets[index], source[i]);
}
int arrIndex = 0;
for (int[] bucket : buckets) {
if (bucket.length <= 0) {
continue;
}
// 对每个桶进行排序,这里使用插入排序
bucket = insertSort(bucket);
for (int value : bucket) {
source[arrIndex++] = value;
}
}
return source;
}
private int[] insertSort(int[] source) {
int size = source.length;
// 从下标为1的元素开始选择合适的位置插入,因为下标为0的只有一个元素,默认是有序的
for (int i = 1; i < size; i++) {
// 记录要插入的数据
int temp = source[i];
// 从已经排序的序列最右边开始比较,找到比其小的数
int j = i;
while (j > 0 && temp < source[j - 1]) {
source[j] = source[j - 1];
j--;
}
// 存在比其小的数,插入
if (j != i) {
source[j] = temp;
}
}
return source;
}
/**
* 自动扩容,并保存数据
* @param source
* @param value
* @return
*/
private int[] append(int[] source, int value) {
source = Arrays.copyOf(source, source.length + 1);
source[source.length - 1] = value;
return source;
}
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
# 基数排序
基数排序是一种非比较型整数排序算法,其原理是将整数按位数切割成不同的数字,然后按每个位数分别比较。由于整数也可以表达字符串(比如名字或日期)和特定格式的浮点数,所以基数排序也不是只能适用于整数。
下面三种排序算法都利用了桶的概念,但对桶的使用方法上有明显的差异:
- 基数排序:根据键值的每位数字来分配桶
- 计数排序:每个桶只存储单一键值;
- 桶排序:每个桶存储一定范围的数值;
# 基数排序代码实现
/**
* 基数排序
*/
@Test
public void testRadixSort() {
int maxDigit = getMaxDigit(array);
int[] result = radixSort(array, maxDigit);
for (int num : result) {
System.out.println(num);
}
}
/**
* 获取最高位数
* @param source
* @return
*/
private int getMaxDigit(int[] source) {
int maxValue = getMaxValue(source);
return getNumLength(maxValue);
}
private int getNumLength(long num) {
if (num == 0) {
return 1;
}
int length = 0;
for (long temp = num; temp != 0; temp /= 10) {
length++;
}
return length;
}
private int[] radixSort(int[] source, int maxDigit) {
int mod = 10;
int dev = 1;
for (int i = 0; i < maxDigit; i++, dev *= 10, mod *= 10) {
// 考虑负数的情况,这里扩展一倍队列数,其中 [0 - 9]对应负数,[10 - 19]对应整数(bucket + 10)
int[][] counter = new int[mod * 2][0];
for (int j = 0; j < source.length; j++) {
int bucket = ((source[j] % mod) / dev) + mod;
counter[bucket] = append(counter[bucket], source[j]);
}
int pos = 0;
for (int[] bucket : counter) {
for (int value : bucket) {
source[pos++] = value;
}
}
}
return source;
}
/**
* 自动扩容,并保存数据
* @param source
* @param value
* @return
*/
private int[] append(int[] source, int value) {
source = Arrays.copyOf(source, source.length + 1);
source[source.length - 1] = value;
return source;
}
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67