알고리즘 - 최장 증가 부분 수열(LIS) 알고리즘

[알고리즘] 최장 증가 부분 수열(LIS) 알고리즘

📌 최장 증가 부분 수열(LIS, Longest Increasing Subsequence)란?

원소가 n개인 배열의 일부 원소를 골라내서 만든 부분 수열 중, 각 원소가 이전 원소보다 크다는 조건을 만족하고, 그 길이가 최대인 부분 수열을 최장 증가 부분 수열이라고 합니다.

예를 들어, { 6, 2, 5, 1, 7, 4, 8, 3} 이라는 배열이 있을 경우, LIS는 { 2, 5, 7, 8 } 이 됩니다.
{ 2, 5 }, { 2, 7 } 등 증가하는 부분 수열은 많지만 그 중에서 가장 긴 것이 { 2, 5, 7, 8 } 입니다.

🔍 일반적으로 최장 증가 부분 수열의 길이가 얼마인지 푸는 간편한 방법은 DP를 이용하는 것입니다.

아래에서 length[i] 는 i번째 인덱스에서 끝나는 최장 증가 부분 수열의 길이를 의미합니다.

for (int k = 0; k < n; k++){
	length[k] = 1;
    for (int i = 0; i < k; i++){
        if(arr[i] < arr[k]){
            length[k] = max(length[k], length[i] + 1);
        }
    }
}

주어진 배열에서 인덱스를 한 칸씩(k+=1) 늘려가면서 확인합니다. 그리고 내부 반복문으로 k보다 작은 인덱스들을 하나씩 살펴 보면서 arr[i] < arr[k]인 것이 있을 경우, length[k] 를 업데이트합니다.

업데이트 하는 기준은,

(1) i번째 인덱스에서 끝나는 최장 증가 부분 수열의 마지막에 arr[k]를 추가했을 때의 LIS 길이와
(2) 추가하지 않고 기존의 length[k] 값
둘 중에 더 큰 값으로 length[k] 값을 업데이트합니다.

그런데 위 알고리즘의 시간복잡도는 O(n^2) 입니다. 인풋 값이 백만 개 정도만 되어도 O(n^2)의 알고리즘은 실행시간이 10초 이상 소요된다고 알려져 있습니다.

DP로 LIS를 풀 수 있는 문제 : (2565번 문제는 n이 100개 이하로 제한됨)
- 2565번 - 전깃줄 https://www.acmicpc.net/problem/2565

🔍 LIS의 길이를 구하기 위해 이분탐색을 활용합니다. (이분탐색을 활용한 LIS 구하기)

시간복잡도를 개선하기 위하여 LIS를 구성할 때 이분탐색을 활용합니다.

즉, LIS의 형태를 유지하기 위해 주어진 배열의 인덱스를 하나씩 살펴보면서 그 숫자가 들어갈 위치를 이분탐색으로 탐색해서 넣습니다.

이분탐색은 일반적으로 시간복잡도가 O(log n) 이라고 알려져 있으므로, 이 문제의 시간 복잡도를 O(nlog n)으로 개선시킬 수 있게 됩니다.

#include <iostream>
#include <vector>
#include <algorithm>
#include <string>
#include <vector>
#include <deque>

using namespace std;

int n;
int arr[40001];
int lis[40001];

// LIS를 유지하기 위해 숫자가 들어갈 위치를 이분탐색으로 찾는 함수
int binarysearch(int left, int right, int target) {

	int mid;

    // lis 배열에 들어갈 target=arr[i]의 위치를 이분탐색으로 찾기

	while (left < right) {
		mid = (left + right) / 2; // 중간값 설정

		if (lis[mid] < target) {
			left = mid + 1;
		}
		else {
			right = mid;
		}
	}
	return right;
}

int main() {

	ios::sync_with_stdio(0);
	cin.tie(0);

	int n;
	cin >> n;
	for (int i = 0; i < n; i++) {
		cin >> arr[i];
	}

	int j = 0;
	lis[0] = arr[0]; // lis 배열의 맨 첫번째 값은 arr[0]으로 초기화
	int i = 1;

	// arr의 두번째부터 마지막까지 하나씩 lis와 비교하면서 넣어준다.
	while (i < n) {
		// lis 배열의 맨 뒤의 값보다 arr[i]가 더 크면 그것을 lis 배열 맨 뒤에 넣어준다.
		if (lis[j] < arr[i]) {
			lis[j + 1] = arr[i];
			j += 1;
		}
		// arr[i]값이 더 작으면, arr[i]의 값이 lis 배열 중 어느 곳에 들어올지 이분탐색한다.
		else {
            // 0부터 j까지 탐색하면서 arr[i]가 들어갈 수 있는 위치를 찾아서 idx에 반환
			int idx = binarysearch(0, j, arr[i]);
			lis[idx] = arr[i];
		}
		i += 1;
	}

	cout << j + 1;


	return 0;
}

이분 탐색을 결합한 LIS 알고리즘으로 풀 수 있는 문제
- 2352번 - 반도체 설계 : https://www.acmicpc.net/problem/2352

2352번 : 반도체 설계 - 문제 조건과 설명

왼쪽 그림에 n개의 포트가 있고, 오른쪽 그림에 n개의 포트가 있습니다.

왼쪽 포트와 오른쪽 포트를 어떻게 연결하는지 정보가 주어지는데, 아래와 같이 서로 꼬이면 안 됩니다.

서로 꼬이지 않도록 하면서, 최대 몇 개의 포트를 서로 연결할 수 있는지 알아내야 합니다.

Input

첫 줄에 정수(1<=n<=40,000)가 주어지고 다음 줄부터 차례대로 1번 포트와 연결되는 포트, 2번 포트와 연결되는 포트, … , n번 포트와 연결되는 포트의 번호가 주어지고 이들은 모두 1 이상 n 이하의 숫자이며 서로 같은 수는 없습니다.

Output

꼬이지 않고 최대로 연결할 수 있는 개수를 출력합니다.

생각한 아이디어

꼬이지 않는 경우를 그려보겠습니다.

이처럼 1,3,4 번 포트가 각각 2 - 3 - 5 와 연결되면 꼬이지 않고 연결할 수 있습니다.

(2,3,5번 포트가 1 - 3 - 4 로 연결해도 가능합니다.)

여기에서 알 수 있는 것은, 이 문제는 주어진 연결정보인 2, 1, 3, 5, 4를 가지고 LIS(Longest Increasing Subsequence, 최장 증가 부분 수열) 문제를 푸는 것과 동일하다는 점입니다.

그러나 인풋이 4만개이므로, DP를 사용한 O(n^2) 알고리즘은 적합하지 않다고 볼 수 있습니다. 문제의 제한시간이 2초로 주어져 있기 때문입니다.

따라서 O(nlog n)의 시간복잡도를 가진, 이분탐색을 결합한 LIS 알고리즘으로 문제를 풀어야 합니다.

알고리즘 - 최장 증가 부분 수열(LIS) 알고리즘