티스토리 뷰

문제

평소에 문자열을 가지고 노는 것을 좋아하는 민호는 DNA 문자열을 알게 되었다. DNA 문자열은 모든 문자열에 등장하는 문자가 {‘A’, ‘C’, ‘G’, ‘T’} 인 문자열을 말한다. 예를 들어 “ACKA”는 DNA 문자열이 아니지만 “ACCA”는 DNA 문자열이다. 이런 신비한 문자열에 완전히 매료된 민호는 임의의 DNA 문자열을 만들고 만들어진 DNA 문자열의 부분문자열을 비밀번호로 사용하기로 마음먹었다.

하지만 민호는 이러한 방법에는 큰 문제가 있다는 것을 발견했다. 임의의 DNA 문자열의 부분문자열을 뽑았을 때 “AAAA”와 같이 보안에 취약한 비밀번호가 만들어 질 수 있기 때문이다. 그래서 민호는 부분문자열에서 등장하는 문자의 개수가 특정 개수 이상이여야 비밀번호로 사용할 수 있다는 규칙을 만들었다.

임의의 DNA문자열이 “AAACCTGCCAA” 이고 민호가 뽑을 부분문자열의 길이를 4라고 하자. 그리고 부분문자열에 ‘A’ 는 1개 이상, ‘C’는 1개 이상, ‘G’는 1개 이상, ‘T’는 0개 이상이 등장해야 비밀번호로 사용할 수 있다고 하자. 이때 “ACCT” 는 ‘G’ 가 1 개 이상 등장해야 한다는 조건을 만족하지 못해 비밀번호로 사용하지 못한다. 하지만 “GCCA” 은 모든 조건을 만족하기 때문에 비밀번호로 사용할 수 있다.

민호가 만든 임의의 DNA 문자열과 비밀번호로 사용할 부분분자열의 길이, 그리고 {‘A’, ‘C’, ‘G’, ‘T’} 가 각각 몇번 이상 등장해야 비밀번호로 사용할 수 있는지 순서대로 주어졌을 때 민호가 만들 수 있는 비밀번호의 종류의 수를 구하는 프로그램을 작성하자. 단 부분문자열이 등장하는 위치가 다르다면 부분문자열이 같다고 하더라도 다른 문자열로 취급한다.

입력

첫 번째 줄에 민호가 임의로 만든 DNA 문자열 길이 |S|와 비밀번호로 사용할 부분문자열의 길이 |P| 가 주어진다. (1 ≤ |P| ≤ |S| ≤ 1,000,000)

두번 째 줄에는 민호가 임의로 만든 DNA 문자열이 주어진다.

세번 째 줄에는 부분문자열에 포함되어야 할 {‘A’, ‘C’, ‘G’, ‘T’} 의 최소 개수가 공백을 구분으로 주어진다. 각각의 수는 |S| 보다 작거나 같은 음이 아닌 정수이며 총 합은 |S| 보다 작거나 같음이 보장된다.

출력

첫 번째 줄에 민호가 만들 수 있는 비밀번호의 종류의 수를 출력해라.

 

내 코드

 

import sys
s,p=map(int, sys.stdin.readline().split())
arr=list(sys.stdin.readline().rstrip())
a,c,g,t=map(int,sys.stdin.readline().split()) #A,C,G,T 개수 조건

answer=0
base_arr=arr[0:p] #첫 시작을 위해 직접 구간 설정.

#첫번째는 직접 구간 설정해서 개수 세기
a_cnt=c_cnt=g_cnt=t_cnt=0
for char in base_arr:
        if char=='A':
            a_cnt+=1
        elif char=='C':
            c_cnt+=1
        elif char=='G':
            g_cnt+=1
        elif char=='T':
            t_cnt+=1

#조건 체크
if a_cnt>=a and c_cnt>=c and g_cnt>=g and t_cnt>=t:
        answer+=1


#첫번째 이후는 슬라이딩을 통해 개수 +,- 하기
for i in range(s-p): #첫번째 이후 (s-p)번 반복함 (자명한 사실)
    getOut=arr[i]
    getIn=arr[i+p]

    #슬라이딩으로 인해 나가는 놈
    if getOut=='A':
            a_cnt-=1
    elif getOut=='C':
            c_cnt-=1
    elif getOut=='G':
            g_cnt-=1
    elif getOut=='T':
            t_cnt-=1

    #슬라이딩으로 인해 들어오는 놈
    if getIn=='A':
            a_cnt+=1
    elif getIn=='C':
            c_cnt+=1
    elif getIn=='G':
            g_cnt+=1
    elif getIn=='T':
            t_cnt+=1

    #조건 체크
    if a_cnt>=a and c_cnt>=c and g_cnt>=g and t_cnt>=t:
        answer+=1
    
print(answer)

 

풀이 및 접근)

- 이 문제는 슬라이딩 윈도우 알고리즘을 통해 풀이한다. 이전의 투 포인터도 구간에 대해 사용했는데, 주로 투 포인터는 그 구간의 길이가 변할 때 사용하고, 슬라이딩 윈도우는 그 구간의 길이가 고정일 때 사용한다. 이 문제에서는 구간이 고정된 채로 이동한다.

- 처음에는 구간이 변할 때마다 list의 구간을 arr[n:m]으로 초기화 하면서 문자들의 개수를 셌다. 이렇게 되면 이중 for문 구조가 나와서 시간초과가 뜨게 된다.

- 여러 문제를 풀어보면서 느끼는 것은, 굳이 전체에서 정보를 가져오는 것이 아니라, 내가 원하는 것만 가져와서 알고 있는 정보를 최신화 시키는 방법이 문제의 해결방법이다. 이 문제에서는 초기 개수를 구한 다음에 그 변화율만 반영하면 된다. 그렇게 하면 이중 for문을 쓸 필요가 없다.

- 슬라이딩을 하면서 나가는 문자와 새로 들어오는 문자만 신경 써주어서 개수를 최신화 시켜주면 답을 쉽게 구할 수 있다.

공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
«   2024/07   »
1 2 3 4 5 6
7 8 9 10 11 12 13
14 15 16 17 18 19 20
21 22 23 24 25 26 27
28 29 30 31
글 보관함