CONSED 28.0 설치(리눅스 CentOS 6.6기준)

NGS 데이터의 분석에 몰두하는 동안 read alignment를 직접 편집하고 Sanger read를 섞는 일을 한동안 하지 못하였었다. 업무상 필요에 의해 다시 consed를 설치하면서 신규 버전인 28.0에 관련한 내용을 정리하고자 한다. 패키지를 풀면 나오는 README.txt(CONSED 28.0 DOCUMENTATION)을 참조하여 진행한다.

CentOS 버전의 확인 방법
$ lsb_release -a
LSB Version:    :base-4.0-amd64:base-4.0-noarch:core-4.0-amd64:core-4.0-noarch:graphics-4.0-amd64:graphics-4.0-noarch:printing-4.0-amd64:printing-4.0-noarch
Distributor ID: CentOS
Description:    CentOS release 6.6 (Final)
Release:        6.6
Codename:       Final

필수 프로그램의 버전
필수 프로그램은 /usr/local/bin/에 위치시킨다.
  • phred - 0.000925.c 혹은 그 이후 버전. 나에게 있는 것은 020425이다. PHRED_PARAMETER_FILE 환경변수는 /usr/local/etc/PhredPar/phredpar.dat를 가리키도록 한다.
  • phrap - 1.080721 혹은 그 이후 버전. 나에게 있는 것은 1.080812이다. 이제 더 이상 .manyreads와 .longread를 따로 빌드할 필요가 없다.
CONSED의 설치 위치
/usr/local/genome이 권장되는 위치이다. 만약 다른 경로를 선택하였다면 CONSED_HOME 환경변수가 여기를 지정하도록 설정해야 한다.  실행파일이나 스크립트는 /usr/local/genome/bin에 둔다. 실행 파일 중 어느것을 쓸 것인다. 다음을 순서대로 실행하여 오류 메시지 없이 "Version 28.0"이라고 출력되는 첫번째 것을 사용하면 된다. 명령어 뒤의 빨강색으로 표시된 부분이 실제로 내 경우에 출력된 메시지이다. 나는 consed_rhel6linux64bit을 쓰기로 하였다.
  • ./consed_rhel6linux64bit -v Version 28.0 (141216)
  • ./consed_rhel4linux64bit -v error while loading shared libraries: libstdc++.so.5: cannot open shared object file: No such file or directory
  • ./consed_rhel4linux64bit_static -v Version 28.0 (141216)
  • ./consed_linux32bit_dyn -v /lib/ld-linux.so.2: bad ELF interpreter: No such file or directory
  • ./consed_linux32bit -v /lib/ld-linux.so.2: bad ELF interpreter: No such file or directory
스크립트를 이용한 CONSED의 설치
단순히 파일들을 수작업으로 제 위치에 두는 것만으로 설치를 끝냈던 예전 버전과는 달리, 요즘은 설치 전용 스크립트를 제공한다. 사용할 바이너리와 설치 위치를 결정하였다면 consed 패키지를 풀었던 곳에서 다음과 같이 실행한다.

./installConsed.perl consed_rhel6linux64bit /usr/local/genome

그러면 /usr/local/genome/bin에 consed_rhel6linux64bit이 복사될 것이다. 나는 편의상 consed라는 심볼릭 링크를 만들어 두었다. 이제 /usr/local/genome/standard/edit_dir로 가서 consed를 실행해 보라. 익숙한 consed의 창이 뜨고 ace file을 선택하여 aligned reads window가 열리면 다 된 것이다.

보조 프로그램의 설치
/usr/local/genome/misc에 들어가면 mktrace와 phd2fasta 소스가 있는 서브디렉토리가 있다. 각 서브디렉터리 안에서 make를 실행하여 바이너리를 만든 뒤 /usr/local/bin으로 복사한다.

Vector 서열 파일의 복사
일반적으로 널리 쓰이는 벡터 서열은 NCBI의 UniVec 데이터베이스에서 가져올 수 있다. /usr/local/genome/lib/screenLibs/vector.seq가 UniVec_Core를 가리키도록 하는 것이 무난하다. UniVec_Core보다 수록된 서열이 좀 더 많은 UniVec은 나중에 눈으로 직접 결과물을 확인하면서 과도한 false positive를 걸러낸 용도로 만들어진 것이다. 따라서 컴퓨터 프로그램으로 하여금 벡터 서열 선별 작업을 하도록 전적으로 맡길 것이라면 UniVec_Core를 사용하는 것이 바람직하다.

Customization이 반드시 필요한 스트립트들(/usr/local/genome/scripts)
작성 예정...

bamScape란 무엇인가?
작성 예정...

기타 중요한 사항
$DISPLAY 환경 변수와 관련하여 에러가 날 수 있다. 내 블로그의 글에 해결 방안이 제시되어 있다.
Comments