호스트 인스턴스에 대한 위험을 감수하지 않고 사전 암호화 실행 단계에서 랜섬웨어를 감지하는 안전한 브라우징 시설.
페이지 하단의 시각적 안내서를 참조하십시오.
2020 년에만 랜섬웨어“비즈니스”는 사이버 범죄자에게 200 억 달러를 가져 왔습니다. 이 끔찍한 인물은 매년 점차 증가하고 있으며 기존 솔루션은 이러한 위협에 맞서 싸울 수 없습니다. Cybercrime Magazine에 따르면이 수치는 현재 추세를 가정하면 2031 년까지 증가하여 2,650 억 달러를 초과 할 수 있습니다.
랜섬웨어의 성공의 이유는 무엇입니까? 오늘날 바이러스 백신 소프트웨어는 첫 번째 프로토 타입과 크게 다르지 않습니다. Virustotal Online 도구 덕분에 연구, 허니 팟 이상으로 수집 한 알려진 악성 코드의 서명 라이브러리 (해시)를 기반으로 운영됩니다. 그러나 맬웨어 나 특히 랜섬웨어 샘플이 주어진 바이러스 백신에 알려지지 않은 경우 어떻게해야합니까? - 그러면 안티 바이러스는 서명이 라이브러리에 존재하지 않기 때문에 악의적 인 프로그램이 컴퓨터를 손상시키는 것을 막지 않습니다.
모든 샘플의 서명에 의존하는 대신 Windows System API 통화 및 기타 시스템 정보를 사용하여 악의적 인 동작을 감지하고 최종 사용자가 맬웨어/랜섬웨어를 다운로드하고 실행하지 못하도록 제안합니다. 데이터 수집
데이터를 분석하고 작업하기 전에 Goodware, Amware 및 Ransomware 샘플을 찾아야했습니다. 후자를 찾기 위해 Google 및 Github 및 Darknet 해킹 웹 사이트를 시작으로 가능한 모든 옵션을 사용했습니다. 전체적으로 X Goodware, X Amware 및 X Ransomware 샘플을 수집했습니다.
결국 Cuckoo Sandbox (https://cuckoosandbox.org) 덕분에 보고서 데이터 세트를 작성했습니다. 이 샌드 박스 소프트웨어는 파일 실행 중 OS에서 실행되는 내부 프로세스에 대한 상세하고 귀중한 통찰력을 제공합니다.
보고서는 JSON 파일 구조를 따릅니다. 다음과 같이 설명 할 수 있습니다. 기본 파일 구조 :

Cuckoo로 획득 한 데이터에 대한 깊은 분석 후,이 기사에서 다른 경우마다 다를 수 있다는 점을 고려하여 기사의 뒷부분에서 설명 할 특정 값을 추출하는 데 동의했습니다.

우리는 Custom JSON Parser를 사용하여 보고서에서 필요한 데이터를 검색했습니다. JSON 구조, ORJSON 라이브러리 및 멀티 프로세싱을 사용하여 1000 JSON 보고서에서 데이터를 추출하여 총 20 기가 바이트가 125 초 밖에 걸리지 않았습니다. (하나의 파일은 1.1 기가 바이트 크기였으며 처리하는 데 39 초가 걸렸습니다)
타협의 지표 (IOC)는 "시스템 로그 항목 또는 파일에서 발견 된 데이터와 같은 법의학 데이터 (예 : 시스템 또는 네트워크에서 잠재적으로 악의적 인 활동을 식별하는 것”입니다. 데이터 유출, 맬웨어 감염 또는 기타 위협 활동을 감지하는 데있어 어수치 정보 보안 및 IT 전문가의 지표. 타협 지표를 모니터링함으로써 조직은 공격을 감지하고 빠르게 행동하여 초기 단계에서 공격을 중단하여 위반이 발생하지 않거나 손상을 제한 할 수 있습니다.
API Call System Call은 API (Application Program Interface)를 통해 운영 체제의 서비스를 사용자 프로그램에 제공합니다. 사용자 수준 프로세스가 운영 체제의 서비스를 요청할 수 있도록 프로세스와 운영 체제 간의 인터페이스를 제공합니다. 시스템 호출은 커널 시스템의 유일한 진입 점입니다.
DLL은 "동적 링크 라이브러리"를 나타냅니다. dll (. dll) 파일에는 Windows 프로그램에서 액세스 할 수있는 함수 라이브러리 및 기타 정보가 포함되어 있습니다. 프로그램이 시작되면 필요한 것들에 대한 링크. 일부 DLL은 Windows 운영 체제와 함께 제공되며 새로운 프로그램이 설치 될 때 다른 DLL이 추가됩니다.
파일 작업 파일은 추상 데이터 유형입니다. 파일을 올바르게 정의하려면 파일에서 수행 할 수있는 작업을 고려해야합니다. 6 개의 기본 파일 작업. OS는 시스템 호출을 제공하여 파일을 생성, 쓰기, 읽기, 재배치, 삭제 및 자르기 위해 제공 할 수 있습니다.
레지스트리 키 작업 레지스트리 키는 폴더와 유사한 컨테이너 객체입니다. 레지스트리 값은 파일과 유사한 비 컨테이너 객체입니다. 키에는 값과 하위 키가 포함될 수 있습니다. 키는 Windows의 경로 이름과 유사한 구문을 참조하여 백 슬래시를 사용하여 계층의 수준을 나타냅니다.
PE 가져 오기 PE 또는 휴대용 실행 파일은 Windows 실행 파일 형식입니다. PE 형식을 연구하면 Windows Internals 기능이 어떻게 작동하여 더 나은 프로그래머를 만드는 방법을 이해하는 데 도움이됩니다. 종종 난독 화 된 이진의 복잡한 세부 사항을 알아 내려는 리버스 엔지니어에게는 더욱 중요합니다. 파일을 실행할 때마다 Windows 로더는 먼저 디스크에서 PE 파일을로드하여 메모리에 매핑합니다. PE 파일의 메모리 맵을 모듈이라고합니다. 로더는 전체 내용을 디스크에서 메모리로 복사하는 것이 아니라는 점에 유의해야합니다. 대신 로더는 헤더의 다양한 값을보고 파일에서 PE의 다른 부분을 찾은 다음 그 부분을 메모리에 맵핑합니다. (http://ulsrl.org/pe-portable-executable/)
맬웨어 생태계에서 저렴한 포장 체계의 유병률과 영향 하나의 일반적인 기술 레버리지는 포장 바이너리입니다. 실행 파일을 포장하는 것은 압축 또는 암호화 적용과 유사하며 일부 기술이 포장 된 맬웨어를 감지하는 능력을 억제 할 수 있습니다. 높은 엔트로피는 전통적으로 패커의 존재에 대한 이야기 표시이지만, 많은 맬웨어 분석가들은 아마도 낮은 엔트로피 패커를 두 번 이상 만났을 것입니다. 수많은 인기있는 도구 (예 : Peid, Manalyze, 쉽게 감지), 맬웨어 관련 코스 및 주제에 대한 참조 서적까지도 포장 된 맬웨어가 종종 높은 엔트로피를 보여줍니다. 결과적으로 많은 연구자들은이 휴리스틱을 분석 루틴에서 사용합니다. 패커를 감지하는 데 일반적으로 사용되는 도구는 시그니처 매칭을 기반으로하며 때로는 다른 휴리스틱을 결합 할 수 있지만, 순환하는 많은 서명이 잘못된 위치가 발생하기 때문에 결과는 완전히 충실하지 않습니다. Cisco Talos Intelligence Group- 포괄적 인 위협 인텔리전스 : 새로운 연구 논문 : 맬웨어 생태계에서 저렴한 포장 체계의 유병률 및 영향
분류 알고리즘 이외에도 온라인으로 사용 가능한 랜섬웨어 샘플이 심각하게 부족하기 때문에 Smote (합성 소수 민족 오버용 기술)와 같은 기술을 사용하여 불균형 데이터에 대한 가금 및 부스팅 기술을 사용하여 불균형 분류를 처리해야합니다.
또한 클러스터링 알고리즘을 시도하여 캔섬웨어 이외의 랄웨어 유형의 클러스터를 식별 할 수 있는지 확인하려고합니다. 웜, 트로이 목마, 스파이웨어, 쥐, 도둑질, 은행가 등.
우리는 확장 성의 용이성, 주문형 전력 전력, 다양한 내장 도구를 포함하여 클래식 서버 지향적 인 것과 비교할 때 많은 이점이 있기 때문에 아키텍처에 AWS를 사용했습니다. 주요 구성 요소는 다음과 같습니다.



이 프로젝트의 큰 과제 중 하나는 Cuckoo Analysis JSON 보고서를 다루는 것입니다. 한편으로는 크기가 최대 500-700 메가 바이트에 도달 할 수 있으므로 메모리를 효율적이고 빠른로드하고 처리하는 방법을 찾아야합니다. 반면에, 보고서의 광범위한 중첩 구조를 이해하고 각 섹션의 의미를 해석하는 것은 도전적인 것이 좋으며 운영 체제 전문가의 도움이 필요할 수 있습니다. 실제로 Cuckoo는 현실적인 고립 된 환경 내에서 실행될 때 파일의 동작을 요약하는 매우 상세한 보고서를 제공하며, 이러한 자세한 특성과 각각의보고 된 파일에 대한 보고서의 적응 구조로 인해 공식 웹 사이트에서 보고서의 컨텐츠에 대한 문서가 충분하지 않습니다. 데이터는 주로 Windows 환경에서 파일의 동작을 반영하는 1000 개 이상의 가능한 기능을 갖춘 범주 적이므로 랜섬웨어와 Goodware를 구별 할 수있는 중요한 기능을 성공적으로 식별하는 데 문제가 있습니다. 이를 위해서는 USTO가 기능의 중요성을 적절하게 연구하고 다양한 가변 선택 알고리즘을 구현해야합니다. 우리는 또한 변수의 다중 공선 성의 잠재적 문제를 다루고 다양한 차원 감소 방법을 탐색합니다. 이 사건에서 중요한 질문은 범주 형 변수가 더 큰 범주에 속할 때 기능 제거의 관련성입니다. 다중 클래스 범주 형 변수를 다루는 데있어 또 다른 과제는 교육 데이터 세트가 가능한 모든 클래스의 철저한 목록을 제공하지 않을 때입니다. 배포되면 모델은 아마도 보이지 않는 클래스에 직면했을 것입니다. 예를 들어, 1000 개가 넘는 Windows API 호출이 있으며 지금까지 수집 된 데이터 세트에는 약 250 개만 포함됩니다. 이 문제를 다루려면 보이지 않는 수업을 처리하기위한 여러 전략을 탐색하여 최상의 성과를 달성해야합니다. 추가 옵션은 증분 학습 기술을 통해 새로운 데이터로 생산에서 모델 재교육을 제공하는 것입니다.
GitHub에서 코드를 다운로드하고 아래 지침을 따르십시오.



6. 
당신은 가기 좋다! 안전한 탐색을 즐기십시오! 
이 형식으로 이메일을 받게됩니다. 