NHẬN DẠNG THƯ RÁC

Get Started. It's Free
or sign up with your email address
Rocket clouds
NHẬN DẠNG THƯ RÁC by Mind Map: NHẬN DẠNG THƯ RÁC

1. Sau khi có được dữ liệu cần thiết dưới dạng email, bước tiếp theo là định dạng dữ liệu

1.1. Trong mô-đun thứ hai, logic cơ bản đằng sau việc phân loại email spam / không spam được triển khai. Các email được định dạng được gửi đến thư viện máy học

1.1.1. Bước quan trọng tiếp theo là Khám phá và Phân tích Dữ liệu (EDA) được thực thi.

1.1.1.1. Ở đây, dữ liệu được khám phá với mục đích phân tích các tính năng. Với sự trợ giúp của các mẫu này, các biến và từ khóa cần thiết được thu được và do đó đạt được đầu ra cuối cùng

2. Mô hình Spam Filtered Email Classification (SFECM) Sử dụng Gain and Graph Mining Algorithm

2.1. Trước xử lý

2.1.1. POS Tagger

2.2. Xử lý

2.2.1. Tìm

2.2.1.1. Keywords

2.2.1.2. Greeting words

2.2.1.3. Sign-in words

2.2.2. Tạo đồ thị Email

2.2.3. Đồ thị mẫu ngày càng hoàn thiện hơn từ những đồ thị Email mới

2.3. Phân loại

2.3.1. Đồ thị mẫu được chỉ định để đại diện cho mục liên quan

2.3.2. Đồ thị Email nào phù hợp với đồ thị mẫu trong mục nào thì sẽ được liệt kê vào mục đó

3. 4. Thuật toán (GA) và Mạng trọng lượng ngẫu nhiên (RWN) để xử lý các tác vụ phát hiện thư rác Email.

3.1. Công việc liên quan

3.1.1. phân loại sau:

3.1.1.1. xây dựng các mô hình phân loại dựa trên các thuộc tính Email

3.1.1.2. phương pháp tiếp cận

3.1.1.3. phương pháp học máy lai

3.1.1.4. phương pháp kỹ thuật tính năng

3.1.2. phương pháp dựa trên máy học

3.1.2.1. Một công việc khác thành lập của Amayri và Bouguila áp dụng trình phân loại SVM cho vấn đề này

3.1.2.2. phương pháp phân loại học máy tiêu chuẩn khác như Mạng nơ ron nhân tạo

3.1.2.3. Trình phân loại cây quyết định (C4.5), Perceptionron nhiều lớp (MLP) và phân loại NB.

3.1.2.3.1. Idris và Selamat [16] đề xuất một thư rác được cải thiện phương pháp phát hiện kết hợp Thuật toán lựa chọn phủ định (NSA) với Swicle Particle Trình tối ưu hóa (PSO)

3.1.3. Tổng quan về các thuật toán di truyền

3.1.3.1. là lớp đầu tiên, được đánh giá cao về sự tối ưu tiến hóa lặp đi lặp lại-kỹ thuật tion được giới thiệu bởi John Holland và lấy cảm hứng từ các triết lý và sự tiến hóa của sinh học- quá trình ical [27].

3.1.3.1.1. mọi thế hệ có thể tạo ra một dân số con dựa trên ba thủ tục cốt lõi:

4. 2. sử dụng các kỹ thuật học máy để phát hiện một mẫu từ khóa lặp đi lặp lại được phân loại là thư rác

4.1. Các mô-đun đầu tiên chủ yếu được sử dụng để xử lý dữ liệu. Ở đây, bước đầu tiên để có được email từ một máy chủ email được thực hiện.

5. 1. Lọc thư rác dựa trên nội dung Email.

5.1. Phương pháp

5.1.1. Sử dụng kho dữ liệu SPAM CSDMC2010 có chứa 4327 email trong tập dữ liệu đào tạo và 4292 email trong kiểm tra dữ liệu

5.1.2. Sử dụng cớ chế dự đoán giá trị tin cậy như một phương pháp kết hợp.

5.2. Cách thức thực hiện

5.2.1. Xóa các HTML khỏi email, và cập nhật bộ sự tập từ khóa.

5.2.2. Đếm tần số cho mỗi từ được trích xuất từ nội dung.

5.2.3. Lọc những từ không sử dụng thường xuyên (Dựa trên kho dữ liệu)

5.2.4. Phân loại dựa trên kho dữ liệu để đánh giá nội dung của email.

5.3. Công cụ

5.3.1. Python

5.3.2. CSDMC2010 SPAM corpus liên kết với ICONIP2010

5.4. Tài liệu tham khảo

5.4.1. Content Based Spam E-mail Filtering, Pingchuan Liu and Teng-Sheng MohKhoa, Khoa học máy tính Đại học bang San Jose San Jose, CA, Hoa Kỳ