Khám phá tri thức và Khai phá dữ liệu - một lĩnh vực học thuật đang phát triển nhanh chóng kết
hợp với quản trị CSDL, khoa học thống kê, máy học và các lĩnh vực có liên quan mà mục tiêu cuối
cùng của nó là trích rút ra những tri thức hữu ích từ tập các dữ liệu lớn.
Giống như Khai phá dữ liệu, Khám phá tri thức cũng có thể hiểu theo nhiều khía cạnh khác
nhau, nhưng tựu chung lại chúng ta có thể khái niệm Khám phá tri thức như sau:
Khám phá tri thức trong CSDL là một quá trình của việc xác định giá trị, cái mới lạ, tri thức
tiềm ẩn và tri thức cuối cùng của các khuôn mẫu/mô hình trong dữ liệu. Khai phá dữ liệu là một bước
trong quá trình Khám phá tri thức bao gồm các thuật toán Khai phá đặc biệt nằm trong giới hạn khả
năng của máy tính để tìm ra các mẫu và mô hình trong dữ liệu.[8]
2.2. SỰ CẦN THIẾT CỦA KHÁM PHÁ TRI THỨC
Có rất nhiều lý do để giải thích sự cần thiết của việc Khám phá tri thức - Khai phá dữ liệu, điển
hình là:
- Có rất nhiều tổ chức tập hợp quá nhiều dữ liệu, vậy họ phải làm gì với chúng.
- Con người lưu trữ dữ liệu bởi vì họ cho rằng một số giá trị hữu ích được mã hóa hoàn toàn
trong dữ liệu.
- Trong kinh doanh, cần thu thập các thông tin về thị trường, về các đối thủ và về khách hàng.
Trong sản xuất, cần thu thập các dữ liệu về thời điểm hiệu quả và tối ưu nhất phục vụ cho mục
đích cải tiến quy trình và giải quyết các sự cố.
- Chỉ có một phần nhỏ của dữ liệu (khoảng 5 đến 10%) là luôn được phân tích.
- Sự gia tăng của dữ liệu cản trở các phương pháp phân tích truyền thống.
- Giá trị dữ liệu là quá lớn đối với cách thức phân tích cổ điển. Chúng ta có thể không bao giờ
nhìn thấy chúng một cách chọn vẹn hoặc không thể lưu dữ trong bộ nhớ.
- Dữ liệu cần tìm kiếm không tồn tại dưới dạng tường minh mà dưới dạng phi cấu trúc, trong các
quy luật tiềm ẩn.
- Sự phát triển của mạng máy tính đã gia tăng khả năng truy cập vào dữ liệu.
- Người sử dụng cuối không phải là nhà thống kê đơn thuần, họ cần biết tri thức từ CSDL mà họ
đang lưu trữ.
- Sự cần thiết phải nhanh chóng ra quyết định và phản ứng lại những cơ hội xuất hiện trước các
đổi thủ của mình.
5
- Cùng với việc lớn lên của CSDL, khả năng để đưa ra quyết định và hỗ trợ phân tích là không
thể thực hiện được với truy vấn truyền thống (SQL).
- Rất nhiều kiểu câu truy vấn mà con người quan tâm là rất khó thực hiện hay miêu tả trong ngôn
ngữ vấn tin, đại loại như:
o Tìm tất cả các bản ghi nghi là gian lận.
o Tìm tất cả các bản ghi tương tự như các bản ghi trong bảng X.
- Một số vấn đề với dạng thức truy vấn:
o Không thể tối ưu hóa thông qua truy vấn,
o Không có nhiều thông tin trong các trường của CSDL hoặc trong các phương pháp
thống kê cổ điển.
2.3. KHÁM PHÁ TRI THỨC VÀ CÁC LĨNH VỰC LIÊN QUAN.
Khám phá tri thức - Khai phá dữ liệu là một lĩnh vực khoa học liên quan tới nhiều lĩnh vực khác
như: Khoa học thống kê, Máy học, CSDL, thuật toán, trực quan hóa, thực thi cao và tính toán song
song. Tri thức thu được từ các hệ thống chuyên môn thông minh và sự trực quan hóa (hình dung) dữ
liệu. Một hệ thống Khám phá tri thức - Khai phá dữ liệu đặc trưng bởi các phương thức, thuật toán, kỹ
thuật từ các lĩnh vực khác nhau ở trên. Nhưng mục đích chung nhất là chiết xuất ra các tri thức từ dữ
liệu xem xét trong trường hợp CSDL lớn.
Lĩnh vực máy học và nhận dạng mẫu đan xen với Khám phá tri thức - Khai phá dữ liệu trong
hướng nghiên cứu về lý thuyết và thuật toán đối với các hệ thống nhằm trích rút các mẫu, các mô hình
từ dữ liệu (phần chính của nó chính là các kỹ thuật Khai phá dữ liệu). Trọng tâm của Khám phá tri
thức - Khai phá dữ liệu là mở rộng về lý thuyết và các thuật toán đối với vấn đề tìm kiếm ra các mẫu
đặc trưng trong một tập rộng lớn của thế giới dữ liệu thực.
Khám phá tri thức - Khai phá dữ liệu cũng có nhiều điểm chung với khoa học thống kê, đặc biệt
là việc phân tích dữ liệu khám phá (EDA - Exploratory Data Analysis). Một hệ thống Khám phá tri
thức - Khai phá dữ liệu thường gắn liền với các thủ tục thống kê đặc biệt đối với mô hình dữ liệu và
điều quản nhiễu trong khung Khám phá tri thức chung.
Bên cạnh đó Khám phá tri thức - Khai phá dữ liệu cũng liên quan mật thiết với lĩnh vực khoa
học gọi là Kho dữ liệu (Data Warehousing). Kho dữ liệu ám chỉ đến xu hướng thông dụng gần đây là
lựa chọn, giải quyết dữ liệu một cách rõ ràng và làm cho chúng có khả năng phục hồi trực tuyến. Một
phương pháp thông dụng cho việc phân tích kho dữ liệu được gọi là OLAP - xử lý phân tích trực
6
tuyến. Tiêu điểm của các công cụ OLAP là cung cấp cách phân tích dữ liệu đa chiều. Việc phân tích
dữ liệu đa chiều này mạnh hơn so với SQL (Standard Query Language) - Ngôn ngữ vấn tin chuẩn
trong việc xử lý các dữ liệu nhiều chiều. Chúng ta xem cả hai khái niệm Khám phá tri thức và OLAP
là các khía cạnh về một vấn đề mới của trích rút thông tin tri thức và các công cụ quản lý.
2.4 THẾ NÀO LÀ KHÁM PHÁ DỮ LIỆU
Hai thuật ngữ “Khám phá tri thức” và “Khai phá dữ liệu” đã xuất hiện và phổ biến trên thế giới,
tuy nhiên ở việt nam thì những thuật ngữ này còn tương đối là mới mẻ do vậy rất nhiều người đã coi
khai phá dữ liệu và khám phá tri thức trong cơ sở dữ liệu (knowledge discovery in databases - kdd ) là
như nhau. Tuy nhiên thực chất , khai phá dữ liệu chỉ là một khâu trong quá trình khám phá tri thức.
Tiến trình trong thu thập dữ liệu số và công nghệ lưu trữ dẫn đến sự lớn lên của các CSDL đồ
sộ. Điều này đã xuất hiện trong tất cả lĩnh vực từ dữ liệu trong các hoạt động của con người (như dữ
liệu giao dịch thị trường, bản ghi việc sử dụng thẻ tín dụng, thông tin về các cuộc gọi điện thoại, các
thống kê của chính phủ) tới các dữ liệu thu thập được từ bên ngoài (như hình ảnh các thiên thể, CSDL
về phân tử, hoặc bản ghi y tế). Cùng với sự lớn lên của dữ liệu là sự lớn lên của mối quan tâm về các
vấn đề về khả năng sao lưu dữ liệu này (tapping these data), khả năng trích rút từ chúng các thông tin
có giá trị . Khoa học trích ra các thông tin hữu ích từ một tập dữ liệu (các CSDL) lớn được xem là
Khai phá dữ liệu (Data mining). Nó là một khoa học liên ngành mới, giao của thống kê học, học máy,
quản trị dữ liệu và các CSDL, nhận dạng khuôn mẫu, trí tuệ nhân tạo, và các lĩnh vực khác. Tất cả
chúng liên quan đến các khía cạnh cụ thể của phân tích dữ liệu, chúng có nhiều thứ chung, nhưng mỗi
môn có các bài toán và phương pháp giải quyết phân biệt và đặc trưng.
2.5. ĐINH NGHĨA KHÁM PHÁ DỮ LIỆU
Khái niệm Khai phá dữ liệu ra đời vào cuối những năm 80. Nó bao hàm một loạt các kỹ thuật
nhằm phát hiện ra các thông tin có giá trị tiềm ẩn trong các tập dữ liệu lớn. Một số tên khác được sử
dụng với ý nghĩa tương tự như lĩnh vực Khai phá dữ liệu như : Khảo cổ dữ liệu, Nạo vét dữ liệu, Phân
tích sự phụ thuộc chức năng, và Thu hoạch dữ liệu, Nhưng tựu chung lại, về bản chất, Khai phá dữ
liệu liên quan đến việc phân tích các dữ liệu và sử dụng các kỹ thuật đặc biệt để tìm ra các mẫu đặc
trưng trong một tập dữ liệu khổng lồ. Có rất nhiều định nghĩa về Khai phá dữ liệu đã được các tác giả
khác nhau đưa ra; sau đây là một số định nghĩa tham khảo mà các nhà khoa học nghiên cứu về lĩnh
vực này phát biểu:
Định nghĩa của Ferrurra: “Khai phá dữ liệu là tập hợp các phương pháp được dùng trong tiến
trình Khám phá tri thức để tìm ra sự khác biệt các mối quan hệ và các mẫu chưa biết bên trong dữ liệu”
7
Định nghĩa của Parsaye: “Khai phá dữ liệu là quá trình trợ giúp quyết định, trong đó chúng ta
tìm kiếm các mẫu thông tin chưa biết và bất ngờ trong CSDL lớn”
Định nghĩa của Mitchell: “Khai phá dữ liệu là việc sử dụng các dữ liệu đã có để khám phá các
quy tắc và đưa đến các quyết định”
Định nghĩa của Groth: “Khai phá dữ liệu là một quá trình xác định các mẫu ẩn, xu thế và mối
quan hệ của dữ liệu”.
Định nghĩa của Berry & Linoff: “Khai phá dữ liệu là quá trình khám phá và phân tích tự động
một lượng lớn dữ liệu để khám phá ra các mẫu và các luật”.
Định nghĩa của Wegman: “Khai phá dữ liệu là việc sử dụng các kỹ thuật tính toán để phân tích
dữ liệu với sự tác động rất ít của con người”.
Việc định nghĩa một khoa học liên ngành luôn gây tranh cãi; các nhà nghiên cứu thường không
nhất trí về phạm vi chính xác và giới hạn về lĩnh vực nghiên cứu của họ. Với suy nghĩ như vậy và chấp
nhận rằng có thể những người khác không đồng tình về chi tiết, chúng ta có thể khái niệm về Khai phá
dữ liệu như sau:
Khai phá dữ liệu là sự phân tích của các tập dữ liệu quan sát (thường là lớn) để tìm ra các mối
liên hệ rõ ràng (unsuspected) và để tóm tắt dữ liệu theo các cách mới mà vừa dễ hiểu, vừa hữu ích cho
người sở hữu dữ liệu.
Các mối liên hệ và các tóm tắt thu được thông qua Khai phá dữ liệu thường gọi là các mô hình
(models) hoặc khuôn mẫu (patterns). Ví dụ như các phương trình tuyến tính, các luật, các nhóm, các
đồ thị, các cấu trúc cây, các khuôn mẫu lặp lại theo thời gian.
Khái niệm ở trên nhắc đến “dữ liệu quan sát - observational data”, đối lập với “dữ liệu thực
nghiệm - experimental data). Khai phá dữ liệu thường làm việc trên dữ liệu mà đã thực sự được thu
thập trước đó cho mục đích khác với phân tích của Khai phá dữ liệu (chẳng hạn, chúng được thu thập
nhằm cập nhật tất cả các giao dịch trong một ngân hàng). Điều đó có nghĩa rằng các mục tiêu của Khai
phá dữ liệu không được xác định trong chiến lược thu thập dữ liệu. Điều này là một trong những cái để
phân biệt Khai phá dữ liệu với thống kê học (statistics), đối với thống kê, dữ liệu thường được thu thập
bởi sử dụng các chiến lược hiệu quả để trả lời các câu hỏi xác định trước. Với lý do này, Khai phá dữ
liệu thường được coi là phân tích dữ liệu thứ cấp (“secondary”).
Khái niệm trên cũng đề cập đến các tập dữ liệu trong Khai phá dữ liệu thường là lớn. Nếu chỉ
làm việc trên tập dữ liệu nhỏ, chúng ta hoàn toàn mới chỉ thảo luận phân tích dữ liệu khám phá cổ điển
(classical exploratory data analysis) như công việc của các nhà thống kê. Khi đối mặt với dữ liệu lớn,
các bài toán mới sẽ nảy sinh. Một số bài toán thì liên quan đến các vấn đề lưu trữ và truy cập dữ liệu,
8
một số khác thì liên quan đến các vấn đề cơ bản như là làm thế nào để xác định các đại diện của dữ
liệu, làm thế nào phân tích dữ liệu trong thời gian chấp nhận được, làm thế nào để quyết định xem một
mối liên hệ chỉ đơn thuần là sự xuất hiện ngẫu nhiên không phản ánh một thực tế nào cả. Thông
thường, dữ liệu có sẵn chỉ bao gồm một mẫu (sample) từ một tập đầy đủ dữ liệu; mục đích là khái quát
hóa (generalize) từ mẫu đó cho toàn bộ tập dữ liệu. Chẳng hạn chúng ta mong muốn dự đoán hành vi
của các khách hàng tương lai, hoặc dự đoán các tính chất của cấu trúc proteins mà chúng ta chưa bao
giờ nhìn thấy trước đó. Những khái quát hóa như vậy có thể không thể có được bằng các cách tiếp cận
thống kê chuẩn vì dữ liệu thường không phải là các mẫu “ngẫu nhiên” mà là “mẫu tiện lợi”
(“convenience samples”) hoặc “mẫu cơ hội” (“opportunity samples”). Đôi khi chúng ta muốn tóm tắt
hoặc nén một tập dữ liệu lớn theo một cách sao cho kết quả là dễ hiểu, không có bất cứ một ý niệm
nào của khái quát hóa cả. Vấn đề như vậy sẽ nảy sinh, chẳng hạn, nếu chúng ta đã hoàn thành dữ liệu
điều tra dân số đầy đủ của một quốc gia, hoặc một CSDL gồm hàng triệu giao dịch bán lẻ.
Các mối liên hệ và cấu trúc tìm thấy trong các tập dữ liệu phải là mới, điều đó là tất nhiên. Sẽ có
rất ít giá trị khi tìm ra các mối liên hệ đã thiết lập trước (trừ khi mục đính của công việc là xác nhận
giả thuyết, xác định xem một khuôn mẫu - pattern - tồn tại trong một tập dữ liệu mới không), hoặc các
mối liên hệ cần thiết (ví dụ như tất cả bệnh nhân mang thai là nữ). Rõ ràng, tính mới (novelty) phải
được đo một cách tương đối đối với tri thức đã có trước (tri thức tiên nghiệm) của người sử dụng.
Không may là chỉ có một vài giải thuật Khai phá dữ liệu là đề cập đến tri thức tiên nghiệm.
Trong khi tính mới là một tính chất quan trọng của các mối liên hệ chúng ta tìm kiếm, nó vẫn
không đủ để đánh giá một mối liên hệ là có giá trị. Cụ thể, các mối liên hệ phải có thể hiểu được
(understandable). Ví dụ các mối liên hệ đơn giản là dễ hiểu hơn các mối liên hệ phức tạp, và vì vậy
được ưa thích hơn.
9
CHƯƠNG III : NGHIÊN CỨU QUY TRÌNH KHÁM PHÁ TRI THỨC
3.1. CÁC GIAI ĐOẠN CỦA QUY TRÌNH KHÁM PHÁ TRI THỨC
Quá trình trích rút tri thức từ các CSDL là sự kết hợp giữa các kỹ thuật và công cụ thống kê, máy
học và các CSDL, để tìm ra một mô tả logic chính xác, và cuối cùng là từ các mô tả này có thể đưa
ra các mẫu và các quy tắc trong dữ liệu.
Việc trích rút tri thức từ một khối lượng khổng lồ dữ liệu có thể được xem như là một quá trình
tương tác lặp đi lặp lại, và không phải là một hệ thống phân tích tự động. Trong trường hợp này, chúng
ta không thể đơn giản trông chờ một trích rút tri thức hữu ích chỉ bằng việc xem xét một nhóm dữ liệu
trong một hộp đen “black box”.
Việc lặp đi lặp lại của quá trình Khám phá tri thức ám chỉ cách hiểu tổng thể lĩnh vực ứng dụng.
Cách hiểu này bao gồm việc lựa chọn một tập con dữ liệu tiêu biểu, các lớp mẫu thích hợp và các
phương pháp tốt để đánh giá tri thức. Để hiểu rõ hơn các chức năng của người dùng sử dụng quá trình
Khám phá tri thức, chúng ta có thể chia những người dùng thành 3 lớp: Những nhà chuyên môn, là
những người rất am hiểu về lĩnh vực ứng dụng. Tiếp theo là những nhà phân tích, đây là những người
thực hiện quá trình Khám phá tri thức, và do đó họ có rất nhiều kiến thức về các giai đoạn của quá
trình này. Thứ nữa là những người sử dụng cuối cùng, là những người không cần có nhiều kiến thức
về lĩnh vực ứng dụng. Thường thì những người dùng cuối sử dụng tri thức trích rút được từ quá trình
Khám phá tri thức để hỗ trợ cho họ trong việc ra quyết định.
Sự thành công của quá trình Khám phá tri thức phụ thuộc một phần vào sự tác động giữa những
người sử dụng. Điều đó có nghĩa là những nhà phân tích không thể tìm ra các tri thức hữu ích từ dữ
liệu mà không có sự đảm bảo của các chuyên gia. Bên cạnh đó, sự tác động qua lại của quá trình đòi
hỏi người sử dụng cuối và các chuyên gia cần tham gia tích cực trong việc lựa chọn và đưa ra quyết
định của quá trình Khám phá tri thức.
Khám phá tri thức từ dữ liệu có thể được hiểu như một quá trình bao gồm ít nhất các bước sau:
Hiểu lĩnh vực ứng dụng, lựa chọn và tiền xử lý dữ liệu, Khai phá dữ liệu, đánh giá tri thức, củng cố và
sử dụng tri thức đó.
Quá trình Khai phá tri thức bắt đầu bằng việc hiểu lĩnh vực ứng dụng. Tiếp theo, một mẫu đại
diện được lấy từ CSDL, được tiền xử lý và được lựa chọn để sau đó áp dụng các phương pháp và công
cụ của giai đoạn Khai phá dữ liệu với mục tiêu là tìm ra các mẫu/mô hình (tri thức) trong dữ liệu đó.
Tri thức này được đánh giá bằng chất lượng hoặc/và sự hữu ích của nó, và vì vậy nó có thể được sử
dụng để hỗ trợ cho hệ trợ giúp gia quyết định.
10
Một điều cần quan tâm đó là bởi vì đây là một quá trình lặp đi lặp lại, nên các bước của quá trình
Khám phá tri thức không khép kín, điều đó có nghĩa là sự tương quan giữa kỹ thuật và phương pháp
được sử dụng trong một vài giai đoạn là rất quan trọng, và do vậy chỉ cần một sự cố nhỏ trong số
chúng cũng có thể ảnh hưởng một cách căn bản đến thành công của toàn bộ quá trình.
Quá trình Khám phá tri thức có thể tổng quát thành các giai đoạn sau [1,2,3]:
Hình 3.1: Các giai đoạn của quá trình khám phá tri thức
- Giai đoạn thứ nhất: Tìm hiểu lĩnh vực ứng dụng: nhằm tìm hiểu lĩnh vực ứng dụng và phát
biểu vấn đề của bài toán. Giai đoạn này là điều kiện tiên quyết cho việc trích rút tri thức và lựa
chọn phương pháp Khai phá dữ liệu thích hợp với mục đích của ứng dụng và bản chất của dữ
liệu.
- Giai đoạn thứ hai: Thu thập và tiền xử lý dữ liệu. Giai đoạn này có nhiệm vụ thu thập và tiền
xử lý dữ liệu, bao gồm việc lựa chọn dữ liệu nguồn, loại bỏ các nhiễu hay phân tách dữ liệu, xử
lý dữ liệu lỗi, chuyển đổi và rút gọn dữ liệu (nếu cần thiết). Giai đoạn này thường chiếm nhiều
thời gian nhất trong toàn bộ quá trình Khám phá tri thức - Khai phá dữ liệu.
- Giai đoạn thứ ba: Khai phá dữ liệu, trích rút tri thức. Giai đoạn này sử dụng các kỹ thuật Khai
phá dữ liệu để trích rút ra các mẫu, các mô hình ẩn dấu trong dữ liệu hoặc tĩch lũy các thông tin
thống kê có ích dữa trên các thuật toán phân loại rồi sử dụng chúng để thu nhận được các thông
tin có ích dưới một dạng nào đó. Một mô hình có thể được xem như “sự thể hiện một cấu trúc
tóm tắt một cách hệ thống các thành phần nằm dưới dữ liệu hay mô tả cách mà dữ liệu phát
sinh”. Trái ngược với nó, “một mẫu là một cấu trúc cục bộ, có thể chỉ liên quan đến một nhóm
các biến và một ít các trường hợp”. Các lớp chính của kỹ thuật Khai phá dữ liệu là mô hình dự
11
Tỡm hiểu lĩnh
vực ứng dụng
Thu thập và tiền
xử lý dữ liệu
Khai phỏ
trớch rỳt tri
thức
Phân tích và kiểm
định kết quả
Sử dụng tri thức
phát hiện được
CSDL
Dữ liệu đó được
tiền xử lý
Cỏc
mẫu / mụ
hỡnh
Trực quan húa dữ liệu
báo như: phân lớp và hồi quy, phân nhóm (đoạn), mô hình phụ thuộc như: mô hình đồ họa, ước
lượng mật độ, tổng hợp hay tìm mối liên hệ giữa các trường như: luật kết hợp, trực quan hóa,
và mô hình phát hiện sự biến đổi và độ lệch trong dữ liệu và tri thức.
- Giai đoạn thứ tư: phân tích và kiểm định kết quả. Giai đoạn này nhằm làm sáng tỏ các tri thức,
đặc biệt là việc làm sáng tỏ phạm vi của mô tả và dự báo - hai đích chính của hệ thống khám
phá trong thực tế. Các thí nghiệm chỉ ra rằng các khuôn mẫu hoặc các mô hình từ dữ liệu
không phải luôn luôn được quan tâm hay sử dụng trực tiếp, và quá trình Khám phá tri thức cần
phải được lặp đi lặp lại tùy theo đánh giá của tri thức khám phá. Một cách chuẩn để đánh giá
các kết quả là chia dữ liệu thành hai tập, một tập để huấn luyện và một tập để kiểm thử. Một
tập có thể lặp lại quá trình một số lần với sự phân tách khác nhau và kết quả trung bình sẽ dùng
để ước lượng luật thực thi.
- Giai đoạn cuối cùng: Sử dụng các tri thức được phát hiện. Giai đoạn này sẽ đưa các tri thức
khám phá được vào ứng dụng thực tế. Trong một số trường hợp, Giai đoạn này có thể sử dụng
tri thức khám phá được mà không nhúng vào hệ thống máy tính. Về mặt khác, người sử dụng
có thể trông chờ vào tri thức được khám phá trên máy tính hay khai thác bởi một số chương
trình. Việc đưa kết quả vào ứng dụng thực tế là đích cuối cùng của quá trình Khám phá tri
thức.
Chú ý rằng, không gian của các mẫu là vô hạn và việc liệt kê các mẫu đòi hỏi một số dạng thức
của việc tìm kiếm trong không gian này. Khả năng của máy điện toán hạn chế vị trí hạn hẹp giới hạn
của không gian con có thể được khám phá bởi các thuật toán. Thành phần Khai phá dữ liệu của quá
trình Khám phá tri thức có liên quan mật thiết với ý nghĩa của các mẫu được trích rút và liệt kê từ dữ
liệu. Khám phá tri thức bao gồm sự ước lượng và sự giải thích sáng tỏ các khuôn mẫu để đưa ra quyết
định cái gì cấu thành lên tri thức, còn cái gì không cấu thành lên tri thức. Nó cũng bao gồm cách mã
hóa, tiền xử lý, lấy mẫu và phép chiếu của dữ liệu trước các bước Khai phá dữ liệu.
3. 2. NHIỆM VỤ CỦA QUÁ TRÌNH KHÁM PHÁ TRI THỨC
Như trên đã nghiên cứu, các giai đoạn của quá trình Khám phá tri thức, và trên thực tế mỗi giai
đoạn là rất phức tạp. Để hiểu rõ hơn quá trình Khám phá tri thức cần phải làm những việc gì, chúng ta
hãy xem xét những nhiệm vụ mà một quá trình Khám phá tri thức sẽ làm trong hình sau:
12
Hình 3.2: Các nhiệm vụ của quá trình Khám phá tri thức
- Tích hợp dữ liệu: Thu thập dữ liệu từ các nguồn khác nhau.
- Tạo ra tập dữ liệu mục tiêu: Lựa chọn một tập dữ liệu, tập trung vào một tập con các biến hoặc
các mẫu dữ liệu, trên tập dữ liệu mục tiêu đó, việc khám phá sẽ được thực hiện,
- Tiền xử lý và làm sạch dữ liệu: ở đây bao gồm các thao tác cơ bản như loại bỏ các nhiễu, loại
bỏ các giá trị bất thường không hợp lý.
- Rút gọn và chiếu dữ liệu: Tìm ra các đặc trưng hữu dụng để miêu tả dữ liệu phụ thuộc vào mục
tiêu của mỗi nhiệm vụ. Sử dụng việc rút gọn số chiều (kích thước) hoặc các kỹ thuật biến đổi
để giảm bớt số biến có ảnh hưởng hoặc tìm ra cái bất biến đối với dữ liệu,
13
- Lựa chọn nhiệm vụ Khai phá dữ liệu: Quyết định đích của Khám phá tri thức là phân lớp, hồi
quy, phân nhóm, Những nhiệm vụ khác nhau của giải thuật Khai phá dữ liệu cũng cần phải
được đề cập ở đây,
- Lựa chọn kỹ thuật Khai phá dữ liệu: Lựa chọn các kỹ thuật cho việc tìm kiếm các mẫu trong
dữ liệu, điều này quyết định mô hình và các tham số nào là thích hợp và kỹ thuật Khai phá dữ
liệu nào phù hợp với tiêu chuẩn của quá trình Khám phá tri thức (ví dụ người sử dụng cuối
cùng sẽ quan tâm đến việc hiểu dữ liệu hơn là mô hình có khả năng dự báo),
- Khai phá dữ liệu để trích rút các khuôn mẫu/mô hình: Tìm kiếm các khuôn mẫu liên quan đến
dạng thức đặc biệt hoặc một tập các đặc trưng như: luật phân lớp, cây quyết định, hồi quy,
phân nhóm ,
- Giải thích và ước lượng các khuôn mẫu/mô hình,
- Củng cố, thống nhất tri thức khám phá: Hợp nhất các tri thức này vào trong hệ thống thực thi
hoặc đơn giản là đưa ra các tài liệu báo cáo. Điều này cũng bao gồm việc kiểm tra và giải quyết
các xung đột với các tri thức tin tưởng trước đó.
3.3. QUY TRÌNH KHÁM PHÁ TRI THỨC
Rõ ràng, nhiệm vụ của quá trình Khám phá tri thức là rất nặng nề và liên quan đến nhiều vấn đề;
nếu lĩnh vực ứng dụng hay bài toán đặt ra đã được xác định trên các tập dữ liệu lớn như kho dữ liệu,
CSDL, cụ thể, thì một quy trình Khám phá tri thức (kết hợp cả việc Khai phá dữ liệu) có thể được
thực hiện theo 5 bước như hình sau:
Hình 3.3 : Quy trình Khám phá tri thức
Trong đó:
- Bước thứ nhất: Trích chọn dữ liệu (Data seclection): là bước chọn ra những tập dữ liệu cần
được khai phá từ các tập dữ liệu lớn (Databases, data warehouse, data repositories) theo một số
tiêu chí nhất định phục vụ cho mục đích, yêu cầu mà ứng dụng đã đặt ra,
14
Dữ liệu
(1)
Lựa chọn
dữ liệu
(2)
Tiền xử
lý dữ liệu
(3)
Biến đổi
dữ liệu
(4)
Khai phá
dữ liệu
(5)
Biểu
diễn/
Đánh giá
tri thức
Dữ liệu
đích
Dữ liệu đã được
tiền xử lý
Dữ liệu đã được
chuyển đổi
Các mẫu,
mô hình
Tri thức
Không có nhận xét nào:
Đăng nhận xét