1. Dương Trần Đức PHƢƠNG PHÁP BIỂU DIỄN CÂY CHO DỰ ĐOÁN GIỚI TÍNH KHÁCH HÀNG DỰA TRÊN DỮ LIỆU THƢƠNG MẠI ĐIỆN TỬ Dƣơng Trần Đức Học viện Công nghệ Bưu chính Viễn thông Tóm tắtt: Các đặc điểm cá nhân của khách hàng thi trong trƣờng hợp khách hàng truy cập lần đầu hoặc nhƣ giới tính, độ tuổi, v.v. cung cấp các thông tin khách hàng chƣa đăng ký sử dụng hệ thống. Ngƣợc quan trọng cho các nhà cung cấp dịch vụ thƣơng mại lại, phƣơng pháp cá nhân hóa dựa trên đặc điểm cá điện tử (TMĐT) trong các hoạt động quảng cáo và cá nhân của ngƣời dùng hữu ích kể cả khi ngƣời dùng nhân hóa hệ thống. Tuy nhiên, khách hàng trực tuyến chƣa từng sử dụng hệ thống. Tuy nhiên, các thông tin thƣờng hạn chế cung cấp thông tin do vấn đề riêng tƣ. về đặc điểm cá nhân của ngƣời dùng thƣờng khó thu Bài báo này đề xuất một phƣơng pháp dự đoán giới thập đƣợc, do ngƣời dùng Internet thƣờng không sẵn sàng cung cấp các thông tin cá nhân có tính riêng tƣ. tính của khách hàng dựa trên dữ liệu lịch sử truy cập Vì lý do này, trong nhiều trƣờng hợp, cách duy nhất để hệ thống TMĐT. Chúng tôi sử dụng phƣơng pháp học có đƣợc thông tin đặc điểm cá nhân của ngƣời dùng là máy trên một tập các đặc trƣng đƣợc trích xuất từ dự đoán dựa trên các dữ liệu khác mà ngƣời dùng để thông tin xem sản phẩm của ngƣời dùng để dự đoán lại trên hệ thống. giới tính của họ. Các thực nghiệm đƣợc thực hiện trên tập dữ liệu đƣợc cung cấp trong khuôn khổ cuộc thi Vấn đề dự đoán đặc điểm ngƣời dùng dựa trên về khai phá dữ liệu trong Hội nghị PAKDD’15. Kết phân tích văn bản (còn gọi dự đoán đặc điểm tác giả quả có độ chính xác 81.9% trên độ đo chính xác cân văn bản - author profiling) đã đƣợc nghiên cứu trong bằng và 82.3% trên độ đo macro F1 cho thấy thuật nhiều thập kỷ, tuy nhiên, trong nhiều trƣờng hợp, toán học máy và các đặc trƣng đƣợc đề xuất đã mang ngƣời dùng không để lại các văn bản trên hệ thống. Một phƣơng pháp khác có thể đƣợc sử dụng để dự lại hiệu quả tốt trong nhận diện giới tính của khách đoán đặc điểm ngƣời dùng là dựa vào hành vi của họ hàng. trên hệ thống, chẳng hạn các hành vi duyệt web ([6], Từ khóa: học máy, dữ liệu lớn, dự đoán giới tính. [13]), phân tích lƣu lƣợng web ([3]), hoặc hành vi xem danh mục sản phẩm. Ƣu điểm chính của phƣơng pháp I. MỞ ĐẦU tiếp cận này là trong hầu hết các trƣờng hợp, ngƣời Ngày nay, rất nhiều các ứng dụng web nhƣ các hệ dùng sẽ thực hành các hành vi trên hệ thống nhƣ truy thống thƣơng mại điện tử (TMĐT), các máy tìm kiếm, cập vào các trang web, nhấp chuột vào các mặt các hệ thống quảng cáo trực tuyến, sử dụng các đặc hàng/mục tin, xem danh mục sản phẩm v.v. điểm cá nhân hóa để làm gia tăng sự trải nghiệm của ngƣời dùng và thúc đẩy hoạt động kinh doanh, bán Trong nghiên cứu này, chúng tôi giải quyết vấn đề hàng. Với một dịch vụ đƣợc cá nhân hóa tốt, thông tin dự đoán giới tính ngƣời dùng dựa trên dữ liệu xem hiển thị sẽ đƣợc tối ƣu hóa cho mỗi ngƣời dùng cá danh mục sản phẩm nhƣ thời gian/thời lƣợng xem, nhân thay vì giống nhau cho toàn bộ ngƣời dùng. danh sách các sản phẩm/loại sản phẩm đã xem v.v. Chẳng hạn, một hệ thống TMĐT có thể hiển thị các Tập dữ liệu thực nghiệm đƣợc cung cấp bởi Tập đoàn thông tin khuyến mãi hoặc giới thiệu sản phẩm có liên FPT trong cuộc thi về khai phá dữ liệu trong khuôn quan đến từng khách hàng thay vì hiển thị quảng cáo khổ Hội nghị Quốc tế về Khai phá dữ liệu và Phát chung hoặc giới thiệu các sản phẩm ngẫu nhiên. hiện tri thức khu vực Châu Á Thái Bình Dƣơng năm 2015 (PAKDD’15). Ý tƣởng của phƣơng pháp là khai Việc cá nhân hóa thông tin hiển thị dựa trên 2 loại thác tối đa mối quan hệ giữa các sản phẩm/loại sản dữ liệu chính: dữ liệu lịch sử (chẳng hạn các mặt hàng phẩm đƣợc xem trong cùng 1 lƣợt xem dựa trên 1 biểu trƣớc đó đã xem hoặc đã mua v.v.) và đặc điểm cá diễn dạng cây của danh sách sản phẩm/loại sản phâm. nhân của ngƣời dùng (chẳng hạn giới tính, độ tuổi, Theo đó, bên cạnh các đặc trƣng cơ bản nhƣ thời gian, trình độ giáo dục .v.v). Dữ liệu lịch sử chỉ có thể thu tần suất xem, danh sách các sản phẩm/loại sản phẩm thập đƣợc nếu ngƣời dùng đã sử dụng hệ thống trƣớc riêng rẽ, chúng tôi nghiên cứu đề xuất sử dụng các đặc đó và đã đăng nhập vào hệ thống. Do đó, các phƣơng trƣng nhƣ chuỗi các sản phẩm/loại sản phẩm đƣợc pháp cá nhân hóa dựa trên dữ liệu lịch sử không khả xem liên tiếp, các cặp chuyển tiếp sản phẩm/loại sản Tác giả liên hệ: Dƣơng Trần Đức, Email: duongtranduc@gmail.com Đến tòa soạn: 2/2018 , chỉnh sửa: 4/2018 , chấp nhận đăng: 5/ 2018 SỐ 01 & 02 (CS.01) 2018 TẠP CHÍ KHOA HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG 17
  2. PHƢƠNG PHÁP BIỂU DIỄN CÂY CHO DỰ ĐOÁN GIỚI TÍNH KHÁCH HÀNG DỰA TRÊN DỮ LIỆU TMĐT phẩm khác nhau trong cùng 1 lƣợt xem v.v. (gọi chung từ trang blogger.com. Mô hình này cho kết quả dự là các đặc trƣng nâng cao). Với cấu trúc phân cấp đoán có độ chính xác 80% cho giới tính và 76% cho nhiều cấp độ của danh mục sản phẩm/loại sản phẩm, độ tuổi. Iqbal và các cộng sự [7] đề xuất một phƣơng chúng tôi sử dụng một phƣơng pháp biểu diễn dạng pháp tính một giá trị đƣợc gọi là “vân chữ viết” (write cây để cung cấp khung nhìn tốt hơn về mối quan hệ print) dựa trên các mẫu xuất hiện thƣờng xuyên đƣợc giữa các sản phẩm/loại sản phẩm so với biểu diễn trích chọn từ các emails để dự đoán đặc điểm ngƣời dạng liệt kê. Sau khi xây dựng đƣợc tập dữ liệu huấn dùng. Nguyen và các cộng sự [14] thực hiện nghiên luyện, một số thuật toán học máy phổ biến nhƣ Rừng cứu về dự đoán giới tính và độ tuổi của các tác giả bài ngẫu nhiên (Random Forest-RF), Máy véc tơ hỗ trợ viết trên mạng xã hội twitter và bài viết diễn đàn tiếng (Support Vector Machine-SVM), và Mạng Bayes Hà Lan sử dụng phƣơng pháp hồi quy tuyến tính và (Bayesian Network-BN) đƣợc sử dụng để xây dựng cho độ chinh xác dự đoán khoảng 80%. mô hình phân loại kết hợp với các kỹ thuật hỗ trợ để xử lý vấn đề không cân bằng lớp nhƣ Tái chọn mẫu Bên cạnh việc nhận diện ngƣời dùng thông qua (Resampling), Học nhạy cảm chi phí (Cost-Sensitive phân tích văn bản, gần đây, nhiều nhà nghiên cứu Learning-CSL). Ngoài ra, do số lƣợng đặc trƣng sử trong lĩnh vực khoa học máy tính đã mở rộng sang dụng là khá lớn cùng với tính chất thƣa của dữ liệu phân tích nhận diện đặc điểm ngƣời dùng dựa trên xem danh mục sản phẩm, các phƣơng pháp lựa chọn hành vi của họ, chẳng hạn nhƣ các hành vi duyệt đặc trƣng (feature selection) đƣợc thử nghiệm và áp website [6, 14], hành vi trong mạng di động [5], hành dụng nhằm nâng cao kết quả dự đoán và giảm độ phức vi xem sản phẩm trong hệ thống thƣơng mại điện tử tạp của mô hình. Cuối cùng, thuật toán phân loại đƣợc v.v. Khác với vấn đề xác định đặc điểm tác giả văn tối ƣu tham số và kết hợp với thuật toán boosting để bản, các đặc trƣng hành vi của ngƣời dùng trên các hệ cải tiến kết quả dự đoán. Các kết quả thực nghiệm cho thống là đa dạng hơn nhiều. Do vậy, các nghiên cứu thấy độ chính xác nhận diện tốt trên tập đặc trƣng có trong lĩnh vực này đã sử dụng các tập đặc trƣng khác tính tổng quát và có thể dễ dàng áp dụng sang các hệ nhau và phụ thuộc vào các hệ thống cụ thể. Phƣơng thống TMĐT khác nhau. Bài báo này cũng là phiên pháp nhận diện chủ yếu sử dụng kỹ thuật học máy. bản mở rộng của nghiên cứu đã đƣợc báo cáo tại Hội Hu và các cộng sự [6] đề xuất một phƣơng pháp để nghị Quốc tế Kỹ nghệ tri thức và hệ thống năm 2016 giải quyết vấn đề dự đoán giới tính và độ tuổi của (Knowledge and System Engineering - KSE 2016), ngƣời dùng Internet thông qua phân tích hành vi duyệt trong đó các vấn đề về xây dựng tập đặc trƣng, lựa web của họ. Hu sử dụng các thông tin xem trang web chọn đặc trƣng, và tối ƣu tham số thuật toán đã đƣợc của ngƣời dùng nhƣ là các biến đầu vào để suy diễn nghiên cứu và cải tiến. thông tin đặc điểm cá nhân của họ. Thuật toán SVM Bài báo có cấu trúc nhƣ sau. Phần II trình bày về đã đƣợc sử dụng trên tập đặc trƣng bao gồm các đặc các nghiên cứu liên quan trong lĩnh vực dự đoán đặc trƣng dựa trên nội dung (các từ trong trang web) và điểm ngƣời dùng. Phần III mô tả phƣơng pháp tiếp cận dựa trên phân loại (theo các mục trong cấu trúc của và hoạt động của hệ thống. Phần IV trình bày về các trang web). Kết quả thực nghiệm đạt độ chính xác kết quả và thảo luận. Cuối cùng, các kết luận sẽ đƣợc 79.7% khi dự đoán giớ tính và 60.3% khi dự đoán trình bày trong phần V của bài báo. tuổi. Kabbur và các cộng sự [8] cũng thực hiện 1 nghiên cứu sử dụng học máy để dự đoán đặc điểm ngƣời dùng website dựa trên thông tin về nội dung và II. TỔNG QUAN VỀ DỰ ĐOÁN ĐẶC ĐIỂM cấu trúc siêu liên kết. NGƢỜI DÙNG Nghiên cứu của Dong và các cộng sự [5] có mục Vấn đề dự đoán đặc điểm ngƣời dùng đã đƣợc tiêu suy diễn ra thông tin cá nhân của ngƣời dùng dựa nghiên cứu trong thời gian dài trƣớc đây. Trong giai trên các mẫu giao tiếp hàng ngày trên mạng di động. đoạn đầu, các nhà nghiên cứu trong lĩnh vực này tập Nghiên cứu đƣợc thực hiện trên một mạng di động trung nghiên cứu về vấn đề xác định đặc điểm tác giả thực với hơn 7.000.000 ngƣời dùng và hơn 1 tỷ bản văn bản. Đó là việc xác định hoặc dự đoán đặc điểm ghi giao dịch mỗi ngày. Các đặc trƣng đƣợc sử dụng của ngƣời dùng dựa trên phân tích các văn bản đƣợc bao gồm các đặc trƣng cá nhân, bạn bè, đặc trƣng tuần tạo ra bởi ngƣời đó. Các phƣơng pháp đƣợc sử dụng hoàn v.v. và đạt kết quả dự đoán 80% cho giới tính và trong các nghiên cứu này chủ yếu là dựa trên phân tích 70% cho độ tuổi. Ying và các cộng sự [15] đề xuất phong cách viết với các đặc trƣng đa dạng nhƣ dựa một phƣơng pháp dự đoán thông tin cá nhân ngƣời trên các dùng từ vựng, ngữ pháp, các đặc trƣng dựa dùng dựa trên phân tích hành vi và môi trƣờng. trên nội dung [9]. Các nghiên cứu trƣớc đây chủ yếu Nghiên cứu cũng phát triển một phƣơng pháp mới là tập trung vào các loại văn bản chính thống nhƣ các bài mô hình phân loại nhiều cấp độ (multi-level báo, tiểu thuyết, bài luận v.v. Gần đây, do sự phát triển classification model) để giải quyết vấn đề không cân mạnh mẽ của Internet và các kênh truyền thông trực bằng trong dữ liệu. tuyến, các nghiên cứu trong lĩnh vực này chuyển sang thực hiện trên các loại văn bản truyền thông trực tuyến Phuong và các cộng sự [13] giải quyết vấn đề dự nhƣ email, bài viết blogs, bài viết diễn đàn v.v. De Vel đoán giới tính ngƣời dùng thông qua hành vi duyệt và các cộng sự [4] sử dụng 221 đặc trƣng để xác định website. Nghiên cứu sử dụng phƣơng pháp phân loại tác giả các emails. Argamon và các cộng sự [1] nghiên học máy và dùng các đặc trƣng thu đƣợc từ dữ liệu lƣu cứu sự khác biệt giữa phong cách viết của nam và nữ trữ thông tin duyệt web. Các đặc trƣng cơ bản đƣợc sử trong 604 tài liệu từ kho ngữ liệu Anh Quốc (British dụng cũng tƣơng tự nghiên cứu của Hu và các cộng sự National Corpus). Argamon và các cộng sự [2] khảo [6], nhƣng nhóm tác giả sử dụng thêm nhiều loại đặc sát việc sử dụng các đặc trƣng dựa theo phong cách và trƣng khác nhƣ các đặc trƣng dựa trên chủ đề, đặc nội dung để dự đoán giới tính và tuổi của các tác giả trƣng thời gian, đặc trƣng kế tiếp v.v. qua đó làm tăng bài viết blogs trên tập dữ liệu gồm hơn 71.000 bài viết đáng kể kết quả dự đoán. SỐ 01 & 02 (CS.01) 2018 TẠP CHÍ KHOA HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG 18
  3. Dương Trần Đức Nghiên cứu của Lu và các cộng sự [12] cũng giải Bảng 1. Các đặc trưng cơ bản quyết vấn đề tƣơng tự nhƣ nghiên cứu này. Lu sử dụng Đặc trưng Mô tả 1 tập đặc trƣng bao gồm các đặc trƣng về tần suất, thời gian, các sản phẩm/loại sản phầm đƣợc xem và thuật Day Ngày trong tháng (31 đặc trƣng) toán phân loại Gradient Boosting Decision Trees. Sau đó, Lu thực hiện việc cập nhật nhãn để nâng cao độ Month Tháng trong năm (12 đặc trƣng) chính xác bằng cách đƣa các thông tin về sản phẩm DayOfWeek Ngày trong tuần (7 đặc trƣng) đƣợc xem vào tính toán làm mƣợt (tổng số lƣợng nam/nữ xem sản phẩm). Kết quả cuối cùng cho độ StartTime/EndTime Giờ (24 đặc trƣng)/ Giờ (24 đặc chính xác F1 trung bình của 2 lớp phân loại là 80.6. trƣng) Bài báo này nghiên cứu một phƣơng pháp dự đoán Duration Tổng thời gian xem (1 đặc trƣng) giới tính của ngƣời dùng dựa trên dữ liệu xem sản NumberOfProducts Số sản phẩn xem (1 đặc trƣng) phẩm của họ trên hệ thống TMĐT. Theo khảo sát của chúng tôi, hiện chỉ có nghiên cứu của Lu và các cộng AverageTimePerPro Thời gian trung bình xem 1 sản sự [12] là nghiên cứu chính thức đƣợc thực hiện và duct phẩm (1 đặc trƣng) công bố trong lĩnh vực này. Đặc trƣng về các sản phẩm/loại sản phẩm bao gồm III. PHƢƠNG PHÁP tất cả các sản phẩm và loại sản phẩm có trong hệ thống. Để xây dựng danh mục các đặc trƣng này, A. Tổng quan về hệ thống chúng tôi thực hiện trích từ trong tập dữ liệu ra các mã Trong nghiên cứu này, chúng tôi phát triển một hệ sản phẩm/mã phân loại và sử dụng chúng nhƣ các đặc thống có thể nhận dữ liệu từ các file lƣu trữ thông tin trƣng dạng số. Với mỗi sản phẩm/loại sản phẩm, xem sản phẩm của các khách hàng đã biết giới tính, chúng tôi thực hiện đếm số lần ngƣời dùng xem sản trích chọn các đặc trƣng và nhãn phân loại để tạo ra 1 phẩm/loại sản phẩm đó trong lƣợt xem và sử dụng con tập dữ liệu huấn luyện. Mô hình dự đoán sẽ đƣợc xây số này làm giá trị của đặc trƣng tƣơng ứng. Do mỗi mã dựng dựa trên tập dữ liệu huấn luyện tạo đƣợc sử dụng sản phẩm đầy đủ đƣợc hình thành từ 4 mã khác nhau, một phƣơng pháp phân loại và sau đó có thể sử dụng bao gồm mã loại sản phẩm ở mức chung nhất (bắt đầu để dự đoán giới tính của các khách hàng chƣa biết dựa bằng ký tự “A”), các mã loại sản phẩm ở mức tiếp trên hành vi xem sản phẩm của họ. theo (bắt đầu bằng ký tự “B” và “C”), và cuối cùng là mã sản phẩm cụ thể (bắt đầu bằng ký tự “D”), có 4 File dữ liệu huấn luyện chứa các bản ghi tƣơng loại đặc trƣng thuộc dạng này với tổng cộng 8.035 đặc ứng với các thông tin lƣu trữ về hành vi xem sản phẩm trƣng nhƣ trong bảng 1. Lƣu ý rằng do số lƣợng mã của ngƣời dùng. Một bản ghi lƣu trữ chứa các thông sản phẩm cụ thể là rất lớn và nhiều sản phẩm xuất hiện tin về hành vi xem sản phẩm của 1 ngƣời dùng, nhƣ ở tập dữ liệu huấn luyện nhƣng không xuất hiện ở tập thời gian bắt đầu xem, kết thúc xem, danh sách các sản dữ liệu kiểm tra và ngƣợc lại, chúng tôi chỉ lựa chọn phẩm và loại sản phẩm đã xem. Nhãn phân loại cho các mã sản phẩm có tần suất xuất hiện từ 3 lần trở lên mỗi dữ liệu mẫu là male/female (nam/nữ). Do vậy, và bổ sung thêm các sản phẩm có tần suất thấp hơn vấn đề cần giải quyết là một vấn đề phân loại nhị phân nhƣng xuất hiện ở cả 2 tập dữ liệu. Ngoài ra, do một với 2 nhãn tƣơng ứng. sản phẩm có thể thuộc về nhiều hơn 1 phân loại, các Phần tiếp theo sẽ mô tả chi tiết hơn về các đặc sản phẩm này sẽ tạo ra nhiều hơn 1 đặc trƣng, tƣơng trƣng và các kỹ thuật đƣợc sử dụng để dự đoán. ứng với các phân loại. Bảng 2. Các đặc trưng về sản phẩm/loại sản phẩm B. Các đặc trưng phân loại riêng rẽ Các đặc trƣng đƣợc sử dụng trong nghiên cứu này đƣợc chia làm 2 loại, đƣợc gọi là các đặc trƣng cơ bản Đặc trưng Mô tả và các đặc trƣng nâng cao. Loại sản phẩm mức Mã bắt đầu là A (11 đặc trƣng) chung nhất 1) Đặc trưng cơ bản Loại sản phẩm mức 2 Mã bắt đầu là B (60 đặc trƣng) Các đặc trƣng cơ bản bao gồm các đặc trƣng liên quan đến thời gian, tần suất xem sản phầm và các đặc Loại sản phẩm mức 3 Mã bắt đầu là C (186 đặc trƣng) trƣng về các sản phẩm/loại sản phẩm riêng rẽ. Các thông tin nhƣ thời gian xem trong ngày, ngày trong Sản phẩm cụ thể Mã bắt đầu là D (7.778 đặc tuần, ngày nghỉ/ngày lễ, thời lƣợng xem, số sản phẩm trƣng) xem, thời gian trung bình khi xem 1 sản phẩm v.v. là các nhân tố có thể đƣợc dùng để dự đoán giới tính của 2) Các đặc trưng nâng cao ngƣời xem. Tổng cộng có 98 đặc trƣng nhị phân và 3 đặc trƣng số đƣợc sử dụng và đƣợc mô tả chi tiết hơn Bên cạnh các đặc trƣng sản phẩm/loại sản phẩm nhƣ trong bảng 1. riêng rẽ, chúng tôi đặt giả thiết rằng mối quan hệ giữa các sản phẩm/loại sản phẩm đƣợc xem trong cùng 1 lƣợt xem cũng là một yếu tố có thể dùng để dự đoán giới tính ngƣời dùng. Chẳng hạn ngƣời dùng nam thƣờng chỉ xem ít loại sản phẩm trong 1 lƣợt xem trong khi ngƣời dùng nữ có thể xem liên tiếp nhiều loại sản phẩm khác nhau. Trong file dữ liệu, danh sách SỐ 01 & 02 (CS.01) 2018 TẠP CHÍ KHOA HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG 19
  4. PHƢƠNG PHÁP BIỂU DIỄN CÂY CHO DỰ ĐOÁN GIỚI TÍNH KHÁCH HÀNG DỰA TRÊN DỮ LIỆU TMĐT các sản phẩm/loại sản phẩm đã xem trong 1 lƣợt xem  Các cặp nút chuyển đổi tại các tầng khác nhau có đƣợc biểu thị dƣới dang danh sách liệt kê nhƣ dƣới thể là {D19760, B00001}, {D18416, C00004}, đây: v.v. A00002/B00003/C00006/D19760/; A00002/B00001/C00010/D18416; Với số lƣợng lớn các sản phẩm và phân loại sản A00002/B00001/C00004/D19764/; A00002/B00003/C00008/D19761/; phẩm, tổng số lƣợng các chuỗi nút và các cặp nút A00002/B00003/C00008/D08538/ chuyển đổi có thể rất lớn. Do đó, tƣơng tƣ nhue cách Việc sử dụng danh sách liệt kê này có thể gây khó xây dựng tập đặc trƣng cho các sản phẩm đơn lẻ, khăn cho việc trích chọn hiệu quả tất cả các thông tin chúng tôi chỉ lựa chọn các chuỗi nút và các cặp nút về mối quan hệ giữa các sản phẩm/loại sản phẩm trong chuyển đổi có tần suất xuất hiện ít nhất 3 lần và hoặc 1 lƣợt xem, chúng tôi đề xuất một biểu diễn dạng cây tần suất ít hơn nhƣng xuất hiện trong cả 2 tập dữ liệu. nhằm cung cấp 1 khung nhìn tốt hơn về các quan hệ Theo đó, danh sách và số lƣợng các đặc trƣng nâng này. Theo biểu diễn này, loại sản phẩm ở mức chung cao đƣợc liệt kê trong bảng 3. nhất sẽ nằm ở gốc của cây, các sản phẩm cụ thể nằm ở phần lá của cây và các loại sản phẩm ở cấp độ trung Bảng 3. Các đặc trưng nâng cao gian nằm ở các tầng giữa của cây. Theo đó, danh mục Đặc trưng Mô tả sản phẩm/loại sản phẩm đƣợc biểu diễn dƣới dạng danh sách liệt kê ở trên đƣợc chuyển đổi sang biểu Số lƣợng nút tại mỗi tầng 4 đặc trƣng diễn cây nhƣ trong hình 1. Các chuỗi nút có tần suất xuất 2.277 đặc trƣng Từ biểu diễn dạng cây này, chúng ta có thể dễ dàng hiện cao nhất chuyển đổi ngƣợc trở lại biểu diễn dạng danh sách liệt Các cặp nút chuyển đổi có tần 465 đặc trƣng kê bằng cách duyệt cây theo chiều sâu và từ trái sang suất xuất hiện cao nhất phải. Ngoài ra, từ biểu diễn cây, chúng ta có thể rút ra đƣợc các thông tin về quan hệ giữa các sản phẩm/loại C. Các phương pháp phân loại sản phẩm bằng cách khai thác các thuộc tính của cây Trong nghiên cứu này, chúng tôi sử dụng 3 thuật nhƣ các nút, các tầng, đƣờng đi, nút kề v.v. toán học máy để xây dựng mô hình phân loại nhƣ đã A00002 nói ở trên. Đó là Random Forest (RF), Support Vector Machine (SVM), và Bayesian Network (BN). RF là B00003 B00001 B00003 một thuật toán học kết hợp sử dụng các tập con của dữ C00006 C00010 C00004 C00008 liệu và tập con đặc trƣng để xây dựng nên các cây quyết định. RF xây dựng nhiều cây quyết định nhƣ D19760 D18416 D19764 D19761 D08538 vậy và kết hợp chúng để cho kết quả phân loại cuối cùng có độ chính xác cao hơn. Do thuật toán này lựa Hình 1. Biểu diễn dạng cây của danh mục sản chọn ngẫu nhiên các tập con đặc trƣng để xây dựng phẩm/loại sản phẩm được xem cây quyết định nên phù hợp với các vấn đề có tập đặc trƣng lớn và thƣa nhƣ vấn đề hiện tại. SVM là phƣơng Trong vấn đề hiện tại, chúng ta có thể sử dụng các pháp phân loại dựa trên lý thuyết học thống kê đƣợc thuộc tính sau của cây để làm đặc trƣng về mối quan đề xuất bởi Vapnik năm 1995. SVM là thuật toán học hệ: máy có ƣu điểm là có thể xử lý số lƣợng lớn các đặc  Số các nút tại mỗi tầng: Tƣơng ứng với số sản trƣng phân loại và không cần đến việc giảm bớt số phẩm/loại sản phẩm đƣợc xem trong mỗi lƣợt xem. lƣợng đặc trƣng nhằm tránh vấn đề quá khớp (over-  Chuỗi các nút liên tiếp trên cùng 1 tầng: Tƣơng fitting). Đặc điểm này rất hữu ích khi xử lý các vấn đề ứng với các chuỗi sản phẩm/loại sản phẩm đƣợc có số chiều lớn. BN là một mô hình xác suất dạng đồ xem liền nhau trong cùng một lƣợt xem. Từ chuỗi thị biểu thị sự phụ thuộc thống kê trên một tập hợp các các nút liên tiếp trên cùng tầng, chúng tôi trích ra tất cả các chuỗi con k nút và chọn các chuỗi con có biến ngẫu nghiên. Đây cũng là thuật toán đƣợc sử tần suất cao nhất làm đặc trƣng chuỗi. dụng khá phổ biến trong xây dựng các mô hình học máy.  Cặp nút chuyển đổi tại các tầng khác nhau: Đặc trƣng này phản ánh thói quen xem sản phẩm của 1 Bên cạnh các thuật toán học máy, do tập dữ liệu ngƣời dùng khi chuyển từ 1 loại sản phẩm này huấn luyện có đặc điểm không cần bằng giữa các lớp sang 1 loại khác ở tầng khác nhau. (khoảng 80% là nữ và chỉ 20% nam), một số kỹ thuật Chẳng hạn, với biểu diễn cây nhƣ ở hình 1.1, một hỗ trợ nhƣ Resampling, Cost-Sensitive Learning số thuộc tính nhƣ ở trên có thể đƣợc trích ra nhƣ sau: (CSL) đƣợc áp dụng để nâng cao độ chính xác cho lớp  Số lƣợng nút tại mỗi tầng: {1, 3, 4, 5} thiểu số. Resampling là một phƣơng pháp đƣợc sử  Chuỗi các nút liên tiếp trên cùng 1 tầng có thể là dụng phổ biến để xử lý các trƣờng hợp không cân {B00001, B00003, B00001}, {B00001, B00003}, bằng trong dữ liệu huấn luyện. Ý tƣởng cơ bản của {C00006, C00010}, {D19760, D18416, D19764}, phƣơng pháp này là thêm vào hoặc bớt đi 1 số mẫu để v.v. làm cho tập dữ liệu trở nên cân bằng hơn. Ngoài ra, SỐ 01 & 02 (CS.01) 2018 TẠP CHÍ KHOA HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG 20
  5. Dương Trần Đức cũng có thể đặt lại trọng số cho các mẫu của mỗi lớp Nhằm đánh giá hiệu quả của các đặc trƣng cơ bản để giúp cân bằng tổng trọng số của mỗi lớp [10]. và nâng cao, chúng tôi thực hiện các thí nghiệm trên Trong khi resampling là một phƣơng pháp ở mức dữ các tập đặc trƣng khác nhau, bao gồm tập đặc trƣng cơ liệu thì CSL là một phƣơng pháp ở mức thuật toán bản và tập đặc trƣng cơ bản kết hợp nâng cao. Theo dùng để giải quyết vấn để phân loại không cân bằng. cách phân loại tập đặc trƣng, các đặc trƣng nâng cao Theo Ling và các cộng sự [11], CSL là một phƣơng chỉ mang tính bổ sung, nếu sử dụng riêng rẽ sẽ không pháp có tính đến chi phí phân loại sai, nghĩa là nó xem hiệu quả. Do đó, chúng tôi không tiến hành thí nghiệm xét các phân loại sai của các lớp khác nhau là khác trên tập đặc trƣng nâng cao riêng rẽ trong nghiên cứu nhau, nhờ đó có thể cân bằng độ chính xác giữa 2 lớp này. khi xây dựng mô hình phân loại. Mỗi tập đặc trƣng sẽ đƣợc thử nghiệm trên 3 Ngoài ra, do số lƣợng các đặc trƣng lớp và dữ thuật toán học máy và các kỹ thuật hỗ trợ nhƣ đã nói ở liệu thƣa, các kỹ thuật lựa chọn đặc trƣng đƣợc nghiên trên, trong đó Resampling sử thuật toán tái cân bằng cứu, áp dụng để giảm bớt độ phức tạp và loại bỏ đi các lớp dựa trên kỹ thuật đặt lại trọng số Class Balancer đặc trƣng ít liên quan đến quá trình phân loại. Trong (CB). Công cụ thực nghiệm sử dụng bộ công cụ học nghiên cứu này, chúng tôi thử nghiệm một số độ đo máy WEKA (Waikato Environment for Knowledge nhƣ Độ lợi thông tin (Information Gain), Khi-bình Analysis). Đây là một tập hợp các thuật toán học máy phƣơng (Chi-Square), Tƣơng quan (Correlation) để và các công cụ xử lý dữ liệu đƣợc phát triển bởi nhóm chọn ra phƣơng pháp và số lƣợng đặc trƣng phù hợp nghiên cứu tại Đại học Waikato, New Zealand. Công nhất. cụ này đƣợc viết bằng ngôn ngữ Java và đƣợc phân phối dƣới dạng mã nguồn mở. Kết quả thực nghiệm IV. THỰC NGHIỆM cuối cùng cho thấy khi thuật toán học máy kết hợp A. Dữ liệu và phương pháp đánh giá với kỹ thuật tái cân bằng lớp theo phƣơng pháp đặt lại Trong nghiên cứu này, chúng tôi sử dụng các tập trọng số cho các lớp ClassBalancer và kỹ thuật học dữ liệu đƣợc cung cấp bởi tập đoàn FPT cho cuộc thi nhạy cảm chi phí CostSensitiveClassifier cho kết quả về khai phá dữ liệu và phát hiện tri thức trong khuôn BAC tốt nhất. Bảng 4 cho thấy kết quả cụ thể của các khổ hội nghị PAKDD’15. Dữ liệu đƣợc chia thành 2 thực nghiệm khi chƣa áp dụng các thuật toán lựa chọn tập là tập huấn luyện và tập kiểm chứng. Mỗi tập dữ đặc trƣng và tối ƣu tham số học máy. liệu chứa 15.000 bản ghi, tƣơng ứng với các bản lƣu Bảng 4. Kết quả thực nghiệm khi sử dụng CSL kết trữ về thông tin xem sản phẩm của mỗi ngƣời dùng. hợp CB Về phƣơng pháp đánh giá, nhƣ đã trình bày ở Đặc trưng cơ bản Đặc trưng cơ bản + trên, do vấn đề không cân bằng của các lớp dự đoán, nâng cao độ đo chính xác cân bằng đƣợc sử dụng để đánh giá BAC Macro F1 BAC Macro F1 mô hình. Độ đo chính xác cân bằng đƣợc định nghĩa là RF 77.3 75.5 81.0 78.5 độ chính xác trung bình của mỗi lớp và việc sử dụng SVM 76.6 74.4 79.5 76.7 độ đo này có thể tránh đƣợc các dự báo hiệu suất giả BN 76.0 74.4 78.5 76.0 tạo trong các tập dữ liệu không cân bằng lớp. 0.5 * tp 0.5 * tn balanced accuracy ( BAC )   Có thể thấy, các đặc trƣng nâng cao khi đƣợc sử tp  fn tn  fp dụng kết hợp với các đặc trƣng cơ bản đã cải tiến kết Trong đó tp (true positive) là số các mẫu mang quả đáng kể khi so sánh với việc chỉ sử dụng đặc trƣng nhãn “dƣơng” đƣợc phân đúng vào lớp “dƣơng”, tn cơ bản. Mặc dù vậy, trong tập dữ liệu đƣợc cung cấp, (true nagative) là số các mẫu mang nhãn “âm” đƣợc có khá nhiều lƣợt xem chỉ có một sản phẩm đƣợc xem phân đúng vào lớp “âm”, fp (false positives) là số các (khoảng 30%) và các đặc trƣng nâng cao không có mẫu mang nhãn “âm” đƣợc phân sai vào lớp “dƣơng”, hiệu quả với các trƣờng hợp này (do không có nhiều và fn (false negative) là số các mẫu mang nhãn sản phẩn đƣợc xem trong cùng lƣợt để khai thác mối “dƣơng” đƣợc phân sai vào lớp “âm”. quan hệ giữa chúng). Trên thực tế, số lƣợng ngƣời Đây cũng là độ đo đƣợc sử dụng để đánh giá các dùng xem nhiều sản phẩm trong 1 lƣợt xem sẽ nhiều kết quả trong cuộc thi PAKDD’15 Data Mining hơn và do đó việc sử dụng các đặc trƣng nâng cao sẽ Competition. Trong nghiên cứu này, chúng tôi sử dụng đem lại hiệu quả cao hơn khi áp dụng trong các trƣờng độ đo này cũng với độ đo Macro F1 để tiện so sánh hợp này. với các nghiên cứu trƣớc đây. So sánh kết quả của các thuật toán học máy, B. Kết quả và đánh giá thuật toán RF có kết quả vƣợt trội so với các thuật SỐ 01 & 02 (CS.01) 2018 TẠP CHÍ KHOA HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG 21
  6. PHƢƠNG PHÁP BIỂU DIỄN CÂY CHO DỰ ĐOÁN GIỚI TÍNH KHÁCH HÀNG DỰA TRÊN DỮ LIỆU TMĐT toán SVM và BN. Thuật toán RF thực hiện học kết các tham số cho kết quả tốt nhất với thời gian tính hợp thông qua việc lựa chọn nhiều tập con đặc trƣng toán phù hợp. Bảng 6 cho biết kết quả phân loại sau và dữ liệu để xây dựng nên 1 tập các cây quyết định, khi thực hiện lựa chọn đặc trƣng và tối ƣu tham số do đó phù hợp với bài toán có số lƣợng đặc trƣng lớn cho thuật toán RF. và thƣa nhƣ bài toán hiện tại. Một điểm thú vị khác là Bảng 5. Kết quả phân loại sau khi lựa chọn đặc trưng phƣơng pháp biểu diễn đặc trƣng đƣợc sử dụng trong và tối ưu tham số nghiên cứu này cũng có cấu trúc dạng cây. Tuy nhiên, BAC Macro kết quả vẫn có thể tiếp tục đƣợc cải tiến thông qua F1 việc lựa chọn đặc trƣng và tối ƣu tham số. Kết quả ban đầu 81.0 78.5 Áp dụng lựa chọn đặc trƣng với 81.2 78.8 C. Lựa chọn đặc trưng và tối ưu tham số Information Gain Mặc dù thuật toán RF đã tiến hành lựa chọn tập Tối ƣu tham số cho thuật toán RF 81.7 79.3 đặc trƣng tốt trong quá trình học thông qua việc lựa (1000 cây, với số đặc trƣng 13) chọn ngẫu nhiên các đặc trƣng tại các bƣớc xây dựng D. Đánh giá cây quyết định, tuy nhiên vẫn có thể cải tiến độ chính Kết quả cơ sở của các nghiên cứu về dự đoán giới xác bằng việc thực hiện các thuật toán lựa chọn đặc tính tác giả văn bản là hơn 80% (độ đo chính xác trƣng dựa trên các độ đo thống kê. Trong nghiên cứu thông thƣờng accracy và độ đo F1). Mặc dù so sánh này, chúng tôi thử nghiệm 3 phƣơng pháp lựa chọn các kết quả của các nghiên cứu trên các tập dữ liệu đặc trƣng là Information Gain, Chi-Square, và khác nhau không thực sự hợp lý, tuy nhiên, với cùng Correlation. Information Gain sử dụng cách đo độ mục đích dự đoán giới tính ngƣời dùng, kết quả của quan trọng của mỗi đặc trƣng trong việc phân biệt các nghiên cứu này có thể xem là có nhiều triển vọng. Với lớp phân loại và đã đƣợc ứng dụng trong nhiều nghiên các nghiên cứu có độ tƣơng tự cao hơn nhƣ [6], [13] cứu trƣớc đây và cho kết quả tốt. Chi-Square là phép khi dự đoán giới tính ngƣời dùng thông qua hành vi thử có thể đánh giá sự độc lập của 2 biến trong thống duyệt website, kết quả Marco F1 của nghiên cứu này kê, và đƣợc sử dụng để đo mức độ độc lập giữa 1 đặc cũng tƣơng đƣơng, trong khi hành vi duyệt website tạo trƣng và lớp phân loại. Trong khi đó, phƣơng pháp ra nhiều dữ liệu có ý nghĩa hơn. Ngoài ra, các trang Correlation sử dụng độ đo tƣơng tự giữa các đặc trƣng web còn chứa các văn bản, do vậy có thể tạo ra nhiều với nhau và với lớp phân loại để đánh giá tập đặc loại đặc trƣng hơn. So sánh với các giải pháp khác của trƣng tốt. Kết quả thử nghiệm cho thấy Information các nhóm tham gia cuộc thi PAKDD’15 Data Mining Gain là phƣơng pháp phù hợp nhất cho vấn đề hiện tại Competition, giải pháp trong nghiên cứu này trong với số lƣợng tối ƣu đƣợc lựa chọn là 2.500 đặc trƣng. top 10 trên 150 nhóm tham dự. Kết quả của nhóm cao Hình 2 cho thấy kết quả phân loại tốt dần với các số nhất là 87.9% và các nhóm trong top 10 có kết quả từ lƣợng đặc trƣng thấp và đạt đỉnh tại mức 2.500 đặc 81%. Tuy nhiên, ƣu điểm của giải pháp của nghiên trƣng. cứu này là sử dụng một cấu trúc đặc trƣng đơn giản, nhƣng vẫn đạt đƣợc các kết quả đáng kể. Cấu trúc đặc trƣng này có tính tổng quát, không chứa các đặc trƣng mang tính đặc thù, do vậy có thể dễ dàng áp dụng sang các hệ thống khác. So sánh với nghiên cứu đƣợc thực hiện trên cùng tập dữ liệu và đƣợc công bố chính thức của Lu và các cộng sự [12], nghiên cứu này có Số lượng đặc trưng kết quả tốt hơn, mặc dù không sử dụng bƣớc cập nhật Hình 2. Kết quả phân loại với các số lượng đặc trưng nhãn. được lựa chọn khác nhau V. KẾT LUẬN Ngoài ra, các thực nghiệm ở phần trƣớc đƣợc Trong nghiên cứu này, chúng tôi trình bày một thực hiện trên tập tham số mặc định của thuật toán. phƣơng pháp dự đoán giới tính ngƣời dùng dựa trên Các kết quả có thể đƣợc cải tiến thông qua việc tối ƣu dữ liệu thu thập từ hệ thống TMĐT. Phƣơng pháp tiếp các tham số. Thuật toán RF có 3 tham số có thể ảnh cận sử dụng các đặc trƣng cơ bản nhƣ thời gian, tần hƣởng tới độ chính xác phân loại. Đó là số lƣợng đặc suất xem sản phẩm, cùng với các đặc trƣng nâng cao trƣng tối đa đƣợc lựa chọn khi xây dựng các cây nhƣ các chuỗi sản phẩm/loại sản phẩm hoặc các cặp quyết định, số lƣợng cây đƣợc xây dựng (số vòng sản phẩm/loại sản phầm chuyển tiếp trong lƣợt xem. lặp), kích thƣớc lá tối thiểu của cây. Các tham số này Phƣơng pháp này sử dụng một biểu diễn dạng cây của đƣợc tối ƣu sử dụng thuật toán Grid Search để chọn ra danh sách các sản phẩm/loại sản phẩm và sử dụng các SỐ 01 & 02 (CS.01) 2018 TẠP CHÍ KHOA HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG 22
  7. Dương Trần Đức thuộc tính của cây nhƣ số nút, chuỗi các nút cùng tầng, [13] T. M. Phuong, and D. V. Phuong, “Gender prediction using browsing history,” Proceedings of the Fifth cặp nút chuyển khác tầng v.v. làm đặc trƣng phân loại. International Conference KSE 2013, Volume 1. pp. Thiết kế tập đặc trƣng này cho kết quả tốt nhất trên 271-283, 2013. [14] D. Nguyen, R. Gravel, D. Trieschnigg, and T. Meder, thuật toán Random Forest cùng với các kỹ thuật hỗ trợ "How old do you think i am?; a study of language and nhƣ Cost Sensitive Learning và Class Balancing. age in twitter,” Proceedings of the Seventh International AAAI Conference on Weblogs and Ngoài ra, kết quả cũng đƣợc cải tiến thông qua một số Social Media, 2013. kỹ thuật nhƣ lựa chọn đặc trƣng, tối ƣu tham số thuật [15] J. J. C. Ying, Y. J. Chang, C. M. Huang, and V. S. toán. Tseng, “ Demographic prediction based on users mobile behaviors,” In Nokia Mobile Data Challenge, Hƣớng phát triển tiếp theo của nghiên cứu có thể 2012. liên quan đến việc khai thác các đặc trƣng rút trích từ Dƣơng Trần Đức Tốt nghiệp Đại cây biểu diễn danh sách sản phẩm/loại sản phẩm. học Khoa học Tự nhiên, Đại học Quốc Ngoài ra, cũng có thể thu thập thêm các dữ liệu bổ Ảnh tác gia Hà Nội ngành Công nghệ thông tin năm 1999. Tốt nghiệp Thạc sỹ chuyên sung và mở rộng sang dự đoán các đặc điểm khác của giả ngành Hệ thống thông tin tại Đại học Tổng hợp Leeds, Vương Quốc Anh ngƣời dùng nhƣ độ tuổi, nghề nghiệp v.v. năm 2004. Hiện đang công tác tại Khoa Công nghệ Thông tin, Học viện Công nghệ Bưu chính Viễn thông. TÀI LIỆU THAM KHẢO [1] S. Argamon, M. Koppel, J. Fine, and A. Shimoni, “Gender, genre, and writing style in formal written texts,” Text 23(3), August 2003. [2] S. Argamon, M. Koppel, J. Pennebaker, and J. Schler, “Automatically profiling the author of an anonymous text,” Communications of the ACM , v.52 n.2, February 2009. [3] J. C. A. Culotta, N. R. Kumar, and J. Cutler, “Predicting the demographics of twitter users from website traffic data, ” Proceedings of the 29th AAAI Conference on Artificial Intelligence, Jan 2015. [4] O. De Vel, A. Anderson, M. Corney, and G. M. Mohay, “Mining e-mail content for author identification forensics,” SIGMOD Record 30(4), pp. 55-64, 2001. [5] Y. Dong, Y. Yang, J. Tang, Y. Yang, and N. V. Chawla, “Inferring user demographics and social strategies in mobile social networks.” In: KDD’14. ACM. p. 15–24, 2014. [6] J. Hu, H. J. Zeng, H. Li, C. Niu, and Z. Chen, “Demographic prediction based on user’s browsing behavior,” Proceedings of the 16th international conference on World Wide Web, pp. 151-160, 2007. [7] F. Iqbal, M. Debbabi, B. C. M. Fung, and L. A. Khan, “E-mail authorship verification for forensic investigation,” Proceedings of the 2010 ACM Symposium on Applied Computing, ser. SAC '10. New York, NY, USA: ACM, pp. 1591-1598, 2010. [8] S. Kabbur, E. H. Han, and G. Karypis, “Content-based methods for predicting web-site demographic attributes,” Proceedings of ICDM, pp. 863-868, 2010. [9] M. Koppel, S. Argamon, and A. R. Shimoni, “Automatically categorizing written texts by author gender,” Literary and Linguistic Computing, 17(4), pp : 401-412, 2002. [10] S. Kotsiantis, D. Kanellopoulos, and P. Pintelas, “Handling unbalanced datasets: A review,” GESTS International Transactions on Computer Science and Engineering 30 (1), pp. 25-36, 2006. [11] C. X. Ling, and V. S. Sheng, “Cost-sensitive learning and the class imbalance problem.” In: Sammut C (ed) Encyclopedia of machine learning. Springer, Berlin, 2008. [12] S. Lu, Z. Meng, Z. Hui, Z. Chen, W. Wei, and W. Hao, "GenderPredictor: A Method to Predict Gender of Customers from E-commerce Website," In Web Intelligence and Intelligent Agent Technology (WI- IAT), 2015 IEEE/WIC/ACM International Conference on, vol. 3, pp. 13-16. 2015. SỐ 01 & 02 (CS.01) 2018 TẠP CHÍ KHOA HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG 23