Announcement

Collapse
No announcement yet.

hỏi về phân lớp dữ liệu numeric - data mining

Collapse
X
 
  • Filter
  • Time
  • Show
Clear All
new posts

  • hỏi về phân lớp dữ liệu numeric - data mining

    hi all , mình đang làm bài tập data mining về phân lớp dữ liệu cụ thể là bài toán tư vấn mua bán cổ phiếu, theo như một số thuật toán phân lớp mình tìm hiểu (decision tree, naive bayes) thì chỉ phân lớp được các thuộc tính nominal, nhưng trong file dữ liệu thì kiểu các thuộc tính ( ngày, giá đóng cửa, các chỉ số kỹ thuật) có giá trị numeric, không biết áp dụng phân lớp vào như thế nào, anh em tư vấn giúp với :confuse:

    file dữ liệu : http://www.mediafire.com/?rd3dsr69m3c6yrd
    09520533
    Nguyễn Văn Hưng
    Last edited by 09520533; 24-09-2012, 17:01.

  • #2
    Hi!:shy:
    Trong data mining nếu phân loại theo tính chat dữ liệu bạn thì thường có:
    • dữ liệu có tính chat liên tục: số nguyên, số thực, ....
    • dữ liệu có tính chat không liên tục: nóng, lạnh, mát ....

    trong trường hợp của bạn, kiểu numeric là một dữ liệu liên tục. Trong một bài toán khai thác dữ liệu, nếu coi mỗi trường hợp giá trị của một thuộc tính đều quan trọng như thì thuộc tính có tính chat liên tục là vô cùng lớn(đặc biệt là với numeric là không thể đếm hết). Nếu xử lý không tốt thì rất dễ bị bùng nổ dữ liệu và khó khan hơn nếu bạn muốn nâng cấp hệ thong của mình. Ví dụ: trong trường hợp của mạng nortron, nếu bạn xét một thuộc tính có tính chat liên tục như là một tổ hợp thì số lượng tổ hợp sẽ tang lên rất nhiều....
    vì vậy chi phí tính toán cũng theo đó mà tang lên.
    Để giảm chi phí tính toán, trong giai đoạn tiền xử lý người ta sẽ áp dung các kỹ thuật "rời rạc hóa dữ liệu". Các kỹ thuật này khái quát như sau:
    Kỹ thuật rời rạc hóa dữ liệu có thể được sử dụng để giảm số lượng các giá trị cho một thuộc tính liên tục bằng cách chia các phạm vi của thuộc tính vào các khoảng. Các khoảng nhãn sau đó có thể được sử dụng để thay thế các giá trị dữ liệu thực tế. Thay thế các giá trị của một thuộc tính liên tục bởi một số ít các khoảng nhãn qua đó làm giảm và đơn giản hóa các dữ liệu gốc. Điều này dẫn đến sự ngắn gọn, dễ sử dụng, cấp độ tri thức biểu diễn của các kết quả khai phá. Chuyển dữ liệu thành các dạng phù hợp và thuận tiên cho các thuật toán khai phá dữ liệu
    Phương pháp:
    • Đối với dữ liệu dạng số:
      • Chia nhỏ(Binning):
      • Phân tích biểu đồ
      • Phân cụm(clustering):
      • Phân đoạn tự nhiên.

    • Đối với dữ liệu dạng phi số:
      • Tạo sơ đồ phân cấp.

    Đôi lúc, người ta coi các dữ liệu có tính chat liên tục là các dữ liệu "bẩn" và không tiến hành xử lý.
    Có thể, tôi giải thích hơi khó hiểu và chưa that đầy đủ. Bạn có thế tìm hiểu them, bạn có thể thấy cách xử lý tương tự trng việc cải tiến cây quyết định từ id3 lên cây quyêt định c4.5/5.
    p/s: không hiểu sao máy tôi gõ tiếng việt bị mất giấu.laster:

    Comment


    • #3
      thank a, đọc xong có thêm vài hướng suy nghĩ

      Comment

      LHQC

      Collapse
      Working...
      X