Announcement

**14520031** · 03-10-2018, 16:19

Đọc qua code thì anh thấy vài vấn đề như sau:
- Hàm softmax code sai(có vẻ là nguyên nhân chính gây tràn số).
- Learning rate 0.1 hơi lớn cho gradient descent, đôi khi có thể làm gradient exploding hoặc mô hình không hội tụ. Thường em nên thử trong khoảng 1e-2 đến 1e-5. Còn nếu em ngại chỉnh learning rate thì có thể thử các thuật toán adaptive learning rate.
- 1000 ví dụ là hơi nhỏ cho bài toán nhận dạng chữ số.
- Một phần quan trọng là với bài toán phân lớp thì người ta thường dùng các hàm lỗi như binary/categorical cross entropy hay log loss vì output của nó sẽ tiến tới vô cực khi dự đoán gần như khác hoàn toàn label(ví dụ label 0 mà đoán 1). Hàm MSE em dùng(dựa theo cách em tính E2 / nBatch) thường không hiểu quả trong dạng bài toán này vì giá trị lỗi của nó khá thấp trong trường hợp đã nêu trên. Trong bài toán của em có thể sẽ ra kết quả chấp nhận được nhưng tổng quan thì ko nên dùng MSE cho phân lớp.

Nếu máy em chạy lâu thì em nên thử google colab.

**17520074** · 16-10-2018, 21:30

Originally posted by 14520031 View Post

Đọc qua code thì anh thấy vài vấn đề như sau:
- Hàm softmax code sai(có vẻ là nguyên nhân chính gây tràn số).
- Learning rate 0.1 hơi lớn cho gradient descent, đôi khi có thể làm gradient exploding hoặc mô hình không hội tụ. Thường em nên thử trong khoảng 1e-2 đến 1e-5. Còn nếu em ngại chỉnh learning rate thì có thể thử các thuật toán adaptive learning rate.
- 1000 ví dụ là hơi nhỏ cho bài toán nhận dạng chữ số.
- Một phần quan trọng là với bài toán phân lớp thì người ta thường dùng các hàm lỗi như binary/categorical cross entropy hay log loss vì output của nó sẽ tiến tới vô cực khi dự đoán gần như khác hoàn toàn label(ví dụ label 0 mà đoán 1). Hàm MSE em dùng(dựa theo cách em tính E2 / nBatch) thường không hiểu quả trong dạng bài toán này vì giá trị lỗi của nó khá thấp trong trường hợp đã nêu trên. Trong bài toán của em có thể sẽ ra kết quả chấp nhận được nhưng tổng quan thì ko nên dùng MSE cho phân lớp.

Nếu máy em chạy lâu thì em nên thử google colab.

Đúng là có 2 vấn đề như anh đề cập là hàm softmax sai và learning rate quá lớn. Em đã sửa và kết quả cũng chấp nhận được. Vì chưa phải làm nghiêm túc nên em không quá quan trọng vào kết quả. Em sẽ thử thêm những loss function khác mà anh gợi ý. Em cảm ơn anh

Announcement

Hỏi về MLP cho bộ dữ liệu MNIST

Hỏi về MLP cho bộ dữ liệu MNIST

Comment

Comment

LHQC