Mình nghiên cứ về mô hình bỏ dấu tiếng Việt theo cơ chế online trong AMPad và có một số vấn đề như sau:
Chuỗi đầu vào mà em lấy làm ví dụ là: "dai hoc cong nghe thong tin.".
Trước tiên ta gõ "dai" thì chương trình(CT) chưa tự động bỏ dấu, tiếp theo gõ " hoc" ta được chuỗi "dai hoc" thì vẫn chưa có hiện tượng gì
xảy ra, tới lúc ta gõ thêm "cong " thì CT sẽ bỏ dấu từ "đại học" và ta được chuỗi như sau: "đại học cong ", tiếp theo ta gõ "nghe" thì vẫn chưa có gì, sau khi gõ " thong" thì CT sẽ bỏ dấu từ "công nghệ"....
Em xin ghi lại quá trình khi gõ chuỗi "dai hoc cong nghe thong tin." vào AMPad theo thứ tự như sau:
"dai"
"dai "
"dai hoc"
"dai hoc "
"dai hoc cong"
"đại học cong "
"đại học cong nghe"
"đại học cong nghe "
"đại học cong nghe thong"
"đại học công nghệ thong "
"đại học công nghệ thong tin"
"đại học công nghệ thông tin."
Tức là CT sẽ tách từ theo so khơp từ dài nhất, nhưng em vẫn chưa hiểu được tai sao chương trình lại chọn được từ "dai hoc"->"đại học" mà không phải là từ khác.
Các bạn quan tâm tới vấn đề này có thề giúp mình được không ạ! Cám ơn nhiều
Chuỗi đầu vào mà em lấy làm ví dụ là: "dai hoc cong nghe thong tin.".
Trước tiên ta gõ "dai" thì chương trình(CT) chưa tự động bỏ dấu, tiếp theo gõ " hoc" ta được chuỗi "dai hoc" thì vẫn chưa có hiện tượng gì
xảy ra, tới lúc ta gõ thêm "cong " thì CT sẽ bỏ dấu từ "đại học" và ta được chuỗi như sau: "đại học cong ", tiếp theo ta gõ "nghe" thì vẫn chưa có gì, sau khi gõ " thong" thì CT sẽ bỏ dấu từ "công nghệ"....
Em xin ghi lại quá trình khi gõ chuỗi "dai hoc cong nghe thong tin." vào AMPad theo thứ tự như sau:
"dai"
"dai "
"dai hoc"
"dai hoc "
"dai hoc cong"
"đại học cong "
"đại học cong nghe"
"đại học cong nghe "
"đại học cong nghe thong"
"đại học công nghệ thong "
"đại học công nghệ thong tin"
"đại học công nghệ thông tin."
Tức là CT sẽ tách từ theo so khơp từ dài nhất, nhưng em vẫn chưa hiểu được tai sao chương trình lại chọn được từ "dai hoc"->"đại học" mà không phải là từ khác.
Các bạn quan tâm tới vấn đề này có thề giúp mình được không ạ! Cám ơn nhiều
Comment