Mạng xã hội hiện nay đang phát triển rất nhanh chóng, trên đó mỗi ngày có hàng tỉ lượt chia sẻ gồm cả hình ảnh, video và dữ liệu văn bản. Đi kèm với đó là nhu cầu phân tích hành vi, nội dung trao đổi trong một nhóm chủ đề hoặc trên một phạm vi địa lý, ví dụ như việc tự động phân tích phản hồi của sinh viên trong một cuộc khảo sát lấy ý kiến về một chính sách mới của Nhà trường qua các kênh bình luận trên diễn đàn mở như Facebook. Các hệ thống dạng này có nhiều ứng dụng trong an ninh mạng, quảng cáo, thương mại v/v. Tuy vậy khi thu thập dữ liệu để phục vụ phân tích, tính toán có một hiện tượng khá phổ biến là người sử dụng thường viết tắt, đưa cảm xúc của mình vào trong các từ ngữ, hoặc đơn giản là viết sai chính tả. Một số biểu hiện như việc kéo dài âm tiết, thay đổi hình thức trình bày, ví dụ: happyyyyyy, h3ll0, coooollllll, goallllll, uni, dept., v/v. Đối với con người thì việc này không gây ra nhiều khó khăn trong việc nhận biết, nhưng với các hệ thống tính toán tự động thường gây ra các nhiễu không cần thiết dẫn đến làm sai lệch kết quả tính toán. Do vậy đòi hỏi phải có sự hiệu chỉnh dữ liệu trước khi áp dụng các phương pháp tính toán, đặc biệt khi khối lượng dữ liệu là rất lớn và khó có thể điều chỉnh thủ công. Căn cứ trên tình hình thực tế đó, nhóm tác giả đề xuất đề tài Nghiên cứu phương pháp hiệu chỉnh các từ phi chuẩn trong các thông điệp trao đổi trên mạng xã hội, ứng dụng cho các hệ thống phân tích dữ liệu. Kết quả nghiên cứu có thể được áp dụng vào việc tiền xử lý dữ liệu cho các hệ thống tính toán thông minh, phân tích nội dung dựa trên thông điệp trao đổi qua lại giữa các cá nhân trên mạng xã hội.
Cán bộ phối hợp: 
Chủ nhiệm đề tài: