Đội NEUDolphins đến từ khoa Toán Kinh tế, trường Đại học Kinh tế Quốc dân, gồm bốn thành viên lớp Khoa học dữ liệu trong Kinh tế và Kinh doanh (DSEB) khóa 62 đã lọt vào top 5 đội xuất sắc nhất của Việt Nam và đạt thứ hạng thứ 31 trên tổng số 679 đội thi tham dự. Đây là lần đầu tiên sinh viên chương trình DSEB tham dự một cuộc thi về khoa học dữ liệu với quy mô lớn nhưng kết quả đạt được là rất đáng khích lệ.
Women in Data Science (WiDS) Datathon là cuộc thi do Đại học Stanford tổ chức trên nền tảng Kaggle. Các đội thi là các chuyên gia dữ liệu trên toàn thế giới, mỗi đội thi tối đa 4 người và tối thiểu 50% là nữ. Chủ đề cuộc thi năm nay là: “Thích ứng với biến đổi khí hậu bằng cách cải thiện dự báo thời tiết cực đoan”. Nhiệm vụ của các đội thi là dựa trên dữ liệu quan sát trong lịch sử để xây dựng một mô hình dự đoán nhiệt độ không khí trong 2 tuần tiếp theo tại các địa điểm khác nhau. Thứ hạng các đội sẽ được xác định dựa trên độ chính xác khi so sánh kết quả dự đoán với kết quả thực tế (sử dụng RMSE làm thước đo). Thử thách lớn nhất cho các đội thi năm nay đó là dữ liệu được cho dưới dạng chuỗi thời gian, vốn luôn là một bài toán hóc búa cho những người đam mê chinh phục trong ngành khoa học dữ liệu.
Chia sẻ về bí quyết để đạt được những thành tích như trên, nhóm NEUDolphins với phương châm: “Vinh quang và may mắn sẽ chỉ mỉm cười với những người nỗ lực nhất” đã không ngừng nghiên cứu nhiều hướng tiếp cận khác nhau cho đề bài được đưa ra. Nhiều bước phân tích khám phá dữ liệu (exploratory data analysis) sử dụng các phương pháp thống kê và phân tích chuỗi thời gian đã được thực hiện nhằm giúp nhóm hiểu rõ về đặc điểm dữ liệu, từ đó đề ra những chiến lược feature engineering và lựa chọn các mô hình thích hợp để huấn luyện. Đội thi đã lựa chọn nhiều mô hình để huấn luyện cùng lúc như Random Forest, các mô hình thuộc nhóm Gradient Boosting như LightGBM, CatBoost, XGBoost và mô hình học sâu sử dụng kiến trúc Transformer như TabNet… Mỗi mô hình sẽ phù hợp với các bước feature engineering khác nhau cũng như đòi hỏi quá trình tinh chỉnh siêu tham số kỹ càng. Sau cùng, nhóm sử dụng kỹ thuật model ensembling để kết hợp dự đoán của nhiều mô hình và đưa ra dự đoán cuối cùng, đây cũng chính là yếu tố quan trọng nhất đã giúp điểm số của NEUDolphins cải thiện đáng kể.
Qua cuộc thi, các thành viên đã gặt hái được nhiều kinh nghiệm thực tế với các mô hình học máy, mô hình học sâu và có cho mình những bài học quý báu trong phán đoán và xử lý dữ liệu. Chia sẻ sau cuộc thi, nhóm NEUDolphins mong muốn có thể lan tỏa tinh thần ham học hỏi và niềm say mê với ngành học tới các bạn sinh viên trong khoa Toán Kinh tế và cả những bạn trẻ đang có hứng thú với data science “Dữ liệu không hề khô khan, chúng luôn ẩn chứa những câu chuyện và ý nghĩa đặc biệt nếu ta hiểu và biết cách gợi mở những góc nhìn bên trong”.
Hình ảnh nhóm NEUDolphins trình bày kết quả nghiên cứu và nhận kỷ niệm chương tại Tập đoàn viễn thông quân đội Viettel.