Ok để tao giải thích cho rõ, vì câu hỏi này hay nhưng nó apply cho domain của t hơi khác so với ML truyền thống."Khi user đủ nhiều đủ data( chỉ cần stop lại 3s ở 1 bức hình là tao biết user đó thích clg)"
Hahaha, m nói chuyện với đúng chuyên gia rồi.![]()
Thế t hỏi m, cơ chế phân loại và dán nhãn dữ liệu của m như thế nào? ai là người làm, làm như thế nào?
Là core của Machine Learning đấy.![]()
Bây giờ tao nâng cho m một level cao lên, là có lịch sử và dữ liệu.
Core của machine learning là phân loại và labeling, rồi sau đó mới suggest, còn không thì nên nấp bóng đi.![]()
![]()
Câu trả lời ngắn: Không ai label cả. User tự label chính họ qua hành vi.
Nghe lạ đúng không? Nhưng đây là bản chất của recommendation system. Nó không phải classification kiểu "đây là ảnh chó, đây là ảnh mèo" cần người ngồi gắn nhãn. Ở đây "nhãn" chính là hành vi của user.
Mỗi hành vi t gán một trọng số liên tục.Ngoài action rõ ràng, còn tín hiệu ngầm user không biết họ đang "nói" cho t:
Dừng 3s+ ở profile = interest. 5s+ = rất interest. 0.5s lướt qua = không quan tâm.
ướt nhanh = đang scan. Lướt chậm = đang "ngắm".
Lướt qua rồi quay lại? Signal cực mạnh, não đã process xong và quyết định quay lại.
Phóng to ảnh = interest rõ ràng.
Scroll đến thứ 50 mới dừng vs dừng ở thứ 5 = mức độ hài lòng khác nhau.
Client batch micro events mỗi 30s, server aggregate vào preference vector.
Nói cách khác: 2 triệu user đang label data cho t MỖI NGÀY, miễn phí, chính xác hơn bất kỳ team labeling nào, vì đó là hành vi thật với tiền thật.
Core ML question mày hỏi rất đúng, nhưng recommendation system khác classification. T không cần team ngồi label "companion này đẹp/không đẹp". T để hành vi user trở thành label. Việc của t là thiết kế đúng signal collection pipeline và scoring algorithm để biến raw behavior thành actionable recommendation.

