Tiếng không khớp với hình ảnh người trong khung hình đang đứng xem và quay. Độ to vang của âm thanh cho thấy là sát bên thậm chí của người đang quay, nội dung âm thanh thể hiện sự hoảng loạn của nhiều người => nội dung clip cho thấy những người đứng trong góc máy chỉ có sự hiếu kì chứ không hề có sự hỗn loạn hoảng hốt. Đây là clip ghép âm thanh.