Người ta cứ nói thao thao bất tuyệt về dữ liệu lớn, mà công ty đang ứng dụng để thúc đẩy kinh doanh nhưng quá nhiều thách thức, tiến hoá và sự phức tạp, đòi hỏi liệu điều chúng ta nói có đúng, có đầy có đủ về dữ liệu lớn như cách mà nó được vận dụng khai thác tạo ra giá trị phù hợp với thị trường ngày nay hay không? Nào hãy cùng xem lại định nghĩa và đặc tính của dữ liệu lớn.
Dữ liệu lớn chính xác là gì?
Dữ liệu lớn là dữ liệu chứa nhiều loại hơn, có khối lượng ngày càng tăng và với tốc độ nhanh hơn. Điều này còn được gọi là ba Vs cơ bản (Variety, Volume, Velocity). Nhưng trải qua hành trình kinh doanh thì các tập dữ liệu lớn hơn, phức tạp hơn, đặc biệt là từ các nguồn dữ liệu mới, chúng quá đồ sộ đến nỗi phần mềm xử lý dữ liệu truyền thống không thể quản lý chúng. Bằng một cách nào đó, người ta đã tổng hợp và khai thác dữ liệu lớn để hình dung và giải quyết các vấn đề kinh doanh mà trước đây chúng thường rời rạc, khó hoặc ngay cả không thể xử lý được.
Ví dụ, trong ngành bán lẻ với số lượng (Volume) hàng nghìn giao dịch mỗi ngày. Các giao dịch này bao gồm lịch sử mua hàng, các sản phẩm được xem và thậm chí cả những sản phẩm đặt trong giỏ hàng nhưng chưa mua. Đi kèm với đó, các dữ liệu này đến từ nhiều nguồn khác nhau (Variety) thông qua các phần mềm ghi nhận bán hàng (ERP), Quản lý khách hàng (CRM) hay qua các kênh thương mại điện tử và thậm chí dữ liệu từ mạng xã hội. Điều này tạo ra một hình ảnh toàn diện về sở thích và tình hình mua sắm của khách hàng. Dữ liệu được tạo ra liên tục (Velocity) khi khách hàng thực hiện giao dịch hoặc tương tác trên đa nền tảng. Hệ thống có thể phân tích và xử lý dữ liệu này ngay lập tức để đưa ra gợi ý sản phẩm phù hợp để giúp khách hàng tiện lợi trong việc mua sắm.
Tuy nhiên, trong quá trình triển khai và với sự phát triển của công nghệ cũng như sự đòi hỏi của khách hàng nhiều hơn, đối thủ cạnh tranh gay gắt hơn liệu ai là người chiến thắng trong cuộc đua về khai phá dữ liệu của mình để có thể cung cấp cho khách hàng: Nhận đúng sản phẩm, đúng số lượng, đúng điều kiện, đúng địa điểm, đúng thời điểm, đúng khách hàng, và đúng giá. Do đó, để giải quyết các vấn đề này, dường như 3V cơ bản của Bigdata là không đủ mặc dù chúng ta có thể nắm bắt được xu hướng và hiểu rõ được khách hàng nhưng dữ liệu của chúng ta quá cũ kỹ, dữ liệu nhiều nhưng vẫn là chưa đầy đủ… Các thách thức về dữ liệu luôn được đặt ra, và người ta bắt đầu đi sâu hơn bằng cách thêm các V khác vào trong quá trình khai phá tiềm năng dữ liệu lớn của mình, những thách thức lớn của big data có thể được nhìn thấy thông qua ba cách phân loại chính, dựa trên vòng đời dữ liệu: dữ liệu, quy trình và quản lý.
Đầu tiên, thách thức về bản thân của dữ liệu, lấy ví dụ dữ liệu có khối lượng lớn và nhiều nguồn khác nhau nhưng mỗi bên lại có các định dạng khác nhau như định dạng ngày tháng DD/MM/YY hoặc MM/DD/YY, hoặc dữ liệu bị trùng lắp như tên của khách hàng Nguyễn Văn A (nguyenvana@gmail.com) nhưng lại khác số điện thoại có thể 2 người trùng tên hoặc một người dùng 2 số điện thoại,…Điều này gây khó khăn trong quá trình trích xuất thông tin dữ liệu để có thể truy vấn người dùng và đưa ra các gợi ý mua sắm phù hợp, khi đó cần xác lập thêm V (variability) về tính biến bổi trong dữ liệu lớn mà ở giai đoạn này đề cập các vấn về liên quan đến quá trình xử lý và chuyển đổi dữ liệu từ dạng gốc ban đầu sang dạng mới có ích hơn, bao gồm việc làm sạch dữ liệu, thống nhất định dạng, tách rời thông tin quan trọng, hay thậm chí chuyển đổi dữ liệu về một dạng có thể được sử dụng để thực hiện phân tích phức tạp. Đây chỉ là một trong nhiều tiêu chí ở bước đầu tiên về xác lập dữ liệu ngoài tính biến đổi ra, còn có các đặc tính V khác của Bigdata như: sự đa dạng (Variety), tính biến đổi (Variability), khối lượng (Volume), trực quan hóa (Visualization), tính xác thực (Veracity) , ảo, thiếu hỗ trợ (Virtual), biến động (Volatility), hóa trị (Valence), hiệu lực (Viability)…
Tiếp theo, là các thách thức liên quan đến quy trình dữ liệu bao gồm cách thu thập dữ liệu, cách hợp nhất dữ liệu, cách sửa đổi dữ liệu, cách chọn mô hình phù hợp để phân tích và cách cung cấp kết quả. Ví dụ về độ nhớt (Viscosity) của dữ liệu, có thể hiểu là độ khó khăn và tốn thời gian để chia sẻ, truy cập hoặc xử lý dữ liệu. Đây có thể là do dữ liệu có thể nằm ở định dạng phức tạp, không dễ dàng hiển thị hoặc xử lý, hoặc do việc truy cập vào dữ liệu đòi hỏi nhiều bước phức tạp hoặc quá trình xử lý phải được thực hiện trước khi dữ liệu có thể được sử dụng một cách hiệu quả. Một cửa hàng bán lẻ có nhiều sản phẩm khác nhau như quần áo, giày dép, đồ gia dụng, và điện tử. Mỗi sản phẩm sẽ có nhiều thông tin kỹ thuật như kích cỡ, màu sắc, chất liệu, trọng lượng, giá cả, và nhiều tính năng khác. Nhưng thông tin này thường được ghi nhận bằng nhiều phương tiện khác nhau, từ bản giấy cho đến hệ thống máy tính, thậm chí cả hệ thống quản lý khác nhau cho từng loại sản phẩm. Trong tình huống này, việc quản lý và cập nhật thông tin sản phẩm trở nên phức tạp và độ nhớt dữ liệu tăng cao. Nhân viên cửa hàng cần phải thực hiện nhiều bước để tìm kiếm, cập nhật hoặc thậm chí soạn thảo thông tin sản phẩm. Điều này có thể gây ra thất thoát thời gian, tạo ra khả năng sai sót và làm chậm quá trình giao dịch. Để giảm độ nhớt này, một hệ thống quản lý dữ liệu hiệu quả có thể được triển khai. Ví dụ, một hệ thống quản lý dữ liệu sản phẩm (PIM – Product Information Management) có thể được sử dụng để tổng hợp và quản lý tất cả thông tin sản phẩm từ nhiều nguồn vào một nền tảng duy nhất. Khi đó, nhân viên cửa hàng có thể dễ dàng truy cập và cập nhật thông tin sản phẩm một cách nhanh chóng và chính xác hơn, giúp giảm thiểu độ nhớt trong quá trình quản lý dữ liệu sản phẩm.
Cũng trong ví dụ về quá trình tiếp cận khách hàng này, dữ liệu cần thể hiện linh hoạt (Versality) ,ví dụ để tạo ra một trải nghiệm khách hàng thông qua tiện ích mua sắm, doanh nghiệp có thể cung cấp các tùy chọn thanh toán đa dạng cho khách hàng. Thay vì chỉ chấp nhận thanh toán bằng thẻ tín dụng, họ có thể cung cấp cả thanh toán qua ví điện tử, chuyển khoản ngân hàng hoặc thậm chí trả góp. Tính linh hoạt cũng có thể thể hiện qua cách doanh nghiệp tương tác với khách hàng thông qua nhiều kênh khác nhau. Ví dụ, họ có thể cung cấp tương tác trực tiếp qua điện thoại, trò chuyện trực tuyến trên trang web, hoặc qua mạng xã hội. Khách hàng có thể chọn kênh mà họ cảm thấy thuận tiện nhất để giao dịch và tương tác với doanh nghiệp. Tính linh hoạt trong giao dịch cũng có thể áp dụng trong việc tùy chỉnh sản phẩm hoặc dịch vụ dựa trên sở thích và nhu cầu cụ thể của khách hàng. Ví dụ, một doanh nghiệp thời trang có thể cung cấp tính năng tùy chỉnh để khách hàng có thể chọn màu sắc, kiểu dáng và kích thước phù hợp với họ. Tóm lại, tính linh hoạt trong giao dịch với khách hàng đòi hỏi doanh nghiệp phải thích ứng và đáp ứng linh hoạt với các nhu cầu và mong muốn đa dạng của khách hàng thông qua việc sử dụng thông tin và dữ liệu để tạo ra các giải pháp phù hợp và mang lại trải nghiệm tốt nhất cho họ.
Cuối cùng, khi đối mặt với việc quản lý dữ liệu trong môi trường dữ liệu lớn, còn có nhiều thách thức đáng chú ý liên quan đến các khía cạnh quan trọng như quyền riêng tư, bảo mật, quản trị và đạo đức.
Quyền riêng tư: Dữ liệu lớn thường chứa thông tin cá nhân của khách hàng và người dùng. Do đó, bảo vệ quyền riêng tư của họ trở thành một vấn đề quan trọng. Các doanh nghiệp cần phải xác định và thực hiện các biện pháp bảo vệ quyền riêng tư, như việc mã hóa dữ liệu cá nhân và tuân thủ các quy định bảo vệ dữ liệu cá nhân như GDPR, với Việt Nam gần đây là tuân thủ nghị định 13.
Bảo mật: Dữ liệu lớn thường chứa thông tin quan trọng và nhạy cảm, dễ trở thành mục tiêu của các cuộc tấn công mạng. Để giảm thiểu rủi ro bị tấn công, các tổ chức cần triển khai các biện pháp bảo mật mạnh mẽ, như hệ thống mã hóa, kiểm tra an ninh thường xuyên và giám sát dữ liệu liên tục.
Quản trị: Quản lý dữ liệu lớn đòi hỏi một quá trình quản trị tốt để đảm bảo rằng dữ liệu được tổ chức, lưu trữ và truy xuất một cách hiệu quả. Các hệ thống quản lý cơ sở dữ liệu phải được tối ưu hóa để xử lý khối lượng lớn dữ liệu và đảm bảo tính đồng nhất và nhất quán của dữ liệu.
Đạo đức: Trong việc sử dụng dữ liệu lớn, đạo đức đóng vai trò quan trọng. Các tổ chức cần đảm bảo rằng việc sử dụng dữ liệu của họ tuân thủ các nguyên tắc đạo đức và luật pháp. Việc thu thập và sử dụng dữ liệu không đúng cách có thể gây hại cho khách hàng và ảnh hưởng đến hình ảnh của doanh nghiệp.
Với dữ liệu lớn, thách thức quản lý mở rộng hơn bao giờ hết do tính đa dạng và không cấu trúc của dữ liệu. Tuy nhiên, bằng cách áp dụng các biện pháp bảo mật, quản lý cơ sở dữ liệu hiệu quả và tuân thủ các nguyên tắc quyền riêng tư và đạo đức, các doanh nghiệp trong lĩnh vực bán lẻ có thể tận dụng tối đa tiềm năng của dữ liệu lớn để nâng cao hiệu suất và đạt được sự phát triển bền vững.
Các V trong quá trình quản lý dữ liệu cần được xem xét: Độ chính xác và đáng tin cậy của dữ liệu (Veracity). Độ tin cậy và tính hợp lệ của dữ liệu (Validity). Giá trị mà dữ liệu mang lại cho doanh nghiệp (Value). Sự thay đổi trong cấu trúc, nguồn gốc và định dạng của dữ liệu (Variability). Nơi mà dữ liệu được tạo ra, thu thập và sử dụng (Venue). Các thuật ngữ và ngôn ngữ được sử dụng trong dữ liệu (Vocabulary). Độ mập mờ và không rõ ràng của dữ liệu (Vagueness). Khả năng của dữ liệu bị lộ thông tin hoặc bị tấn công (Vulnerability). Mức độ biến đổi và thay đổi của dữ liệu theo thời gian (Volatility). Sự hiển thị dữ liệu dưới dạng biểu đồ, đồ thị và hình ảnh (Visualization). Mức độ khó khăn khi kết hợp và tích hợp dữ liệu khác nhau (Viscosity). Sự lan truyền nhanh chóng của dữ liệu qua mạng xã hội (Virality). Sự tồn tại của dữ liệu trong môi trường ảo hoặc trực tuyến (Virtual). Tính chất tích cực hoặc tiêu cực của dữ liệu (Valence). Khả năng tồn tại và thực hiện của dự án dữ liệu(Viability). Sự lan truyền nhanh chóng của thông tin dựa trên dữ liệu (Virility). Khả năng tiếp thị và bán dữ liệu cho các bên thứ ba (Vendible).
Tóm lại, từ sự khởi đầu với ba V cơ bản của dữ liệu lớn – Volume, Variety và Velocity. Tùy thuộc vào ngành công nghiệp và yêu cầu cụ thể, có thể xem xét và áp dụng các đặc tính “V” khác để tạo ra giá trị và khai thác mạnh mẽ hơn từ dữ liệu lớn một cách toàn diện.


Recent Comments