Theo IBM, khoảng 2,5 triệu tỷ byte dữ liệu được tạo ra mỗi ngày, đủ để load đầy khoảng 57,5 tỷ chiếc iPad 32 GB mỗi ngày. Một số dữ liệu được thu thập bởi các công cụ khoa học dùng để đo gió, nhiệt độ và dòng điện trên khắp thế giới.



Ảnh minh họa. Nguồn: Internet.

Các dữ liệu khác lại được ghi lại bởi các máy tính theo dõi giao dịch trái phiếu, giao dịch chứng khoán và gửi tiền ngân hàng. Những dữ liệu khác được nhập vào vào bởi cảnh sát, nhân viên quản chế và các nhân viên phúc lợi.

Tuy nhiên, tất cả những dữ liệu này đơn giản chỉ là dữ liệu cho đến khi chúng được phân tích và được sử dụng để đưa ra quyết định.

Thuật ngữ "Big data” (dữ liệu lớn) được sử dụng để mô tả sự phát triển ngày càng tăng của dữ liệu cũng như khả năng sử dụng dữ liệu ngày càng hiệu quả của con người. Có vô số các dự án Big data đã được thực hiện trong các lĩnh vực khoa học. Ví dụ, năm 2012, thông qua phân tích dữ liệu, công ty dược phẩm Merck nhận thấy các chất gây dị ứng sẽ có thể “ngủ đông” trong suốt tháng 3 và tháng 4 năm 2013 do thời tiết lạnh bất thường, sau đó tháng 5 với thời tiết ấm lên bất ngờ sẽ khiến cho các bào tử phát tán ở tỷ lệ cao hơn mức trung bình, vì thế khiến cho nhu cầu cần thuốc chữa dị ứng Claritin của hãng tăng lên. Sau đó Merck đã sửa đổi chiến lược markeing. Thông qua cộng tác với Walmart, họ đã đưa ra các chương trình khuyến mại được cá thể hóa dựa trên dữ liệu mã zip để tiếp thị Claritin đến các khu vực bị chịu tác động nặng nề của dịch dị ứng, dẫn đến làm tăng doanh thu.

Cộng đồng doanh nghiệp cũng là người sử dụng Big data tích cực. Mỗi tháng Netflix thu thập hàng tỷ giờ dữ liệu về người dùng để phân tích tiêu đề, thể loại, thời gian xem và hệ thống màu sắc video để xác định sở thích của khách hàng nhằm thường xuyên cập nhật lập trình và các thuật toán đề xuất để mang lại cho khách hàng trải nghiệm tốt nhất. Năm 2013, Netflix ra mắt series phim đình đám, “House of Cards” (Sóng gió chính trường), chủ yếu sử dụng kết hợp giữa dữ liệu và các phân tích về hành vi khách hàng để giúp định hình câu chuyện. Netflix đã đầu tư 100 triệu USD vào series phim và House of Cards là một thành công lớn mang lại 2 triệu người đăng ký mới cho hãng.

Trí thông minh được định hướng bởi dữ liệu đã được sử dụng thành công trong nhiều lĩnh vực kỹ thuật và kinh doanh, nhưng trong lĩnh vực giải quyết các vấn đề xã hội thì lại rất khác biệt. Trong lĩnh vực này, tồn tại sự khác biệt lớn giữa tiềm năng của thông tin theo hướng dữ liệu với việc sử dụng thực tế những thông tin này để giải quyết các vấn đề xã hội. Một số vấn đề xã hội có thể dễ dàng được giải quyết bằng cách sử dụng dữ liệu lớn, chẳng hạn như sử dụng dữ liệu giao thông để giảm lưu lượng giao thông trên đường cao tốc hoặc sử dụng dữ liệu thời tiết để dự đoán cơn bão tiếp theo. Nhưng điều gì sẽ xảy ra nếu sử dụng dữ liệu để giải quyết các vấn đề xã hội quan trọng nhất của con người, chẳng hạn như vô gia cư, buôn bán người và các vấn đề giáo dục? Và điều gì sẽ xảy ra nếu chúng ta không chỉ muốn giải quyết những vấn đề này mà còn giải quyết theo cách mang lại những giải pháp bền vững cho tương lai?

Tại sao dữ liệu lại “lớn”?


Dữ liệu, hay các mẩu thông tin cá nhân, đã được thu thập và sử dụng từ rất lâu trong lịch sử. Nhưng những năm gần đây, những tiến bộ trong công nghệ kỹ thuật số đã làm tăng mạnh khả năng thu thập, lưu trữ và phân tích dữ liệu của con người. Ví dụ, năm 1880, Hoa Kỳ tiến hành một cuộc điều tra dân số 50 triệu người, thu thập thông tin nhân khẩu học bao gồm tuổi, giới tính, số người trong hộ gia đình, dân tộc, ngày sinh, tình trạng hôn nhân, nghề nghiệp, tình trạng sức khỏe, trình độ học vấn và nơi xuất xứ. Tất cả các thông tin này được ghi lại bằng tay, được in vào các miếng micro film và được gửi để lưu trữ trong các kho lưu trữ, thư viện và trường đại học của tiểu bang. Phải mất từ ​​bảy đến tám năm để lập bảng dữ liệu điều tra dân số. Năm 1890, Cục Điều tra Dân số đã sắp xếp hợp lý các phương pháp thu thập dữ liệu bằng cách sử dụng các thẻ đục lỗ có thể đọc được bằng máy, rút ngắn thời gian lập bảng xuống còn một năm. Trong cuộc điều tra dân số gần đây nhất của Mỹ được tiến hành năm 2010, Cục đã sử dụng một loạt các công nghệ mới để điều tra dân cư, bao gồm các hệ thống thông tin địa lý, phương tiện truyền thông xã hội, video, hệ thống nhận dạng ký tự thông minh và phần mềm xử lý dữ liệu phức hợp.

Ngày nay, Big data (dữ liệu lớn) được sử dụng để chỉ các tập dữ liệu mở rộng ra khỏi phạm vi kho dữ liệu đơn lẻ (cơ sở dữ liệu hoặc kho dữ liệu) và quá lớn và phức tạp để được xử lý bởi các công cụ xử lý và quản lý cơ sở dữ liệu truyền thống. Dữ liệu lớn có thể bao gồm thông tin như giao dịch, truyền thông xã hội, nội dung của doanh nghiệp, các cảm biến và thiết bị di động.
Dữ liệu lớn có nhiều khía cạnh, được gói gọn trong tập hợp gồm bảy chữ "V" sau.

• Khối lượng (Volume): lượng dữ liệu được tạo ra và thu thập.
• Vận tốc(Velocity) : cập đến tốc độ dữ liệu được phân tích.
• Đa dạng (Variety): tính đa dạng của các loại dữ liệu được thu thập.
• Độ nhớt (Viscosity): đo tính kháng của luồng dữ liệu.
• Biến thiên (Variability): đo tỷ lệ không lường trước được của dòng và các loại.
• Tính chính xác (Veracity): đo các thành kiến, nhiễu, bất thường và độ tin cậy trong các tập dữ liệu.
• Biến động(Volatility): cho biết độ dài hợp lệ của dữ liệu và nên được lưu trữ như thế nào.

Mặc dù tất cả bảy yếu tố V này đều quan trọng, nhưng không như nhau. Ví dụ, yếu tố khối lượng. Các tập hợp dữ liệu của thế giới tăng gấp đôi sau mỗi 18 tháng, cho thấy khu vực công và tư có rất nhiều cơ hội mới để chuyển hóa thông tin thành nhận thức. Do khối lượng dữ liệu tăng cùng với xu hướng lưu trữ nhiều phiên bản của cùng một dữ liệu trên các thiết bị khác nhau, nên khoa học tìm kiếm và truy xuất thông tin sẽ phải nâng cao.

Yếu tố “V” mang tính thách thức nhất đối với các cơ quan/doanh nghiệp chính là Tính đa dạng. Các cơ quan đều xây dựng các hệ thống thông tin để giải quyết các yếu tố dữ liệu trong các danh mục cụ thể. Thách thức đối với nhiều cơ quan đó chính là tìm những phương thức mang tính kinh tế để tích hợp các tập dữ liệu không đồng nhất trong khi cho phép các nguồn dữ liệu mới hơn được tích hợp vào trong các hệ thống hiện có. Đảm bảo rằng dữ liệu được thu thập có đủ độ chính xác cũng rất quan trọng. Ngày nay, do sự phát triển của các mạng xã hội và truyền thông xã hội, hầu hết dữ liệu được thu thập cần phải được phân tích kỹ lưỡng trước khi sử dụng để đưa ra quyết định, vì dữ liệu có thể dễ dàng bị thao túng.

(Đón đọc kỳ 2: Dữ liệu lớn chưa được sử dụng giải quyết các vấn đề xã hội hiệu quả)

Minh Phượng