Big Data là gì? Data Scientist là gì? Hãy để “Tiến sĩ Cambridge” trả lời | Nttworks.vn

Kiến Thức Việc Làm 0 lượt xem

Dữ liệu lớn là gì? Dữ liệu lớn là một tập hợp dữ liệu quá lớn (có cấu trúc và phi cấu trúc), đa dạng, thay đổi nhanh chóng và phức tạp đến mức các công nghệ hoặc phần mềm truyền thống không thể xử lý theo thời gian.

Lượng dữ liệu lớn chính xác không quan trọng (có thể là vài petabyte hoặc exabyte), điểm mấu chốt là việc sử dụng Big Data đúng hướng sẽ mang lại tiềm năng cạnh tranh lớn cho các công ty.

Để hiểu rõ hơn về Dữ liệu lớn là gì, ITviec đã trao đổi với anh Đặng Hoàng Vũ – Trưởng nhóm Nghiên cứu tại Tập đoàn FPT và đã “sử dụng” rất nhiều thông tin hữu ích.

Xem thêm các công việc về Dữ liệu lớn trên trang web ITviec

Dữ liệu lớn là gì?

Dữ liệu lớn là gì?

Theo ông Vũ, dữ liệu lớn là dữ liệu lớn, thay đổi nhanh và phức tạp. Tuy nhiên, không thực sự có một định nghĩa duy nhất về dữ liệu lớn là gì. Ví dụ: IBM định nghĩa dữ liệu lớn là 4 V, bao gồm:

  • Âm lượng: Khối lượng dữ liệu
  • Tốc độ: Tốc độ truyền dữ liệu
  • Sự lựa chọn: Đa dạng dữ liệu
  • Sự thật: Tính xác thực của dữ liệu

Trên thực tế, khái niệm Dữ liệu lớn đang thịnh hành. Điều này có nghĩa là đôi khi mọi người vẫn sử dụng tên Big Data cho dữ liệu thông thường, không phải lúc nào cũng cho dữ liệu lớn.

Ông Vũ khẳng định dữ liệu lớn không chỉ thực sự cần thiết mà còn là xương sống của hầu hết các công nghệ.

Ví dụ, mỗi sản phẩm trên các website thương mại điện tử như Tiki, Lazada, Sendo… đều là dữ liệu lớn.

Các công ty truyền thống cũng sử dụng Big Data để tối ưu hóa hoạt động kinh doanh, chăm sóc khách hàng, phục vụ marketing …

Xem thêm: Những siêu sức mạnh mà Big Data mang lại cho doanh nghiệp

Khó khăn khi làm việc với Dữ liệu lớn là gì?

Những khó khăn chính sau đây phát sinh khi làm việc với Dữ liệu lớn:

  • Chất lượng dữ liệu không được đảm bảo
READ  MICE Là Gì? Du Lịch MICE Có Lợi Ích Như Thế Nào? | Nttworks.vn

Khi làm việc với dữ liệu lớn, ông Vũ cho biết giai đoạn thu thập và xử lý dữ liệu là phần mất nhiều thời gian và công sức nhất. Khi đó, anh phải làm việc với nhiều bộ phận khác nhau, dẫn đến nguồn dữ liệu không thống nhất và chất lượng dữ liệu kém.

  • Kết quả triển khai không đạt yêu cầu

Với kinh nghiệm làm việc của mình, anh cho rằng sai lầm phổ biến nhất là đánh giá và thực hiện kết quả dựa trên dữ liệu được thu thập và xử lý. Thông thường, những người làm kỹ thuật thường đưa ra các tiêu chí dựa trên lý thuyết hoặc các nghiên cứu điển hình hiện có, nhưng điều này không phù hợp với các quy trình kinh doanh thực tế.

Anh ấy từng làm việc với một khách hàng nổi tiếng trong lĩnh vực thương mại điện tử (anh ấy không tiện nêu tên). Chúng được thiết kế để tăng số lượng sản phẩm được bán trên trang web.

Sau khi phân tích và đánh giá dữ liệu thu thập được, nhóm của ông quyết định rằng việc xem càng nhiều sản phẩm càng tốt sẽ kích thích hành vi mua hàng của khách hàng.

Kết quả là khách hàng ở lại website lâu hơn và xem nhiều sản phẩm hơn thực tế nhưng kết quả kinh doanh không được cải thiện. Nguyên nhân là do họ cảm thấy “choáng ngợp”, không biết phải quyết định thế nào nên không mua nữa.

Rõ ràng, mặc dù đã hoàn thành tiêu chí kích thích hành vi xem sản phẩm của riêng mình, nhưng nó vẫn chưa mang lại lợi ích thực sự nào cho công ty.

Theo ông, các công ty Dữ liệu lớn không thực sự quan tâm nhiều đến định nghĩa chính xác của Dữ liệu lớn. Họ chỉ quan tâm đến kết quả cuối cùng của quá trình khai thác dữ liệu, vì vậy những người làm việc với Dữ liệu lớn cần có ý tưởng rõ ràng về mục tiêu cuối cùng là gì.

Nghề “làm” dữ liệu lớn là gì? Hãy là một nhà khoa học dữ liệu!

Công việc hàng ngày của một nhà khoa học dữ liệu

Anh Vũ chia sẻ “các bước” trong công việc hàng ngày của một nhà khoa học dữ liệu:

  • Phân tích vấn đề cần giải quyết, mục tiêu dự án, tiêu chí thành công …
  • Thu thập và xử lý dữ liệu
  • Xây dựng mô hình và thuật toán để thu được kết quả
  • Kiểm tra, đánh giá kết quả
  • Triển khai thực hiện
READ  F&B là gì? Tất tần tật về Ngành F&B | Nttworks.vn

Trong giai đoạn triển khai, công ty sử dụng các kết quả, dự báo, khuyến nghị … dựa trên các dữ liệu … cho hoạt động kinh doanh và tiếp thị, như ông Vũ đã đề cập ở phần trên.

Các kỹ năng cần thiết để trở thành nhà khoa học dữ liệu

Để trở thành một nhà khoa học dữ liệu, bạn cần học rất nhiều kỹ năng và công cụ.

  • Tất nhiên, kỹ năng đầu tiên bạn cần là lập trình. Bạn nên học ngôn ngữ lập trình Python
  • Ngoài Python, còn có SQL, Spark, R hoặc các công cụ cấp cao hơn như H2O, hoạt cảnh
  • Các công cụ của Nhà khoa học dữ liệu: Numpy, Pandas, Matplotlib, Scikit-learning
  • Công cụ học máy: Tensorflow, Keras, Pytorch
  • Một số hiểu biết về dữ liệu lớn, các khuôn khổ như Hadoop hoặc Scala
  • Thống kê cơ bản

Ngoài các kỹ năng cứng về kỹ thuật, các kỹ năng mềm cũng rất cần thiết. Nghề này đòi hỏi tư duy rõ ràng và mạch lạc, và bạn cần biết cách làm việc của một kỹ sư dữ liệu.

Kỹ sư dữ liệu là người xử lý và chuẩn bị dữ liệu để phân tích bởi Nhà khoa học dữ liệu. Khi làm việc chung, ai cũng giúp một phần việc của người kia, nhưng trách nhiệm chính như nhau.

Cần rất nhiều kỹ năng và kiến ​​thức để trau dồi, tất nhiên ban đầu có thể hơi khó nhưng bạn có thể làm được và học đồng thời.

Xem thêm: 20 tài liệu học lập trình Python

Cơ hội nghề nghiệp với Dữ liệu lớn

Ông Vũ nhận xét rằng cơ hội nghề nghiệp cho những người mong muốn làm việc với Dữ liệu lớn là vô cùng rộng mở. So với sự nghiệp phát triển chung, tất nhiên, có ít công việc liên quan đến Dữ liệu lớn hơn đáng kể. Tuy nhiên, vì điều này hiếm nên mức thu nhập cũng khá. Tác phẩm cũng cung cấp một cái nhìn tổng quan hơn về hiệu suất của sản phẩm mà bạn đang làm việc.

Xem ngay: Việc làm Data Scientist tại ITviec

Trên cương vị của mình, anh cũng tham gia tuyển dụng Nhà khoa học dữ liệu. Từ đó, ông Vũ đã chia sẻ một số tiêu chí mà ông sử dụng để tuyển dụng:

  • Khả năng viết mã rõ ràng, mạch lạc.
  • Kiến thức cơ bản về Python. Nếu bạn biết về học máy, cơ sở dữ liệu hoặc toán thống kê là một lợi thế lớn.
  • Tinh thần tốt. Đặc biệt là không được cứng đầu, vì làm sai mà bị nhắc nhở là chuyện bình thường.
  • Khả năng giao tiếp, diễn đạt và lắng nghe người khác. Hãy nhớ rằng, đây không phải là một vị trí độc lập.
READ  Trái dư là quả gì? Có ăn được không? Những công dụng của loại quả này | Nttworks.vn

Nguồn dữ liệu tham khảo

  • Thiết kế các ứng dụng chuyên sâu về dữ liệu: Một cuốn sách được viết bởi Martin Kleppmann vào năm 2017 cung cấp một bức tranh toàn cảnh về dữ liệu lớn và tập trung vào các khía cạnh của hệ thống cơ sở dữ liệu phân tán.
  • Dữ liệu lớn: Nguyên tắc và phương pháp hay nhất cho hệ thống dữ liệu thời gian thực có thể mở rộng: Câu trả lời cho câu hỏi dữ liệu lớn là gì và mọi thứ liên quan đến hệ thống, bao gồm các công cụ như Hadoop, Cassandra và Storm.
  • Hadoop: The Final Guide: Được viết bởi Tom White, một thành viên của tổ chức phần mềm Apache uy tín. Cuốn sách là tất cả những gì bạn cần biết + ví dụ cụ thể để làm việc với Hadoop.
  • High Performance Spark: Một cuốn sách cần thiết cho bất kỳ ai muốn tìm hiểu về Apache Spark, với rất nhiều hình ảnh minh họa thực tế.

Ngoài ra, các khóa học Dữ liệu lớn trực tuyến của Coursera cũng rất đáng để tham khảo.

Các nhà khoa học dữ liệu nói gì trong lĩnh vực này?

Ông Vũ nói về một sự hiểu lầm, một sự hiểu lầm mà ông đã từng nghe khi làm việc với dữ liệu lớn nói chung và với tư cách là một nhà khoa học dữ liệu nói riêng.

Một số người nghĩ rằng Nhà khoa học dữ liệu là một nhà khoa học hoặc yêu cầu rất nhiều phép toán từ Nhà khoa học dữ liệu, nhưng thực tế không phải như vậy. Nếu bạn giỏi toán thì tốt, nhưng viết mã quan trọng hơn.

Nhà khoa học dữ liệu là người giải quyết các vấn đề kinh doanh bằng cách phân tích dữ liệu, không phải là nhà nghiên cứu khám phá những điều mới.

Có thể cho một từ Nhà khoa học Đây là một nghề được nhiều người cho là có nhiều rủi ro và thỏa hiệp. Không hẳn vậy. Data Scientist không mạo hiểm, chỉ cần trình độ tư duy tốt và tinh thần học hỏi là đủ.

Dữ liệu lớn là gì?

Anh Vũ (thứ 2 từ trái sang) cùng các đồng nghiệp.

Câu chuyện: Sau khi lấy bằng Tiến sĩ toán học tại Đại học Cambridge, ông Vũ làm việc tại Vương quốc Anh với tư cách là kỹ sư phần mềm cho HP Corporation (Hewlett-Packard). Ở đây, anh tôi làm về machine learning và xử lý hình ảnh nên khi về Việt Nam, anh ấy cũng chọn làm các dự án về khoa học dữ liệu.

Năm 2014, anh trở về Việt Nam và đầu quân cho FPT với tư cách là nhà khoa học dữ liệu. Anh hiện là Nghiên cứu viên cao cấp Ban Công nghệ của Tập đoàn FPT.

Robby2

Bạn có nghĩ rằng những đánh giá dữ liệu lớn này thực sự có ý nghĩa? Hoặc bài viết này có thể giúp các nhà phát triển khác không? Chia sẻ ngay bây giờ để giúp cộng đồng nhà phát triển cùng nhau phát triển.

Và đừng quên tham khảo các việc làm Big Data tại ITviec nhé!

Bài viết liên quan

Trả lời

Email của bạn sẽ không được hiển thị công khai.

Protected with IP Blacklist CloudIP Blacklist Cloud