Tại sao lại là Khoa học dữ liệu?

Ấn bản tháng 10 năm 2012, tạp chí Harvard Business Review danh giá cho đăng bài viết của Thomas H. Davenport và D.J. Patil với tiêu đề “Nhà khoa học dữ liệu: nghề hấp dẫn nhất thế kỷ 21” (Data Scientist: The sexiest job of the 21st Century) thì sau đó truyền thông và công chúng ngày càng biết nhiều hơn tới cụm từ Data Science. Việt Nam cũng nằm trong vùng ảnh hưởng mạnh mẽ của làn sóng Data Science (Tạm dịch: Khoa học dữ liệu).

Theo một dự báo của McKinsey, một trong tứ đại trong làng quản lý và tham vấn, nhu cầu tuyển dụng đang tăng nhanh một cách chóng mặt. Ước tính ở Mỹ có thể tới gần con số 1.8 triệu vị trí đang cần tìm người trong ngành này. Ở Đông Nam Á, nhiều quốc gia cũng đang ráo riết phát triển nhiều chương trình thu hút nguồn nhân lực trình độ cao cùng với nhiều hoạt động xoay quanh khoa học dữ liệu. Quỹ vì sự thịnh vượng của Asean cũng sáng lập ra tổ chức ADSE ( https://www.aseandse.org/ ) nhằm hướng tới: tất cả thanh niên ASEAN giúp định hình tương lai bằng cách khai thác dữ liệu để làm nổi bật các vấn đề chính trong ASEAN. Sử dụng phân tích dữ liệu để đề xuất các giải pháp có thể tạo sự khác biệt cho người dân.

Điển hình như chính phủ Singapore đang thực hiện một chương trình nhằm kết nối những cộng đồng khoa học với một đề án nhằm xây dựng một Đất nước thông minh hiện đại.

Ở Indonesia nhiều hoạt động sôi nổi cũng đang diễn ra xung quanh nhằm truyền lửa và giáo dục cộng đồng đưa khoa học dữ liệu phát huy trong đời sống.

Từ Việt Nam, các đại học Quốc gia Hà Nội, ĐH Khoa học và Công nghệ Hà Nội, ĐH RMIT (Vn), ĐH Duy Tân cũng đã tham gia mạnh mẽ vào vào tổ chức ADSE. Lướt trên các website về tìm kiếm việc làm đã có những từ khoá như “data science”, “data scientist” và “machine learning”, đa phần đến từ các tập đoàn và start-up về công nghệ, kinh doanh bán lẻ, và nghiên cứu thị trường cả trong và ngoài nước. Thêm vào đó, còn có những làn sóng mới của một lớp người Việt trẻ học tập, làm việc tại nước ngoài quay trở về Việt Nam cùng với những nhà đầu tư, doanh nhân chọn Việt Nam làm điểm đến khởi nghiệp của Các công ty Công nghệ cao mà nhu cầu về các chức danh Khoa học dữ liệu là ưu tiên tìm kiếm hàng đầu.

Vậy khoa học dữ liệu là gì?

Có nhiều định Nghĩa và giải thích nhưng vẫn có những ý kiến chưa thống nhất về định nghĩa chính thức của ngành khoa học dữ liệu.

Phổ biến trên khắp các trang báo, blogs, diễn đàn khoa học đều có những điểm chung như sau: Khoa học dữ liệu là một lĩnh vực liên ngành về các quá trình và các hệ thống rút trích tri thức hoặc hiểu biết từ dữ liệu ở các dạng khác nhau, kể ở dạng cấu trúc (structed data) da hay phi cấu trúc (un-structed data), là sự tiếp nối của một số lĩnh vực phân tích dữ liệu như khoa học thống kê, khai phá dữ liệu, tương tự như khám phá tri thức ở các cơ sở dữ liệu (KDD — Knowledges Discovery from Data).

Nhìn chung, chúng ta có thể xem đây như một dạng mới của một tập hợp gồm các ngành khác nhau trong sự vận động phát triển không ngừng của khoa học máy tính, mô phỏng, thống kê, phân tích và toán học. Trọng tâm của nó nằm ở việc áp dụng các phương pháp tự động hóa cho việc phân tích một lượng lớn dữ liệu và từ đó rút trích ra các kiến thức.

Nguồn: Datajobs.com

Trong các ngành, các lĩnh vực kinh tế hiện nay đều gắn liền với dữ liệu và mọi người đều có cơ hội, có khả năng được truy cập vào trung tâm dữ liệu lớn. Điều này hơn hẳn những gì bạn có thể tưởng tượng cách đây chỉ mười năm. Người tiêu dùng (khách hàng) của các Doanh nghiệp, chính các doanh nghiệp hiện nay đang từng giây (s) tạo ra và tích lũy những dữ liệu mới với một tốc độ vượt quá năng lực mà họ có thể rút trích ra được giá trị. Vậy nên câu hỏi chính mà tất các các tổ chức đang đặt ra thu hút được sự quan tâm toàn bộ cộng đồng là làm thế nào để sử dụng được dữ liệu một cách hiệu quả, không chỉ là của riêng họ mà bao gồm mọi nguồn có liên quan.

Khi thế giới bước vào kỷ nguyên dữ liệu lớn, thì trọng tâm chính là xây dựng khung và giải pháp lưu trữ dữ liệu. Bây giờ khi công nghệ Hadoop, Spark và các khung công tác khác đã giải quyết thành công vấn đề lưu trữ, thì trọng tâm đã chuyển sang xử lý dữ liệu này. Khoa học dữ liệu là chìa khóa. Tất cả những ý tưởng mà bạn thấy trong các bộ phim khoa học viễn tưởng Hollywood thực sự có thể biến thành hiện thực bởi Khoa học dữ liệu. Khoa học dữ liệu là nền tảng và là tương lai của Trí tuệ nhân tạo. Do đó, điều rất quan trọng là phải hiểu Khoa học dữ liệu là gì và làm thế nào để tăng thêm giá trị cho doanh nghiệp của bạn.

Dữ liệu được tạo từ các nguồn khác nhau như nhật ký tài chính, tệp văn bản, biểu mẫu đa phương tiện, cảm biến và công cụ. Ước tính, vào năm 2020, hơn 80% dữ liệu sẽ không được cấu trúc.

Các công cụ phân tích đơn giản không có khả năng xử lý khối lượng dữ liệu khổng lồ và đa dạng này. Đây là lý do tại sao chúng ta cần các công cụ và thuật toán phân tích phức tạp và tiên tiến hơn để xử lý, phân tích và rút ra những hiểu biết có ý nghĩa về nó.

Trong những năm tới, xu hướng này dự kiến sẽ tăng mạnh với sự đang lên của những thiết bị thông minh và thế giới mạng thông tin. Còn với nghiên cứu khoa học, chúng ta sẽ thấy một số lượng lớn các ngành mới được sinh ra đi kèm với từ “tính toán”(computational) hoặc “định lượng” (quantitative) ở phía trước. Trong công nghiệp, khoa học dữ liệu sẽ thay đổi tất cả các lĩnh vực từ y tế đến phương tiện truyền thông.

Vậy Khoa học dữ liệu sẽ làm những gì?

Nhà phân tích dữ liệu, Nhà khoa học dữ liệu thường giải thích những gì đang diễn ra bằng cách xử lý lịch sử dữ liệu. Mặt khác, Nhà khoa học dữ liệu không chỉ phân tích, mô tả để khám phá những hiểu biết sâu sắc về dữ liệu, mà còn sử dụng các thuật toán học máy (Machine Learning) tiên tiến khác nhau để xác định sự xuất hiện của một sự kiện cụ thể trong tương lai (Prediction). Một nhà khoa học dữ liệu sẽ xem xét dữ liệu từ nhiều góc độ, đôi khi các góc độ không được biết trước đó.

Chúng ta hãy cùng thử trả lời những câu hỏi sau đây:

• Làm thế nào về việc nếu bạn có thể hiểu các yêu cầu chính xác của khách hàng từ dữ liệu hiện có như lịch sử duyệt web của khách hàng, lịch sử mua hàng, tuổi và thu nhập?

• Nếu bạn là một Doanh nghiệp nông nghiệp hay một siêu thị, Khoa học dữ liệu có thể giúp gì cho bạn trong việc phân tích dự đoán về thời gian gieo hạt, lượng nước cần tưới, thời gian thu hoạch hay bạn cần chuẩn bị những gì để bán cho khách hàng khi mùa hè trở nên nóng bất thường?

• Một kịch bản khác để hiểu vai trò của Khoa học dữ liệu trong việc ra quyết định. Sẽ thế nào nếu xe của bạn có trí thông minh để đưa bạn về nhà từ văn phòng hay từ nhà hàng khi mà bạn trong tình trạng bị say?

Chúng ta chắc chắn cũng có thể đã nghe nói về Business Intelligence (BI). Thông thường Khoa học dữ liệu bị nhầm lẫn với BI. Chúng ta sẽ nêu một số tương phản ngắn gọn và rõ ràng giữa hai điều này sẽ giúp bạn hiểu rõ hơn. Chúng ta hãy có một cái nhìn.

Kinh doanh thông minh (BI) so với khoa học dữ liệu

• BI về cơ bản phân tích dữ liệu trước đó để tìm ra nhận thức và hiểu biết sâu sắc để mô tả các xu hướng kinh doanh. BI cho phép bạn lấy dữ liệu từ các nguồn bên ngoài và bên trong, chuẩn bị dữ liệu, chạy truy vấn trên đó và tạo bảng điều khiển (dashboard) để trả lời các câu hỏi như phân tích doanh thu hàng quý hoặc các vấn đề kinh doanh. BI có thể đánh giá tác động của một số sự kiện trong tương lai gần.

• Khoa học dữ liệu là một cách tiếp cận hướng tới tương lai xa hơn, một cách khám phá với trọng tâm là phân tích dữ liệu quá khứ hoặc hiện tại và dự đoán kết quả trong tương lai với mục đích đưa ra quyết định sáng suốt. Nó trả lời các câu hỏi mở như là “cái gì — what” sẽ xảy ra và sẽ xảy ra “như thế nào- how”.

Và nhà khoa học phân tích dữ liệu là ai?

Theo thống kê của Glassdoor, một trong những trang web việc làm lớn nhất thế giới, ngành khoa học dữ liệu đứng đầu trong số 25 nghề nghiệp tốt nhất, đứng thứ 16 về mức lương với trung bình hơn $116,000 và có nhiều vị trí được tìm kiếm tuyển dụng nhất trong năm 2015 ở Hoa Kỳ.

Trong một nghiên cứu của O’Reilly, một trong những nhà phát hành chuyên về mảng công nghệ và khoa học máy tính, có 4 dạng nhà khoa học dữ liệu tiêu biểu.

1. Doanh nhân (Data Businesspeople)

Quan tâm vào sản phẩm và phát triển lợi nhuận cho Doanh nghiệp, họ là các nhà lãnh đạo, nhà quản lý và doanh nhân có sự am hiểu về mặt kỹ thuật. Đa phần đều có nền tảng giáo dục xuất phát là bằng kỹ sư kết hợp với một bằng cấp như MBA.

2. Nhà sáng tạo (Data Creatives)

Có nhiều biệt tài và kinh nghiệm với nhiều dạng dữ liệu và công cụ, những nhà sáng tạo thường ví von mình như là một nghệ sĩ hoặc tin tặc. Điểm nhấn thường thấy là sự xuất sắc sử dụng các công nghệ minh họa (Visualization Technology) và mã nguồn mở.

3. Nhà phát triển (Data Developers)

Nhà phát triển dữ liệu thường tập trung vào việc viết phần mềm để làm phân tích, thống kê, và nhiệm vụ học máy, thường xuyên trong môi trường sản xuất. Họ thường có trình độ khoa học máy tính, và thường xuyên làm việc với cái gọi là “dữ liệu lớn” (Big Data).

4. Nhà nghiên cứu (Data Researchers)

Đó là những người áp dụng những kỹ năng được đào tạo trong khoa học cùng với các công cụ và kỹ thuật, số liệu. Một số có bằng tiến sĩ, và các ứng dụng sáng tạo các công cụ toán học mang lại những hiểu biết và sản phẩm có giá trị.

10 lời khuyên để trở thành nhà khoa học dữ liệu

Để các bạn có một vài định hướng cho mình, xin gửi các một số lời khuyên (bên cạnh việc nâng kiến thức chuyên ngành) trong rèn luyện để trở thành nhà khoa học kỹ thuật từ Giáo sư Jana Schaich Bor (Neuroscientist, Duke University Medical Center):

– Đặt câu hỏi, luôn tò mò và chấp nhận điều chưa biết.

– Bắt đầu nghĩ về mọi thứ bạn thấy như là biến phụ thuộc và biến độc lập.

– Tìm hiểu ưu điểm và nhược điểm của tính liên tục và rời rạc của một thuộc tính, đặc tính.

– Hãy luôn lắng nghe, và đóng góp ý kiến.

– Luyện tập tính hoài nghi, tư duy phản biện đa chiều.

– Hãy luôn tìm kiếm sự chi tiết, cụ thể.

– Luôn yêu mến sự chính xác.

– Phương pháp tốt nhất không nhất thiết là phổ biến nhất.

– Hãy làm việc nhóm và hướng đến kết quả cuối cùng mà người yêu cầu mong muốn.

– Hãy đi đôi giầy của người khác, hiểu quan điểm của người khác.

Tìm một nhà khoa học dữ liệu đã khó. Tìm một người hiểu về khoa học dữ liệu lại càng khó hơn. Để thực sự tỏa sáng trong nghề nghiệp này bạn sẽ cần trang bị thêm một lượng kiến thức chuyên môn ở một lĩnh vực ứng dụng của khoa học dữ liệu như là kinh doanh, marketing, trải nghiệm người dùng.

Ngoài ra, những nhà khoa học dữ liệu cũng có thể coi những nghệ sĩ với khả năng giao tiếp và thuyết trình xuất sắc. Ví dụ như truyền đạt được những vấn đề kỹ thuật phức tạp thành đơn giản, dễ hiểu tới những người làm ở những bộ phận khác như truyền thông và kinh doanh hay việc kết nối ý tưởng để tạo ra những minh họa tuyệt đẹp.

Để phát triển và theo kịp với thế giới, các nhà khoa học dữ liệu luôn phải tự tìm trau dồi và bổ sung kiến thức thường xuyên, đặc biệt trong xu thế phát triển hiện nay. Quả thật, có khá nhiều thách thức cho những ai muốn tham gia chinh phục con đường đầy gian nan này.

Vicohub — Mạng kết nối trí thức Việt Toàn Cầu

Được thành lập từ 2018, Vicohub một trong những Trung tâm đi đầu trong việc đào tạo chuyên môn về Khoa học dữ liệu,Trí tuệ nhân tạo từ cơ bản đến nâng cao. Hình thức học tập phong phú: học trực tuyến với chuyên gia kết hợp với học offline tại cơ sở liên kết của Vicohub. Đội ngũ giảng viên của Vicohub là các Tiến sĩ chuyên ngành Kỹ thuật máy tính, Khoa học dữ liệu, Kinh tế tốt nghiệp tại các Trường Đại học nổi tiếng trong và ngoài nước. Các giảng viên tại Vicohub cũng là những Giảng viên đang tham gia giảng dạy Khoa học dữ liệu tại các Đại học trong và ngoài nước. Ngoài ra, Giảng viên Vicohub là những người đang đảm nhận những vị trí chủ chốt tại các Công ty, Tập đoàn Công nghệ hàng đầu và tham gia trực tiếp giải quyết các bài toán về Khoa học dữ liệu của các Doanh nghiệp.

Vicohub mong muốn trở thành “HUB — Mạng kết nối” của các Trí thức Việt trẻ trong lĩnh vực Khoa học dữ liệu, Trí thông minh nhân tạo toàn cầu.

Liên hệ Vicohub

•Website: http://vicohub.com

•Facebook: facebook.com/vicohub

Tài liệu tham khảo

[1] https://hbr.org/2012/10/data-scientist-the-sexiest-job-of-the-21st-century

[2] https://www.aseandse.org/

[3] https://www.glassdoor.com/index.htm

[4] https://dibs.duke.edu/scholars/jana-schaich-borg

Leave a Reply

Your email address will not be published.

You may use these HTML tags and attributes: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>