Nối tiếp bài viết trước, trong bài này mình sẽ chia sẻ về quá trình bắt đầu sự nghiệp trong lĩnh vực Data và những khó khăn mà mình đã trải qua. Hy vọng những kinh nghiệm này sẽ giúp ích cho những ai quan tâm đến ngành này.
Lịch sử học vấn của tôi
Trước khi chia sẻ về phương pháp học của tôi, tôi muốn giới thiệu một chút về quá trình học vấn của bản thân. Mỗi người có một cơ sở và điểm khởi đầu riêng, vì vậy những gì tôi chia sẻ không thể áp dụng đồng nhất cho mọi người. Hãy tham khảo và điều chỉnh cho phù hợp với bản thân, đồng thời không nên so sánh với tốc độ học của người khác để tránh tạo áp lực không cần thiết.
Tôi đã tốt nghiệp ngành Quản trị Kinh doanh Toàn cầu của Đại học Troy với bằng Cử nhân. Trong quá trình học, tôi đã tiếp cận với nhiều môn học như Phân tích và Quản lý kinh doanh, Kinh tế học, Xác suất thống kê, Quản trị, Kế toán, Marketing, và đặc biệt là Machine Learning.
Thật không tin được, phải không? Một người học quản trị kinh doanh lại trở thành giảng viên về Machine Learning 😄 Tại Đại học, chúng tôi được giảng dạy về Machine Learning để có thể sử dụng các dịch vụ như Microsoft AzureML Studio hoặc AWS SageMaker. Đây là những dịch vụ Machine Learning mà Microsoft và Amazon đã thiết lập sẵn, không cần phải biết code cũng có thể sử dụng. Quan trọng là hiểu biết về việc lựa chọn thuật toán và điều chỉnh để đạt được hiệu quả cao nhất.
Sinh viên được tự chọn một số khóa học về Hệ thống Thông tin.
Với kinh nghiệm đó và hơn 4 năm hoạt động kinh doanh trong lĩnh vực sản xuất và bán lẻ, tôi đã tự mình thiết lập website bán hàng, triển khai hệ thống ERP dựa trên web (sử dụng WordPress và chỉnh sửa một chút, không có gì phức tạp 😄), xây dựng hệ thống tích hợp dữ liệu từ các kênh thương mại điện tử. Tôi cũng sử dụng Excel để phân tích và tạo báo cáo. Đối với việc quản lý các thiết bị trong nhà máy, tôi đã áp dụng bảng tính và kỹ thuật kiểm soát quy trình thống kê.
=> Tôi có kiến thức cơ bản về kinh doanh và giải quyết vấn đề kinh doanh, ở mức độ không cần lập trình (thuần kinh doanh). Tôi chỉ cần hiểu biết thêm về các công cụ thường được sử dụng trong xử lý dữ liệu.Tôi học lập trình
Công thức để trở thành một Data Analyst rất đơn giản: Kỹ năng xử lý dữ liệu + kiến thức toán học (không phải là toán cao cấp) + Hiểu biết về lĩnh vực. Nếu bạn có kiến thức vững về kinh doanh hoặc ngành bạn định làm việc trong lĩnh vực dữ liệu, thì bạn đã có một lợi thế rồi.
Quá trình học Data của tôi như sau:Tự học trên CodeCademy: Do thiếu hướng dẫn cụ thể, nên tôi chủ động học ở mức độ cơ bản - trung cấp
Lập trình Python (OOP, hàm lambda, A/B testing với SciPy…)
SQL
HTML + CSS (tôi đã biết trước đây, chỉ cần ôn lại)
JavaScript + framework Flask, VUE, Bootstrap (mức độ beginner)
Tự học Data Science trên DataCamp => Không đạt yêu cầu
Vào đầu tháng 5, tôi đăng ký một tài khoản trên DataCamp để học (vì nó có giá rẻ hơn và tập trung vào lĩnh vực dữ liệu hơn). DataCamp là một nơi tuyệt vời để nâng cao kỹ năng kỹ thuật, trải nghiệm thực hành, và hướng dẫn chi tiết. Tóm lại, DataCamp sẽ giúp bạn giải quyết câu hỏi “Tôi cần giải quyết vấn đề này như thế nào”. Tuy nhiên, họ tập trung quá nhiều vào công nghệ, không giải thích ý nghĩa, khiến cho người mới học cảm thấy mơ hồ.
Khoá học Data Scientist trên DataCamp
Các kiến thức tôi đã học
Lập trình Python (học lại để hiểu sâu hơn)
Thư viện Pandas + Numpy
Đồ thị hóa dữ liệu với Matplotlib + Seaborn
Cơ sở dữ liệu PostgreSQL
Visualize dữ liệu với Tableau (đã sử dụng trước đó nhưng giờ học sâu hơn)
Phân tích dữ liệu khám phá (Đọc, làm sạch, xác nhận, phân phối, quan hệ đa biến, …)
Thống kê trong Python
Thư viện Scipy
Thư viện Scikit-learn
Các môn đã học ở đại học nhưng hiện đang học lại trên Python
Kiểm định giả thuyết
Học không giám sát, học giám sát, học củng cố, phân cụm,..
Đây là các yêu cầu của DataCampTham gia các khóa học về Phân tích Dữ liệu của Google trên CourseraĐến cuối tháng 7, tôi đã may mắn nhận được học bổng từ Google để tham gia toàn bộ các khóa học của họ trên Coursera. Mặc dù khóa học này khá cơ bản và chỉ mang tính giới thiệu, nhưng nó đã giúp tôi kết nối các kiến thức rời rạc và hiểu rõ hơn về lý do tại sao chúng ta cần làm những việc này. Tại sao con người lại sáng tạo ra những công cụ này, và tại sao họ sử dụng chúng trong các trường hợp cụ thể
Tôi chỉ mất khoảng 4 ngày để hoàn thành khóa học này (mặc dù Google nói rằng mất khoảng 6 tháng 😁 nhưng tôi đã trải qua đủ khó khăn với DataCamp, không cần thêm nữa). Tôi học nhanh là do trước đó đã học trên DataCamp mà vẫn chưa hiểu, không phải là do gì khác đâu nhé.Tiếp tục học trên DatacampSau khi đã tìm ra câu trả lời cho câu hỏi “Tại sao tôi phải làm như vậy”, tôi kết hợp với “Tôi phải xử lý vấn đề này như thế nào” => Tôi quay lại để nhận chứng chỉ chuyên nghiệp từ Datacamp, nhưng chỉ về Data Analyst. Tôi hiểu rằng vẫn còn thiếu nhiều kiến thức để trở thành Data Scientist nên tôi vẫn đang tiếp tục học.
Đây là những điều bạn cần đạt được để trở thành Certified Data Analyst của DataCampCác kỹ năng tự học thêm
PowerBI: Sau khi nhận ra rằng Tableau quá đắt và không phổ biến trong các công ty ở Châu Á, tôi quyết định học thêm về PowerBI và hàm Dax function
Cơ sở hạ tầng IT: Mặc dù không liên quan trực tiếp, nhưng việc học về Hỗ trợ IT của Google và Khoa học máy tính cho Người làm kinh doanh của Harvard đã giúp tôi rất nhiều trong việc hiểu và giao tiếp với các tech stack của kỹ sư dữ liệu.
AWS S3, Lambda: Tự học để viết API và sử dụng API để crawl dữ liệu
Selenium: Sử dụng để crawl dữ liệu từ những nguồn không có API
Các kỹ năng của Kỹ sư Dữ liệu: AWS Redshift, Athena, Glue, Azure Synapse,… hoặc các công nghệ như OLAP, các công cụ ETL: Tôi đã học từ các trung tâm đào tạo hoặc nhờ các bạn kỹ sư dữ liệu chỉ dẫn. Việc hiểu về hạ tầng mạng sẽ giúp bạn nhanh chóng tiếp thu những kiến thức này hơn.
Những khóa học tôi đang theo học:
DP-100: Thiết kế và Triển khai Giải pháp Khoa học Dữ liệu trên Azure
TensorFlow + Keras (đang học trên Datacamp và Google)
Nếu có cơ hội quay lại 5 tháng trước, tôi sẽ chọn học Data Analyst theo lộ trình này
Hoàn thành chứng chỉ Google Data Analytics Professional Certificate để xây dựng nền tảng kiến thức cơ bản
Thực hiện track Data Analyst trên DataCamp, tập trung vào SQL và PowerBI để đạt được chứng chỉ DataCamp Data Analyst Associate và bắt đầu ứng tuyển thực tập hoặc các vị trí liên quan đến báo cáo
Nâng cao kỹ năng Python, EDA, kiểm định giả thuyết,… để đạt chứng chỉ Datacamp Data Analyst Professional
Học và sử dụng các công cụ của Azure, AWS
Lựa chọn dự án để tạo portfolio như thế nào?Theo quan điểm của tôi, một dự án thành công cần phải bao gồm đủ các kỹ năng cần thiết để thực hiện công việc thực tế
Thu thập nguồn dữ liệu
Sử dụng API hoặc thu thập dữ liệu bằng cách scrape (Selenium hoặc scrappy,…), vì trong thực tế chúng ta thường làm như vậy.
Nếu có sẵn một SQL server để đăng nhập và thực hành thì tốt hơn.
Phân tích Dữ liệu, EDA, Validation
Model fitting + Evaluation (đối với các dự án Khoa học Dữ liệu)
Visualization
Phân tích và đưa ra những nhận xét cùng với gợi ý
Nếu dự án có thể tự động cập nhật, làm mới dữ liệu thì càng tốt
Tôi thường chia nhỏ các yêu cầu này thành các dự án riêng biệt.
Mỗi loại dữ liệu thường có một vấn đề riêng mà chúng ta có thể sử dụng một công nghệ để giải quyết, thể hiện kỹ năng của mình.
Nếu bạn sử dụng dữ liệu đã có sẵn thì có thể trực quan hóa bằng PowerBI hoặc Tableau, hoặc sử dụng SQL để trích xuất dữ liệu cũng được.
Tùy thuộc vào công ty, họ sẽ xem xét xem kỹ năng của bạn có phù hợp hay không để tuyển dụng.
Đừng sử dụng các tập dữ liệu quá cũ và nổi tiếng như Titanic nữa. Chúng không phản ánh thực tế và dữ liệu đó cũng quá hoàn hảo.
Các kỹ thuật để cải thiện quá trình học:
Khi gặp khó khăn, tìm kiếm thông tin trên Google để đọc lý thuyết.
Microsoft, Google, Amazon Web Service cung cấp các tài liệu hướng dẫn và giải thích miễn phí về Dữ liệu, Machine learning.
Khi gặp vấn đề về code, tìm kiếm giải đáp trên StackOverflow.
Tham gia phỏng vấn là một trong những cách học hiệu quả nhất. Bạn sẽ nhận được các bài kiểm tra và hiểu rõ hơn về những gì được kiểm tra và cách bạn có thể đáp ứng.
Nếu không hiểu lý thuyết, tìm kiếm các video giảng dạy trên YouTube để hiểu rõ hơn. Có nhiều kênh YouTube giải thích một cách dễ hiểu và nhanh chóng.
Các công cụ giúp trực quan hóa code
Computer Science Circle tại Đại học Waterloo: https://cscircles.cemc.uwaterloo.ca cung cấp các công cụ trực quan hóa code rất tốt
Các nơi để rèn luyện SQL:
Hackerrank
Leetcode
DataLemur
Các thắc mắc phổ biến khi học Data AnalystHọc như vậy liệu có thể đi làm được không?
Câu trả lời LÀ CÓ, thậm chí có thể làm tốt. Tuy nhiên, điều này còn phụ thuộc vào nhiều yếu tố.
Tùy vào cách bạn học: liệu bạn là người học theo kiểu 'vẹt' hay là học thực sự
Tùy vào độ phức tạp của công việc bạn ứng tuyển
Tùy vào khả năng tư duy của mỗi cá nhân
Tùy vào kinh nghiệm làm việc trước đó
Tùy vào nền tảng kiến thức cá nhân
Trước đây, mình từng nói rằng mình học về dữ liệu trong 5 tháng và thành công trong việc xin việc. Có nhiều người bảo rằng mình chỉ đang nói dối vì làm sao có thể học nhanh như vậy. Bài viết này sẽ giải thích rõ hơn về điều đó. Mong mọi người đọc vui vẻ và đừng quá phê phán (thời gian qua nhanh lắm đấy).
Mình viết bài này để chia sẻ và giúp đỡ những người sau này tránh khỏi những vấn đề mà mình từng gặp phải. Các anh Senior nếu có ý kiến không đồng tình, xin vui lòng dành thêm thời gian để hỗ trợ và chia sẻ kiến thức với những người mới, hãy để cho thế hệ trẻ phát triển hơn nữa 😁
Ai có thắc mắc gì thì cứ comment bên dưới nhé. Nếu mình biết thì sẽ trả lời, còn không biết thì mình sẽ hỏi giúp :DNội dung được phát triển bởi đội ngũ Mytour với mục đích chăm sóc khách hàng và chỉ dành cho khích lệ tinh thần trải nghiệm du lịch, chúng tôi không chịu trách nhiệm và không đưa ra lời khuyên cho mục đích khác.
Nếu bạn thấy bài viết này không phù hợp hoặc sai sót xin vui lòng liên hệ với chúng tôi qua email [email protected]