Khi mới bắt đầu bước vào thế giới data, các bạn chắc giống như mình bị choáng ngợp với đủ thứ công cụ và phần mềm phải tìm hiểu. Sau khi mò mẫm một thời gian, mình nhóm lại thành các thành phần thành mindmap để các bạn dễ hình dung và định hướng hơn.
Danh sách này là những gì mình biết và có sử dụng thôi, sắp xếp theo ý hiểu của mình nên có thể chưa đúng lắm. Nhưng mình sẽ cố gắng tiếp tục cập nhật khi khám phá được thêm.
Giải thích nhanh:
- Data ingrestion: nhóm thu thập dữ liệu với vai trò quan trọng là kéo, nhận data từ các nguồn hiện có
- Data pipeline: nhóm đường ống truyền dẫn, xử lý data đến đích (thường là các data warehouse)
- Data storage: nhóm lưu trữ và phục vụ truy xuất data
- Data analytics: nhóm phân tích và tính toán
- Data visualization: nhóm trực quan hóa dữ liệu, show kết quả cho người không rành data hiểu được
- Data gorvenance: quản trị data, bao gồm: chính sách, bảo mật, quản lý metadata (dữ liệu của dữ liệu), …
Mỗi khi bạn thấy một công cụ nào mới thì thử đưa nó vào nhóm như trên, việc tổ chức kết hợp sẽ dễ dàng hơn nhiều đấy.
Có dịp mình sẽ viết kỹ hơn từng thằng nhé.
Leave a Reply