Data Warehouse architecture

Chợ dữ liệu (Datamart)

Một Data mart là một cơ sở dữ liệu hoặc tập hợp các cơ sở dữ liệu riêng biệt, mỗi nhóm có một trọng tâm cụ thể. Trọng tâm đó có thể là một lĩnh vực chủ đề (như hình trên), hoặc có thể là nhu cầu hỗ trợ quyết định (ví dụ như kiểm toán, phòng ngừa rủi ro, hoặc dự toán khả năng sinh lợi).

Một Data mart được tạo ra khi Nhà kho dữ liệu doanh nghiệp (Enteprise DW – EDW) không thể cung cấp dữ liệu theo cách mà khách hàng  yêu cầu hoặc nhu cầu logic dữ liệu dưới dạng thức phù hợp chi phí hoặc không gian của một chợ dữ liệu.

Sự cần thiết phải xây dựng Data mart:

  • Nhu cầu  dữ liệu đầu vào từ khu vực kinh doanh: Thông thường, dữ liệu đầu vào cho phép phân tích “nếu như”: Nếu tỷ lệ thuế thay đổi thì sao? Vậy nếu năng suất thay đổi? >> Rõ ràng, dữ liệu đầu vào không phải là dữ liệu doanh nghiệp (nghĩa là nguyên tắc DW đầu tiên).
  • Phân tách dữ liệu:
    • Khu vực kinh doanh cần khu biệt dữ liệu nhạy cảm (ví dụ: tài sản, tài chính, y tế, v.v) không thể cung cấp cho bất kỳ ai ở ngoài khu vực kinh doanh.
    • Khu vực kinh doanh cần tương tác với một doanh nghiệp bên ngoài hoặc cơ quan chính phủ mà không cho phép họ truy cập vào tất cả các dữ liệu khác. Các chức năng bảo mật của RDMS có thể bảo vệ cơ sở dữ liệu, bảng hoặc dãy dữ liệu; Một Data mart, có thể tách biệt về mặt vật lý hoặc logic, cung cấp sự phân chia mạnh mẽ giữa dữ liệu trong EDW và dữ liệu trong Datamart.

Dạng thức của Datamart

Data mart phân biệt với DW ở mức vật lý (physical) hoặc logic, tuỳ thuộc vào cách mà nó nhận dữ liệu. Data mart là một tập con của EDW hoặc chứa một phần dữ liệu từ EDW, vì vậy chu trình tải (Load cycle) của DW không nhanh hơn chu trình tải của EDW (cung cấp dữ liệu cho Data mart).

Data mart có thể nhận dữ liệu từ các nguồn khác, như khách hàng hoặc các tổ chức bên ngoài. Data mart có thể cung cấp các chức năng hỗ trợ quá trình ra quyết định, đồng thời bảo vệ nhà kho dữ liệu doanh nghiệp từ các nguồn nhạy cảm.

Data mart phải được quản lý và bảo trì, thường là bởi DW team (phía cung cấp), hoặc từ bộ phận kinh doanh (phía sử dụng). Quyết định này liên quan đến chính sách nội bộ doanh nghiệp hơn là Data Architecture hoặc Database Design. Thông thường, bộ phận kinh doanh sẽ ra yêu cầu, bộ phận DW sẽ cung cấp dữ liệu (tạo reports) thông qua Data mart.

Phương pháp xây dựng Data mart

Data mart có thể được xây dựng theo 2 phương pháp cơ bản sau:

  • Xây dựng một nền tảng riêng biệt với DW
  • Tạo các khung nhìn từ DW

Phương pháp 1: Vật lý (Physical)

Như đề cập ở trên, trong phương thức này, chúng ta tạo một tập các cơ sở dữ liệu và các bảng, trên một nền tảng (Platform) tách biệt với DW. Phương thức này cung cấp sự cô lập tối đa sự truy cập tới DW. Dữ liệu cho Data mart được vận chuyển vật lý từ DW platform tới Data mart platform. Việc vận chuyển này cho phép chúng ta thay đổi lộ trình dữ liệu (data enroute) tới Data mart theo yêu cầu của khách hàng sử dụng Data mart. Mức tiêu thụ tài nguyên bởi người dùng dữ liệu hoạt động (Operational Data Store – ODS) không ảnh hưởng đến người dùng DW.

Tuy nhiên, phương pháp này tốn nhiều chi phí hơn:

  • Chi phí nền tảng platform riêng biệt
  • Chi phí vận chuyển dữ liệu từ DW tới Data mart

Phương thức 2: Logical – Tạo các view từ DW

Trong phương pháp này, chúng ta xác định một tập khung nhìn (view) rút trích dữ liệu từ DW: View Data mart. Data mart dựa trên view nằm trên cùng nền tảng với DW. Phương pháp này không tốn chi phí nền tảng, nhưng không có sự độc lập với DW, chia sẻ tài nguyên với DW.

View Data mart vẫn có khả năng giới thiệu dữ liệu chưa có trong DW và cô lập dữ liệu thông qua các chính sách an ninh của RDBMS. Các bảng dữ liệu nhạy cảm vẫn có thể đặt trong DB, nếu không giữ các view trỏ đến DW. View Data mart vẫn có thể định dạng lại dữ liệu bằng các câu lệnh SQL, hiện thị dữu liệu trong các định dạng riêng biệt theo yêu cầu của một bộ phận kinh doanh, không phải toàn bộ doanh nghiệp.

Bài viết tham khảo

  • Building and Maintaining a Data Warehouse
Comments
←[Nhập môn Data Warehouse] Aggregation Nhập môn CSDL] Mô hình ...→