Được phê duyệt ngày 16 tháng 2 năm 2023
Thành phố và Quận San Francisco (Thành phố) cam kết triển khai và vận hành các hệ thống và kiến trúc có khả năng phục hồi, hỗ trợ việc tiếp cận các dịch vụ thiết yếu cho thành phố, các sở ban ngành và/hoặc người dân trong trường hợp xảy ra thảm họa do con người hoặc thiên nhiên gây ra.
MỤC ĐÍCH VÀ PHẠM VI
Tiêu chuẩn về khả năng phục hồi công nghệ toàn thành phố là yêu cầu bắt buộc để tuân thủ Chính sách Chuẩn bị, Ứng phó, Phục hồi và Khả năng phục hồi sau thảm họa (DPR3) của thành phố. Chính sách DPR3 toàn thành phố yêu cầu Giám đốc Thông tin (CCIO) và Giám đốc An ninh Thông tin (CCISO) của thành phố phải xây dựng các tiêu chuẩn về khả năng phục hồi công nghệ khả thi, đảm bảo việc cung cấp các dịch vụ công cộng trong và sau thảm họa.
Các yêu cầu được nêu trong tài liệu này áp dụng cho tất cả các nền tảng và dịch vụ công nghệ do thành phố vận hành hoặc thay mặt thành phố vận hành. Tất cả các phòng ban, ủy ban, quan chức được bầu, nhân viên, nhà thầu, đối tác, nhà thầu dự thầu và nhà cung cấp làm việc thay mặt thành phố đều phải tuân thủ chính sách này.
Ban lãnh đạo CNTT của bộ phận, các nhóm vận hành và công nghệ, các chuyên gia quản lý tình huống khẩn cấp/thảm họa và các cán bộ liên lạc chịu trách nhiệm thực hiện các yêu cầu sau đây.
YÊU CẦU VỀ KHẢ NĂNG PHỤC HỒI
Các phòng ban thành phố phải áp dụng các yêu cầu tối thiểu về khả năng phục hồi sau đây. Các phòng ban nên phát triển các yêu cầu về khả năng phục hồi công nghệ tương đương hoặc cao hơn các yêu cầu chung của thành phố.
Các hệ thống đô thị cần lập kế hoạch ứng phó
Tiêu chuẩn về khả năng phục hồi áp dụng cho các loại công nghệ sau:
- Hạ tầng CNTT tại chỗ - Các hệ thống phần mềm, cơ sở dữ liệu và hạ tầng phần cứng được triển khai và đặt trong khuôn viên của thành phố. Nhân viên của phòng ban quản lý và bảo trì các nền tảng và hạ tầng CNTT của phòng ban. Chỉ những nhân viên được ủy quyền trong phòng ban mới có thể truy cập phần mềm và dữ liệu, quyền truy cập hệ thống chỉ giới hạn trong mạng cục bộ của phòng ban.
- Hạ tầng CNTT đám mây lai - Đám mây lai đề cập đến một môi trường dịch vụ điện toán, lưu trữ và phần mềm kết hợp, bao gồm cơ sở hạ tầng tại chỗ, dịch vụ đám mây riêng hoặc đám mây công cộng. Đám mây lai là sự kết hợp giữa đám mây công cộng và đám mây riêng, thường điều phối một giải pháp CNTT duy nhất giữa cả hai.
- Hạ tầng CNTT đám mây (tức là Hạ tầng như một dịch vụ (IaaS), Nền tảng như một dịch vụ (PaaS)) và Phần mềm như một dịch vụ (SaaS) - Điện toán đám mây cung cấp hạ tầng CNTT và các dịch vụ ứng dụng kinh doanh thông qua Internet. Các tài nguyên này bao gồm lưu trữ dữ liệu, máy chủ, cơ sở dữ liệu, mạng và phần mềm.
- Hạ tầng công nghệ - Các thành phần của hạ tầng công nghệ bao gồm các yếu tố phụ thuộc lẫn nhau, chẳng hạn như các thành phần mạng, máy chủ, hệ điều hành và thiết bị.
- Công nghệ vận hành (OT) - Phần cứng hoặc phần mềm phát hiện hoặc gây ra sự thay đổi thông qua việc giám sát và điều khiển trực tiếp thiết bị, tài sản, quy trình và sự kiện công nghiệp. OT thường được sử dụng trong các hệ thống điều khiển công nghiệp (ICS) như hệ thống giám sát và thu thập dữ liệu (SCADA) hoặc hệ thống quản lý tòa nhà.
Phân tích và ưu tiên hệ thống
Tất cả các hệ thống công nghệ kinh doanh phải được lập danh mục, bao gồm thông tin mô tả mục đích kinh doanh, đối tượng người dùng, dữ liệu được lưu trữ hoặc xử lý, và mọi yêu cầu quy định.
Các phòng ban sẽ tiến hành Phân tích Tác động Kinh doanh (BIA) cho từng hệ thống CNTT kinh doanh đã được kiểm kê để hiểu rõ tác động của thảm họa/gián đoạn đối với hoạt động kinh doanh, các yếu tố phụ thuộc để phục hồi và các mục tiêu phục hồi. Các báo cáo BIA hoàn chỉnh là một phần của Kế hoạch Duy trì Hoạt động CNTT (COOP)/Kế hoạch Phục hồi Thảm họa (DRP) của phòng ban.
- Phân tích tác động kinh doanh (BIA) sẽ xác định Mục tiêu Thời gian Khôi phục (RTO) và Mục tiêu Điểm Khôi phục (RPO) của từng hệ thống.
- RTO (Recovery Time Time) là thời gian ngừng hoạt động tối đa có thể chấp nhận được để hệ thống phục hồi và hoạt động bình thường trở lại sau sự cố. Ví dụ, nếu một ứng dụng an toàn công cộng quan trọng phải được phục hồi và hoạt động trong vòng 30 phút trước khi xảy ra tác động nghiêm trọng đến an toàn công cộng, Bộ sẽ đặt RTO là 30 phút cho hệ thống công nghệ đó trong BIA (Business Assessment Assessment).
- RPO là mức độ mất dữ liệu tối đa có thể chấp nhận được trước khi xảy ra tác động không thể chấp nhận được. Ví dụ, nếu không thể chấp nhận việc mất dữ liệu giao dịch quá 15 phút đối với một ứng dụng y tế công cộng quan trọng, Bộ sẽ đặt RPO là 15 phút cho hệ thống kinh doanh công nghệ đó trong BIA.
- BIA sẽ phân loại từng hệ thống vào các cấp độ từ Cấp 1 đến Cấp 4.
- Cấp độ 1 – Bộ phận không thể hoạt động nếu thiếu dịch vụ/công nghệ này, ngay cả trong thời gian ngắn. Tác động đến hoạt động và nguy cơ mất dữ liệu là rất cao, ví dụ như gián đoạn hệ thống an ninh công cộng, các đường dây nóng do thành phố quản lý, cơ sở hạ tầng vô tuyến, mạng lưới thành phố và bộ phận, cũng như công nghệ/ứng dụng doanh nghiệp. Hệ thống cấp độ 1 yêu cầu RTO từ 0 đến 4 giờ và RPO dưới 15 phút.
- Cấp độ 2 – Bộ phận có thể hoạt động mà không cần dịch vụ/công nghệ này trong một thời gian ngắn. Tác động đến hoạt động kinh doanh và nguy cơ mất dữ liệu là rất cao. Hệ thống cấp độ 2 yêu cầu RTO từ 4 đến 24 giờ và RPO dưới 1 giờ.
- Cấp độ 3 – Bộ phận có thể khắc phục sự cố mất dịch vụ/công nghệ này trong một thời gian dài hơn. Cuối cùng, dịch vụ/công nghệ cần được khôi phục về trạng thái hoạt động bình thường để tránh ảnh hưởng đến tài chính, khách hàng, hoạt động hoặc pháp lý/quy định. Hệ thống cấp độ 3 yêu cầu RTO và RPO dưới 14 ngày.
- Cấp độ 4 – Bộ phận có thể hoạt động mà không cần dịch vụ/sản phẩm này trong một thời gian dài, trong thời gian đó dịch vụ/công nghệ sẽ được hỗ trợ thông qua các phương pháp dự phòng/thay thế. Hệ thống cấp độ 4 yêu cầu RTO và RPO dưới 30 ngày.
- Trưởng phòng và Giám đốc CNTT/CIO sẽ phê duyệt báo cáo đánh giá tác động kinh doanh (BIA).
Yêu cầu về khả năng phục hồi
Các yêu cầu về khả năng phục hồi sau đây phải được thực hiện cho từng cấp độ hệ thống kinh doanh đối với tất cả các loại nền tảng công nghệ:
| Tier level | Resilience Strategy | Resilience Testing Frequency | Resilience Testing Type |
|---|---|---|---|
Tier 1 | High Availability (HA) at the primary site, Active-Active (hot site), and offline backup (e.g., Immutable backup) For hot site, mirrored systems reside at the secondary/DR site, and most DR failover processes are automated. RTO is 0 to 4 hours and RPO is less than 15 minutes. | Annually | Failover/ Failback or Parallel |
Tier 2 | High Availability (HA) at the primary site, Active-Prepared (warm site), and offline backup For warm sites, pre-built DR systems are available for manual activation with active database replication. RTO is between 4 to 24 hours and RPO is less than 1 hour. | Bi-Annually (Once every two years) | Failover/ Failback or Parallel |
Tier 3 | Active-Passive with active database replication and offline backup The database is replicated and available for DR, but IT infrastructure will have to be procured and software installed from system backups. RTO and RPO are less than 14 calendar days. | Two - three years after successful test and restore from backup | Test the actual restore procedures from the data backup |
Tier 4 | Cold Site (offline backups) For cold sites, no DR systems are available for recovery. The database will be restored from offline backups which are copies of the data set taken at a pre-determined point-in-time. IT infrastructure will need to be procured and installed, and software and configuration will be installed from backups. RTO and RPO are less than 30 calendar days. | Two - three years after successful test and restore from backup | Test the actual restore procedures from the data backup |
Yêu cầu đối với các công nghệ dựa trên điện toán đám mây hoặc được lưu trữ bên ngoài:
Các công nghệ dựa trên điện toán đám mây hoặc được lưu trữ bên ngoài phụ thuộc vào nhà cung cấp để phục hồi sau sự cố đối với các ứng dụng kinh doanh và cơ sở dữ liệu. Để đảm bảo tính khả dụng của các dịch vụ Thành phố, các phòng ban sẽ phối hợp với nhân viên mua sắm và Văn phòng Mua sắm để đưa các yêu cầu sau vào bất kỳ yêu cầu đề xuất (RFP), hợp đồng nhà cung cấp và thỏa thuận mức dịch vụ nào liên quan đến Điện toán đám mây lai, CNTT đám mây hoặc SaaS, như được định nghĩa trong bảng bên dưới.
| Tier level | Resilience Vendor Reporting |
|---|---|
Tier 1 | RTO less than 4 hours. RPO less than 15 minutes. Vendor to provide Resilience Test Report to the department annually. If possible, the vendor will invite the department to participate in the vendor Resilience Test to validate Resilience capabilities. |
Tier 2 | RTO less than 24 hours. RPO less than 1 hour. Vendor to provide Resilience Test Report to the department annually. If possible, the vendor will invite the department to participate in the vendor Resilience Test to validate Resilience capabilities. |
Tier 3 | RTO and RPO less than 14 days If possible, the vendor to provide the Resilience Test Report to the department bi-annually. |
Tier 4 | RTO and RPO less than 30 days If possible, the vendor to provide the Resilience Test Report to the department bi-annually |
VAI TRÒ VÀ TRÁCH NHIỆM
Chính sách DPR3 toàn thành phố quy định vai trò và trách nhiệm của các nhóm Vận hành và Công nghệ cũng như các chuyên gia Quản lý Tình huống Khẩn cấp/Thảm họa.
Các nhóm vận hành và công nghệ của bộ phận sẽ:
- Xây dựng và triển khai khả năng phục hồi bằng cách tuân thủ các yêu cầu được định nghĩa trong tiêu chuẩn này.
- Phối hợp với các chuyên gia quản lý tình huống khẩn cấp/thảm họa của bộ phận để đảm bảo các kế hoạch vận hành liên tục/kế hoạch phục hồi thảm họa CNTT (IT COOP/DRP) luôn được cập nhật và hoàn thành việc kiểm tra khả năng phục hồi theo lịch trình định kỳ đã định.
Các chuyên gia quản lý tình huống khẩn cấp/thảm họa của sở sẽ:
- Hỗ trợ việc triển khai và tuân thủ các yêu cầu về khả năng phục hồi toàn thành phố của bộ phận bằng cách phối hợp với các nhóm công nghệ và ban lãnh đạo.
- Phối hợp với lãnh đạo bộ phận và các nhóm vận hành hoặc công nghệ cần thiết để cập nhật và duy trì kế hoạch ứng phó sự cố/phụ trách thảm họa CNTT.
- Tạo điều kiện thuận lợi cho việc kiểm thử khả năng phục hồi công nghệ bằng cách phối hợp với các nhóm công nghệ và vận hành theo lịch trình thường xuyên.
Bộ phận Công nghệ, Văn phòng An ninh mạng - Nhóm Rủi ro và Khả năng phục hồi công nghệ
- Cung cấp hướng dẫn và nguồn lực cần thiết cho việc triển khai, ví dụ như các mẫu Kế hoạch Đánh giá Tác động Kinh doanh (BIA), Kế hoạch Hợp tác Công nghệ Thông tin (IT COOP) và Kế hoạch Kiểm thử Phục hồi Thảm họa (DR Test Plan), cho tất cả các phòng ban của Thành phố.
- Xây dựng và duy trì một hệ thống trực tuyến tập trung về Rủi ro và Khả năng phục hồi công nghệ để theo dõi tiến độ thực hiện Tiêu chuẩn Khả năng phục hồi của bộ phận và hỗ trợ việc xem xét/cập nhật thường niên Kế hoạch hoạt động hợp tác CNTT (IT COOP).
- Báo cáo cho COIT về trường hợp không tuân thủ.
Văn phòng Mua sắm Thành phố và Chuyên viên Mua sắm của các Sở
- Hỗ trợ việc đưa các yêu cầu về khả năng phục hồi vào quy trình đấu thầu.
YÊU CẦU THỰC HIỆN
- Bộ phận phải lập danh mục hệ thống của mình trong vòng ba tháng và tiến hành phân tích tác động kinh doanh (BIA) trong vòng sáu tháng kể từ ngày ban hành tiêu chuẩn này và hàng năm sau đó.
- Bộ phận liên quan phải xây dựng kế hoạch triển khai khả năng phục hồi cho các hệ thống cấp 1 và cấp 2 trong vòng 12 tháng kể từ ngày tiêu chuẩn này được ban hành.
- Bộ phận phải triển khai và kiểm tra khả năng phục hồi cho các hệ thống cấp 1 trong vòng 12 tháng và các hệ thống cấp 2 trong vòng 15 tháng kể từ ngày ban hành tiêu chuẩn này, và hàng năm sau đó.
- Các bộ phận nên xem xét triển khai Khả năng phục hồi cho các hệ thống cấp 3 trong vòng 24 tháng kể từ ngày ban hành tiêu chuẩn này và định kỳ hai năm một lần sau đó.
NGOẠI LỆ
Các trường hợp ngoại lệ so với tiêu chuẩn sẽ được Hội đồng xem xét chính sách của COIT phê duyệt theo từng trường hợp cụ thể.
Các yêu cầu về khả năng phục hồi công nghệ toàn thành phố không được thay thế các yêu cầu của tiểu bang hoặc liên bang có thể áp dụng cho các phòng ban cụ thể của thành phố.