報告

全市技術彈性標準

Committee on Information Technology (COIT)

2023年2月16日核准

三藩市市和縣(市)致力於實施和運行具有彈性的系統和架構,以支持在發生人為災害或自然災害時,為城市、各部門和/或公眾提供關鍵服務。

目的和範圍

市級技術復原標準是城市災害準備、應變、復原和復原(DPR3)政策法規遵循的必要條件。市級DPR3政策要求市府首席資訊長(CCIO)和市府首席資訊安全官(CCISO)制定切實可行的技術復原標準,以確保在災害期間和災害後公共服務的正常提供。

本文件中列明的要求適用於市政府營運或為其營運的所有技術平台和服務。所有代表市政府工作的部門、委員會、民選官員、員工、承包商、合作伙伴、投標者和供應商均須遵守本政策。

部門的 IT 領導、營運和技術團隊、緊急/災難管理專業人員和聯絡員負責實施以下要求。

復原要求

市政府各部門必須遵守以下最低復原要求。各部門應制定不低於全市最低要求的技術復原要求。

需要復原規劃的都市系統

復原標準適用於以下類型的技術:

  • 本地部署的IT基礎設施-指部署在市政設施內並託管的軟體系統、資料庫和硬體基礎設施。部門工作人員負責管理和維護部門的IT平台和基礎設施。只有部門內獲得授權的人員才能存取軟體和數據,且系統存取權限僅限於部門的區域網路。
  • 混合雲 IT 基礎設施-混合雲是指一種混合的運算、儲存和軟體服務環境,它包含本地基礎設施、私有雲服務或公有雲。混合雲是公有雲和私有雲的組合,通常透過單一的 IT 解決方案協調兩者之間的關係。
  • 雲端IT基礎設施(即基礎設施即服務(IaaS)、平台即服務(PaaS)和軟體即服務(SaaS))-雲端運算透過網際網路提供IT基礎設施和業務申請表服務。這些資源包括資料儲存、伺服器、資料庫、網路和軟體。
  • 技術基礎設施-技術基礎設施的組成部分由相互依存的元素構成,例如網路元件、伺服器、作業系統和設備。
  • 營運技術 (OT) 指的是透過直接監測和控制工業設備、資產、流程和事件來檢測或觸發更改的硬體或軟體。 OT 廣泛應用於工業控制系統 (ICS),例如監控與資料收集 (SCADA) 系統或建築管理系統。

系統分析與優先排序

必須對所有技術業務系統進行清點,並記錄描述業務目的、使用者群體、儲存或處理的資料以及任何監管要求的資訊。

各部門將對每個已清點的IT業務系統進行業務影響分析(BIA),以了解災難/中斷對業務運營的影響、恢復的依賴關係以及恢復目標。完成的BIA是部門IT業務連續性計畫(COOP)/災難復原計畫(DRP)的組成部分之一。

  • BIA 將決定每個系統的復原時間目標 (RTO) 和復原點目標 (RPO)。
    • 恢復時間目標 (RTO) 是指系統在發生事故後恢復並重新投入正常使用所需的最大可接受停機時間。例如,如果一個關鍵的公眾安全申請表必須在造成重大公眾安全影響之前 30 分鐘內恢復可用,則該部門會在業務影響分析 (BIA) 中為該技術業務系統設定 30 分鐘的 RTO。
    • 恢復點目標 (RPO) 是指在造成不可接受的影響之前,資料遺失的最大容忍度。例如,如果一個關鍵的公共衛生申請表最多只能容忍 15 分鐘的交易資料遺失,那麼部門會在業務影響分析 (BIA) 中為該技術業務系統設定 15 分鐘的 RPO。
  • BIA 將每個系統分成 1 級到 4 級。
    • 一級-該部門若缺少此服務/技術,即使是短時間內也無法正常運作。其對營運的影響和潛在的資料遺失風險極高,例如,可能導致公眾安全系統、市級生命線、無線電基礎設施、市級和部門網路以及企業技術/應用程式中斷。一級系統要求恢復時間目標 (RTO) 為 0 至 4 小時,恢復點目標 (RPO) 小於 15 分鐘。
    • 二級方案-該部門可在短時間內無需此服務/技術即可運作。但對業務的影響以及潛在的資料遺失風險較高。二級系統要求恢復時間目標 (RTO) 為 4 至 24 小時,恢復點目標 (RPO) 小於 1 小時。
    • 三級-該部門可以暫時應對這項服務/技術的中斷。但最終,為了避免對財務、客戶、營運或法律/監管影響,必須恢復該服務/技術的正常使用。三級系統的復原時間目標 (RTO) 和復原點目標 (RPO) 必須小於 14 天。
    • 第四級-該部門可以在沒有此服務/產品的情況下長時間運行,在此期間,將透過備份/替代方法提供支援。第四級系統的復原時間目標 (RTO) 和復原點目標 (RPO) 要求小於 30 天。
  • 部門主管和資訊長/IT總監將批准業務影響評估報告。

復原要求

對於所有類型的技術平台,每個業務系統層都必須實施以下復原要求:

Tier levelResilience StrategyResilience Testing FrequencyResilience Testing Type

Tier 1

High Availability (HA) at the primary site, Active-Active (hot site), and offline backup (e.g., Immutable backup)

For hot site, mirrored systems reside at the secondary/DR site, and most DR failover processes are automated. RTO is 0 to 4 hours and RPO is less than 15 minutes.

Annually

Failover/ Failback or Parallel

Tier 2

High Availability (HA) at the primary site, Active-Prepared (warm site), and offline backup

For warm sites, pre-built DR systems are available for manual activation with active database replication. RTO is between 4 to 24 hours and RPO is less than 1 hour.

Bi-Annually (Once every two years)

Failover/ Failback or Parallel

Tier 3

Active-Passive with active database replication and offline backup

The database is replicated and available for DR, but IT infrastructure will have to be procured and software installed from system backups. RTO and RPO are less than 14 calendar days.

Two - three years after successful test and restore from backup

Test the actual restore procedures from the data backup

Tier 4

Cold Site (offline backups)

For cold sites, no DR systems are available for recovery. The database will be restored from offline backups which are copies of the data set taken at a pre-determined point-in-time. IT infrastructure will need to be procured and installed, and software and configuration will be installed from backups. RTO and RPO are less than 30 calendar days.

Two - three years after successful test and restore from backup

Test the actual restore procedures from the data backup

基於雲端或外部託管技術的要求:

基於雲端或外部託管的技術依賴供應商提供業務應用程式和資料庫的災難復原服務​​。為確保市政服務的可用性,各部門將與其採購人員和採購辦公室合作,將下表所定義的以下要求納入任何混合雲、雲端IT或SaaS的招標書(RFP)、供應商合約和服務等級協議中。

Tier levelResilience Vendor Reporting

Tier 1

RTO less than 4 hours.

RPO less than 15 minutes.

Vendor to provide Resilience Test Report to the department annually.

If possible, the vendor will invite the department to participate in the vendor Resilience Test to validate Resilience capabilities.

Tier 2

RTO less than 24 hours.

RPO less than 1 hour.

Vendor to provide Resilience Test Report to the department annually.

If possible, the vendor will invite the department to participate in the vendor Resilience Test to validate Resilience capabilities.

Tier 3

RTO and RPO less than 14 days

If possible, the vendor to provide the Resilience Test Report to the department bi-annually.

Tier 4

RTO and RPO less than 30 days

If possible, the vendor to provide the Resilience Test Report to the department bi-annually

角色與職責

全市 DPR3 政策確立了營運和技術團隊以及緊急/災害管理專業人員的角色和職責。

部門營運和技術團隊應:

  • 依照本標準中定義的要求,建構和實施復原
  • 與部門緊急/災難管理專業人員協調,確保 IT 協同計劃/災難復原計劃 (COOP/DRP) 保持最新且完整,並按規定的定期計劃進行復原測試。

部門緊急/災害管理專業人員應:

  • 透過與技術團隊和領導層合作,支援部門實施並遵守全市復原要求。
  • 與部門領導及相關營運或技術團隊協調,更新及維護IT緊急應變計畫/災難復原計畫。
  • 透過與技術和營運團隊定期協調,促進技術復原測試。

科技署網路安全辦公室 - 技術風險與復原團隊

  • 向所有市政府部門提供實施所需的指引和資源,例如業務影響分析 (BIA)、IT 合作計劃 (IT COOP) 和災難復原測試計劃範本。
  • 創建並維護一個中央線上技術風險與復原系統,以追蹤部門復原標準實施進度,並支援 IT COOP 年度審核/更新。
  • 向COIT報告不合規情況

城市採購辦公室和部門採購專家

  • 支持在採購過程中納入復原要求

實施要求

  • 部門必須在三個月內清點其係統,並在本標準發布之日起六個月內進行業務影響分析 (BIA),此後每年進行一次。
  • 部門必須在本標準發布之日起 12 個月內制定一級和二級系統的復原實施計畫。
  • 部門必須在本標準發布之日起 12 個月內實施並測試一級系統的復原,並在 15 個月內實施並測試二級系統的彈性機制,此後每年進行一次測試。
  • 各部門應考慮在本標準發布之日起 24 個月內實施三級系統復原,此後每兩年實施一次。

例外情況

標準的例外情況,須經 COIT 政策審核委員會逐案批准。

全市技術復原要求不得凌駕於可能適用於特定市政府部門的州或聯邦要求之上。