捕捉变化数据

使用变化数据捕捉特性可以简化数据仓库应用中的ETL过程。
数据提取是所有数据仓储的一个完整组成部分。数据通常是在晚上从事务处理系统中被提取出来并被传输到数据仓库。一般情况下,数据仓库中的所有数据都是由从源系统中提取出的数据来更新。但是在提取和传输海量数据时,资源和时间的消耗都是巨大的。
由于数据提取每日都在进行,因此如果只是提取和加载自上次提取之后发生变化的数据,那么效率就会大大提高。但是,在大多数源系统中,识别并提取最新变化的数据即使是可能的,也非常困难。
除了识别最新变化数据的挑战之外,许多提取、转换和加载(ETL)环境都包含一个源系统,为多个目标系统提供数据。另外,从一个源系统到多个目标系统同步改变数据也是一个挑战。
Oracle变化数据捕捉(Change Data Capture,CDC)特性简化了识别自上次提取后发生变化的数据的过程。CDC提供了易于使用的API来设置CDC环境。 如果你是参与数据集成项目的DBA或开发人员,需要定期从一个系统提取大量数据并将其传输到另一个系统或多个系统,那就赶快考虑使用CDC来缩短ETL的时间吧。
本文将为你提供一种设置CDC环境的循序渐进的方法,概述设置CDC环境的先决条件,并讨论为你的应用程序设置CDC时需要掌握的API。

一、概述

CDC特性是在Oracle9i数据库中引入的。CDC能够帮助你识别从上次提取之后发生变化的数据。利用CDC,在对源表进行INSERT、UPDATE或DELETE等操作的同时就可以提取数据,并且变化的数据被保存在数据库的变化表中。这样就可以捕获发生变化的数据,然后利用数据库视图以一种可控的方式提供给目标系统。图 1 给出了CDC环境的基本体系结构。

CDC建立订阅者视图来控制目标系统对变化数据的获取。目标系统是任何需要使用从源系统中捕获的数据的应用程序。

二、发布者和订阅者

CDC体系结构基于发布者/订阅者模型。发布者捕捉变化数据并提供给订阅者。订阅者使用从发布者那里获得的变化数据。通常,CDC系统拥有一个发布者和多个订阅者。
发布者首先需要识别捕获变化数据所需的源表。然后,它捕捉变化的数据并将其保存在特别创建的变化表中。它还使订阅者能够控制对变化数据的访问。
订阅者需要清楚自己感兴趣的是哪些变化数据。一个订阅者可能不会对发布者发布的所有数据都感兴趣。 订阅者需要创建一个订阅者视图来访问经发布者授权可以访问的变化数据。

Change Data Capture architecture

三、设置CDC环境

CDC特性是Oracle9i (及更高版本)数据库软件的一部分,你无需安装除Oracle9i外的任何其他软件就可以使用CDC。要使用Oracle9i 数据库的CDC特性,请按下述步骤进行:
启用数据库中的Java功能(Java虚拟机,JVM)。有关配置Oracle JVM的详细说明,请参见《Oracle9i数据库Java开发人员指南》。当使用数据库配置助理(Database Configuration Assistant,DBCA)创建数据库时,你可以选择安装Oracle JVM。

启用系统触发器。当创建数据库时,系统触发器默认情况下是启用的。
一旦你的数据库做好了CDC准备,你就可以按照以下步骤设置CDC环境。

  1. 确定源表。
  2. 设置发布者。
  3. 创建变化表。
  4. 设置订阅者。
  5. 订阅源表并激活订阅过程。
  6. 设置CDC窗口。
  7. 准备订阅者视图。
  8. 访问变化表中的数据。
  9. 删除订阅者视图,并清除CDC窗口。
  10. 重复第6到第9步,以查看新数据。

出于本文的目的,我将使用一个销售应用程序作为示例。源应用程序是记录关于每笔销售的信息的事务处理系统。该系统的表的计划所有者是SALES_OP。
我设置一个基于销售运营数据的数据仓库。用户SALES_DW是数据仓库的所有者。我的CDC系统的目的是高效地将变化数据从事务处理系统(SALES_OP拥有的源表)传输到数据仓库系统(SALES_DW拥有的目标表)。 变化数据包括:

  • 自上次提取后在源表中插入(INSERT)的数据;
  • 自上次提取后在源表中更新(UPDATE)的数据;
  • 自上次提取后从源表中删除的(DELETE)的数据。
     
    在下面几节中,我将向你演示如何在源系统中捕捉变化数据并将其提供给目标系统。

1.识别源表

数据库用户SALES_OP拥有两个表:PRICE_LIST和SALES_TRAN。这两个表分别保存已售商品的价格清单和每笔销售交易的细节。
SQL> DESC PRICE_LIST

Name Null? Type
PRODUCT_ID NOT NULL VARCHAR2(20)
UOM NOT NULL VARCHAR2(20)
PRICE_PER_UOM NOT NULL NUMBER(10,2)

SQL> DESC SALES_TRAN

Name Null? Type
PRODUCT_ID NOT NULL VARCHAR2(20)
SALE_DATE_TIME NOT NULL TIMESTAMP(6)
QUANTITY NOT NULL NUMBER(10,2)
天早上,这两个表 中发生变化 的数据必须被提取出来并传送到数据仓库系统。

2.设置发布者

发布者是创建和维护变化表的数据库用户。正如前面提到的,发布者的职责是识别并提取变化数据,并将其提供给订阅者。要做到这一点,必须给发布者分配以下两个数据库角色:
SELECT_CATALOG_ROLE
EXECUTE_CATALOG_ROLE
 
为了简单起见,让用户SALES_OP 充当发布者的角色。因为SALES_OP拥有源表,所以将其指定为发布者会比较简单。不过,你也可以指定任何其他数据库用户为发布者。在由多个数据库用户拥有的表构成源表的情况下,最好指定另一个用户作为发布者。在这种情况下,该用户需要在源表上有SELECT权限。

3.创建变化表

每个源表都需要一个变化表。发布者使用DBMS_LOGMNR_CDC_PUBLISH .CREATE_CHANGE_TABLE过程来创建变化表,如清单 1所示。在这个例子中,与PRICE_LIST和 SALES_TRAN 相对应的变化表分别被命名为CDC_PRICE_LIST和CDC_SALES_TRAN。
CREATE_CHANGE_TABLE 过程将变化集的名字作为一个变量来传递。一个变化集是一个变化表的集合。 在清单 1中,我使用了系统生成的变化集:SYNC_SET。

4.设置订阅者

在我的例子中,目标系统SALES_DW是订阅者。为了能够订阅变化数据,订阅者必须在源表和变化表上有SELECT权限,如下所示:
connect sales_op/sales_op
grant select on PRICE_LIST to sales_dw;
grant select on SALES_TRAN to sales_dw;
grant select on CDC_PRICE_LIST
to sales_dw;
grant select on CDC_SALES_TRAN
to sales_dw;
 

5.订阅源表并激活订阅过程

在典型的CDC环境中会有多个订阅者,每个订阅者只需要订阅自己所需要的表。此外,订阅者可能不希望看到自己所订阅的表的所有字段。
在可以订阅发布的数据之前,你需要得到一个订阅句柄。订阅句柄使订阅者能够管理自己感兴趣的变化表和字段。在Oracle的CDC环境中,一个订阅只能由一个订阅句柄识别,而无论你订阅了多少个表,你只需创建一个订阅句柄。 使用DBMS_LOGMNR_ CDC_SUBSCRIBE.GET_SUBSCRIPTION HANDLE过程就可以得到一个订阅句柄。这个过程以变量的方式返回句柄值。你可以在你的会话中定义一个变量来接收来自过程的句柄值,如下所示:
variable sh_sales number;
EXECUTE -
DBMS_LOGMNR_CDC_SUBSCRIBE
.GET_SUBSCRIPTION_HANDLE( -
CHANGE_SET=>'SYNC_SET', -
DESCRIPTION=>'Change data from
Sales Appln.', -
SUBSCRIPTION_HANDLE=>:sh_sales);

一旦你建立了句柄,你就可以订阅你想要的变化数据。当订阅变化数据时,需要指定你希望订阅的表和字段,如下所示:

EXECUTE DBMS_LOGMNR_CDC_SUBSCRIBE
.SUBSCRIBE( -
SUBSCRIPTION_HANDLE=>:sh_sales, -
SOURCE_SCHEMA=>'SALES_OP', -
SOURCE_TABLE=>'PRICE_LIST', -

COLUMN_LIST=>'PRODUCT_ID,UOM,
PRICE_PER_UOM');

EXECUTE DBMS_LOGMNR_CDC_SUBSCRIBE
.SUBSCRIBE( -
SUBSCRIPTION_HANDLE=>:sh_sales, -
SOURCE_SCHEMA=>'SALES_OP', -
SOURCE_TABLE=>'SALES_TRAN', -
COLUMN_LIST=>'PRODUCT_ID,SALE_DATE_TIME,
QUANTITY');
 
当指定了希望订阅的表和字段后,你就可以激活你的订阅。无论订阅多少个表,你都只需要激活订阅一次。一旦激活了一个订阅,你就不能再将任何其他表或字段添加到你的订阅中。为了激活订阅,你可以调用将订阅句柄作为参数调用DBMS_LOGMNR_CDC_SUBSCRIBE.ACTIVATE_ SUBSCRIPTION过程,并将订阅句柄传递给它:EXECUTE - DBMS_LOGMNR_CDC_SUBSCRIBE .ACTIVATE_SUBSCRIPTION( - SUBSCRIPTION_HANDLE=>:sh_sales)。

6. 设置CDC窗口

源表中的数据不断变化(插入、更新或删除) ,而不管对变化数据的订阅。因此,订阅要设置(扩展)一个窗口――CDC窗口,通过该窗口可以看到任何变化。DBMS_LOGMNR_CDC_SUBSCRIBE.EXTEND_WINDOW过程可以被用来设置CDC窗口,如下所示:

EXECUTE -
DBMS_LOGMNR_CDC_SUBSCRIBE.EXTEND_WINDOW( -
SUBSCRIPTION_HANDLE=>:sh_sales);
 
当你执行了EXTEND_WINDOW过程后,如果你没有清除窗口并再次对它进行扩展,那么对源表所做的改变在订阅中就无法看到(后面对此有更详细介绍)。

7.准备一个订阅者视图

一旦你设置了CDC窗口,你就需要为订阅者准备一个视图,以便订阅者能够看到变化数据。你需要为订阅者订阅的每个源表准备一个视图。DBMS_LOGMNR_CDC_SUBSCRIBE.PREPARE_SUBSCRIBER_VIEW过程可以被用来准备一个订阅者视图。你需要将订阅句柄、源模式名和源表名传递给该过程,该过程就会以变量的方式返回订阅者视图的名字。在本例中,源表PRICE_LIST和SALES_TRAN 的订阅者视图名分别以变量sv_price_list 和sv_sales_tran返回。

variable sv_price_list varchar2(30);

EXECUTE -
DBMS_LOGMNR_CDC_SUBSCRIBE
.PREPARE_SUBSCRIBER_VIEW( -
SUBSCRIPTION_HANDLE =>:sh_sales, -
SOURCE_SCHEMA=>'SALES_OP', -
SOURCE_TABLE=>'PRICE_LIST', -
VIEW_NAME => :sv_price_list);

variable sv_sales_tran varchar2(30);

EXECUTE -
DBMS_LOGMNR_CDC_SUBSCRIBE
.PREPARE_SUBSCRIBER_VIEW( -
SUBSCRIPTION_HANDLE =>:sh_sales, -
SOURCE_SCHEMA=>'SALES_OP', -
SOURCE_TABLE=>'SALES_TRAN', -
VIEW_NAME => :sv_sales_tran);
 
你可以从这两个变量中得到视图名。视图名是系统产生的,一般包括一个CDC前缀和一个数字。例如:
 
SQL> select :sv_price_list from dual;

:SV_PRICE_LIST

CDC#CV$1430621

SQL> select :sv_sales_tran from dual;

:SV_SALES_TRAN

CDC#CV$1430623
 

8.访问变化表中的数据

订阅者视图包含你所需要的变化数据。它还包含使用变化数据所需的其他一些附加信息:

SQL> desc CDC#CV$1430621

Name Null? Type
OPERATION$ CHAR (2)
CSCN$ NUMBER
COMMIT_TIMEST AMP$ DATE
TIMESTAMP$ DATE
USERNAME$ VARCHAR2(30)
PRICE_PER_UOM NUMBER(10,2)
PRODUCT_ID VARCHAR2(20)
UOM VARCHAR2(20)
 

例如,字段OPERATION$ 表示变化是INSERT、UPDATE还是DELETE。字段CSCN\(、COMMIT_TIMESTAMP\)、TIMESTAMP\(和USERNAME\)表示是谁在源表中做的改变以及是何时做的。其他字段是源表中订阅的字段。你可以使用SELECT语句查看订阅者视图中的数据,例如:

SQL> select * from CDC#CV$1430621;

OP PRICE_PER_UOM PRODUCT_ID UOM
I 2.99 P101 pound
I 4.99 P102 pound
 

9.删除订阅者视图,清除CDC窗口

当你了解并提取了变化数据并且不再需要在订阅者视图中显示变化数据时,你需要删除订阅者视图并清除CDC窗口,这样你才可以建立(扩展)新的窗口来查看新的变化数据。删除已有的订阅者视图,使用DBMS_LOGMNR_CDC_SUBSCRIBE.DROP_SUBSCRIBER_VIEW过程。在你可以清除旧的CDC窗口并建立新窗口之前,你需要逐个删除子订阅的每个订阅者视图。

EXECUTE -
DBMS_LOGMNR_CDC_SUBSCRIBE
.DROP_SUBSCRIBER_VIEW( -
SUBSCRIPTION_HANDLE =>:sh_sales, -
SOURCE_SCHEMA=>'SALES_OP', -
SOURCE_TABLE=>'PRICE_LIST');

EXECUTE -
DBMS_LOGMNR_CDC_SUBSCRIBE
.DROP_SUBSCRIBER_VIEW( -
SUBSCRIPTION_HANDLE =>:sh_sales, -
SOURCE_SCHEMA=>'SALES_OP', -
SOURCE_TABLE=>'SALES_TRAN');
 
删除订阅者视图后,你就可以清除窗口。使用DBMS_LOGMNR_CDC_SUBSCRIBE. PURGE_WINDOW过程来清除窗口:

EXECUTE -
DBMS_LOGMNR_CDC_SUBSCRIBE.PURGE_WINDOW( -
SUBSCRIPTION_HANDLE=>:sh_sales);

10.重复第6到第9步以查看新数据

要定期提取变化数据,你需要重复第6到第9步。如果你每日都要提取变化数据,你的每日(最好在晚上)数据提取工作将包括建立订阅窗口(EXTEND_WINDOW)、准备订阅者视图(PREPARE_SUBSCRIBER_VIEW)、从订阅者视图中访问数据、删除订阅者视图(DROP_SUBSCRIBER_VIEW)、清除窗口(PURGE_WINDOW)。

步骤总结

第1步到第5步是配置步骤,对于一个给定的发布者/订阅者环境只需要设置一次。定期执行第6到第9步,以从源系统中提取越来越多的变化数据。