Databricksコネクタ構成ガイド
この記事では、Databricksコネクタの構成方法について説明します。
このコネクタは、左側のナビゲーションでコネクタをクリックすることで利用可能な新しいコネクタインターフェースを使用してのみ利用可能です。
アクション
アクション名 | AudienceStream | EventStream |
---|---|---|
全イベントデータ送信 | ✗ | ✓ |
カスタムイベントデータ送信 | ✗ | ✓ |
全訪問データ送信 | ✓ | ✗ |
カスタム訪問データ送信 | ✓ | ✗ |
動作原理
Databricksコネクタは、2つの接続セットを必要とします:
- Tealiumから互換性のあるクラウド保存ソリューション(AWS S3、Azure Blob Storage、またはGoogle Cloud Storage)への接続。
- Databricksからその同じクラウド保存ソリューションへの接続。
Tealiumからクラウド保存への接続
Tealiumは、イベントデータとオーディエンスデータをクラウド保存のオブジェクトやファイルにアップロードするために、AWS S3、Azure Blob Storage、またはGoogle Cloud Storageインスタンスへの接続を必要とします。Databricksコネクタの認証には以下のオプションがあります:
- AWS S3
- アクセスキーとアクセスシークレットを提供します。
- STS(セキュリティトークンサービス)の認証情報を提供します。
- Azure Blob Storage
- クライアント認証情報。
- 認証コードフロー(SSO)。
- 共有アクセス署名(SAS)。
- Google Cloud Storage
- Googleでサインイン(SSO)。
AWS S3構成
アクセスキーとシークレット認証情報
AWSアクセスキーとシークレットを見つけるには:
- AWS管理コンソールにログインし、IAM(Identity and Access Management)サービスに移動します。
- ユーザーをクリックし、次にユーザーを追加をクリックします。
- ユーザー名を入力します。例えば、
TealiumS3User
。 - 作成したユーザーにポリシーをアタッチします。
- 権限タブで既存のポリシーを直接アタッチをクリックします。
AmazonS3FullAccess
ポリシーを検索してアタッチします。これにより完全なアクセスが可能になります。特定のバケットへのアクセスを制限したい場合は、以下の例のようにポリシーを記述することができます。この例では、YOUR_BUCKET_NAME
はTealiumがS3オブジェクトにイベントデータとオーディエンスデータをアップロードするために使用するバケットです。{ "Version": "2012-10-17", "Statement": [ { "Effect": "Allow", "Action": [ "s3:ListBucket", "s3:PutObject", "s3:GetObject", "s3:ListBucketMultipartUploads", "s3:ListMultipartUploadParts" ], "Resource": [ "arn:aws:s3:::YOUR_BUCKET_NAME", "arn:aws:s3:::YOUR_BUCKET_NAME/*" ] } ] }
- キーを作成します。
- セキュリティ認証情報タブに移動し、アクセスキーの作成をクリックします。
- アクセスキーIDとシークレットアクセスキーをコピーして安全に保存します。
STS認証情報構成
- AWS管理コンソールにログインし、IAM(Identity and Access Management)サービスに移動します。
- ロールをクリックし、次にロールの作成をクリックします。
- 信頼されたエンティティのタイプで、AWSアカウントを選択します。
- 別のAWSアカウントを選択し、TealiumアカウントID:
757913464184
を指定します。 - オプション。外部IDが必要チェックボックスをオンにし、使用したい外部IDを指定します。外部IDは256文字までの長さで、英数字(
A-Z
,a-z
,0-9
)およびハイフン(-
)、アンダースコア(_
)、ピリオド(.
)などの記号を含むことができます。 - ロールに名前を付けます。ロール名は
tealium-databricks
で始まる必要があります。例えば、tealium-databricks-s3-test
。 - ロールにポリシーをアタッチします。
- 権限タブで既存のポリシーを直接アタッチをクリックします。
AmazonS3FullAccess
ポリシーを検索してアタッチします。これにより完全なアクセスが可能になります。特定のバケットへのアクセスを制限したい場合は、以下の例のようにポリシーを記述することができます。この例では、YOUR_BUCKET_NAME
はTealiumがS3オブジェクトにイベントデータとオーディエンスデータをアップロードするために使用するバケットです。{ "Version": "2012-10-17", "Statement": [ { "Effect": "Allow", "Action": [ "s3:ListBucket", "s3:PutObject", "s3:GetObject", "s3:ListBucketMultipartUploads", "s3:ListMultipartUploadParts" ], "Resource": [ "arn:aws:s3:::YOUR_BUCKET_NAME", "arn:aws:s3:::YOUR_BUCKET_NAME/*" ] } ] }
- 信頼ポリシーを作成します。
- 信頼関係タブに移動し、信頼関係の編集をクリックします。
- 信頼ポリシーが作成したロールに特定の外部IDを許可し、Tealiumの本番アカウントIDが
757913464184
であることを確認します。 - Tealiumへの接続のための
EXTERNAL_ID
値を構成します。IDは256文字までの長さで、英数字(A-Z
,a-z
,0-9
)およびハイフン(-
)、アンダースコア(_
)、ピリオド(.
)などの記号を含むことができます。
{
"Version": "2012-10-17",
"Statement": [
{
"Effect": "Allow",
"Principal": {
"AWS": "arn:aws:iam::757913464184:root"
},
"Action": "sts:AssumeRole",
"Condition": {
"StringEquals": {
"sts:ExternalId": "EXTERNAL_ID"
}
}
}
]
}
Azure Blob Storage構成
クライアント認証情報
AzureでアプリケーションのテナントID、クライアントID、クライアントシークレットを取得するには、次の手順を使用します:
ステップ1: Azureポータルにアクセス
- Azureポータルに行きます。
- Azureアカウントでサインインします。
ステップ2: アプリ登録に移動
- 上部の検索バーに
Azure Active Directory
を入力して選択します。 - 左メニューでアプリ登録をクリックします。
- 登録済みのアプリケーションを探します。
ステップ3: テナントIDとクライアントIDを見つける
- アプリケーションをクリックします。
- 概要セクションで、以下の情報を探します:
- テナントID(ディレクトリIDとも呼ばれます)はテナントIDの下にリストされています。
- クライアントID(アプリケーションIDとも呼ばれます)はアプリケーション(クライアント)IDとして表示されます。
ステップ4: クライアントシークレットを生成
- 左メニューで証明書とシークレットに移動します。
- クライアントシークレットの下で新しいクライアントシークレットをクリックします。
- 説明を入力し、有効期限を選択します。
- 追加をクリックします。
- 生成されたら、ページを離れる前にすぐにクライアントシークレットをコピーします。
共有アクセス署名(SAS)
Azureで共有アクセス署名(SAS)トークンを生成するには、以下の手順を使用します:
ステップ1:Azureポータルにアクセス
- Azureポータルにアクセスします。
- Azureアカウントでサインインします。
ステップ2:保存アカウントに移動
- 検索バーに「Storage accounts」と入力して選択します。
- SASトークンを生成したい保存アカウントを選択します。
ステップ3:SASトークンを生成
オプション1:Azureポータルを使用
- 保存アカウントで、セキュリティ + ネットワーキングセクションの下にある共有アクセス署名に移動します。
- 必要な権限(
Read
、Write
、Delete
、List
など)を構成します。 - トークンの有効期限を構成して、トークンが有効である期間を定義します。
- 許可されるサービス(
Blob
、File
、Queue
、Table
)を選択します。 - Generate SAS and connection stringをクリックします。
- SASトークンまたはSASトークンが含まれる接続文字列をコピーします。
オプション2:Azure Storage Explorerを使用
- Azure Storage Explorerを開き、Azureアカウントでサインインします。
- 保存アカウントを探して、Blob Containerまたはファイル共有を右クリックします。
- Get Shared Access Signatureを選択します。
- 権限と有効期限の構成を構成します。
- Createをクリックして生成されたSAS URLまたはトークンをコピーします。
オプション3:Azure CLIを使用
- Azure CLIで以下のコマンドを実行してSASトークンを生成します:
az storage blob generate-sas \
--account-name <your-storage-account> \
--container-name <your-container> \
--name <your-blob> \
--permissions r \
--expiry 2026-04-25T12:00:00Z \
--output tsv
これにより、制御されたアクセスを提供するために保存URLに追加できるSASトークンが出力されます。
認証コードフロー(SSO)
Establish Connectionをクリックすると、Authorization Code Flowとして知られる安全な認証プロセスが開始されます。これにより、資格情報を手動で入力することなく、アプリケーションがAzure Blob Storageへのアクセスを得ることができます。これにより、シームレスで安全な体験が保証されます。
次のように表示されます:
- サインインにリダイレクト: 一時的に組織のIdentity Provider(IdP)、例えばAzure Active Directoryにリダイレクトされ、既存の資格情報を使用してログインします。
- 同意の付与: 認証後、Tealiumのアプリがリクエストしている権限—具体的にはBlob Storageへのアクセス—を説明する同意画面が表示されます。
- Blob Storageへの安全なアクセス: Tealiumのアプリケーションは、Azureのセキュリティポリシーを維持しながら保存とのやり取りを行う権限を持っています。
Amazon AWS S3
- リージョン: 必須。リージョンを選択してください。
- 認証タイプ: 必須。プラットフォームの認証タイプを選択してください:
- アクセスキーとアクセスシークレットを提供してください。
- アクセスキー - AWSアクセスキー: アクセスキー認証に必要です。AWSアクセスキーを提供してください。
- アクセスキー - AWSシークレットアクセスキー: アクセスキー認証に必要です。AWSシークレットアクセスキーを提供してください。
- STS(セキュリティトークンサービス)の認証情報を提供してください。
- STS - Assume Role: ARN: STS認証に必要です。引き受ける役割のAmazonリソースネーム(ARN)を提供してください。例:
arn:aws:iam:222222222222:role/myrole
。詳細については、AWS Identity and Access Management: Switch to an IAM role (AWS API)を参照してください。 - STS - Assume Role: Session Name: STS認証に必要です。引き受ける役割のセッション名を提供してください。最小長2、最大長64。
- STS - Assume Role: External ID: STS認証に必要です。第三者の外部識別子を提供してください。詳細については、AWS Identity and Access Management: Access to AWS accounts owned by third partiesを参照してください。
- STS - Assume Role: ARN: STS認証に必要です。引き受ける役割のAmazonリソースネーム(ARN)を提供してください。例:
- アクセスキーとアクセスシークレットを提供してください。
Azure Blob Storage
- テナントID: あなたの組織を代表するAzure Active Directoryインスタンスの一意の識別子。
- 認証タイプ: 認証タイプを選択してください。利用可能なオプションは、クライアント認証情報、認証コードフロー(SSO)、共有アクセス署名(SAS)です。
- クライアントID: Azure Active Directoryに登録されたアプリケーションに割り当てられた一意の識別子。
- クライアントシークレット: アプリケーションがAzure Active Directoryで認証するために使用するパスワードのような文字列。
- 共有アクセス署名: Tealiumによってリソースがどのようにアクセスされるかを示す特別なクエリパラメーターを提供してください。
- 保存アカウント名: Blob、File、Queue、Table保存などの保存サービスにアクセスするために使用されるAzure Storageアカウントの一意の名前。
- APIバージョン: あなたのAzure Storageインスタンスと互換性のあるAPIバージョン。デフォルトバージョンは
2025-01-05
です。
Google Cloud Storage
Googleでサインインをクリックし、画面の指示に従ってください。
ノートブックの作成
Databricksのノートブックは、実行可能なコード、ビジュアル化、およびナラティブテキストを含むドキュメントです。データの探索、可視化、および協力に使用されます。コネクタ構成では、新しいコネクタを作成する際に、構成ステップでノートブックの作成をクリックすることで新しいノートブックを作成するオプションがあります。
- コネクタ構成画面でノートブックの作成をクリックします。
- テーブル名を入力します。スキーマはジョブの作成時に指定されるため、このフィールドには追加しないでください。
- 名前には英数字 (
A-Z
,a-z
,0-9
) とアンダースコア (_
) を含めることができます。 - スペースや特殊文字(
!
,@
,#
,-
,.
など)は使用できません。 - 名前は大文字と小文字が区別されます。たとえば、
tableName
とtablename
は異なる名前とみなされます。 - 名前は数字で始めることはできません。たとえば、
1table
は無効です。
- 名前には英数字 (
- ノートブックパスには、ノートブックの絶対パスを入力してください。例:
/Users/user@example.com/project/NOTEBOOK_NAME
。- Databricksのノートブックの絶対パスを確認するには、Databricksのワークスペースにアクセスし、ユーザーセクションを展開します。
- ユーザーをクリックし、オプションメニューを展開します。
- URL/パスのコピー > 完全なパスをクリックします。パス名は次の形式になります:
/Workspace/Users/myemail@company.com
。希望の仮想フォルダとノートブック名をスラッシュ/
で区切って追加します。例:/Workspace/Users/myemail@company.com/virtualfolder/virtualsubfolder/MyNotebook
。
- クラウドバケットで、データの保存先として接続するGoogle Cloud Platform (GCP) の保存バケットを選択します。
- 上書きオプションは、指定されたワークスペースに既にノートブックが存在する場合にそれを上書きするかどうかを示します。
ジョブの作成
Databricksのジョブは、特定のスケジュールまたは特定のトリガーに基づいてノートブックを自動的に実行することを自動化します。ジョブを使用すると、定期的な間隔または特定のイベントがトリガーされたときに、データ処理、分析、レポート作成などのタスクを実行できます。
- コネクタ構成画面でジョブの作成をクリックします。
- 処理ジョブの名前を入力します。
- カタログで、パイプラインデータを公開するために使用するUnityカタログからカタログを指定します。
- ターゲットで、上記のカタログでテーブルを公開/更新するスキーマを指定します。ここではターゲットテーブルを指定しないでください。ノートブックで指定されたテーブルが使用されます。
- ノートブックパスには、ノートブックの絶対パスを入力してください。例:
/Users/user@example.com/project/NOTEBOOK_NAME
。- Databricksのノートブックの絶対パスを確認するには、Databricksのワークスペースにアクセスし、ユーザーセクションを展開します。
- ユーザーをクリックし、オプションメニューを展開します。
- URL/パスのコピー > 完全なパスをクリックします。パス名は次の形式になります:
/Workspace/Users/myemail@company.com
。希望の仮想フォルダとノートブック名をスラッシュ/
で区切って追加します。例:/Workspace/Users/myemail@company.com/virtualfolder/virtualsubfolder/MyNotebook
。
- クラウドバケットで、Databricksに接続するクラウド保存バケットを選択します。
- トリガータイプで、データを処理するタイミングを選択します。利用可能なオプションは以下の通りです:
- ファイル到着: 新しいファイルが到着するたびにデータを処理します。
- スケジュール: 指定したスケジュールでデータを定期的に処理します。
- Cron: Cronフィールドで定義したスケジュールでデータを定期的に処理します。
- 開始時間で、ジョブ処理の開始時間を
hh:mm
形式で指定します。開始時間のデフォルト値は00:00
です。 - タイムゾーンで、
country/city
形式でタイムゾーンを指定します。例:Europe/London
。開始時間を提供する場合、このフィールドは必須です。 - Cronで、スケジュール処理に使用するクォーツcron式を入力します。例えば
20 30 * * * ?
は、毎時、毎日、週の日、年の30分20秒にファイルを処理します。詳細については、Quartz: Cron Trigger Tutorialを参照してください。
アクション
次のセクションでは、各アクションでサポートされているパラメータをリストアップします。
イベントデータ全体の送信
パラメータ
パラメータ | 説明 |
---|---|
クラウドバケット | クラウドバケットを選択するか、カスタム値を提供してください。 |
Databricksカタログ | Databricksカタログを選択するか、カスタム値を提供してください。 |
Databricksスキーマ | Databricksスキーマを選択するか、カスタム値を提供してください。 |
Databricksテーブル | Databricksテーブルを選択するか、カスタム値を提供してください。 |
ペイロードを記録する列 | ペイロードを記録するための VARIANT 列を選択してください。 |
タイムスタンプを記録する列 | タイムスタンプを記録する列を選択してください。 |
タイムスタンプ属性 | デフォルトでは現在のタイムスタンプがアクションのために送信されます。異なる形式のタイムスタンプを送信したい場合は、属性を選択してください。属性が割り当てられて空の値を生成した場合、現在のタイムスタンプを送信します。 |
カスタムイベントデータの送信
パラメータ
パラメータ | 説明 |
---|---|
クラウドバケット | クラウドバケットを選択するか、カスタム値を提供してください。 |
Databricksカタログ | Databricksカタログを選択するか、カスタム値を提供してください。 |
Databricksスキーマ | Databricksスキーマを選択するか、カスタム値を提供してください。 |
Databricksテーブル | Databricksテーブルを選択するか、カスタム値を提供してください。 |
イベントパラメータ
Databricksテーブルの列にパラメータをマッピングします。少なくとも1つのパラメータをマッピングする必要があります。
訪問データ全体の送信
パラメータ
パラメータ | 説明 |
---|---|
クラウドバケット | クラウドバケットを選択するか、カスタム値を入力してください。 |
Databricks カタログ | Databricks カタログを選択するか、カスタム値を入力してください。 |
Databricks スキーマ | Databricks スキーマを選択するか、カスタム値を入力してください。 |
Databricks テーブル | Databricks テーブルを選択するか、カスタム値を入力してください。 |
訪問データを記録する列 | 訪問データを記録するための VARIANT 列を選択してください。 |
タイムスタンプを記録する列 | タイムスタンプを記録する列を選択してください。 |
タイムスタンプ属性 | デフォルトでは現在のタイムスタンプがアクションに送信されます。異なる形式を送信したい場合は、タイムスタンプとして割り当てる属性を選択してください。属性が割り当てられ、空の値が生成された場合は、現在のタイムスタンプを送信します。 |
訪問データに現在の訪問データを含める | 訪問データに現在の訪問データを含めるか選択してください。 |
カスタム訪問データの送信
パラメータ
パラメータ | 説明 |
---|---|
クラウドバケット | クラウドバケットを選択するか、カスタム値を入力してください。 |
Databricks カタログ | Databricks カタログを選択するか、カスタム値を入力してください。 |
Databricks スキーマ | Databricks スキーマを選択するか、カスタム値を入力してください。 |
Databricks テーブル | Databricks テーブルを選択するか、カスタム値を入力してください。 |
訪問パラメータ
Databricks テーブルの列にパラメータをマッピングしてください。少なくとも1つのパラメータをマッピングする必要があります。
最終更新日 :: 2025年July月10日