SSブログ

Talend Open Studio (ETLツール) でデータ統合(1) [BI]

JasperserverでBIを動かすところまで行ったんですが、やっぱり思ったのはデータ解析はデータの準備が全てで、如何に素晴らしいグラフを出力しようと、そのデータ準備を手作業でやっているレベルではとてもじゃないが世界レベルには太刀打ちできません。

ということでJasperと同時に真面目にETLツールに取り組んでみることにしました。JasperにはJasperETLというツールが付属しているのですが、それはもともとTalendという会社のTalend Open Studio です。JasperETLはそれの古いバージョンで、あくまでJasperETLはJasperserverと独立したSWであって特に素晴らしい連携が生まれるわけではないのでTalend Open Studio でETLを勉強してみることにしました。

進んでいるんですが、いろいろハマっているのでとりあえずたどり着いたところまで書いておきます。ちなみに基本は素直な動作で、キチンとした型を定義してきちんと次のプロセスにまわせばちゃんと動きます。

○大まかなながれ(ファイルのインポートからMySQLやAccessなどのDBにファイルを登録する)
Jobを作成(テスト用ならとりあえず名前を入れといて、RoleやDescriptionはテキトーで良いと思います)

Input系とOutput系のコンポーネントを組み合わせて入出力を規定、データの受け渡しは出力コンポーネント内のスキーマで定義します(入力側で入力のデータ定義をできますが、出力側でやると入力出力を同時に定義できるので便利です)。コンポーネント同士は右クリックして繋げます。その時ドラッグではなく単なるクリックでいろんな条件で次のコンポーネントに回すことが可能になります。
自分の目的としてはテキストファイルからの読み込みなのですが、delimiterのInputを1行づつレコードしていくJobにしてしまうと200row/sぐらいのスピードしか出ないので、*Bulk*というコンポーネントを使用します。これでのインポート・エクスポートは結構早いです。

次回は文字コード・言語の話です。
タグ:Talend ETL TOS
nice!(0)  コメント(0)  トラックバック(0) 
共通テーマ:パソコン・インターネット

nice! 0

コメント 0

コメントを書く

お名前:
URL:
コメント:
画像認証:
下の画像に表示されている文字を入力してください。

トラックバック 0

この広告は前回の更新から一定期間経過したブログに表示されています。更新すると自動で解除されます。