Telend から Jedox(Palo)(ExcelベースBI) にデータを投入する [BI]
※2012/02/28追加 Paloは商用版の名称を会社名のJedoxに変更しました。よってJedox(Palo)と併記しています。
業務の合間を縫ってJedox(Palo)をいじってます。たのしー。(*ρ*)
テストDBを作成するためにExcelからキューブにデータを登録する関数(PALO.SETDATAとかなんとか)を使用してみましたが、ロードが遅く(おそらく数百/s)数百万件以上の読み込みには耐えられないと判断、早速Talendで読み込ませる設定を試してみました。ちなみにJedox(Palo)にも付属のETLツールがありますが試していないので使用感は不明です。
なんか若干コツがあります。
・Talend Open Studio 4.1.1における受け側コンポーネントとしては tPaloOutputMulti と tPaloOutput がありますが、tPaloOutputはhttp://www.talendforge.org/forum/viewtopic.php?id=2354 に書かれている通り、なんかいろいろ設定が必要っぽいのでtPaloOutputMulti を使用しました。
・自分がうまくいったスキーマはキューブのdimensionと同順に並べて、最終行にMeasureを並べるスキーマです。順番変えてもコラム名合わせたらいけるかなと思ったんですがなんか失敗しました(--;;
・日付を食らわせる場合は”2010-11-11”などの形式を利用し、スラッシュなどは使わない。一応Jedox(Palo)側ではエレメントの命名規則としてスラッシュ禁止になっています。
・同一dimensionを使用するMeasureが複数ある場合はDatatypeのようなdimensionを用意してそれで値を切り替えたほうがDB容量の圧縮に効くかもしれません。今はまだ試してみませんが、その場合tMapで振り分ければコンポーネントを大量にコピペすることなくできると思います。
・Talendにて3万件/sのスピードは出ています
早くもクセが分かってきました。ちゃんとしたDMができたら即公開できそうです。
業務の合間を縫ってJedox(Palo)をいじってます。たのしー。(*ρ*)
テストDBを作成するためにExcelからキューブにデータを登録する関数(PALO.SETDATAとかなんとか)を使用してみましたが、ロードが遅く(おそらく数百/s)数百万件以上の読み込みには耐えられないと判断、早速Talendで読み込ませる設定を試してみました。ちなみにJedox(Palo)にも付属のETLツールがありますが試していないので使用感は不明です。
なんか若干コツがあります。
・Talend Open Studio 4.1.1における受け側コンポーネントとしては tPaloOutputMulti と tPaloOutput がありますが、tPaloOutputはhttp://www.talendforge.org/forum/viewtopic.php?id=2354 に書かれている通り、なんかいろいろ設定が必要っぽいのでtPaloOutputMulti を使用しました。
・自分がうまくいったスキーマはキューブのdimensionと同順に並べて、最終行にMeasureを並べるスキーマです。順番変えてもコラム名合わせたらいけるかなと思ったんですがなんか失敗しました(--;;
・日付を食らわせる場合は”2010-11-11”などの形式を利用し、スラッシュなどは使わない。一応Jedox(Palo)側ではエレメントの命名規則としてスラッシュ禁止になっています。
・同一dimensionを使用するMeasureが複数ある場合はDatatypeのようなdimensionを用意してそれで値を切り替えたほうがDB容量の圧縮に効くかもしれません。今はまだ試してみませんが、その場合tMapで振り分ければコンポーネントを大量にコピペすることなくできると思います。
・Talendにて3万件/sのスピードは出ています
早くもクセが分かってきました。ちゃんとしたDMができたら即公開できそうです。
コメント 0