Data warehouse adalah sebuah teknologi yang memungkinkan data dapat diakses dengan mudah dan efisien untuk mendukung pengambilan keputusan.
Menurut Bill Inmon, data yang disimpan didalam data warehouse ini memiliki empat karakteristik, yaitu :
1. Subject oriented, data yang disimpan disesuaikan dengan proses bisnisnya
2. Integrated, semua data diintegrasikan kedalam satu media penyimpanan, dalam hal ini adalah database yang sangat besar, dimana formatnya diseragamkan,
4. Non-volatile, data cenderung tidak berubah.
Komponen Utama Data Warehouse
Tiga komponen utama Data Warehouse yaitu :
1. Data staging area Dalam tahap ini, data diolah dari sumbernya untuk siap menjawab query. Prosesnya terdiri dari extract,transform,load (ETL).
2. Data presentation area Dalam tahap ini, data diorganisasikan, disimpan dan dapat menjamin ketersediaannya akan segala kebutuhan query. Selain itu disini dilakukan juga penulisan laporan dan kebutuhan aplikasi untuk analisis selanjutnya.
3. Data access tools Penyediaan interface untuk penggunaan aplikasi untuk query data
Distributed Data Warehouse
Distributed data warehouse merupakan kumpulan data store yang dibangun secara terpisah yang digabungkan secara fisik melalui jaringan. Tujuannya adalah agar komponen-komponen yang terpisah ini terlihat sebagai satu kesatuan utuh sebuah sistem data warehouse . Suatu enterprise data warehousedapat dibentuk dari kumpulan data mart yang terpisah, jadi tidak selalu membentuk sistem yang terpusat tetapi juga bisa terdistribusi.
Dengan kecenderungan data-oriented, data pada suatu perusahaan atau organisasi seharusnya merupakan data yang widely-shareable.
Dengan kecenderungan data-oriented, data pada suatu perusahaan atau organisasi seharusnya merupakan data yang widely-shareable.
Tipe-tipe distributed data warehouse :
1. Dengan local dan global data warehouse
Local Data Warehouse merepresentasikan data dan proses-proses pada remote site. Sedangkan global Data Warehouse merepresentasikan bagian dari bisnis yang diintegrasikan.
2. Technologically Distributed Data Warehouse
Menunjukkan bahwa secara logic, ini merupakan single dw tapi pada kenyataannya secara fisik terdapat beberapa dw yang diintegrasikan yang berasal dari beberapa prosesor/site yang berbeda.
3. Independently evolving Distributed Data Warehouse
Setiap bagian dari distributed data warehouse, memiliki otonomi untuk mengatur dan mengembangkan bisnisnya tanpa harus memperhatikan bagian yang lain.
Arsitektur Distributed Data Warehouse
Distributed data warehouse terbentuk dari beberapa data mart yang diintegrasikan. Setiap data mart ini memiliki skema ETL yang terpisah, bisa jadi satu data mart dengan data mart lainnya berbeda, tetapi tidak menutup kemungkinkan dimana skema ETLnya sama, tergantung proses bisnis yang terjadi didalamnya. Disini kita mengenal local data warehouse dan global data warehouse. Dalam beberapa kasus, bagian data warehouse bisa berada di lingkungan terpusat (global) sekaligus terdistribusi (local). Contohnya, suatu perusahaan yang besar yang memiliki cabang yang tersebar di beberapa kota. Mereka membutuhkan global data warehouse sebagai tempat informasi yang dikumpulkan. Sedangkan local data warehouse diperlukan untuk menangani masalah bisnis yang terjadi ditiap cabangnya. Sehingga dapat dikatakan bahwa distributed data warehouse ini memberikan otonomi kepada tiap local areanya untuk menjawab persoalan bisnisnya sendiri. Setiap local data warehouse, dalam hal ini data mart, dapat melakukan pekerjaannya dengan implementasi sendiri tanpa mengetahui apa yang sedang dilakukan data meart lainnya. Dalam distributed data warehouse ini, share informasi hanya dilakukan oleh local data warehouse dengan global data warehouse. Jadi tidak terjadi pertukaran informasi antar local data warehouse. Akan tetapi, disini semua data mart harus didesain untuk bekerja secara bersamaan menjadi satu warehouse yang utuh.
Kelebihan Datawarehouse :
· Data terorganisir dengan baik untuk query analisis dan sebagai bahan yang baik untuk proses transaksi.
· Perbedaan struktur data yang banyak macamnya dari sumber yang berbeda dapat di atasi.
· Memiliki aturan transformasi untuk memvalidasi dan menkonsolidasi data dari oltp ke datawarehouse.
· Masalah keamanan dan kinerja dapat dipecahkan tanpa perlu mengubah sistem produksi.
· Memiliki model data yang banyak macamnya, dan tidak tergantung dari format data awal/sumbernya, sehingga memudahkan dalam menciptakan laporan.
· Proses transformasi/ perpindahan dapat di monitoring. Jika terjadi kesalahan dapat di arahkan / di luruskan.
· Informasi yang disimpan dalam datawarehouse, jadi ketika oltp data sumber nya hilang.
· nformasi yang diolah tetap terjaga dalam suatu datawarehouse.
· Datawarehose tidak memperlambat kerja operasional transaksi.
· Dapat menyediakan laporan yang bermacam-macam
Kekurangan Datawarehouse :
· Datawarehouse bukan merupakan lingkungan yang cocok untuk data yang tidak terstruktur.
· Data perlu di ekstrak, diubah (etl) dan di load ke datawarehouse sehingga membutuhkan tenggang waktu untuk memindahkannya.
· Semakin lama dipelihara, semakin besar biaya untuk merawat sebuah datawarehouse.
· Datawarehouse dapat menjadi ketinggalan dari data terbaru yang relatif cepat, karena data yang digunakan di datawarehouse tidak di update secara cepat. Sehingga data yang ada tidak optimal.
Perancangan data warehouse konseptual
Perancangan data warehouse konseptual adalah sebuah proses untuk membangun model data
warehouse yang disajikan dalam bentuk model multidimensi. Penelitian-penelitian mengenai perancangan data warehouse konseptual telah mulai memperoleh lebih banyak perhatian dari komunitas database sejak akhir tahun 1990an dengan sasaran untuk membangun sebuah skema konseptual yang dapat dimengerti baik oleh pengguna maupun system analis sekaligus memberikan basis untuk tahapantahapan proses perancangan selanjutnya.
Beberapa penelitian telah dilaksanakan untuk pengembangan metodologi perancangan model data warehouse konseptual berdasarkan model ER. Secara umum, metodologi yang digunakan dapat diklasifikasikan ke dalam dua kategori berdasarkan pendekatan perancangannya, yakni perluasan ER dan transformasi ER. Pendekatan perluasan ER menggunakan model ER sebagai input dan memperluasnya dengan komponen-kompnen tambahan sedemikian hingga model tersebut dapat dipetakan ke model multidimensi.
Beberapa penelitian yang menggunakan pendekatan ini antara lain:
1. Multidimensional Entity Relationship (ME/R)
2. Structured Entity Relationship Model (SERM)
3. Event-Entity-Relationship model (EVER)
Pendekatan transformasi ER juga menggunakan model ER sebagai input, tetapi tidak dengan memperluas konstruksi ER melainkan mentransformasi model ER itu secara berangsurangsur menjadi model multidimensi menggunakan teknik dan algoritma yang berbeda-beda. Tujuan pendekatan ini adalah untuk memformulasikan sebuah metodologi untuk mengembangkan perancangan data warehouse konseptual. Komunitas penelitian database telah memulai kerja-kerja riset dalam konteks ini sejak akhir tahun 1990an dengan penelitian.
Ada empat tugas yang bisa dilakukan dengan adanya data warehouse menurut Williams, keempat tugas tersebut yaitu:
- Pembuatan laporan
Pembuatan laporan merupakan salah satu kegunaan data warehouse yang paling umum dilakukan. Dengan menggunakan query sederhana didapatkan laporan perhari,perbulan, pertahun atau jangka waktu kapanpun yang diinginkan.
- On-Line Analytical Processing (OLAP)
Dengan adanya data warehouse,semua informasi baik detail maupun hasil summary yang dibutuhkan dalam proses analisa mudah didapat.
OLAP mendayagunakan konsep data multi dimensi dan memungkinkan para pemakai menganalisa data sampai mendetail, tanpa mengetikkan satupun perintah SQL. Hal ini dimungkinkan karena pada konsep multi dimensi, maka data yang berupa fakta yang sama bisa dilihat dengan menggunakan fungsi yang berbeda. Fasilitas lain yang ada pada sofware OLAP adalah fasilitas rool-up dan drill-down. Drill-down adalah kemampuan untuk melihat detail dari suatu informasi dan roll-up adalah kebalikannya.
- Data mining
Data mining merupakan proses untuk menggali(mining) pengetahuan dan informasi baru dari data yang berjumlah banyak pada data warehouse, dengan menggunakan kecerdasan buatan (Artificial Intelegence), statistik dan matematika. Data mining merupakan teknologi yang diharapkan dapat menjembatani komunikasi antara data dan pemakainya.
Beberapa solusi yang diberikan data mining antara lain :
1. Menebak target pasar
Data mining dapat mengelompokkan (clustering) model-model pembeli dan melakukan klasifikasi terhadap setiap pembeli dan melakukan klasifikasi terhadap setiap pemebeli sesuai dengan karakteristik yang diinginkan.
2. Melihat pola beli dari waktu ke waktu
Data mining dapat digunakan untuk melihat pola beli dari waktu ke waktu.
3. cross-market analysis
Data mining dapat dimanfaatkan untuk melihat hubungan antara satu produk dengan produk lainnya.
4. Profil pelanggan
Data mining bisa membantu pengguna untuk melihat profil pembeli sehingga dapat diketahui kelompok pembeli tertentu cenderung kepada suatu produk apa saja.
5. Informasi summary
Data mining dapat membuat laporan summary yang bersifat multi dimensi dan dilengkapi dengan informasi statistik lainnya.
- Proses informasi executive
Data warehouse dapat membuat ringkasan informasi yang penting dengan tujuan membuat keputusan bisnis, tanpa harus menjelajahi keseluruhan data. Dengan menggunakan data warehouse segala laporan telah diringkas dan dapat pula mengetahui segala rinciannya secara lengkap, sehingga mempermudah proses pengambilan keputusan. Informasi dan data pada laporan data warehouse menjadi target informative bagi user.
Pendekatan Berorientasi Transformasi
Pendekatan berorientasi-transformasi yang digunakan pada penelitian ini secara progresif mentransformasi sebuah model ER menjadi model multidimensi dalam lima tahapan. Untuk setiap tahapan akan ada berbagai atruran transformasi yang diterapkan pada input untuk memperoleh output yang diinginkan. Sebagian aturan transformasi tersebut ada dalam bentuk aturan sintaks, sedangkan yang lainnya dapat berbentuk aturan sintesis dan diagnosis.
kelima tahapan proses transformasi tersebut, yang terdiri dari: penerjemahan model ER menjadi model bahasa spesifikasi, transformasi model bahasa spesifikasi menjadi model domain masalah, ekspansi model domain masalah, transformasi model domain masalah menjadi model multidimensi, dan perbaikan model multidimensi.
Tahap pertama dilakukan dengan bantuan satu set aturan sintaks. Tahap kedua dan seterusnya
berinteraksi dengan sebuah basis pengetahuan yang berfungsi sebagai tempat penyimpanan fakta.
Interaksi diantara tahapan-tahapan itu dan basis pengetahuan dikendalikan oleh sekumpulan aturan sintesis dan diagnosis, yang tersimpan di dalam sebuah tempat penyimpanan aturan. Aturan-aturan ini berfungsi untuk mempertahankan integritas basis pengetahuan dengan cara menyelesaikan ketidak konsistenan yang disebabkan oleh tahapan-tahapan yang berinteraksi.Agar sistem memahami sifat-sifat dan kandungan semantik dari model ER sebelum pemrosesan, model ER yang disajikan dalam bentuk diagram ER, diterjemahkan ke dalam bentuk yang dapat dibaca program. Untuk ini kami mengajukan sebuah model bahasa spesifikasi dan parser sederhana untuk membantu transformasi. Dalam proses transformasi, tiap entiti dalam model ER dipetakan ke sebuah struktur kelas di dalam model bahasa spesifikasi dimana nama entiti menjadi nama kelas dan sifat-sifat entiti sebagai sifat-sifat kelas. Sebagai contoh, jika sebuah entiti Student memiliki sifat-sifat berikut:
sebuah atribut Class, sebuah subklas GRAD_STUDENT, dan satu himpunan relationship, maka model bahasa spesifikasinya akan berupa:
CLASS "STUDENT"
ATTRIBUTE (("Class": Integer))
IDENTIFIER NIL
SUBCLASS ("GRAD_STUDENT")
AGGREGATION NIL
RELATIONSHIP
(("Minor" "DEPARTMENT" "NIL" "(1 1)" "(1 n)")\
("Major" "DEPARTMENT" "NIL" "(1 1)" "(1 n)")\
("Registered" "CURRENT_SECTION" "(("Count":
Integer))" "(1 n)" "(1 m)")\
("Transcript" "SECTION" "(("Grade": Float))"
"(1 n)" "(1 m)"))
End-Class
Selain dari ketiga buah sifat seperti dinyatakan di atas, model ini juga mencatat sifat-sifat lain seperti identifier dan agrregation, yang dalam hal ini diberi harga NIL karena entiti Student tidak memiliki sifat ini. Dengan menggunakan model ini, pengguna dapat memberikan jenis data tiap atribut, misalnya atribut Class pada contoh di atas diberi jenis data integer.
Bagian relationship pada model bahasa spesifikasi di atas terdiri dari lima bagian: nama, relationship, entity yang berpartisipasi, atribut relationship, dan kendala pertama dan kedua relationship dalam format (min, max). Model bahasa spesifikasi yang diformulasikan di atas kemudian ditransformasi menjadi model domain masalah awal. Sistem yang digunakan mengikuti pendekatan berbasis pengetahuan untuk menyimpan model domain masalah tersebut dimana setiap fakta yang merepresentasikan domain masalah dituliskan dalam bentuk triplet (Property Entity Value).
Dengan menggunakan representasi ini, domain masalah awal yang dibuat dari entiti Student di atas dapat dijabarkan sebagai berikut:
(Has-Attribute “STUDENT” ((“Class”: Integer)))
(Has-Subclass “STUDENT” (“GRAD_STUDENT”))
(Has-Relationship “STUDENT”
((“Minor”, “DEPARTMENT” “NIL” “(1 1)” “(1 n)”)
(“Major”, “DEPARTMENT” “NIL” “(1 1)” “(1 n)”)
(“Registered”, “CURRENT_SECTION” “((“Count”:
Integer))” “(1 n)” “(1 m)”)
(“Transcript”, “SECTION” “((“Grade”: Float))” “(1 n)”
“(1 m)”))
Pada tahapan berikutnya, domain masalah awal tersebut diekspansi lebih lanjut menggunakan satu set aturan sintesis dan diagnosis. Akhirnya, dalam dua tahapan terakhir, diperoleh model multidimensi dan perbaikan yang diinginkan dapat dilakukan untuk memenuhi keperluan user yang spesifik.
Beda datawirehouse dan Data mining
Data warehouse merupakan suatu sistem yang mengkonsolidasikan data secara periodik dari sistem-sistem yang ada (OLTP) ke dalam suatu penyimpanan dimensional. Pada umumnya, data warehouse menyimpan data histori beberapa tahun dan di-quey untuk keperluan business intelligence atau aktifitas analisis lainnya. Data warehouse diremajakan secara batch, tidak serta-merta setiap terjadinya transaksi pada sistem-sistem sumber tersebut.
Data Mining disebut juga knowledge discovery karena merupakan bidang yang berupaya untuk menemukan informasi yang punya arti dan berguna dari jumlah data yang besar. Data mining merupakan suatu proses yang interaktif atau terotomatisasi untuk menemukan pola (pattern) data tersebut dan memprediksi kelakuan (trend) di masa mendatang berdasarkan pola data tersebut.
Dari penjelasan di atas terlihat jelas perbedaan antara data warehouse dibandingkan business intelligence ataupun data mining.
0 komentar:
Posting Komentar