Apakah Menggunakan Dataset Open-Source untuk Melatih AI Melanggar Hak Cipta?
1. Pengantar: Open-Source Bukan Berarti “Bebas Hak Cipta”
Sebagian besar model AI generatif saat ini dilatih menggunakan dataset seperti:
-
LAION-5B
-
COCO
-
ImageNet
-
OpenImages
-
dataset buatan komunitas
Dataset ini sering disebut open-source, sehingga banyak orang mengira bahwa penggunaannya otomatis legal.
Namun secara hukum:
❌ open-source ≠ bebas hak cipta
❌ open-source ≠ otomatis boleh digunakan untuk training
❌ open-source ≠ tanpa risiko hukum
Bahkan dalam tesis saya dijelaskan bahwa:
“Dataset open-source memiliki probabilitas sangat tinggi untuk memuat karya berhak cipta yang dikumpulkan tanpa izin.”
Karena itu, menggunakan dataset open-source untuk melatih AI tidak otomatis aman.
2. Apa Itu Dataset Open-Source? (Faktanya Tidak Sesederhana Namanya)
Dataset open-source biasanya:
-
dikumpulkan oleh komunitas
-
berisi miliaran gambar yang di-scrape dari internet
-
tidak diperiksa satu per satu legalitasnya
-
tidak menjamin bahwa gambar di dalamnya memiliki lisensi terbuka
Contoh: LAION-5B
Dataset terbesar untuk melatih Stable Diffusion.
Namun:
LAION tidak memiliki izin dari pencipta konten yang dikumpulkan.
LAION hanya memberikan metadata, bukan lisensi penggunaan konten.
3. Apakah Menggunakan Dataset Open-Source Melanggar Hak Cipta?
Jawaban pendek: Seringkali YA.
Kenapa?
Karena dataset open-source:
-
mengambil karya dari internet tanpa izin
-
memuat karya berhak cipta milik ribuan seniman dan fotografer
-
digunakan untuk melatih model AI komersial
-
tidak memberikan kompensasi kepada pemilik karya
-
tidak mencantumkan atribusi
-
dapat menghasilkan output yang menyerupai karya asli
Ini sesuai dengan 3 pelanggaran dalam UU Hak Cipta Indonesia:
❌ Pelanggaran hak ekonomi (Pasal 8, 9)
❌ Pelanggaran hak moral (Pasal 5, 7)
❌ Pelanggaran pidana jika digunakan komersial (Pasal 113)
4. Kenapa Open-Source Data Mining Sering Menyalahi Hukum?
Karena scraping dilakukan secara otomatis dengan crawler.
Scraper tidak bisa membedakan:
-
karya CC0 (bebas pakai)
-
karya berlisensi
-
karya pribadi
-
karya komersial
-
karya yang dilarang digunakan ulang
Akhirnya dataset AI berisi:
✔ karya fotografi profesional
✔ ilustrasi berlisensi
✔ karya seni digital
✔ foto pribadi
✔ bahkan data sensitif
tanpa izin pemiliknya.
5. Pandangan Internasional Tentang Dataset Open-Source
Amerika Serikat
Perusahaan AI masih mengklaim “fair use”, tetapi:
-
pengadilan belum memutuskan
-
banyak akademisi berpendapat bahwa training adalah reproduction
-
open-source dataset tidak otomatis fair use
Kasus Getty Images vs Stability AI menunjukkan bahwa:
Penggunaan dataset open-source yang berisi gambar Getty tetap dianggap pelanggaran.
Uni Eropa
Uni Eropa sangat ketat:
-
EU Copyright Directive mengizinkan Text and Data Mining (TDM) tetapi dengan syarat:
👉 pemilik hak dapat opt-out
👉 AI komersial harus memastikan konten tidak berlisensi
Dengan EU AI Act 2024:
Perusahaan AI wajib mengungkapkan dataset training, sehingga penggunaan dataset open-source ilegal akan mudah terdeteksi.
Jepang
Lebih longgar: AI training secara umum diperbolehkan.
Tapi tetap dilarang jika:
-
merugikan pemilik karya
-
digunakan secara komersial dalam bentuk yang meniru karya asli
6. Apakah Open-Source Dataset Aman Jika Dipakai untuk AI Komersial?
Tidak.
Justru semakin besar skala komersialnya, semakin besar risiko hukum.
Pengembang AI berpotensi digugat jika:
-
dataset memuat karya berhak cipta
-
pengguna AI menghasilkan output mirip karya tertentu
-
AI mengambil nilai ekonomi dari karya kreator
-
dataset tidak memiliki mekanisme opt-out
-
tidak ada kompensasi atau lisensi
7. Bagaimana Cara Menggunakan Dataset Secara Legal?
Berikut pendekatan yang disarankan:
✔ 1. Gunakan dataset yang jelas lisensinya
CC0, public domain, atau lisensi eksplisit.
✔ 2. Buat dataset sendiri
Menggunakan konten yang memiliki izin legal.
✔ 3. Buat kesepakatan lisensi dengan pemilik karya
Model seperti Shutterstock x OpenAI.
✔ 4. Gunakan dataset dengan dokumentasi penggunaan
Transparansi diperlukan untuk audit hukum.
✔ 5. Terapkan mekanisme opt-out bagi seniman
Sesuai praktik Uni Eropa.
8. Kesimpulan
Apakah menggunakan dataset open-source untuk AI melanggar hak cipta?
➡ Seringkali YA, jika dataset memuat karya tanpa izin.
Apakah open-source berarti legal?
➡ Tidak. Open-source ≠ bebas hak cipta.
Apakah developer AI dapat dituntut?
➡ YA, terutama jika dataset mengandung karya yang digunakan tanpa persetujuan.
Apa solusi aman?
✔ dataset legal
✔ lisensi
✔ kompensasi
✔ transparansi
Menggunakan dataset open-source tanpa memeriksa isinya adalah risiko hukum terbesar dalam pengembangan AI modern.
Comments
Post a Comment