Apakah Menggunakan Dataset Open-Source untuk Melatih AI Melanggar Hak Cipta?

December 08, 2025

1. Pengantar: Open-Source Bukan Berarti “Bebas Hak Cipta”

Sebagian besar model AI generatif saat ini dilatih menggunakan dataset seperti:

LAION-5B
COCO
ImageNet
OpenImages
dataset buatan komunitas

Dataset ini sering disebut open-source, sehingga banyak orang mengira bahwa penggunaannya otomatis legal.

Namun secara hukum:

❌ open-source ≠ bebas hak cipta

❌ open-source ≠ otomatis boleh digunakan untuk training

❌ open-source ≠ tanpa risiko hukum

Bahkan dalam tesis saya dijelaskan bahwa:

“Dataset open-source memiliki probabilitas sangat tinggi untuk memuat karya berhak cipta yang dikumpulkan tanpa izin.”

Karena itu, menggunakan dataset open-source untuk melatih AI tidak otomatis aman.

2. Apa Itu Dataset Open-Source? (Faktanya Tidak Sesederhana Namanya)

Dataset open-source biasanya:

dikumpulkan oleh komunitas
berisi miliaran gambar yang di-scrape dari internet
tidak diperiksa satu per satu legalitasnya
tidak menjamin bahwa gambar di dalamnya memiliki lisensi terbuka

Contoh: LAION-5B
Dataset terbesar untuk melatih Stable Diffusion.

Namun:
LAION tidak memiliki izin dari pencipta konten yang dikumpulkan.

LAION hanya memberikan metadata, bukan lisensi penggunaan konten.

3. Apakah Menggunakan Dataset Open-Source Melanggar Hak Cipta?

Jawaban pendek: Seringkali YA.

Kenapa?

Karena dataset open-source:

mengambil karya dari internet tanpa izin
memuat karya berhak cipta milik ribuan seniman dan fotografer
digunakan untuk melatih model AI komersial
tidak memberikan kompensasi kepada pemilik karya
tidak mencantumkan atribusi
dapat menghasilkan output yang menyerupai karya asli

Ini sesuai dengan 3 pelanggaran dalam UU Hak Cipta Indonesia:

❌ Pelanggaran hak ekonomi (Pasal 8, 9)

❌ Pelanggaran hak moral (Pasal 5, 7)

❌ Pelanggaran pidana jika digunakan komersial (Pasal 113)

4. Kenapa Open-Source Data Mining Sering Menyalahi Hukum?

Karena scraping dilakukan secara otomatis dengan crawler.
Scraper tidak bisa membedakan:

karya CC0 (bebas pakai)
karya berlisensi
karya pribadi
karya komersial
karya yang dilarang digunakan ulang

Akhirnya dataset AI berisi:

✔ karya fotografi profesional
✔ ilustrasi berlisensi
✔ karya seni digital
✔ foto pribadi
✔ bahkan data sensitif

tanpa izin pemiliknya.

5. Pandangan Internasional Tentang Dataset Open-Source

Amerika Serikat

Perusahaan AI masih mengklaim “fair use”, tetapi:

pengadilan belum memutuskan
banyak akademisi berpendapat bahwa training adalah reproduction
open-source dataset tidak otomatis fair use

Kasus Getty Images vs Stability AI menunjukkan bahwa:

Penggunaan dataset open-source yang berisi gambar Getty tetap dianggap pelanggaran.

Uni Eropa

Uni Eropa sangat ketat:

EU Copyright Directive mengizinkan Text and Data Mining (TDM) tetapi dengan syarat:

👉 pemilik hak dapat opt-out

👉 AI komersial harus memastikan konten tidak berlisensi

Dengan EU AI Act 2024:
Perusahaan AI wajib mengungkapkan dataset training, sehingga penggunaan dataset open-source ilegal akan mudah terdeteksi.

Jepang

Lebih longgar: AI training secara umum diperbolehkan.
Tapi tetap dilarang jika:

merugikan pemilik karya
digunakan secara komersial dalam bentuk yang meniru karya asli

6. Apakah Open-Source Dataset Aman Jika Dipakai untuk AI Komersial?

Tidak.
Justru semakin besar skala komersialnya, semakin besar risiko hukum.

Pengembang AI berpotensi digugat jika:

dataset memuat karya berhak cipta
pengguna AI menghasilkan output mirip karya tertentu
AI mengambil nilai ekonomi dari karya kreator
dataset tidak memiliki mekanisme opt-out
tidak ada kompensasi atau lisensi

7. Bagaimana Cara Menggunakan Dataset Secara Legal?

Berikut pendekatan yang disarankan:

✔ 1. Gunakan dataset yang jelas lisensinya

CC0, public domain, atau lisensi eksplisit.

✔ 2. Buat dataset sendiri

Menggunakan konten yang memiliki izin legal.

✔ 3. Buat kesepakatan lisensi dengan pemilik karya

Model seperti Shutterstock x OpenAI.

✔ 4. Gunakan dataset dengan dokumentasi penggunaan

Transparansi diperlukan untuk audit hukum.

✔ 5. Terapkan mekanisme opt-out bagi seniman

Sesuai praktik Uni Eropa.

8. Kesimpulan

Apakah menggunakan dataset open-source untuk AI melanggar hak cipta?

➡ Seringkali YA, jika dataset memuat karya tanpa izin.

Apakah open-source berarti legal?

➡ Tidak. Open-source ≠ bebas hak cipta.

Apakah developer AI dapat dituntut?

➡ YA, terutama jika dataset mengandung karya yang digunakan tanpa persetujuan.

Apa solusi aman?

✔ dataset legal
✔ lisensi
✔ kompensasi
✔ transparansi

Menggunakan dataset open-source tanpa memeriksa isinya adalah risiko hukum terbesar dalam pengembangan AI modern.

Search This Blog

LegalTech Insight Fauzan Iraldi