Apakah Menggunakan Dataset Open-Source untuk Melatih AI Melanggar Hak Cipta?

 

1. Pengantar: Open-Source Bukan Berarti “Bebas Hak Cipta”

Sebagian besar model AI generatif saat ini dilatih menggunakan dataset seperti:

  • LAION-5B

  • COCO

  • ImageNet

  • OpenImages

  • dataset buatan komunitas

Dataset ini sering disebut open-source, sehingga banyak orang mengira bahwa penggunaannya otomatis legal.

Namun secara hukum:

❌ open-source ≠ bebas hak cipta

❌ open-source ≠ otomatis boleh digunakan untuk training

❌ open-source ≠ tanpa risiko hukum

Bahkan dalam tesis saya dijelaskan bahwa:

“Dataset open-source memiliki probabilitas sangat tinggi untuk memuat karya berhak cipta yang dikumpulkan tanpa izin.”

Karena itu, menggunakan dataset open-source untuk melatih AI tidak otomatis aman.


2. Apa Itu Dataset Open-Source? (Faktanya Tidak Sesederhana Namanya)

Dataset open-source biasanya:

  • dikumpulkan oleh komunitas

  • berisi miliaran gambar yang di-scrape dari internet

  • tidak diperiksa satu per satu legalitasnya

  • tidak menjamin bahwa gambar di dalamnya memiliki lisensi terbuka

Contoh: LAION-5B
Dataset terbesar untuk melatih Stable Diffusion.

Namun:
LAION tidak memiliki izin dari pencipta konten yang dikumpulkan.

LAION hanya memberikan metadata, bukan lisensi penggunaan konten.


3. Apakah Menggunakan Dataset Open-Source Melanggar Hak Cipta?

Jawaban pendek: Seringkali YA.

Kenapa?

Karena dataset open-source:

  • mengambil karya dari internet tanpa izin

  • memuat karya berhak cipta milik ribuan seniman dan fotografer

  • digunakan untuk melatih model AI komersial

  • tidak memberikan kompensasi kepada pemilik karya

  • tidak mencantumkan atribusi

  • dapat menghasilkan output yang menyerupai karya asli

Ini sesuai dengan 3 pelanggaran dalam UU Hak Cipta Indonesia:

❌ Pelanggaran hak ekonomi (Pasal 8, 9)

❌ Pelanggaran hak moral (Pasal 5, 7)

❌ Pelanggaran pidana jika digunakan komersial (Pasal 113)


4. Kenapa Open-Source Data Mining Sering Menyalahi Hukum?

Karena scraping dilakukan secara otomatis dengan crawler.
Scraper tidak bisa membedakan:

  • karya CC0 (bebas pakai)

  • karya berlisensi

  • karya pribadi

  • karya komersial

  • karya yang dilarang digunakan ulang

Akhirnya dataset AI berisi:

✔ karya fotografi profesional
✔ ilustrasi berlisensi
✔ karya seni digital
✔ foto pribadi
✔ bahkan data sensitif

tanpa izin pemiliknya.


5. Pandangan Internasional Tentang Dataset Open-Source

Amerika Serikat

Perusahaan AI masih mengklaim “fair use”, tetapi:

  • pengadilan belum memutuskan

  • banyak akademisi berpendapat bahwa training adalah reproduction

  • open-source dataset tidak otomatis fair use

Kasus Getty Images vs Stability AI menunjukkan bahwa:

Penggunaan dataset open-source yang berisi gambar Getty tetap dianggap pelanggaran.


Uni Eropa

Uni Eropa sangat ketat:

  • EU Copyright Directive mengizinkan Text and Data Mining (TDM) tetapi dengan syarat:

    👉 pemilik hak dapat opt-out

    👉 AI komersial harus memastikan konten tidak berlisensi

Dengan EU AI Act 2024:
Perusahaan AI wajib mengungkapkan dataset training, sehingga penggunaan dataset open-source ilegal akan mudah terdeteksi.


Jepang

Lebih longgar: AI training secara umum diperbolehkan.
Tapi tetap dilarang jika:

  • merugikan pemilik karya

  • digunakan secara komersial dalam bentuk yang meniru karya asli


6. Apakah Open-Source Dataset Aman Jika Dipakai untuk AI Komersial?

Tidak.
Justru semakin besar skala komersialnya, semakin besar risiko hukum.

Pengembang AI berpotensi digugat jika:

  • dataset memuat karya berhak cipta

  • pengguna AI menghasilkan output mirip karya tertentu

  • AI mengambil nilai ekonomi dari karya kreator

  • dataset tidak memiliki mekanisme opt-out

  • tidak ada kompensasi atau lisensi


7. Bagaimana Cara Menggunakan Dataset Secara Legal?

Berikut pendekatan yang disarankan:

✔ 1. Gunakan dataset yang jelas lisensinya

CC0, public domain, atau lisensi eksplisit.

✔ 2. Buat dataset sendiri

Menggunakan konten yang memiliki izin legal.

✔ 3. Buat kesepakatan lisensi dengan pemilik karya

Model seperti Shutterstock x OpenAI.

✔ 4. Gunakan dataset dengan dokumentasi penggunaan

Transparansi diperlukan untuk audit hukum.

✔ 5. Terapkan mekanisme opt-out bagi seniman

Sesuai praktik Uni Eropa.


8. Kesimpulan

Apakah menggunakan dataset open-source untuk AI melanggar hak cipta?

Seringkali YA, jika dataset memuat karya tanpa izin.

Apakah open-source berarti legal?

Tidak. Open-source ≠ bebas hak cipta.

Apakah developer AI dapat dituntut?

YA, terutama jika dataset mengandung karya yang digunakan tanpa persetujuan.

Apa solusi aman?

✔ dataset legal
✔ lisensi
✔ kompensasi
✔ transparansi

Menggunakan dataset open-source tanpa memeriksa isinya adalah risiko hukum terbesar dalam pengembangan AI modern.

Comments

Popular posts from this blog

Use of Stock Images, Icons, and UI Assets in Games: Legal Rules Developers Must Know

Music Copyright in Games: Licensing, Usage Rules, and Legal Risks for Developers

What Makes AI Training Data Illegal? A Breakdown of the Most Common Dataset Violations in AI Development