Ada sementara orang yang mungkin berpikiran bahwa musik AI (musik yang dibuat dengan bantuan AI) adalah musik robot, alias musik yang dibuat otomatis. Manusia tinggal duduk saja di depan komputer dan memerintah AI dengan prompt yang detil, lalu jadilah musik itu. Pada kenyataannya tidak begitu. Memang bisa dipahami persepsi itu muncul karena orang membandingkan dengan hal lain yang dapat diselesaikan dengan AI secara instan, seperti membuat tulisan, gambar, bahkan foto. Itu pun sebenarnya kalau ingin hasilnya bagus, manusia harus terlibat di situ. Tulisan harus dibaca ulang, diparafrase yang mungkin kalimatnya tidak enak, bahkan diedit keseluruhan. Demikian pula untuk gambar dan foto, yang tidak jarang menampilkan detil yang tidak diinginkan. BTW, akhir-akhir ini video juga sudah dibuat dengan AI. Sama juga.
Musik, atau dalam hal ini sebuah lagu, terdiri dari lirik, musik pengiring, dan vokal yang menyanyikan lagunya. Lirik adalah kata-kata. Barangkali itu bisa dibuat oleh AI dengan perintah manusia. Tapi apakah lirik yang bagus bisa dihasilkan oleh AI ? Memang AI bisa diperintah untuk membuat lirik, tapi sepengalaman Saya, lirik yang dihasilkan oleh AI (dalam bahasa Indonesia) sering terdengar kaku, pengolahan gagasannya remeh, tidak memperhatikan kemungkinan puitisasi kata-kata, simetri, bahkan menggunakan kata-kata yang terasa janggal untuk ada dalam sebuah lirik lagu. Kalau ada sebuah lagu yang liriknya dibuat AI sepenuhnya, barangkali itu bisa dirasakan dari pemilihan kata-katanya.
Saya harus tegaskan itu pertama-tama adalah dalam bahasa Indonesia. AI dibuat dengan asumsi bahasa dibaliknya adalah bahasa kreator AI itu. Katakanlah kreatornya seorang native speaker bahasa Inggris, sudah tentu AI itu pertama-tama optimal untuk mengolah segala sesuatunya dalam bahasa itu. AI sekarang ini memang dilatih untuk menangani masalah dalam berbagai bahasa, tapi kemampuan soal mengangkat rasa, keindahan, kepantasan, dan kebaruan ekspresi saya kira tidak (atau belum?) optimal untuk semua bahasa. Dalam kasus bahasa Inggris, persepsi kita mungkin terbatas oleh pengetahuan kita tentang bahasa itu, tapi di samping AI-nya mungkin optimal untuk bahasa Inggris, bahasa Inggris dan budaya yang ada di baliknya memang memiliki kemungkinan tampil secara artistik berbeda dengan bahasa Indonesia.
Saya tidak sedang membandingkan dua bahasa (Inggris & Indonesia) dalam hal kemampuannya untuk menjadi bahasa lirik lagu. Jangan lupa, di balik bahasa ada asumsi budaya para penuturnya. Budaya ungkap rasa & realitas lainnya pada Bahasa Inggris lebih terbuka untuk ekspresi lirik, sedangkan dalam bahasa Indonesia sering harus diperhatikan kepantasan. Memang bahasa Indonesia sendiri “berjuang” untuk terus bisa menampilkan apa saja, tapi pertanyaan seriusnya, apakah pada penulisan lirik lagu dalam bahasa Indonesia pernah ada revolusi besar-besaran sehingga apapun juga bisa ditampilkan dalam lirik lagu ? Ini bisa jadi diskusi tersendiri, tapi balik lagi ke AI, apakah lirik hasil generate AI itu bisa diterima, bagus, atau selalu bagus ? Baik dalam bahasa Indonesia maupun Inggris, saya pribadi bilang, tidak!
Saya malah mau bilang bahwa sebenarnya pada musik / lagu yang dibuat dengan AI, lirik adalah porsi besar bagi manusia di baliknya untuk berkontribusi dalam proses penciptaan. Kalau eksekusi vokal dan alat musik sudah ditangani AI, dan kita tahu bahwa lirik adalah kendaraan ekspresi kita sebagai penciptanya, ya tentu kita harus menangani lirik itu dengan serius. Apalagi kalau kita sadar bahwa AI itu memang adalah robot yang tidak bisa menyaingi manusia dalam hal ekspresi rasa, keindahan, dan kebaruan. Itu kalau asumsinya adalah kita mau buat musik yang tidak asal jadi, bahwa yang kita buat ada rasa seni di dalamnya. Masalahnya kalau sekedar jadi dan bunyi, ya itu perkara mudah. Buat saja semuanya 100% dengan AI dan pembuatnya hanya terlibat alakadarnya. Ada cukup banyak musik / lagu AI di luar sana yang patut diduga seperti itu.
Itu dari segi lirik (yang saya masih bisa bicara lebih panjang lebar lagi). Bagaimana dalam hal musiknya ? AI untuk musik saya bayangkan dilatih dengan satu “database” besar musik (corpus) dengan berbagai genre dan variasi apa saja yang mungkin. Tapi apakah setiap hasil generate AI untuk menghasilkan musik langsung sesuai dengan keinginan penciptanya ? Pada praktiknya tidak. Bahkan harus dilakukan berkali-kali generate untuk menghasilkan yang paling bagus. Menghasilkan yang paling bagus ? Tentu itu asumsinya manusia di baliknya yang memilih. Lagi, di sini ada keterlibatan manusia. Yang akhirnya disebut bagus itu kembali ke variabel pilihan dan selera manusianya. Apa sebelumnya dia adalah pendengar musik yang referensinya luas ? Apakah dia bisa merasakan bahwa output AI itu adalah musik / lagu yang sekarang ini belum ada, terdengar seperti ekspresi yang orisinal, menampilkan hal yang baru, dan terdengar artistik, dsb, dsb. Lagi-lagi ini kalau pembuatnya adalah serius, karena kalau tidak, sama dengan lirik, kita serahkan saja semua musiknya pada AI dan kita terima jadi, dan musik/ lagunya tentu adalah just another music / songs. Saya harus bilang gini karena ya di sini saya mau menggarisbawahi kenyataan bahwa keterlibatan manusia pada produksi musik AI itu benar-benar ada.
Itu belum termasuk kalau hasil generate musik AI menghasilkan glitch, artefak digital, atau kesalahan lainnya. Musiknya bisa tiba-tiba berhenti lalu loncat ke bagian lain, nada dasar berubah, genre tidak sesuai, balance yang tidak imbang antar volume alat musik, panning yang suka lebih condong ke kiri atau kanan, dan macam-macam lagi yang lain. Kalau si pembuat musiknya peduli, tentu ia harus tangani itu. Ia harus mengeditnya. Bagaimana mungkin musik yang sudah jadi dibuat oleh AI lalu kita edit ? Tidak bisa sepenuhnya diedit, memang. Tapi ada jalan untuk mengusahakannya. Sebelum ini jauh, saya mau garisbawahi lagi. Ini jelas-jelas menunjukkan keterlibatan manusia HARUS ada pada musik / lagu AI, kalau tidak mau disebut hasilnya adalah sampah (sorry!).
Ok saya share sedikit soal mengedit itu, yang barangkali bagi yang lebih ahli dari Saya, adalah hal yang sepele. Bagi saya, ini merepotkan, sering tidak mudah, bahkan gagal sama sekali. Kalau musik hasil AI mengandung cacat, ya di-generate ulang saja. Kalau misalnya generate ulang menghasilkan variasi yang terlalu jauh, ya bisa di cover atau dibawakan ulang dengan variasi yang (semoga) tidak terlalu jauh. Bisa pula dilakukan remastering. Barangkali hasilnya bisa lebih baik. Ini mungkin akan menuntut generate berulang-ulang, sampai ke hasil yang terbaik. Kalau cacatnya adalah soal noise atau artefak digital gimana ? Noise bisa diusahakan hilang dengan WAV editor via fitur Noise Reduction. Lokalisir bagian tanpa suara di musiknya, jadikan itu sampel untuk menghilangkan noise di keseluruhan audio. Ini kadang efektif, kadang tidak, karena bisa jadi pada bagian tertentu di audio jadi kedengaran tidak natural, bahkan mengandung artefak digital. Kalau ada kesalahan lainnya terkait bunyi alat musiknya, bisa kita pecah audionya ke dalam stems. Kita pilih stem yang mengandung kesalahan itu. Barangkali stem-nya bisa kita ganti dengan stem dari hasil generate AI untuk musik yang sama. Bisa juga error-nya kita lokalisir pada stemnya, kita matikan aja dengan memasukkan silence di situ, atau kita generate ulang hanya untuk bagian itu saja. Di Suno, misalnya, ada Suno Studio yang memungkinkan kita untuk memperbaiki per bagian di stem. Bukan hanya untuk musik, tapi juga untuk vokalnya. Meskipun itu tidak akan bisa sekali jadi. Harus berulang-ulang sampai kita dapatkan yang pas.
Gila bener. Jadi memang jelas-jelas harus ada keterlibatan manusia. Penjelasan singkat saya itu bahkan belum mencakup kemungkinan masalah / penanganan masalah yang lain di hasil generate AI.
Terakhir bagaimana dengan unsur vokal ? Sebagian mirip masalahnya dengan unsur musik, tapi khusus untuk lagu dengan lirik dalam bahasa Indonesia, ada masalah tersendiri. Ini bukti yang saya sampaikan sebelum ini, bahwa AI sekarang ini lebih optimal untuk bahasa si pencipta AI itu (yang memang bukan bahasa Indonesia). Sering terjadi kesalahan pengucapan. Misalnya ada lirik seperti ini :
Di sela-sela senyap, ku tahu kau menepi,
Namun rasa yang melekat sering terdengar mimpi,
Kita berjalan perlahan, entah ke mana melepas sepi,
Dan ku bertanya dalam hati, apakah kau benar-benar tahu diri.
Lirik semacam itu akan jadi alamat kacau pada hasil generate AI. Di bahasa Indonesia ada e taling dan e pepet. Di penulisan bahasa Indonesia sekarang ini keduanya tidak selalu dibedakan dengan é untuk taling. Maka bayangkan saja di sela-sela kalau diucapkan dengan e pepet. Lalu tahu diucapkan seperti nama makanan khas Sumedang itu. Juga dilirik itu semua huruf e bisa cenderung dilafalkan salah. Itu baru contoh kecil. Kadang ada yang sama sekali tidak kita duga. Kata bersama, misalnya, bisa saja jadinya diucapkan bersamm, atau bersaaa. Untuk kesalahan pelafalan seperti ini, jelas di pembuat lagunya harus bertindak. Lagi-lagi di sini, manusia dibalik sebuah lagu hasil AI itu tidak ongkang-ongkang.
Barangkali tulisan saya yang sederhana ini bisa membantu memberikan gambaran untuk mereka yang berpikir bahwa musik AI itu tinggal enter atau klik maka langsung jadi. Di balik musik / lagu hasil AI, ada manusianya !
PS: tulisan ini Saya import dari halaman web salah satu album musik saya di https://s.id/kagitaran di bagian Wacana.