Bagaimana Chat GPT dilatih?

Jika anda biasa menggunakan ChatGPT, anda mungkin pernah mendengar bahawa ia dilatih menggunakan korpus data yang luas. Tetapi apa sebenarnya maksudnya? Dalam artikel ini, kita akan menyelami dengan lebih mendalam tentang bagaimana ChatGPT dilatih?”

ChatGPT ialah model bahasa pra-latih yang telah diselaraskan melalui gabungan teknik pembelajaran bimbingan dan penguatan. Proses latihan ChatGPT melibatkan memasukkan jumlah data teks yang besar ke dalam model dan menyesuaikan parameter agar ia dapat menghasilkan teks yang serupa dengan teks dalam korpus latihan.

Pendekatan pembelajaran tidak dikawal digunakan untuk proses ini, maksudnya model ini tidak diberikan maklum balas secara langsung tentang sama ada teks yang dihasilkan adalah betul atau salah. Sebaliknya, model menyesuaikan parameter berdasarkan kemungkinan teks yang dihasilkan adalah sama dengan teks dalam korpus latihan.

GPT-3, model induk ChatGPT-3, adalah salah satu model bahasa terbesar yang pernah dicipta, dengan 175 bilion parameter dan konteks sepanjang 2048 token. Ia dilatih pada berbilion-bilion kata dari Common Crawl, WebText2, Books1/2, Wikipedia dalam Bahasa Inggeris, dan contoh kod dalam CSS, JSX, Python dan bahasa pengaturcaraan lain.

Cara latihan yang digunakan untuk GPT-3 adalah generative pretraining, bermaksud ia dilatih untuk meramalkan token atau perkataan berikutnya dalam ayat input.

Alternatif Chat GPT Terbaik

Pembelajaran terawasi

Model ChatGPT telah disesuaikan melalui proses pembelajaran terawasi oleh pelatih manusia. Pelatih ini terlibat dalam percakapan, mengambil peran pengguna dan asisten kecerdasan buatan.

Mereka diberi saran dari model untuk membimbing mereka dalam menyusun respons mereka, yang kemudian dicampur dengan dataset InstructGPT yang telah diubah menjadi format dialog.

Pembelajaran pengukuhan

Model ini kemudian diperbaiki melalui reinforcement learning dengan menggunakan Proximal Policy Optimization (PPO). Pelatih manusia mengevaluasi tanggapan yang dihasilkan oleh model dari percakapan sebelumnya dan menggunakan penilaian tersebut untuk mengembangkan model penghargaan. Model kemudian disesuaikan kembali berdasarkan model penghargaan tersebut.

Proses penalaan halus telah dilakukan beberapa kali untuk mencapai prestasi yang lebih baik. Algoritma PPO adalah kos-efektif berbanding algoritma lain dan mempunyai prestasi yang lebih pantas, menjadikannya ideal untuk proses ini.

OpenAI terus mengumpul maklumat daripada pengguna yang berinteraksi dengan ChatGPT, yang kemudian boleh digunakan untuk meningkatkan dan menyesuaikan model lebih lanjut.

Pengguna mempunyai pilihan untuk mengundi tindak balas ChatGPT dengan menaikkan atau menurunkannya, dan mereka juga mempunyai peluang untuk memberikan maklum balas tambahan. Data ini digunakan untuk meningkatkan prestasi model lagi dan membuatnya lebih baik dalam menghasilkan teks yang seperti manusia.

Data yang Digunakan untuk Melatih Model

ChatGPT-3 adalah model bahasa yang diselaraskan dari siri GPT-3.5, yang dilatih menggunakan infrastruktur Azure AI superkomputer. Ia dilatih dengan jumlah teks yang besar yang diperoleh dari Internet, termasuk buku, forum perbincangan, artikel, laman web, kertas akademik, kod, dan sumber lain.

Korpus data teks yang digunakan dalam latihan ChatGPT-3 lebih dari 45Terabyte dalam saiz, yang amat besar dan menyumbang kepada keupayaan model untuk menghasilkan teks yang serupa dengan apa yang dihasilkan oleh seorang wartawan atau pengarang.

Bagaimana Chat GPT dilatih?

Pembelajaran terawasi

Pembelajaran pengukuhan

Data yang Digunakan untuk Melatih Model

Artikel Berkaitan