Bisnis.com, JAKARTA — Perusahaan kecerdasan buatan (AI) asal Cina, DeepSeek, meluncurkan kerangka sumber terbuka (open-source) DSpark yang diklaim mampu mendongkrak kecepatan generasi teks sebesar 60% hingga 85% tanpa mengubah arsitektur dasar model.
Secara sederhana, DSpark bertindak sebagai "asisten pengetik cepat" untuk model AI utama yang berukuran besar. Dalam prosesnya, DSpark yang berukuran lebih kecil dan ringan akan menebak dan menyusun draf kalimat secara instan.
Setelah draf selesai, model AI utama yang besar dan cerdas hanya perlu memeriksa dan memvalidasi draf tersebut (batch verification). Teknik ini berhasil memangkas waktu tunggu respon (latency) tanpa menurunkan kualitas kecerdasan model sedikit pun.
DeepSeek mengubah strateginya menuju optimalisasi proses inferensi. Melalui inovasi ini, perusahaan tidak hanya bersaing pada aspek kualitas kecerdasan buatan melainkan pada efisiensi penyebaran infrastruktur komputasi di dunia nyata.
Kerangka kerja yang termuat dalam makalah ilmiah besutan pendiri DeepSeek Liang Wenfeng bersama para peneliti dari Peking University tersebut dirilis dengan judul "DSpark: Confidence-Scheduled Speculative Decoding with Semi-Autoregressive Generation."
Bersamaan dengan publikasi makalah tersebut, DeepSeek membuka akses publik untuk model DeepSeek-V4-Pro-DSpark dan DeepSeek-V4-Flash-DSpark, serta meluncurkan rantai alat pelatihan (training toolchain) komprehensif DeepSpec secara gratis di platform GitHub.
Speculative decoding merupakan metode akselerasi inferensi tanpa kehilangan kualitas (lossless) yang bekerja memisahkan draf generasi dari proses verifikasi target model. Model draf yang ringan akan menghasilkan urutan teks secara instan, kemudian model target melakukan verifikasi secara massal. Metode ini efektif menukar daya komputasi mentah demi memangkas tingkat keterlambatan respon (latency).
Kendati demikian, sistem penyusun draf paralel yang ada saat ini kerap mengalami penurunan tingkat penerimaan data (acceptance rate) yang drastis pada token-token akhir akibat hilangnya dependensi token.
DSpark mengatasi hambatan sistemik tersebut melalui dua inovasi utama. Pertama, arsitektur semi-autoregressive menggabungkan jaringan tulang punggung paralel dengan modul serial yang ringan guna membangun dependensi token di dalam blok.
Langkah ini mampu memitigasi penurunan tingkat penerimaan di akhir urutan teks. Kedua, mekanisme verifikasi berbasis jadwal tingkat kepercayaan (confidence-scheduled verification) secara dinamis menyesuaikan panjang verifikasi untuk setiap permintaan pengguna berdasarkan probabilitas penerimaan awal dan karakteristik throughput mesin menurut laporan Pandailly.
Dalam pengujian tolak ukur luring (offline benchmarks) di berbagai ranah, DSpark menunjukkan peningkatan signifikan pada panjang urutan teks efektif yang diterima jika dibandingkan dengan model penyusun draf konvensional.
Saat diterapkan pada sistem produksi daring DeepSeek yang menangani lalu lintas pengguna riil, teknologi ini terbukti memangkas pemborosan daya komputasi dari verifikasi yang tidak valid.
Sistem ini menyajikan kecepatan generasi pengguna tunggal 60% hingga 85% lebih cepat dibandingkan dengan lini produksi matang terdahulu (MTP-1), dengan total kapasitas pemrosesan (throughput) keseluruhan yang tetap terjaga.
Paket pustaka sumber terbuka DeepSpec yang menyertai peluncuran ini menyediakan toolkit lengkap untuk melatih serta mengevaluasi model draf speculative decoding.
Alat ini mencakup persiapan data, implementasi model draf, kode pelatihan, hingga skrip evaluasi di bawah lisensi MIT. Sistem ini mendukung tiga model draf, yakni DSpark, DFlash, dan Eagle3, serta kompatibel dengan model eksternal populer seperti Qwen3 dan Gemma.