Model AI Coding Tercepat Rilis! Apakah Claude Sonnet 4.5 Mampu Geser Dominasi GPT-5 di Arena WebDev?
Download DB Klik App Sekarang!
Warehouse :
Warehouse :
0 Cart Keranjang
  • Keranjang Kamu

    0
  • Subtotal
    0
  • Lihat Keranjang
Advertisement Logo
Rekomendasi Untukmu:
Model AI Coding Tercepat Rilis! Apakah Claude Sonnet 4.5 Mampu Geser Dominasi GPT-5 di Arena WebDev?

Model AI Coding Tercepat Rilis! Apakah Claude Sonnet 4.5 Mampu Geser Dominasi GPT-5 di Arena WebDev?

DB KLIK - Anthropic secara resmi meluncurkan model kecerdasan buatan terbarunya, Claude Sonnet 4.5, pada 29 September, yang secara langsung menantang dominasi model AI coding yang ada saat ini.

Pada saat peluncurannya, model ini langsung diklaim sebagai model coding terbaik di dunia, menunjukkan keunggulan signifikan dalam pengujian real-repo coding (SWE-bench Verified) dan penggunaan komputer (OSWorld).

Data resmi Anthropic mencatat Claude Sonnet 4.5 meraih skor impresif 77,2% pada SWE-bench Verified dan 61,4% pada OSWorld.

(BACA JUGA: Prediksi Line Up Timnas Indonesia Vs Arab Saudi Lengkap Link Streaming, Maarten)

Bahkan, dalam press briefing, Anthropic menyebut model ini dapat mencapai 82% pada SWE-bench ketika pengujian menggunakan parallel test-time compute—sebuah teknik yang lazim diterapkan oleh tim produksi untuk meningkatkan tingkat kelulusan kode.

Skor ini menempatkannya sebagai tool yang sangat berharga untuk menyelesaikan bug kompleks, sebuah masalah yang lazim dihadapi developer saat mengelola legacy code.

Lonjakan performa ini menempatkan Sonnet 4.5 di posisi terdepan dalam kategori real-repo coding dibandingkan model yang diuji secara luas lainnya.

Uji Coba Pihak Ketiga: Performa Divergen di Arena WebDev

Setelah satu minggu peluncuran, data benchmark awal dari pihak ketiga dan pengujian langsung mulai memberikan gambaran yang lebih bernuansa.

(BACA JUGA: 5 Cara Mudah Menyambungkan HP ke TV Tanpa Kabel, Dijamin Nonton Bola Makin Puas)

Meskipun Anthropic dengan bangga menyoroti peningkatan performa, hasil pengujian di berbagai domain menunjukkan adanya perbedaan kinerja yang mencolok.

Menurut papan peringkat LMArena (per 3 Oktober), Claude Sonnet 4.5 menunjukkan performa dominan di Text Arena, di mana model ini berada di posisi teratas bersama dengan Gemini 2.5 Pro dan Claude Opus 4.1.

Namun, di arena yang lebih spesifik, yaitu WebDev Arena (di mana model dievaluasi untuk tugas coding dan pengembangan web), Sonnet 4.5 justru berada di peringkat ke-4 dengan skor 1382.

Angka ini masih tertinggal dari GPT-5, Claude Opus 4.1, Gemini 2.5 Pro, dan DeepSeek-R1.

(BACA JUGA: Bahaya Gelembung AI Mengintai Wall Street, Saham AMD & Oracle Melejit Tak Wajar)

Secara keseluruhan, analis dari Artificial Analysis mengintegrasikan Sonnet 4.5 ke dalam Intelligence Index komposit mereka, memberikan skor 63 dari 100.

Angka ini menempatkan Sonnet 4.5 di peringkat ketujuh, di atas Claude Opus 4.1 (61) dan Claude Sonnet 4 (57), tetapi masih di bawah para pemimpin seperti GPT-5 Codex dan GPT-5 (keduanya 68).

Laporan All-in-One AI juga menegaskan bahwa Sonnet 4.5 merepresentasikan peningkatan kecerdasan 25,7% dibandingkan pendahulunya, Claude 3.7 Sonnet.

Relevansi Praktis: Efisiensi untuk Workflow Engineering dan Otomasi

Peningkatan kinerja coding dan penggunaan komputer yang ditawarkan Sonnet 4.5 memiliki relevansi praktis yang besar bagi tim riset dan pengembangan (R&D).

Salah satu kemenangan paling jelas model ini atas kompetitornya terlihat pada metrik Computer Use (OSWorld).

Sonnet 4.5 mencatat 61,4%, meningkat 45% dari Claude 4 yang hanya 42,2%.

Skor ini tidak hanya sekadar angka; ia diterjemahkan langsung ke efisiensi kerja.

Model ini sangat efisien dan unggul dalam otomatisasi tugas-tugas back office yang repetitif, seperti membaca dan memproses laporan data bulanan dari server regional, merapikan spreadsheet, membangun tools internal, dan menambal bug serta otomasi dashboard hygiene untuk memastikan konsistensi data di berbagai aplikasi internal perusahaan.

Selain itu, model ini juga sangat cepat.

Dengan kecepatan output rata-rata 63 token per detik dan waktu respons pertama (E2E latency) hanya 1,80 detik, Claude Sonnet 4.5 masuk dalam jajaran model frontier dengan respons tercepat—sebuah keunggulan praktis dalam alur kerja pengembangan interaktif.

Catatan Kritis: Kelemahan Logika Fisika

Di balik keunggulan software dan kecepatan, muncul satu catatan kritis yang perlu diwaspadai: kemampuan penalaran fisika dunia nyata.

Pada pengujian intuisi fisika sederhana (Visual Physics Comprehension Test atau VPCT), Sonnet 4.5 hanya menghasilkan skor di sekitar 39,8%.

Angka ini hanya sedikit di atas tebakan acak (33,3%) dan jauh di bawah skor manusia (100%).

Hasil ini mengirimkan pesan jelas bagi pengguna agen coding yang ambisius.

Seperti yang tertulis dalam data referensi, "it can ship code and click buttons, but you shouldn’t trust it yet to reason about real-world dynamics without strong guardrails" (model ini bisa mengirimkan kode dan mengklik tombol, tetapi Anda belum boleh mempercayainya untuk bernalar tentang dinamika dunia nyata tanpa pagar pengaman yang kuat).

Ini menjadi peringatan bagi aplikasi di bidang robotika dan otomasi fisik yang sangat mengandalkan prediksi berbasis logika fisik.

Biaya dan Aksesibilitas: Peningkatan "Gratis"

Dari perspektif biaya, Anthropic mempertahankan harga API pada tingkat Sonnet-tier, yaitu $3 per juta token input dan $15 per juta token output.

Peningkatan kinerja yang dibawa Sonnet 4.5 ini, secara esensial, "gratis" dari sudut pandang biaya per-token.

Model ini tersedia melalui API Anthropic, Amazon Bedrock, dan Google Vertex AI.

Meskipun demikian, ada laporan dari pengguna bahwa batas kecepatan (rate limit) pada langganan Pro ($20/bulan) dan Max ($200/bulan) mungkin lebih ketat dibandingkan model sebelumnya.

Hal ini membuat beberapa power user menilai model ini sebagai "technically impressive but financially inaccessible" (secara teknis mengesankan tetapi tidak dapat diakses secara finansial), meskipun harga nominalnya tetap.

Secara keseluruhan, Claude Sonnet 4.5 adalah lompatan maju yang signifikan dalam AI untuk coding dan otomasi desktop.

Ia menawarkan kecepatan dan akurasi yang memimpin di kelasnya, menjadikannya tool penting bagi para developer.

Namun, pengguna harus tetap waspada terhadap keterbatasan model dalam memahami logika fisik dunia nyata.

Berdasarkan analisis tim teknologi DB Klik, kelemahan logika fisika pada Sonnet 4.5 ini menunjukkan bahwa, meskipun AI canggih, peran human review pada aplikasi mission-critical seperti robotika masih tak tergantikan. Ini adalah gap yang harus diatasi oleh Anthropic di masa depan.

Pekerjaan Koding dan Komputasi Canggih seperti ini membutuhkan perangkat keras terbaik yang bisa mendukung workflow tanpa lag.

Jika Anda adalah seorang developer, engineer, atau data scientist yang ingin memaksimalkan potensi AI seperti Claude Sonnet 4.5, pastikan Anda memiliki laptop atau PC dengan spesifikasi tinggi, terutama pada RAM dan processor.

Segera tingkatkan rig Anda dan beli semua kebutuhan elektronik tersebut di DB Klik, Toko Komputer Surabaya terlengkap dan terpercaya yang menyediakan berbagai macam kebutuhan elektronik untuk semua kebutuhan dengan harga yang hemat dan dijamin berkualitas. (*)


DB Klik - Toko Komputer Surabaya yang terpercaya di Indonesia. Menjual berbagai macam kebutuhan elektronik yang lengkap seperti laptop, gadget, gaming, lifestyle, dan aksesoris. Belanja kebutuhan elektronik yang lengkap dan hemat langsung melalui Website DB Klik, Dijamin Berkualitas.

Social Share
Loading...
Follow Us

Ikuti media sosial DB Klik untuk mendapatkan berita terbaru, diskon, promo, dan event menarik lainnya dari kami.

Subscription

Join sebagai subscriber email di DB Klik untuk mendapatkan info kupon diskon.