Panduan Lanjutan: Cara Kerja Penelusuran
Memahami cara Google Penelusuran meng-crawl, mengindeks, dan menayangkan konten sangatlah penting saat Anda men-debug masalah dan mengantisipasi perilaku Penelusuran di situs Anda.
Crawling
Crawling adalah proses yang digunakan Googlebot untuk mengunjungi halaman baru dan yang diperbarui guna ditambahkan ke indeks Google.
Kami menggunakan banyak sekali komputer untuk mengambil (atau "meng-crawl") miliaran halaman di web. Program yang melakukan pengambilan ini disebut Googlebot (juga dikenal sebagai robot, bot, atau spider). Googlebot menggunakan proses algoritme untuk menentukan situs mana yang akan di-crawl, seberapa sering, dan berapa banyak halaman yang diambil dari setiap situs.
Proses crawling Google dimulai dengan daftar URL halaman web, yang dihasilkan dari proses crawling sebelumnya, dan ditambahkan dengan data Peta Situs yang disediakan oleh pemilik situs. Saat mengunjungi halaman, Googlebot menemukan link pada halaman dan menambahkannya ke daftar halaman untuk di-crawl. Situs baru, perubahan terhadap situs yang ada, dan link mati akan dicatat serta digunakan untuk memperbarui indeks Google.
Selama crawling, Google merender halaman menggunakan Chrome versi terbaru. Sebagai bagian dari proses rendering, skrip halaman apa pun yang ditemui akan dijalankan. Jika situs Anda menggunakan konten yang dihasilkan secara dinamis, pastikan Anda mengikuti dasar-dasar SEO JavaScript.
Crawl utama/crawl sekunder
Google menggunakan dua crawler yang berbeda untuk meng-crawl situs: crawler seluler dan crawler desktop. Setiap jenis crawler menyimulasikan pengguna yang mengunjungi halaman Anda dengan jenis perangkat tersebut.
Google menggunakan satu jenis crawler (seluler atau desktop) sebagai crawler utama untuk situs Anda. Semua halaman di situs Anda yang di-crawl oleh Google, di-crawl menggunakan crawler utama. Crawler utama untuk semua situs baru adalah crawler seluler.
Selain itu, Google akan meng-crawl ulang beberapa halaman di situs Anda dengan jenis crawler lainnya (seluler atau desktop). Ini disebut crawl sekunder, dan crawl ini dilakukan untuk melihat seberapa baik situs Anda berfungsi dengan jenis perangkat lainnya.
Bagaimana cara Google mengetahui halaman mana yang tidak akan di-crawl?
Halaman yang diblokir dalam robots.txt tidak akan di-crawl, tetapi mungkin masih diindeks jika tertaut ke halaman lain. Google dapat menyimpulkan konten halaman dengan link yang mengarah ke halaman itu, dan mengindeks halaman tanpa mengurai kontennya.
Google tidak dapat meng-crawl halaman apa pun yang tidak dapat diakses oleh pengguna anonim. Dengan demikian, setiap login atau perlindungan otorisasi lainnya akan mencegah halaman di-crawl.
Halaman yang telah di-crawl dan dianggap sebagai duplikat halaman lain akan jarang di-crawl.
Meningkatkan crawling
Gunakan teknik berikut untuk membantu Google menemukan halaman yang tepat di situs Anda:
Kirim peta situs/sitemap
Kirim permintaan crawling untuk setiap halaman.
Gunakan jalur URL yang sederhana, dapat dibaca manusia, dan logis untuk halaman dan cantumkan link internal yang jelas dan langsung dalam situs.
Jika Anda menggunakan parameter URL di situs untuk navigasi, misalnya saat menunjukkan negara pengguna di situs belanja global, gunakan alat parameter URL untuk memberi tahu Google tentang parameter penting.
Gunakan robots.txt dengan bijak: Gunakan robots.txt untuk menunjukkan halaman mana yang Anda inginkan agar diketahui atau di-crawl terlebih dahulu oleh Google, untuk melindungi beban server Anda, bukan sebagai metode untuk memblokir materi agar tidak muncul dalam indeks Google.
Gunakan hreflang untuk mengarahkan ke versi alternatif halaman Anda dalam bahasa lain.
Identifikasi halaman kanonis dan halaman alternatif Anda dengan jelas.
Lihat cakupan crawling dan indeks Anda menggunakan Laporan Cakupan Indeks.
Pastikan Google dapat mengakses halaman utama, serta resource penting (gambar, file CSS, skrip) yang diperlukan untuk merender halaman dengan baik.
Konfirmasikan bahwa Google dapat mengakses dan merender halaman Anda secara benar dengan menjalankan Alat Inspeksi URL di halaman yang aktif.
Pengindeksan
Googlebot memproses setiap halaman yang di-crawl untuk memahami konten halaman. Hal ini mencakup pemrosesan konten teks, atribut dan tag konten utama, seperti atribut alt dan tag <title>, gambar, video, dan lainnya. Googlebot dapat memproses banyak jenis konten, tetapi tidak semuanya. Misalnya, kami tidak dapat memproses konten beberapa file multimedia.
Di antara crawling dan pengindeksan, Google menentukan apakah suatu halaman merupakan duplikat atau kanonis dari halaman lain. Jika halaman dianggap duplikat, halaman tersebut akan jauh lebih jarang di-crawl. Halaman yang mirip akan dikelompokkan bersama menjadi dokumen, yang merupakan sebuah kelompok berisi satu atau beberapa halaman yang menyertakan halaman kanonis (yang paling mewakili grup) dan duplikat apa pun yang ditemui (yang mungkin hanya berupa URL alternatif untuk menjangkau halaman yang sama, atau mungkin versi seluler atau desktop alternatif dari halaman yang sama).
Perhatikan bahwa Google tidak mengindeks halaman dengan perintah noindex (header atau tag). Namun, Google harus dapat melihat perintah tersebut. Oleh karena itu, jika halaman diblokir oleh file robots.txt, halaman login, atau perangkat lain, halaman tersebut bisa saja diindeks meskipun tidak dikunjungi oleh Google.
Memperbaiki pengindeksan
Terdapat banyak teknik untuk meningkatkan kemampuan Google dalam memahami konten halaman Anda:
Cegah Google meng-crawl atau menemukan halaman yang ingin Anda sembunyikan menggunakan tag noindex. Jangan terapkan "noindex" pada halaman yang diblokir oleh robots.txt. Jika Anda melakukannya, tag noindex tidak akan terlihat dan halaman masih dapat diindeks.
Gunakan data terstruktur.
Ikuti Pedoman Webmaster Google.
Baca panduan memulai SEO dan panduan pengguna lanjutan kami untuk mengetahui tips lainnya.
Apa yang dimaksud dengan "dokumen"?
Secara internal, Google mewakili web sebagai kumpulan dokumen yang sangat besar. Setiap dokumen mewakili satu atau beberapa halaman web. Halaman tersebut sama atau sangat mirip, tetapi pada dasarnya adalah konten yang sama dan dapat dijangkau oleh URL yang berbeda. URL yang berbeda dalam dokumen dapat mengarah ke halaman yang sama persis (misalnya, example.com/dresses/summer/1234 dan example.com?product=1234 mungkin menampilkan halaman yang sama), atau halaman yang sama dengan sedikit variasi yang ditujukan bagi pengguna di perangkat yang berbeda (misalnya, example.com/mypage untuk pengguna desktop dan m.example.com/mypage untuk pengguna seluler).
Google akan memilih salah satu URL dalam dokumen dan menentukannya sebagai URL kanonis dokumen. URL kanonis dokumen adalah URL yang paling sering di-crawl serta diindeks oleh Google. URL yang lain dianggap sebagai duplikat atau alternatif, dan terkadang di-crawl, atau ditayangkan sesuai permintaan pengguna. Misalnya, jika URL kanonis dokumen adalah URL seluler, Google mungkin masih akan menayangkan URL desktop (alternatif) untuk pengguna yang menelusuri di desktop.
Sebagian besar laporan di Search Console mengaitkan data ke URL kanonis dokumen. Beberapa alat (seperti Alat Inspeksi URL) mendukung pengujian URL alternatif, tetapi memeriksa URL kanonis juga memberikan informasi tentang URL alternatif.
Anda dapat memberi tahu Google URL mana yang Anda pilih sebagai kanonis, tetapi Google dapat memilih URL kanonis yang berbeda karena berbagai alasan.
Berikut adalah ringkasan istilah beserta cara penggunaan istilah di Search Console:
Dokumen: Kumpulan halaman yang mirip. Memiliki URL kanonis, dan mungkin URL alternatif, jika situs Anda memiliki halaman duplikat. URL dalam dokumen dapat berasal dari organisasi yang sama atau berbeda (domain root, misalnya "google" di www.google.com). Google memilih URL terbaik untuk ditampilkan di hasil Penelusuran menurut platform (seluler/desktop), bahasa atau lokasi pengguna, dan banyak variabel lainnya. Google menemukan halaman terkait di situs Anda dengan crawling organik, atau dengan fitur yang diimplementasikan situs seperti pengalihan atau tag <link rel=alternate/canonical>. Halaman terkait di organisasi lain hanya dapat ditandai sebagai alternatif jika dikodekan secara eksplisit oleh situs Anda (melalui pengalihan atau tag link).
Halaman dengan konten yang sama dalam bahasa yang berbeda akan disimpan dalam dokumen berbeda yang merujuk satu sama lain menggunakan tag hreflang. Oleh karena itu, sebaiknya gunakan tag hreflang untuk konten yang diterjemahkan.
URL: URL yang digunakan untuk menjangkau konten tertentu di situs.
Halaman: Halaman web tertentu, yang dijangkau oleh satu URL atau lebih. Halaman dapat memiliki versi yang berbeda, bergantung pada platform pengguna (seluler, desktop, tablet, dan sebagainya).
Versi: Satu variasi halaman, yang biasanya dikategorikan sebagai "seluler", "desktop", dan "AMP" (meskipun AMP dapat memiliki versi seluler dan desktop). Setiap versi dapat memiliki URL yang berbeda (example.com vs m.example.com) atau URL yang sama (jika situs Anda menggunakan penayangan dinamis atau desain web yang responsif, URL yang sama dapat menampilkan versi yang berbeda dari halaman yang sama) bergantung pada konfigurasi situs Anda. Variasi bahasa tidak dianggap sebagai versi yang berbeda, tetapi dokumen yang berbeda.
URL atau halaman kanonis: URL yang dianggap Google sebagai yang paling mewakili dokumen. Google selalu meng-crawl URL ini; URL duplikat dalam dokumen terkadang juga di-crawl.
URL atau halaman alternatif/duplikat: URL dokumen yang mungkin di-crawl Google sesekali. Google juga menayangkan URL ini jika sesuai dengan pengguna dan permintaan (misalnya, URL alternatif bagi pengguna desktop akan ditayangkan untuk permintaan desktop, dan bukan URL seluler kanonis).
Situs: Biasanya digunakan sebagai sinonim untuk situs (kumpulan halaman web yang terkait secara konseptual), tetapi terkadang digunakan sebagai sinonim untuk properti Search Console, meskipun properti sebenarnya dapat ditentukan sebagai hanya bagian dari sebuah situs. Situs dapat mencakup subdomain (dan bahkan domain, untuk halaman AMP yang ditautkan dengan benar).
Menayangkan hasil
Saat pengguna memasukkan kueri, mesin kami menelusuri indeks untuk mencari halaman yang cocok dan menampilkan hasil yang kami yakini paling relevan bagi pengguna. Relevansi ditentukan oleh ratusan faktor, dan kami selalu berupaya membuat algoritme kami lebih baik. Google mempertimbangkan pengalaman pengguna dalam memilih dan memberi peringkat pada hasil. Oleh karena itu, pastikan halaman Anda dimuat dengan cepat dan mobile-friendly.
Meningkatkan kualitas penayangan
Ada banyak cara untuk memperbaiki cara Google menayangkan konten halaman Anda:
Jika hasil Anda ditujukan untuk pengguna di lokasi atau bahasa tertentu, beri tahu Google tentang preferensi Anda.
Pastikan halaman Anda dimuat dengan cepat dan mobile-friendly.
Ikuti Pedoman Webmaster untuk menghindari kendala umum dan meningkatkan peringkat situs Anda.
Pertimbangkan untuk mengimplementasikan fitur hasil Penelusuran untuk situs Anda, seperti kartu resep atau kartu artikel.
Implementasikan AMP agar pemuatan halaman di perangkat seluler lebih cepat. Beberapa halaman AMP juga memenuhi syarat untuk fitur penelusuran tambahan, seperti carousel berita utama.
Algoritme Google terus diperbaiki. Daripada mencoba menebak algoritme dan mendesain halaman untuk algoritme tersebut, buat konten yang bagus dan baru yang diinginkan pengguna, dan ikuti pedoman kami.