Hiển thị các bài đăng có nhãn SEO. Hiển thị tất cả bài đăng
Hiển thị các bài đăng có nhãn SEO. Hiển thị tất cả bài đăng

Thứ Tư, 7 tháng 8, 2024

Robots.txt là gì? Cấu hình robots.txt chuẩn cho Bogger / Blogspot / WordPress/Website

tháng 8 07, 2024

Robots.txt là gì? Cấu hình robots.txt chuẩn cho Bogger / Blogspot / WordPress/Website

Robots.txt là một tệp văn bản đơn giản có đuôi mở rộng .txt nằm trong thư mục gốc của trang web. Tệp robots.txt cho trình thu thập dữ liệu của công cụ tìm kiếm biết có thể truy cập vào những URL nào trên trang web của bạn. Tệp này chủ yếu dùng để ngăn trình thu thập dữ liệu gửi quá nhiều yêu cầu cho trang web; đây không phải là cơ chế để ẩn một trang web khỏi Google. Để ẩn một trang web khỏi Google, hãy chặn lập chỉ mục bằng noindex.

Tệp robots.txt dùng để làm gì?

Tệp robots.txt chủ yếu dùng để quản lý lưu lượng truy cập của trình thu thập dữ liệu vào trang web của bạn và thường dùng để ẩn tệp khỏi Google, tuỳ thuộc vào loại tệp. Thận trọng: Việc kết hợp nhiều quy tắc thu thập dữ liệu và lập chỉ mục có thể khiến một số quy tắc xung đột với nhau. Hãy tìm hiểu cách kết hợp quy tắc thu thập dữ liệu với quy tắc lập chỉ mục và phân phát.

Lợi ích khi sử dụng robots.txt

Thêm robots.txt là tùy chọn không bắt buộc, thế nhưng nó lại khá cần thiết là vì:

Chặn index các tài nguyên không cần thiết (ví dụ: video, file PDF,...)

Chặn index trang không cần thiết.

Chèn Sitemap

Tối ưu quá trình crawl: Google luôn có một mức thu thập dữ liệu tối đa cho một website trong một khoảng thời gian nhất định. Vì thế, chúng ta cần index trang cần thiết và loại bỏ các trang cần thiết để tiết kiệm cho quá trình crawl này.

File Robots.txt chuẩn SEO nằm ở đâu?

Tệp Robots.txt sẽ luôn nằm ở gốc domain của website. https://www.huongdan.org/robots.txt.

Trong hầu hết các website, bạn có thể truy cập để chỉnh sửa tệp đó trong FTP hoặc bằng cách truy cập File Manager trong hosts CPanel.

Nếu bạn đang sử dụng WordPress, file robots.txt có thể được truy cập trong thư mục public_html của website.

Cấu trúc của file robots.txt . Các từ khóa thường gặp trong robots.txt bao gồm:
User-agent: Chỉ định loại trình thu thập thông tin mà chỉ thị này áp dụng.
Disallow: Chỉ định các URL mà trình thu thập thông tin không được phép truy cập.
Allow: Chỉ định các URL mà trình thu thập thông tin được phép truy cập.
Crawl-delay: Thông số này xác định thời gian (tính bằng giây)  bots phải đợi trước khi chuyển sang phần tiếp theo (cú pháp này ít được sử dụng)
Sitemap: Chỉ định URL của sitemap của trang web.
1. User-Agent
Lệnh user-agent cho phép bạn nhắm mục tiêu các bot hoặc trình thu thập dữ liệu nhất định để chỉ đạo. Ví dụ: nếu bạn chỉ muốn nhắm mục tiêu Bing hoặc Google, đây là lệnh bạn sẽ sử dụng.
Mặc dù có hàng trăm user-agent, dưới đây là ví dụ về một số tùy chọn user-agent phổ biến nhất.
Ký tự đại diện User-agent
Ký tự đại diện User-agent được ghi chú bằng dấu hoa thị (*) và cho phép bạn dễ dàng áp dụng chỉ thị cho tất cả các User-agent tồn tại. Vì vậy, nếu bạn muốn một quy tắc cụ thể áp dụng cho mọi bot, bạn có thể sử dụng User-agent này.
User-agent: *
# Ví dụ 1: Ngăn chặn Googlebot
User-agent: Googlebot
Disallow: /

# Ví dụ 2: Ngăn chặn Googlebot và Adsbot
User-agent: Googlebot
User-agent: Adsbot
Disallow: /

# Ví dụ 3: Chặn tất cả các trình thu thập thông tin trừ Adsbot
User-agent: *
Disallow: /
Disallow
Lệnh Disallow Robots.txt cho phép yêu cầu các công cụ tìm kiếm không thu thập thông tin hoặc truy cập các trang hoặc thư mục nhất định trên một website.
Chặn quyền truy cập vào một thư mục cụ thể
User-agent: *
Disallow: /portfolio
Allow
Lệnh Allow giúp xác định các trang hoặc thư mục nào đó mà bạn muốn bots truy cập và crawl.

Trong ví dụ dưới đây, tôi sẽ thông báo với Googlebot rằng tôi không muốn thu thập thông tin thư mục danh mục portfolio, nhưng tôi muốn một mục danh mục portfolio cụ thể được truy cập và thu thập thông tin:
User-agent: Googlebot
Disallow: /portfolio
Allow: /portfolio/crawlableportfolio
Sitemap 
Khi sử dụng lệnh Sitemap, nó sẽ giúp trình thu thập thông tin của công cụ tìm kiếm thu thập thông tin sơ đồ website bạn dễ dàng hơn.
Cách sử dụng Biểu thức chính quy và ký tự đại diện
Pattern matching là một cách nâng cao hơn để kiểm soát cách bot thu thập dữ liệu website bằng cách sử dụng các ký tự.
Có hai cách diễn đạt phổ biến và được cả Bing và Google sử dụng. Các chỉ thị này đặc biệt hữu ích trên các website thương mại điện tử.
Dấu hoa thị:  * được coi như một ký tự đại diện và có thể đại diện cho bất kỳ chuỗi ký tự nào
Ký hiệu đô la:  $ được sử dụng để chỉ định phần cuối của một URL
Một ví dụ điển hình về việc sử dụng ký tự đại diện * là trong trường hợp bạn muốn ngăn các công cụ tìm kiếm thu thập thông tin các trang có dấu chấm hỏi trong đó.
Đoạn mã dưới đây yêu cầu tất cả các bot bỏ qua việc thu thập dữ liệu bất kỳ URL nào có dấu chấm hỏi trong đó.
User-agent: *
Disallow: /*?

 Một số công thức robots.txt file phổ biến

# Chặn GoogleBot cào website bạn

User-agent: GoogleBot

Disallow: /

# Chặn nhiều user-agent (GoogleBot và Bingbot)

User-agent: GoogleBot

User-agent: Bingbot

Disallow: /

# Chặn tất cả các trình thu thập thông tin

User-agent: *

Disallow: /

# Chặn một miền phụ cụ thể khỏi tất cả các trình thu thập thông tin

Hãy thêm dấu gạch chéo lên phía trước và URL đầy đủ của miền phụ trong quy tắc không cho phép của web. Ví dụ:

User-agent: *

Disallow: /https://page.yourdomain.com/robots.txt

# Chặn một thư mục

Hãy làm theo quy trình tương tự bằng cách thêm dấu gạch chéo lên và tên thư mục của bạn, nhưng sau đó kết thúc bằng một dấu gạch chéo chuyển tiếp khác. Ví dụ:

User-agent: *

Disallow: /images/

Cuối cùng, nếu bạn muốn tất cả các công cụ tìm kiếm thu thập thông tin trên tất cả các trang trên trang web của mình. Bạn có thể tạo quy tắc allow hoặc disallow, nhưng hãy đảm bảo thêm dấu gạch chéo khi sử dụng quy tắc allow. 

# Cho phép tất cả các trình thu thập thông tin

User-agent: *

Allow: /

# Cho phép tất cả các trình thu thập thông tin

User-agent: *

Disallow:

# Chặn quyền truy cập vào một thư mục cụ thể

User-agent: *

Disallow: /portfolio

# Chặn PDF hoặc các loại tệp khác

Nếu bạn không muốn tệp PDF hoặc các loại tệp khác của mình được thu thập thông tin, thì lệnh dưới đây sẽ hữu ích. 

Lệnh chặn đối với tệp PDF:

User-agent: *

Disallow: *.pdf$

Đối với tệp PowerPoint, bạn có thể sử dụng:

User-agent: *

Disallow: *.ppt$

Cho phép tất cả robot truy cập vào mọi thứ:

User-agent: *

Disallow:

Không cho phép tất cả robot truy cập vào mọi thứ:

User-agent: *

Disallow: /

Tất cả các bot của Google không có quyền truy cập

User-agent: googlebot

Disallow: /

Tất cả các bot của Google, ngoại trừ tin tức Googlebot không có quyền truy cập

User-agent: googlebot

Disallow: /

User-agent: googlebot-news

Disallow:

Googlebot và Slurp không có bất kỳ quyền truy cập nào

User-agent: Slurp

User-agent: googlebot

Disallow: /

Tất cả các rô bốt không có quyền truy cập vào hai thư mục

User-agent: *

Disallow: /admin/

Disallow: /private/

Tất cả rô bốt không có quyền truy cập vào một tệp cụ thể

User-agent: *

Disallow: /directory/some-pdf.pdf

Googlebot không có quyền truy cập vào /admin/ và Slurp không có quyền truy cập vào /private/

User-agent: googlebot

Disallow: /admin/

User-agent: Slurp

Disallow: /private/

I. Cấu hình robots.txt chuẩn cho /Blogger/Blogspot

Chỉnh sửa robots.txt cho Blogsopt

Bước 1: Vào trang quản lí blog > Cài đặt.

Bước 2: Kéo xuống dưới và tìm đến Trình thu thập thông tin và lập chỉ mục.

Bật robots.txt tùy chỉnh và nhấp bên dưới để chỉnh sửa.

User-agent: *

Allow: /

User-agent: Googlebot

Allow: /

Allow: /search/label

Disallow: /search

Allow: /search(/)?$

Disallow: *archive.html$

Sitemap: https://www.huongdan.org/atom.xml?redirect=false&start-index=1&max-results=500

Lưu ý Thay https://www.huongdan.org/ thành tên miền của bạn và nếu blog của bạn có hơn 500 bài viết thì đổi 500 thành số lớn hơn

Giải thích về cấu hình này

Đầu tiên là User-agent: *, Cú pháp này cho phép mọi  bot vào thu thập dữ liệu như bot của Google, Bing, ... và xác định các quy tắc được áp dụng bên dưới.

Allow: /, Dòng này nghĩa là cho phép index tất cả các tiền tố url

Mình muốn Google không thu thập vào các trang không cần thiết mà các bot khác vẫn thu thập được, nên mình viết lệnh riêng cho Googlebot bằng cách thêm dòng User-agent: Googlebot

Cho phép Thu thập dữ liệu của trang nhãn: Allow: /search/label/.

Chặn thu thập những trang tìm kiếm có thể không có nội dung (Disallow: /search) nhưng vẫn cho phép thu thập trang bài viết (Allow: /search(/)?$)

Disallow: archive.html$ là chặn thu thập dữ liệu trang web có đuôi archive.html. Mình dùng kí tự ($) để url khớp ở cuối.

Cuối cùng là Sitemap: https... đánh dấu địa chỉ sơ đồ trang web của blog.

II. Tạo Robots.txt cho WordPress / Website của bạn

Nếu đang sử dụng One SEO Pack, Yoast SEO plugin, bạn có thể tạo (và sau đó chỉnh sửa) tệp robots.txt của mình ngay từ giao diện của plugin.

Cách tạo và chỉnh sửa tệp Robots.txt qua FTP

Nếu không sử dụng plugin SEO cung cấp chức năng robots.txt, bạn vẫn có thể tạo và quản lý tfile robots.txt qua SFTP. Trước tiên, hãy sử dụng bất kỳ trình soạn thảo văn bản nào để tạo một tệp trống có tên “robots.txt”:

Tạo File Robots.txt

Sau đó, kết nối với trang web qua SFTP và tải tệp lên thư mục gốc của website. Bạn có thể thực hiện các sửa đổi thêm đối với tệp robots.txt bằng cách chỉnh sửa tệp qua SFTP hoặc tải lên các phiên bản mới của tệp.

 Đặt user-agent Robots.txt của bạn

Bước tiếp theo trong cách tạo tệp robots.txt là đặt user-agent. 

User-agent hay gọi tắt là UA, là một chuỗi nhận diện của trình duyệt web khi gửi yêu cần đến máy chủ web. 

User-agent ở đây tức là trình thu thập thông tin web hoặc công cụ tìm kiếm mà bạn muốn cho phép hoặc chặn. Có ba cách khác nhau để thiết lập user-agent trong tệp robots.txt.

1. Tạo một user-agent

Cú pháp mà bạn sử dụng để đặt user-agent là User-agent. Phần này tôi đã giới thiệu ở trên – phần cú pháp của robots.txt, bạn có thể lưu ảnh trên đó để nghiên cứu nhé.

# Ví dụ về cách đặt user-agent 

User-agent: GoogleBot

2. Tạo nhiều hơn một user-agent

Nếu chúng ta phải thêm nhiều hơn một, hãy làm theo quy trình tương tự như bạn đã làm đối với user-agent GoogleBot trên dòng tiếp theo, nhập tên của user-agent bổ sung. Trong ví dụ này, chúng tôi đã sử dụng Facebot.

# Ví dụ về cách đặt nhiều user-agent

User-agent: GoogleBot

User-agent: Bingbot

3. Đặt Tất cả Trình thu thập thông tin làm User-agent

Để chặn tất cả bot hoặc trình thu thập thông tin, hãy thay thế tên của bot bằng dấu hoa thị (*).

# Ví dụ về cách đặt tất cả trình thu thập thông tin làm user-agent

User-agent: *

Ghi chú: Dấu thăng (#) biểu thị phần đầu của một nhận xét.

Đặt quy tắc cho tệp Robots.txt của bạn

Tệp robots.txt được đọc theo nhóm. Một nhóm sẽ chỉ định user-agent là ai và có một quy tắc hoặc chỉ thị để cho biết tệp hoặc thư mục nào user-agent có thể hoặc không thể truy cập.

Nhắc lại, dưới đây là các lệnh được sử dụng:

1. Disallow

2. Allow

Cả 2 lệnh này đều có chung 3 đặc điểm sau :

Nó cũng bắt đầu bằng dấu gạch chéo (/) theo sau là url toàn trang. 

Bạn sẽ chỉ kết thúc nó bằng một dấu gạch chéo nếu nó đề cập đến một thư mục chứ không phải toàn bộ trang. 

Bạn có thể sử dụng một hoặc nhiều cài đặt cho phép cho mỗi quy tắc.

3. Sơ đồ trang web

Trình thu thập dữ liệu web xử lý các lệnh từ trên xuống dưới. Do đó, hãy thêm Disallow: / bên dưới thông tin user-agent trong mỗi nhóm để chặn các user-agent cụ thể ấy thu thập thông tin trang web của bạn.

9. Tệp Robots.txt dành cho WordPress

Tệp robots.txt bên dưới được tối ưu hóa đặc biệt cho WordPress, giả sử:

Bạn không muốn thu thập thông tin phần quản trị viên.

Bạn không muốn thu thập thông tin các trang kết quả tìm kiếm nội bộ

Bạn không muốn thu thập thông tin thẻ và trang tác giả

Bạn không muốn thu thập thông tin trang 404.

User-agent: *

Disallow: /wp-admin/ #block access to admin section

Disallow: /wp-login.php #block access to admin section

Disallow: /search/ #block access to internal search result pages

Disallow: *?s=* #block access to internal search result pages

Disallow: *?p=* #block access to pages for which permalinks fails

Disallow: *&p=* #block access to pages for which permalinks fails

Disallow: *&preview=* #block access to preview pages

Disallow: /tag/ #block access to tag pages

Disallow: /author/ #block access to author pages

Disallow: /404-error/ #block access to 404 page

Sitemap: https://www.example.com/sitemap_index.xml

 Vậy là bạn đã hiểu Robots.txt là gì? Cấu hình robots.txt chuẩn cho Bogger / Blogspot / WordPress/Website

Thứ Ba, 6 tháng 8, 2024

Hướng dẫn đăng ký SSL - HTTPS miễn phí

tháng 8 06, 2024

Trước hết cần hiểu SSL - HTTPS là gì, Xem bài viết này. SSL hay HTPPS là gì , HTTP khác HTPPS ở chỗ nào?

Cách cài đặt SSL trên Cloudflare

Về cơ bản, Cloudflare sẽ cung cấp 3 loại chứng chỉ SSL chính cho người dùng và hỗ trợ mã hóa lưu lượng truy cập cho cả 3 loại để trang web nhận được sự đánh giá tốt hơn từ các công cụ tìm kiếm như Google. Tùy vào nhu cầu và ngân sách mà bạn có thể lựa chọn cho mình loại SSL phù hợp nhất. Tuy nhiên, tốt nhất là bạn nên sử dụng SSL Flexible vì đây là tùy chọn miễn phí và dễ triển khai. 

Với SSL Flexible, bạn không cần phải cài đặt chứng chỉ SSL trên máy chủ gốc. Thay vào đó, Cloudflare sẽ sử dụng chứng chỉ SSL của họ để bảo vệ kết nối giữa người dùng với máy chủ. Ngoài ra, bạn còn có thể tiết kiệm được một khoản chi phí cho việc mua và cấu hình chứng chỉ SSL riêng.

Để cài đặt SSL Flexible, bạn thực hiện theo hướng dẫn sau:

1. Truy cậhttps://www.cloudflare.com/lp/pg-all-plans-ssl, nhấn Get started for free, xác thực và đăng ký tài khoản.

2. Thêm domain của bạn

Thêm trang web hoặc ứng dụng của bạn vào Cloudflare

Nhập tên miền của bạn. Đây sẽ là tên của không gian nơi bạn áp dụng cấu hình Cloudflare và theo dõi tác động lên trang web hoặc ứng dụng của mình.

Chọn Free

3. Review your DNS records, nhấn Continue

4. Change your nameservers Thay đổi máy chủ tên của bạn

Tại đây CloudFlare sẽ yêu cầu các bạn sử dụng cặp Nameservers của CloudFlare (mục 4) để thay thế cho cặp Nameservers mặc định của tên miền (mục 3). Để thay thế thì các bạn truy cập vào quản trị tên miền của mình => vào phần Nameserver => và thay thế bằng Nameservers của CloudFlare.

Đối với Website host riêng , Wordpress thay trong host

Đối với Blogger / Blogspot

Ví dụ bạn mua domain tại pavietnam.vn, vào https://access.pavietnam.vn/login.php

Sau khi đã đổi Nameserver, bạn nhấn vào Done, check nameservers . Việc còn lại là bạn chờ Nameserver cập nhật, việc cập nhật nhanh hay chậm tùy vào mỗi tên miền.

Kích hoạt  SSL - HTTPS miễn phí tại CloudFlare 

Trong Dashboard, chọn GoTo rồi chọn SSL/TSL,rồi chọn Flexible.

- Có 4 mục 

Off (not secure)

Không áp dụng mã hóa. Việc tắt SSL sẽ vô hiệu hóa HTTPS và khiến trình duyệt hiển thị cảnh báo rằng trang web của bạn không an toàn.

Flexible

Chỉ kích hoạt mã hóa giữa khách truy cập của bạn và Cloudflare. Điều này tránh các cảnh báo bảo mật của trình duyệt, nhưng tất cả các kết nối giữa Cloudflare và nguồn gốc của bạn đều được thực hiện thông qua HTTP.

Full

Kích hoạt tính năng mã hóa đầu cuối. Sử dụng chế độ này khi máy chủ gốc của bạn hỗ trợ chứng nhận SSL nhưng không sử dụng chứng chỉ hợp lệ, được tin cậy công khai.

Full (strict)

(Chế độ được đề xuất) Kích hoạt mã hóa hai đầu và thực thi xác thực trên chứng chỉ gốc. Sử dụng CA gốc của Cloudflare để tạo chứng chỉ cho nguồn gốc của bạn.

Như vậy bạn đã đăng ký SSL - HTTPS miễn phí nhé

Kết nối của bạn tới trang web này không an toàn - Không bảo mật

tháng 8 06, 2024

Tại sao trang Website / Blogger / Wordpress của bạn xuất hiện Kết nối của bạn tới trang web này không an toàn - Không bảo mật, đó là do website của bạn không có chứng chỉ bảo mật SSL, hay website của bạn chỉ có HTPP không có HTTPS.

Khi bạn mở một trang web, trình duyệt sẽ Kiểm tra xem kết nối của trang web có an toàn hay không, giúp bạn duyệt web an toàn hơn bằng cách cảnh báo cho bạn khi phát hiện ra trang web có thể không an toàn khi truy cập. Khi một trang web có thể không an toàn, trình duyệt sẽ thay đổi biểu tượng bên cạnh địa chỉ trang web đó. Có 3 cấp như sau, ví dụ trên Google Chrome.

1. Mặc định (An toàn), có HTPPS, biểu tượng khóa. Nó có thông báo trên trình duyệt:

Thông tin của bạn (ví dụ mật khẩu hoặc số thẻ tín dụng) sẽ được bảo mật khi gửi tới trang web này

Trang web này có chứng chỉ hợp lệ, được cấp bởi cơ quan đáng tin cậy. Điều này có nghĩa là thông tin (chẳng hạn như mật khẩu hoặc thẻ tín dụng) sẽ được gửi đến trang này một cách an toàn và không thể bị chặn. Luôn đảm bảo bạn đang truy cập trang web dự định trước khi nhập bất kỳ thông tin nào.​

2. Thông tin hoặc Không an toàn

 Trang web này không dùng kết nối riêng tư. Người khác có thể xem và thay đổi thông tin bạn gửi hoặc nhận thông qua trang web này. Để giải quyết vấn đề này, chủ sở hữu trang web phải bảo mật trang web và dữ liệu của bạn bằng HTTPS.

3. Không an toàn hoặc Nguy hiểm, không có SSL, hay HTTPS. Khi bạn mua domain không mua thêm chứng chỉ SSL, cài web có dạng http://huongdan.org , không phải https://huongdan.org

Kết nối của bạn tới trang web này không an toàn, Bạn không nên nhập bất kỳ thông tin nhạy cảm nào trên trang web này (ví dụ mật khẩu hoặc thẻ tín dụng), vì những kẻ tấn công có thể đánh cắp thông tin đó.

Trang web này không có chứng chỉ. Vì kết nối này không an toàn nên thông tin (chẳng hạn như mật khẩu hoặc thẻ tín dụng) sẽ không được gửi đến trang này một cách an toàn và có thể bị người khác chặn hoặc xem. 

Để không còn cảnh báo Kết nối của bạn tới trang web này không an toàn - Không bảo mật, bạn cần mua chứng chỉ SSLvà cài đặt lên Domain của bạn.

1. SSL hay HTPPS là gì , HTTP khác HTPPS ở chỗ nào?

Giao thức bảo mật – SSL là viết tắt của từ Secure Sockets Layer. Đây là một tiêu chuẩn an ninh công nghệ toàn cầu tạo ra một liên kết được mã hóa giữa máy chủ web và trình duyệt. Liên kết này đảm bảo tất cả các dữ liệu trao đổi giữa máy chủ web và trình duyệt luôn được bảo mật và an toàn.

SSL đảm bảo rằng tất cả các dữ liệu được truyền giữa các máy chủ web và các trình duyệt được mang tính riêng tư, tách rời. SSL là một chuẩn công nghiệp được sử dụng bởi hàng triệu trang web trong việc bảo vệ các giao dịch trực tuyến với khách hàng của họ.

Chứng thư số SSL cài trên website của doanh nghiệp cho phép khách hàng khi truy cập có thể xác minh được tính xác thực, tin cậy của website, đảm bảo mọi dữ liệu, thông tin trao đổi giữa website và khách hàng được mã hóa, tránh nguy cơ bị can thiệp.

2. HTPPS là gì , HTTP khác HTPPS ở chỗ nào?

Môi trường internet đang ngày càng phát triển, kéo theo tỉ lệ tội phạm mạng tăng cao, vì thế website của bạn cần đáp ứng những tiêu chuẩn bảo mật nghiêm ngặt hơn. Đó là lí do giao thức HTTPS dần thay thế hoàn toàn HTTP. Vậy, giao thức HTTPS là gì? HTTP và HTTPS khác nhau như thế nào? Và tại sao các website nên dùng HTTPS thay vì HTTP?

Giao thức HTTP là gì?

HTTP (Hypertext Transfer Protocol) là giao thức truyền tải siêu văn bản. Đây là giao thức tiêu chuẩn cho World Wide Web (www) để truyền tải dữ liệu dưới dạng văn bản, âm thanh, hình ảnh, video từ Web Server tới trình duyệt web của người dùng và ngược lại.

HTTP là một giao thức ứng dụng của bộ giao thức TCP/IP (các giao thức nền tảng cho Internet). Bộ giao thức TCP/IP là một bộ các giao thức truyền thông cài đặt chồng giao thức mà Internet và hầu hết các mạng máy tính thương mại đang chạy trên đó. Bộ giao thức này được đặt theo tên hai giao thức chính là TCP (Transmission Control Protocol – Giao thức điều khiển truyền vận) và IP (Internet Protocol – Giao thức Internet).

HTTP hoạt động theo mô hình Client (máy khách) – Server (máy chủ). Việc truy cập website được tiến hành dựa trên các giao tiếp giữa 2 đối tượng trên. Khi bạn truy cập một trang web qua giao thức HTTP, trình duyệt sẽ thực hiện các phiên kết nối đến server của trang web đó thông qua địa chỉ IP do hệ thống phân giải tên miền DNS cung cấp. Máy chủ sau khi nhận lệnh, sẽ trả về lệnh tương ứng giúp hiển thị website, bao gồm các nội dung như: văn bản, ảnh, video, âm thanh,…

Trong quá trình kết nối và trao đổi thông tin, trình duyệt của bạn sẽ mặc nhiên thừa nhận địa chỉ IP đó đến từ server của chính website mà bạn muốn truy cập mà không hề có biện pháp xác thực nào. Các thông tin được gửi đi qua giao thức HTTP (bao gồm địa chỉ IP, các thông tin mà bạn nhập vào website…) cũng không hề được mã hóa và bảo mật. Đây chính là kẽ hở mà nhiều hacker đã lợi dụng để đánh cắp thông tin người dùng, thường được gọi là tấn công sniffing.

Giao thức HTTPS là gì?

HTTPS (Hypertext Transfer Protocol Secure) là giao thức truyền tải siêu văn bản an toàn. Thực chất, đây chính là giao thức HTTP nhưng tích hợp thêm Chứng chỉ bảo mật SSL nhằm mã hóa các thông điệp giao tiếp để tăng tính bảo mật. Có thể hiểu, HTTPS là phiên bản HTTP an toàn, bảo mật hơn.

HTTPS hoạt động tương tự như HTTP, tuy nhiên được bổ sung thêm chứng chỉ SSL (Secure Sockets Layer – tầng ổ bảo mật) hoặc TLS (Transport Layer Security – bảo mật tầng truyền tải). Hiện tại, đây là các tiêu chuẩn bảo mật hàng đầu cho hàng triệu website trên toàn thế giới.

Cả SSL và TLS đều sử dụng hệ thống PKI (Public Key Infrastructure -hạ tầng khóa công khai) không đối xứng. Hệ thống này sử dụng hai “khóa” để mã hóa thông tin liên lạc, “khóa công khai” (public key) và “khóa riêng” (private key). Bất cứ thứ gì được mã hóa bằng khóa công khai chỉ có thể được giải mã bởi khóa riêng và ngược lại. Các tiêu chuẩn này đảm bảo các nội dung sẽ được mã hóa trước khi truyền đi, và giải mã khi nhận. Điều này khiến hacker dù có chen ngang lấy được thông tin cũng không thể “hiểu” được thông tin đó.

HTTP và HTTPS khác nhau như thế nào?

Mặc dù cùng là giao thức truyền tải thông tin trên mạng internet, nhưng HTTP và HTTPS có những điểm khác nhau cốt lõi khiến cho HTTPS được ưa chuộng hơn trên toàn thế giới.

Chứng chỉ SSL

Sự khác biệt lớn nhất giữa HTTP và HTTPS là chứng chỉ SSL. Về cơ bản, HTTPS là một giao thức HTTP với bảo mật bổ sung. Tuy nhiên, trong thời đại mà mọi thông tin đều được số hóa, thì giao thức HTTPS lại trở nên cực kỳ cần thiết cho bảo mật website. Dù bạn sử dụng máy tính cá nhân hay công cộng, các tiêu chuẩn SSL sẽ luôn đảm bảo liên lạc giữa máy khách và máy chủ được an toàn, chống bị dòm ngó.

Port trên HTTP và HTTPS

Port là cổng xác định thông tin trên máy khách, sau đó phân loại để gửi đến máy chủ. Mỗi Port mang một số hiệu riêng với chức năng riêng biệt. Giao thức HTTP sử dụng Port 80, trong khi đó HTTPS sử dụng Port 443 – đây chính là cổng hỗ trợ mã hóa kết nối từ máy tính client đến server, nhằm bảo vệ gói dữ liệu đang được truyền đi.

Mức độ bảo mật của HTTP và HTTPS

Khi máy khách truy cập một website, giao thức HTTPS sẽ hỗ trợ xác thực tính đích danh của website đó thông qua việc kiểm tra xác thực bảo mật (Security Certificate).

Các xác thực bảo mật này được cung cấp và xác minh bởi Certificate Authority (CA) – các tổ chức phát hành các chứng thực các loại chứng thư số cho người dùng, doanh nghiệp, máy chủ, mã nguồn, phần mềm. Các tổ chức này đóng vai trò là bên thứ ba, được cả hai bên tin tưởng để hỗ trợ quá trình trao đổi thông tin an toàn.

Đối với HTTP, vì dữ liệu không được xác thực bảo mật nên sẽ không có gì đảm bảo được phiên kết nối của bạn có đang bị “nghe lén” hay không, hoặc bạn đang cung cấp thông tin cho website thật hay một website giả mạo.

Có nên sử dụng HTTPS cho website của bạn?

HTTPS bảo mật thông tin người dùng

Tránh lừa đảo bằng website giả mạo

Giao thức HTTPS tăng uy tín website đối với người dùng

Giao thức HTTPS là điều kiện thiết yếu trong SEO website

HTTPS chậm hơn HTTP, nhưng không đáng kể

Mua giao thức HTTPS ở đâu?

Nếu muốn tự cài đặt SSL miễn phí, các bạn có thể tham khảo Cloudflare hoặc Let’s Encrypt. Cách tạo chứng chỉ SSL miễn phí với các phần mềm này khá đơn giản.

Cách chuyển http sang https

Thiết lập và cấu hình chứng chỉ SSL.

Backup toàn bộ trang web của bạn trong trường hợp bạn cần trở lại trạng thái ban đầu.

Điều chỉnh các internal link trên trang của bạn từ HTTP sang HTTPS.

Cập nhật thư viện mã của bạn, chẳng hạn như JavaScript, Ajax và bất kỳ plugin nào của bên thứ ba.

Redirect tất cả các liên kết được kiểm soát bên ngoài sang HTTPS, bao gồm cả danh sách thư mục.

Sửa đổi các tệp cấu hình như htaccess cho các máy chủ như Apache Web Server, LiteSpeed, NGinx Config và các tính năng quản lý dịch vụ internet của bạn (ví dụ: Windows Web Server) để cho phép chuyển hướng từ HTTP sang HTTPS.

Nếu bạn sử dụng Mạng phân phối nội dung (CDN), hãy cập nhật cài đặt SSL của mạng đó.

Triển khai chuyển hướng 301 trên mỗi trang.

Cập nhật mọi liên kết được sử dụng trong các công cụ tự động hóa tiếp thị của bạn.

Cập nhật các landing page và liên kết của paid ads.

Config trang web của bạn cho HTTPS trong Google Search Console và Google Analytics.

Xem Hướng dẫn đăng ký SSL - HTTPS miễn phí

Đưa website / Blogger / Wordpress lên công cụ tìm kiếm Google & Bing & Cốc cốc

tháng 8 06, 2024

 Hướng dẫn Đưa website / Blogger / Wordpress  lên công cụ tìm kiếm Google & Bing & Cốc cốc

1. Đưa website / Blogger / Wordpress  lên công cụ tìm kiếm Google

Bước 1: Truy cập vào địa chỉ https://search.google.com/search-console/about (Đây cũng là nơi để bạn quản trị website trên Google). 

Bước 2: Nhấn nút Bắt đầu ngay bây giờ và đăng nhập tài khoản gmail của bạn. 

Bước 3: Sau khi đăng nhập bạn sẽ nhận được một thông báo chọn loại sản phẩm Miền hoặc Tiền tố URL.

Tên miền: Đây là quyền quản lý toàn quyền tên miền, giao thức website và subdomain. Tuy nhiên, bạn sẽ cần phải xác minh bằng DNS nếu muốn sử dụng quyền này. 

Tiền tố URL: Chỉ có quyền quản lý tiền tố URL bạn điền vào.

***Lưu ý: Thông thường, mỗi website sẽ có 1 tiền tố, mỗi subdomain sẽ có một chủ đề khác nhau, bởi vậy bạn không nên quản lý chung. Bạn nên lựa chọn tiền tố URL cho mục này. 

Bước 4: Chờ Google tiếp nhận và tiến hành công việc xác minh website.

Xác minh theo Miền nhé : 

Khi đã nhập được tên miền đầy đủ lúc này chúng ta nhấn vào Tiếp tục để bảng thông báo hiển lên. Đây là bảng thông báo cấu hình xác thức tên miền.

Ở bước tiếp theo chúng ta sẽ sao chép bản ghi TXT

Tiếp theo, tiến hình truy cập phần quản lý tên miền của bạn > Tên miền > Chọn tên miền > Quản lý DNS > Thêm bản ghi tên miền. Nhập các giá trị trong bản ghi như sau

Host: nhập “@”

Loại: chọn “TXT”

Giá trị: Paste đoạn sao chép ở bước trên.

Chọn Thêm bản ghi để hoàn tất.

Sau khi thực hiện xong lúc này chỉ cần quay trở về search.google.com để nhấn vào Xác minh để quá trình được hoàn thành tiến hành xác minh quyền sở hữu tên miền với Google Search Console

Xác minh quyền sở hữu tên miền với Google Search Console khi được thực hiện là cách để bảo vệ website của bạn hiệu quả hơn. Thực hiện xác minh với cách thức đơn giản, quy trình thực hiện dễ dàng giúp chúng ta sớm bảo vệ được tài sản của chính mình, ứng dụng cho công việc hiệu quả

2. Đưa website / Blogger / Wordpress  lên công cụ tìm kiếm Bing

Đăng ký tài khoản webmaster của Bing
Bước 1: Đăng ký tài khoản Microsoft.
Bước 2: Dùng tài khoản Microsoft vừa đăng ký để đăng nhập vào webmaster (https://www.bing.com/webmaster).
Bước 3: Tiến hành submit url của bạn như cách trên.

3. Đưa website / Blogger / Wordpress  lên công cụ tìm kiếm CốcCốc

Bước 1: Truy cập vào địa chỉ http://help.coccoc.com/search-engine.
Bước 2: Nhập URL trang web của bạn, nhập mã Capcha và nhấn Gửi yêu cầu.
Trên đây là hướng dẫn chi tiết về các cách khai báo website lên Google, Bing và Cốc Cốc. Công việc khai báo khá đơn giản, bạn có thể tự thực hiện khi xây dựng nội dung website xong

Kiểm tra website có xuất hiện trên Google không?
Sau khi khai báo website với Google xong, bạn muốn kiểm tra xem liệu website của mình đã hiển thị trên Google chưa, bạn có thể gõ tìm kiếm trên trình duyệt với lệnh “site:url”. Trong trường hợp website không xuất hiện trên Google, có thể bạn đã gặp một số nguyên nhân sau đây:
Website vừa khởi chạy Google chưa có đủ thời gian thu thập dữ liệu trang.
Các trang của web chưa có sự liên kết.
Thiết kế website chưa tối ưu tốt từ phần code.

Giới thiệu về Search Console
Google Search Console là một dịch vụ miễn phí mà Google cung cấp để giúp bạn theo dõi, duy trì và khắc phục sự cố liên quan đến sự hiện diện của trang web của mình trong kết quả tìm kiếm trên Google. Bạn không cần phải đăng ký Search Console để trang web của bạn hiển thị trong kết quả tìm kiếm của Google, nhưng Search Console giúp bạn hiểu và cải thiện cách Google xem trang của bạn.

Search Console cung cấp công cụ và báo cáo cho các hành động sau:
Xác nhận rằng Google có thể tìm và thu thập dữ liệu trang web của bạn.
Khắc phục vấn đề lập chỉ mục và yêu cầu lập chỉ mục lại nội dung mới hoặc nội dung cập nhật.
Xem dữ liệu về lưu lượng truy cập từ Google Tìm kiếm đến trang web của bạn: tần suất trang web của bạn xuất hiện trong Google Tìm kiếm, cụm từ tìm kiếm nào làm trang web của bạn hiển thị, tần suất người tìm kiếm nhấp vào trang đối với các cụm từ đó, v.v.
Nhận thông báo khi Google gặp phải vấn đề lập chỉ mục, nội dung spam hoặc các vấn đề khác trên trang web của bạn.
Cho bạn thấy những trang web liên kết đến trang web của mình.

Những ai nên sử dụng Search Console?
Chủ sở hữu doanh nghiệp: Ngay cả khi bạn không tự mình sử dụng Search Console, bạn cũng nên tìm hiểu về Search Console, làm quen với các khái niệm cơ bản về việc tối ưu hoá trang web cho công cụ tìm kiếm và biết những tính năng nào có thể sử dụng trong Google Tìm kiếm.
Chuyên gia SEO hoặc nhà tiếp thị: Nếu bạn tập trung vào tiếp thị trực tuyến, Search Console sẽ giúp bạn theo dõi lưu lượng truy cập trang web của bạn, tối ưu hóa thứ hạng của trang web và đưa ra quyết định sáng suốt về giao diện kết quả tìm kiếm của trang. Bạn có thể sử dụng thông tin trong Search Console trong việc đưa ra quyết định kỹ thuật cho trang web và thực hiện phân tích tiếp thị tinh vi kết hợp với các công cụ khác của Google như Analytics, Google Xu hướng và AdWords.
Quản trị viên trang web: Là một quản trị viên trang web, bạn quan tâm đến việc vận hành đúng cách trang web của bạn. Search Console cho phép bạn dễ dàng theo dõi và trong một số trường hợp giải quyết các lỗi máy chủ, vấn đề tải trang web và vấn đề an ninh như tấn công và phần mềm độc hại. Bạn cũng có thể sử dụng Search Console để đảm bảo bất kỳ thao tác bảo trì hay điều chỉnh nào bạn thực hiện với trang web cũng không gây cản trở đến hiệu suất tìm kiếm.
Nhà phát triển web: Nếu bạn đang tạo thẻ đánh dấu và/hoặc mã thực tế cho trang web của mình, Search Console sẽ giúp bạn theo dõi và giải quyết các vấn đề thường gặp với thẻ đánh dấu, chẳng hạn như lỗi trong dữ liệu có cấu trúc.