3.7/5 - (3 votes)

Bài viết được cập nhật ngày 21/08/2023

Tại những năm đầu 2010 trở về trước, thực trạng đánh cắp chất xám diễn ra ở khắp Internet. Thời điểm này là lúc Google đã trở thành môi trường cung cấp thông tin khổng lồ và cho phép ta kiếm tiền từ việc làm web. Vì lượng thông tin lớn nên việc quản lý bản quyền trở nên khó khăn. Điều này đã dẫn đến thực trạng vi phạm bản quyền trở nên phổ biến. Để khắc phục, Google đã tạo ra thuật toán Google Pirate.

Thuật toán Pirate được tạo ra nhằm mục đích chống lại những Website đánh cắp nội dung

Thuật toán Pirate được tạo ra nhằm mục đích chống lại những Website đánh cắp nội dung

Google Pirate là gì?

Google Pirate là một trong những thuật toán do Google phát triển và phát hành phiên bản đầu tiên vào tháng 8/2012. Thuật toán này còn được nhiều người gọi với tên là thuật toán cướp biển. Sở dĩ được đặt tên như vậy là vì chức năng của thuật toán này sẽ nhắm đến các “cướp biển” trên Internet. Cụ thể hơn, thuật toán Pirate được tạo ra nhằm mục đích chống lại các Website đánh cắp nội dung có bản quyền.

Google Pirate nhắm đến đối tượng nào?

Vì là thuật toán bảo vệ bản quyền cho website nên Thuật toán Pirate sẽ nhắm đến các web sử dụng thông tin có bản quyền trái phép. Cụ thể hơn, những website như vậy thường có hành vi copy, chỉnh sửa, thương mại hóa thông tin đã được đăng ký bản quyền mà không có sự cho phép của chủ sở hữu. Google Pirate sẽ quét qua các website và đánh dấu những nội dung được cho là đã vi phạm bản quyền về thông tin.

Lưu ý, thông tin được đề cập ở đây không chỉ có nội dung dạng ký tự mà còn là hình ảnh, video, gif, flash,… Thông tin cũng bao gồm cách thiết kế website và bất cứ điều gì có chứa dữ liệu. Tuy nhiên, loại thông tin thường bị đánh cắp nhất vẫn là nội dung dạng ký tự.

Cách thức mà thuật toán cướp biển tác động đến website

Sau khi đã giới thiệu về đối tượng, chúng tôi sẽ phân tích cách mà thuật toán Google Pirate tác động đến các website. Đây chính là tiền đề giúp ta biết được cách tận dụng thuật toán này để bảo vệ bản quyền cho website.

Đánh tụt thứ hạng của website

Như đã đề cập, Google Pirate sẽ quét qua hàng loạt website trên Google. Sau đó, thuật toán này sẽ so sánh thông tin với nhau và dựa vào DMCA để đánh giá chúng. DMCA có thể được hiểu đơn giản là quyền sở hữu trí tuệ. Toàn bộ thông tin đã quét được sẽ được lưu trữ trong hệ thống của Google. 

Khi người dùng tìm kiếm từ khóa, con bot sẽ phân tích và đề xuất các kết quả tìm kiếm phù hợp. Để phân tích chính xác nhất, con bot sẽ dựa vào thông tin đã lưu trữ trong hệ thống và nội dung của website. Khi đó, đối với những trang đã bị đánh dấu vi phạm bản quyền thì con bot Google sẽ hạn chế đề xuất. Điều này dẫn đến thứ hạng của trang đó sẽ bị hạ thấp đáng kể.

Xóa website ra khỏi môi trường thông tin của google

Hiện nay, nhiều người vẫn đang lầm tưởng về hình thức xóa website của Google Pirate. Theo đó, họ cho rằng những trang bị phát hiện đánh cắp bản quyền trầm trọng sẽ bị xóa sổ khỏi môi trường thông tin của google. Việc này không hoàn toàn sai sự thật. 

Sự thật là Google Pirate chỉ có quyền hạn trong việc hỗ trợ giảm thứ hạng của các website. Hình phạt này áp dụng cho mọi mức độ vi phạm bản quyền. Thuật toán chỉ có thể xóa website khi được chủ sở hữu của website gốc gửi thông báo về việc đánh cắp bản quyền. Một điều kiện khác đó là bản thông báo này phải được xác thực và đáng tin cậy. Do đó, để kích hoạt chức năng xóa website của thuật toán, ta cần chứng minh được bản thân là người sở hữu thông tin bản quyền đó.

Làm sao để tận dụng Google Pirate?

Thông thường, chỉ khi phát hiện ra các trường hợp vi phạm bản quyền thì ta mới có thể tận dụng Google Pirate. Theo đó, hình thức để sử dụng thuật toán này là báo cáo cho Google biết về trường hợp đó. 

Tuy nhiên, ta vẫn có thể tận dụng thuật toán này bằng cách lồng ghép các dấu hiệu chứng minh bản quyền vào thông tin trên web. Khi quét qua những thông tin có dấu hiệu này thì thuật toán sẽ lưu toàn bộ dữ liệu vào hệ thống. Đây chính là một phần dữ liệu chứng minh về việc sở hữu bản quyền những thông tin đó. Đồng thời, đây cũng là bằng chứng để làm cơ sở cho việc report website đánh cắp thông tin.

Cách hỗ trợ cho Google Pirate 

Thuật toán Google Pirate chỉ có tác dụng đánh giá và lọc thông tin mà không thể khắc phục tình trạng đánh cắp thông tin. Đặc biệt, một số trường hợp, thuật toán sẽ bỏ sót một vài website sử dụng thông tin lậu vì quản trị viên của các web này đã sử dụng các thủ thuật tinh vi để đánh lừa. Do đó, ta cần phải kết hợp sử dụng các biện pháp đánh dấu bản quyền website để hỗ trợ làm bằng chứng khi báo cáo vi phạm.

Đăng ký bản quyền website

Biện pháp bảo vệ bản quyền nội dung tối ưu nhất chính là sử dụng các công cụ đăng ký bản quyền cho website. Một trong số những công cụ được cấp phép và được nhiều người sử dụng nhất là dmca.com. Đây là trang giúp quản trị viên có thể đăng ký bản quyền của website. Theo đó, trang này hỗ trợ hai phiên bản đăng ký gồm bản Free và bản Pro. 

Trong đó, bản Free sẽ hoàn toàn miễn phí nhưng không hỗ trợ nhiều tính năng cho người dùng. Còn bản Pro thì yêu cầu quản trị viên phải đăng ký có trả phí. Lợi ích mà nhà quản trị nhận được là thông báo về tình trạng đánh cắp bản quyền của website một cách tối ưu nhất.

Mã lệnh chống copy

Hiện nay, nhiều người sử dụng các thuật toán để copy nội dung về cho website một cách nhanh chóng. Bên cạnh đó, một bộ phận khác sẽ thực hiện thủ công bằng cách sử dụng tổ hợp phím Ctrl + V hoặc click chuột trái/phải. Để chống lại những trường hợp này, ta có thể sử dụng các mã code chống copy và chống click chuột. Theo đó, những đoạn code này sẽ ngăn chặn gần như mọi thao tác mang tính sao chép của khách truy cập.

Không chỉ vậy, quản trị viên còn có thể sử dụng code để khiến nội dung copy mang theo thông tin về nguồn. Ví dụ, khách truy cập copy từ “từ khóa”. Khi thả vào một vị trí bất kỳ thì sẽ hiện là “từ khóa nguồn www.tenmien/bai-viet/”. Hiện nay, rất nhiều website đã bắt đầu áp dụng loại mã lệnh này để bảo vệ trang web của mình.

Sử dụng Watermarking

Đây là kỹ thuật được áp dụng thường xuyên và chuyên dùng cho thông tin dạng hình ảnh, video,… Theo đó, quản trị viên sẽ đặt một lớp hình mờ lên nội dung gốc ban đầu. Nếu chỉ nhìn bằng mắt thường thì ta gần như không thể nhận biết được sự tồn tại của lớp này. Tuy nhiên, thuật toán Google Pirate sẽ dễ dàng nhận ra chúng. Đây chính là bằng chứng quan trọng để chứng minh bản quyền thông tin của website.

Bên cạnh việc sử dụng lớp mờ này, ta có thể gắn trực tiếp logo, ký hiệu đặc biệt của website lên thông tin. Việc này cũng mang lại hiệu quả tương tự với Watermarking. Tuy nhiên, những đối tượng đạo nhái có thể nhìn thấy các biểu tượng này bằng mắt thường. Sau đó, họ chỉ cần dùng các thủ thuật chỉnh sửa, cắt ghép thì có thể xóa chúng đi dễ dàng.

Sử dụng dấu vân tay trình duyệt

Dấu vân tay trình duyệt còn có tên gọi là fingerprinting. Đây là một kỹ thuật còn khá mới mẻ và chưa được nhiều website áp dụng, đặc biệt là các trang tiếng Việt. Đó là vì kỹ thuật này khá phức tạp và có liên quan đến sự riêng tư của người dùng. Theo đó, mỗi website đều sẽ có những đặc trưng riêng về hình thức và kiểu dữ liệu. Đây chính là đặc điểm riêng để nhận diện ra được website đó nên được xem là dấu vân tay của trang web.

Khi người dùng truy cập vào web và copy, dấu vân tay sẽ đi theo nội dung copy mà họ hoàn toàn không biết. Nếu đặt nội dung này lên website và được index, thuật toán Google Pirate sẽ quét được và phát hiện đó là những thông tin bị đánh cắp. Để có thể phát hiện, hệ thống phải phân tích sâu vào nội dung tệp và phát hiện ra dữ liệu vân tay.

Cách chủ động kích hoạt Google Pirate

Nếu đã phát hiện ra các website đánh cắp thông tin thì quản trị viên có thể báo cáo chúng. Cách này sẽ ngăn chặn tình trạng website bị đánh cắp có thứ hạng cao hơn website gốc. Sau đây là 2 cách dùng để báo cáo bản quyền và kích hoạt chức năng của Google Pirate:

Báo cáo cho Google 

Cách báo cáo bản quyền cơ bản nhất đó chính là sử dụng chức năng hỗ trợ của Google. Để thực hiện, ta cần truy cập vào đường link “www.google.com/webmasters/tools/dmca-notice?pli=1”. Sau đó, web sẽ đưa ra các hướng dẫn cụ thể để quản trị viên thực hiện. Sau khi đã báo cáo, ta cần chờ một khoảng thời gian để Google xác minh. 

Nếu kết quả Google phản hồi lại là xác nhận thành công thì Google Pirate sẽ xóa nội dung của trang đó. Mặt khác, nếu bằng chứng chứng minh bản quyền không đáng tin cậy thì Google có thể hủy bỏ báo cáo đó.

Báo cáo với DMCA

Để thực hiện cách này, quản trị viên bắt buộc phải đăng ký một phiên bản bất kỳ của dmca.com. Trang web này sẽ hỗ trợ người dùng báo cáo về việc sử dụng nội dung bản quyền trái phép. Khác với cách trên, bằng chứng của tài khoản đã đăng ký dmca.com sẽ được đánh giá là đáng tin hơn so với website khác. Do đó, xác suất báo cáo thành công là vô cung cao.

Tóm lại, Google Pirate là một thuật toán quan trọng dùng để bảo vệ bản quyền của các website. Thuật toán này có thể kết hợp cùng với các thuật toán khác để tạo ra môi trường thông tin chất lượng trên Google. Từ đó, trải nghiệm người dùng sẽ được cải thiện đáng kể. Chúng tôi mong rằng nội dung trong bài viết đã giúp bạn hiểu rõ hơn về thuật toán cướp biển này.