sitemap.xml
by Valentyn Budkin
1. Только http 200 OK
2. Только страницы не заблокированные в robots.txt
3. Только Canonical
4. Только страницы относящиеся к этому домену
4.1. Для поддоменов - отдельные сайтмэпы
4.2. Для языков - отдельные сайтмэпы
5. В идеале sitemap повторяет то, что гуглу надо проиндексировать.
6. В sitemap не должно быть дубликатов url
7. Использовать Sitemap index file для списка всех sitemap
7.1. https://support.google.com/webmasters/answer/75712?visit_id=1-636173227763622113-75395804&rd=1
8. Подходы к наименованиям, когда есть несколько сайтмэпов Вариант 1: sitemap.social.audits.xml, sitemap.seo.audits.xml, и т.д. Вариант 2: sitemap.products.xml, sitemap.catetegories.xml, и т.п.
9. Для быстрой индексации
9.1. Есть смысл делать rss.xml с последними товарами, блогпостами, промоакциями и скармливать его Google. От туда урлы для индексации будут браться в первую очередь.
9.2. application/rss должен где-то присутствовать
9.3. Таких фидов должен быть минимум
9.4. Можно пинговать гугл о том что появился новый sitemap - http://stackoverflow.com/questions/1332601/pinging-google-sitemap-after-every-new-article-submission http://google.com/ping?sitemap=http://www.example.com/my_sitemap.xml
10. Источники
10.1. https://www.greenlaneseo.com/blog/how-to-create-the-perfect-xml-sitemap/
10.2. Формат - https://www.sitemaps.org/protocol.html
10.3. https://habrahabr.ru/post/274557/
10.4. http://seocheck.io/sitemap-101/
10.5. https://support.google.com/webmasters/answer/183668?hl=en
11. Размер файла не больше 10МБ
11.1. В хелпе Google написано
12. Количество ссылок не больше 50000 на sitemap
13. Нельзя включать в sitemap - noindex