Author Topic: Как выкачать целый сайт?  (Read 3734 times)

Online Euskaldun

  • Администратор
  • Трижды герой
  • *****
  • Posts: 28980
  • Карма: +3989/-330
    • View Profile
Как выкачать целый сайт?
« on: 22 April 2020, 18:39:44 »
  • 0
  • 0
Есть очень полезный блог https://www.japanesewithanime.com/

В нём практически уникальная информация о разговорном японском и слэнге, чего нет ни в одном учебнике, объяснения - точные, меткие и с юмором. Супер, одним словом, кладезь знаний.

Наученный горьким опытом, что у хорошего контента есть тенденция пропадать бесследно, а waybackmachine индексирует всё что угодно, но не то, что надо мне, хочу сохранить контент на своём диске. Графическая/ эстетическая сторона и ссылки неважны, мне нужно само содержание календарных записей.

Есть ли какой-то практичный способ это сделать, кроме как тупо тыкать в посты (их тысяча+) и сохранять отдельными страницами вручную? 

Offline Upliner

  • Администратор
  • Герой
  • *****
  • Posts: 4942
  • Карма: +431/-18
  • Gender: Male
  • Кис-кис-кис!
    • View Profile
    • лифчег
Re: Как выкачать целый сайт?
« Reply #1 on: 22 April 2020, 18:58:05 »
  • 0
  • 0
Тут опять задачка, которая в Лине решается одной сточкой: "wget -r -k  https://www.japanesewithanime.com/". Буду смотреть, что ещё есть...
Дві найголовніші помилки українського народу -- зек і зєк.

Offline Upliner

  • Администратор
  • Герой
  • *****
  • Posts: 4942
  • Карма: +431/-18
  • Gender: Male
  • Кис-кис-кис!
    • View Profile
    • лифчег
Re: Как выкачать целый сайт?
« Reply #2 on: 22 April 2020, 19:03:31 »
  • 0
  • 0
Дві найголовніші помилки українського народу -- зек і зєк.

Offline bvs

  • Герой
  • *
  • Posts: 2866
  • Карма: +230/-8
    • View Profile
Re: Как выкачать целый сайт?
« Reply #3 on: 22 April 2020, 19:08:40 »
  • 0
  • 0
Я это использовал, на рутрекере вроде есть:
https://ru.wikipedia.org/wiki/Offline_Explorer

Online Euskaldun

  • Администратор
  • Трижды герой
  • *****
  • Posts: 28980
  • Карма: +3989/-330
    • View Profile
Re: Как выкачать целый сайт?
« Reply #4 on: 22 April 2020, 19:18:52 »
  • 0
  • 0
Заинсталлировал HTT, запустил - скажу как успехи, когда закончит

Online Euskaldun

  • Администратор
  • Трижды герой
  • *****
  • Posts: 28980
  • Карма: +3989/-330
    • View Profile
Re: Как выкачать целый сайт?
« Reply #5 on: 23 April 2020, 02:24:00 »
  • 0
  • 0
Спасибо, всё прекрасно (и правильно) выкачалось! :up: Получился 1Г контента, я рад как слон. Только надо за этой штукой приглядывать, а то она начала мне английскую и японскую википедии выкачивать по рекурсивным ссылкам  :o

Offline Upliner

  • Администратор
  • Герой
  • *****
  • Posts: 4942
  • Карма: +431/-18
  • Gender: Male
  • Кис-кис-кис!
    • View Profile
    • лифчег
Re: Как выкачать целый сайт?
« Reply #6 on: 23 April 2020, 02:28:56 »
  • 0
  • 0
а то она начала мне английскую и японскую википедии выкачивать по рекурсивным ссылкам
wget по умолчанию не выкачивает домены, отличные от изначально заданного. Видимо, где-то в этой проге тоже нужно поставить такую галочку.
Дві найголовніші помилки українського народу -- зек і зєк.

Online Euskaldun

  • Администратор
  • Трижды герой
  • *****
  • Posts: 28980
  • Карма: +3989/-330
    • View Profile
Re: Как выкачать целый сайт?
« Reply #7 on: 23 April 2020, 02:38:46 »
  • 0
  • 0
wget по умолчанию не выкачивает домены, отличные от изначально заданного. Видимо, где-то в этой проге тоже нужно поставить такую галочку.
там такая загвоздка, что вставлены картинки с кадрами из манги, которые хранились на других доменах. Я не жалуюсь. мусор стёр вручную за 2 мин. По сравнению с перспективой 2 месяца сохранять вручную ... |<

Online Euskaldun

  • Администратор
  • Трижды герой
  • *****
  • Posts: 28980
  • Карма: +3989/-330
    • View Profile
Re: Как выкачать целый сайт?
« Reply #8 on: 24 April 2020, 02:34:10 »
  • 0
  • 0
Недолго я радовался. Попался какой-то сайт, где при попытке выгрузки - эпический фейл, грузится только пустая страница index, на которой кроме пары цветовых пятен ничего нет. Я в разметке мало что понимаю, но видно, что весь текст на скриптах и грузится откуда-то, что не связано линками, поэтому у меня в результате остаётся только пустая болванка без содержания. То, что меня интересовало сохранил вручную, но не смог одолеть эту таблицу:

https://jlptstudy.net/N5/?kanji-list

там справа все кандзи - кнопки, и при нажатии внизу, под таблицей грузится чтение и примеры конкретно нажатой кнопки. При нажатии на другую загружается другое и т.д. Как такое выкачать? Сам интерфейс не нужен, хватило бы и этого содержимого нижнего контейнера для всех кнопок.

Offline Upliner

  • Администратор
  • Герой
  • *****
  • Posts: 4942
  • Карма: +431/-18
  • Gender: Male
  • Кис-кис-кис!
    • View Profile
    • лифчег
Re: Как выкачать целый сайт?
« Reply #9 on: 24 April 2020, 03:04:50 »
  • 1
  • 0
Сам интерфейс не нужен, хватило бы и этого содержимого нижнего контейнера для всех кнопок.
Ну, если реально не нужен, то всё содержимое вот:
https://jlptstudy.net/N5/lists/n5_kanji-list.json
А в html всё это дело преобразует как раз интерфейс, без него никак.
Дві найголовніші помилки українського народу -- зек і зєк.

Offline Upliner

  • Администратор
  • Герой
  • *****
  • Posts: 4942
  • Карма: +431/-18
  • Gender: Male
  • Кис-кис-кис!
    • View Profile
    • лифчег
Re: Как выкачать целый сайт?
« Reply #10 on: 24 April 2020, 03:13:38 »
  • 0
  • 0
В принципе можно вручную потыкать все кнопки и скопировать получившийся html. Остальные способы для такого в принципе небольшого объёма данных ещё более замороченные.
Дві найголовніші помилки українського народу -- зек і зєк.

Online Euskaldun

  • Администратор
  • Трижды герой
  • *****
  • Posts: 28980
  • Карма: +3989/-330
    • View Profile
Re: Как выкачать целый сайт?
« Reply #11 on: 24 April 2020, 03:14:32 »
  • 0
  • 0
Ну, если реально не нужен, то всё содержимое вот:
https://jlptstudy.net/N5/lists/n5_kanji-list.json
А в html всё это дело преобразует как раз интерфейс, без него никак.
Спасибо большое, мне такой формат даже удобнее так всё равно содержимое нужно слить со списками с других 2 сайтов и всё равно под себя переделать, так как самая большая работа с кандзями - это их запомнить, а для этого нужен оригинальный подход.

Глупый вопрос: а почему httrack не скачал этот файл, он же на том же домене?     

Offline Upliner

  • Администратор
  • Герой
  • *****
  • Posts: 4942
  • Карма: +431/-18
  • Gender: Male
  • Кис-кис-кис!
    • View Profile
    • лифчег
Re: Как выкачать целый сайт?
« Reply #12 on: 24 April 2020, 03:15:50 »
  • 0
  • 0
Глупый вопрос: а почему httrack не скачал этот файл, он же на том же домене?
Потому что ссылка не него спрятана глубоко в скриптах, а скрипты он выполнять не умеет.

Вот так это выглядит:
Code: [Select]
$.getJSON("lists/" + this.level + "_kanji-list.json")
« Last Edit: 24 April 2020, 03:18:36 by Upliner »
Дві найголовніші помилки українського народу -- зек і зєк.

Online Euskaldun

  • Администратор
  • Трижды герой
  • *****
  • Posts: 28980
  • Карма: +3989/-330
    • View Profile
Re: Как выкачать целый сайт?
« Reply #13 on: 24 April 2020, 03:19:02 »
  • 0
  • 0
Потому что ссылка не него спрятана глубоко в скриптах, а скрипты он выполнять не умеет.
т.е. он глупо тыкает на все линки со страницы index, а чего ещё на домене есть он не в курсе? странно, они пишут, что утилита - для создания зеркал, но тогда отзеркалить такие сайты не получится

Offline Upliner

  • Администратор
  • Герой
  • *****
  • Posts: 4942
  • Карма: +431/-18
  • Gender: Male
  • Кис-кис-кис!
    • View Profile
    • лифчег
Re: Как выкачать целый сайт?
« Reply #14 on: 24 April 2020, 03:23:44 »
  • 0
  • 0
т.е. он глупо тыкает на все линки со страницы index, а чего ещё на домене есть он не в курсе?
Ну да, а откуда он это узнает, если в него даже не встроен js-движок?
странно, они пишут, что утилита - для создания зеркал, но тогда отзеркалить такие сайты не получится
Да, к сожалению AJAX и прочий Web 2.0 -- это совершенно отдельная тема и классические способы отзеркаливания тут не работают.
Дві найголовніші помилки українського народу -- зек і зєк.