Автор Тема: Как выкачать целый сайт?  (Прочитано 1350 раз)

Оффлайн Gaeilgeoir

  • Глобальный модератор
  • Трижды герой
  • *****
  • Сообщений: 6542
  • Карма: +42/-12
    • Просмотр профиля
Как выкачать целый сайт?
« : 22 Апреля 2020, 18:39:44 »
  • 0
  • 0
Есть очень полезный блог https://www.japanesewithanime.com/

В нём практически уникальная информация о разговорном японском и слэнге, чего нет ни в одном учебнике, объяснения - точные, меткие и с юмором. Супер, одним словом, кладезь знаний.

Наученный горьким опытом, что у хорошего контента есть тенденция пропадать бесследно, а waybackmachine индексирует всё что угодно, но не то, что надо мне, хочу сохранить контент на своём диске. Графическая/ эстетическая сторона и ссылки неважны, мне нужно само содержание календарных записей.

Есть ли какой-то практичный способ это сделать, кроме как тупо тыкать в посты (их тысяча+) и сохранять отдельными страницами вручную? 

Оффлайн Upliner

  • Администратор
  • Дважды герой
  • *****
  • Сообщений: 2581
  • Карма: +6/-0
  • Пол: Мужской
  • Кис-кис-кис!
    • Просмотр профиля
    • лифчег
Re: Как выкачать целый сайт?
« Ответ #1 : 22 Апреля 2020, 18:58:05 »
  • 0
  • 0
Тут опять задачка, которая в Лине решается одной сточкой: "wget -r -k  https://www.japanesewithanime.com/". Буду смотреть, что ещё есть...
Пацаки, а пацаки? А вы почему не в намордниках? Приказ господина ПЖ -- всем пацакам одеть намордники! (с)

Новий лох, новий даун, все це станеться іще раз, так як на початку, хай триває далі цирк...

Оффлайн Upliner

  • Администратор
  • Дважды герой
  • *****
  • Сообщений: 2581
  • Карма: +6/-0
  • Пол: Мужской
  • Кис-кис-кис!
    • Просмотр профиля
    • лифчег
Re: Как выкачать целый сайт?
« Ответ #2 : 22 Апреля 2020, 19:03:31 »
  • 0
  • 0
Пацаки, а пацаки? А вы почему не в намордниках? Приказ господина ПЖ -- всем пацакам одеть намордники! (с)

Новий лох, новий даун, все це станеться іще раз, так як на початку, хай триває далі цирк...

Оффлайн bvs

  • Ветеран
  • *****
  • Сообщений: 841
  • Карма: +6/-0
    • Просмотр профиля
Re: Как выкачать целый сайт?
« Ответ #3 : 22 Апреля 2020, 19:08:40 »
  • 0
  • 0
Я это использовал, на рутрекере вроде есть:
https://ru.wikipedia.org/wiki/Offline_Explorer

Оффлайн Gaeilgeoir

  • Глобальный модератор
  • Трижды герой
  • *****
  • Сообщений: 6542
  • Карма: +42/-12
    • Просмотр профиля
Re: Как выкачать целый сайт?
« Ответ #4 : 22 Апреля 2020, 19:18:52 »
  • 0
  • 0
Заинсталлировал HTT, запустил - скажу как успехи, когда закончит

Оффлайн Gaeilgeoir

  • Глобальный модератор
  • Трижды герой
  • *****
  • Сообщений: 6542
  • Карма: +42/-12
    • Просмотр профиля
Re: Как выкачать целый сайт?
« Ответ #5 : 23 Апреля 2020, 02:24:00 »
  • 0
  • 0
Спасибо, всё прекрасно (и правильно) выкачалось! :up: Получился 1Г контента, я рад как слон. Только надо за этой штукой приглядывать, а то она начала мне английскую и японскую википедии выкачивать по рекурсивным ссылкам  :o

Оффлайн Upliner

  • Администратор
  • Дважды герой
  • *****
  • Сообщений: 2581
  • Карма: +6/-0
  • Пол: Мужской
  • Кис-кис-кис!
    • Просмотр профиля
    • лифчег
Re: Как выкачать целый сайт?
« Ответ #6 : 23 Апреля 2020, 02:28:56 »
  • 0
  • 0
а то она начала мне английскую и японскую википедии выкачивать по рекурсивным ссылкам
wget по умолчанию не выкачивает домены, отличные от изначально заданного. Видимо, где-то в этой проге тоже нужно поставить такую галочку.
Пацаки, а пацаки? А вы почему не в намордниках? Приказ господина ПЖ -- всем пацакам одеть намордники! (с)

Новий лох, новий даун, все це станеться іще раз, так як на початку, хай триває далі цирк...

Оффлайн Gaeilgeoir

  • Глобальный модератор
  • Трижды герой
  • *****
  • Сообщений: 6542
  • Карма: +42/-12
    • Просмотр профиля
Re: Как выкачать целый сайт?
« Ответ #7 : 23 Апреля 2020, 02:38:46 »
  • 0
  • 0
wget по умолчанию не выкачивает домены, отличные от изначально заданного. Видимо, где-то в этой проге тоже нужно поставить такую галочку.
там такая загвоздка, что вставлены картинки с кадрами из манги, которые хранились на других доменах. Я не жалуюсь. мусор стёр вручную за 2 мин. По сравнению с перспективой 2 месяца сохранять вручную ... |<

Оффлайн Gaeilgeoir

  • Глобальный модератор
  • Трижды герой
  • *****
  • Сообщений: 6542
  • Карма: +42/-12
    • Просмотр профиля
Re: Как выкачать целый сайт?
« Ответ #8 : 24 Апреля 2020, 02:34:10 »
  • 0
  • 0
Недолго я радовался. Попался какой-то сайт, где при попытке выгрузки - эпический фейл, грузится только пустая страница index, на которой кроме пары цветовых пятен ничего нет. Я в разметке мало что понимаю, но видно, что весь текст на скриптах и грузится откуда-то, что не связано линками, поэтому у меня в результате остаётся только пустая болванка без содержания. То, что меня интересовало сохранил вручную, но не смог одолеть эту таблицу:

https://jlptstudy.net/N5/?kanji-list

там справа все кандзи - кнопки, и при нажатии внизу, под таблицей грузится чтение и примеры конкретно нажатой кнопки. При нажатии на другую загружается другое и т.д. Как такое выкачать? Сам интерфейс не нужен, хватило бы и этого содержимого нижнего контейнера для всех кнопок.

Оффлайн Upliner

  • Администратор
  • Дважды герой
  • *****
  • Сообщений: 2581
  • Карма: +6/-0
  • Пол: Мужской
  • Кис-кис-кис!
    • Просмотр профиля
    • лифчег
Re: Как выкачать целый сайт?
« Ответ #9 : 24 Апреля 2020, 03:04:50 »
  • 1
  • 0
Сам интерфейс не нужен, хватило бы и этого содержимого нижнего контейнера для всех кнопок.
Ну, если реально не нужен, то всё содержимое вот:
https://jlptstudy.net/N5/lists/n5_kanji-list.json
А в html всё это дело преобразует как раз интерфейс, без него никак.
Пацаки, а пацаки? А вы почему не в намордниках? Приказ господина ПЖ -- всем пацакам одеть намордники! (с)

Новий лох, новий даун, все це станеться іще раз, так як на початку, хай триває далі цирк...

Оффлайн Upliner

  • Администратор
  • Дважды герой
  • *****
  • Сообщений: 2581
  • Карма: +6/-0
  • Пол: Мужской
  • Кис-кис-кис!
    • Просмотр профиля
    • лифчег
Re: Как выкачать целый сайт?
« Ответ #10 : 24 Апреля 2020, 03:13:38 »
  • 0
  • 0
В принципе можно вручную потыкать все кнопки и скопировать получившийся html. Остальные способы для такого в принципе небольшого объёма данных ещё более замороченные.
Пацаки, а пацаки? А вы почему не в намордниках? Приказ господина ПЖ -- всем пацакам одеть намордники! (с)

Новий лох, новий даун, все це станеться іще раз, так як на початку, хай триває далі цирк...

Оффлайн Gaeilgeoir

  • Глобальный модератор
  • Трижды герой
  • *****
  • Сообщений: 6542
  • Карма: +42/-12
    • Просмотр профиля
Re: Как выкачать целый сайт?
« Ответ #11 : 24 Апреля 2020, 03:14:32 »
  • 0
  • 0
Ну, если реально не нужен, то всё содержимое вот:
https://jlptstudy.net/N5/lists/n5_kanji-list.json
А в html всё это дело преобразует как раз интерфейс, без него никак.
Спасибо большое, мне такой формат даже удобнее так всё равно содержимое нужно слить со списками с других 2 сайтов и всё равно под себя переделать, так как самая большая работа с кандзями - это их запомнить, а для этого нужен оригинальный подход.

Глупый вопрос: а почему httrack не скачал этот файл, он же на том же домене?     

Оффлайн Upliner

  • Администратор
  • Дважды герой
  • *****
  • Сообщений: 2581
  • Карма: +6/-0
  • Пол: Мужской
  • Кис-кис-кис!
    • Просмотр профиля
    • лифчег
Re: Как выкачать целый сайт?
« Ответ #12 : 24 Апреля 2020, 03:15:50 »
  • 0
  • 0
Глупый вопрос: а почему httrack не скачал этот файл, он же на том же домене?
Потому что ссылка не него спрятана глубоко в скриптах, а скрипты он выполнять не умеет.

Вот так это выглядит:
$.getJSON("lists/" + this.level + "_kanji-list.json")
« Последнее редактирование: 24 Апреля 2020, 03:18:36 от Upliner »
Пацаки, а пацаки? А вы почему не в намордниках? Приказ господина ПЖ -- всем пацакам одеть намордники! (с)

Новий лох, новий даун, все це станеться іще раз, так як на початку, хай триває далі цирк...

Оффлайн Gaeilgeoir

  • Глобальный модератор
  • Трижды герой
  • *****
  • Сообщений: 6542
  • Карма: +42/-12
    • Просмотр профиля
Re: Как выкачать целый сайт?
« Ответ #13 : 24 Апреля 2020, 03:19:02 »
  • 0
  • 0
Потому что ссылка не него спрятана глубоко в скриптах, а скрипты он выполнять не умеет.
т.е. он глупо тыкает на все линки со страницы index, а чего ещё на домене есть он не в курсе? странно, они пишут, что утилита - для создания зеркал, но тогда отзеркалить такие сайты не получится

Оффлайн Upliner

  • Администратор
  • Дважды герой
  • *****
  • Сообщений: 2581
  • Карма: +6/-0
  • Пол: Мужской
  • Кис-кис-кис!
    • Просмотр профиля
    • лифчег
Re: Как выкачать целый сайт?
« Ответ #14 : 24 Апреля 2020, 03:23:44 »
  • 0
  • 0
т.е. он глупо тыкает на все линки со страницы index, а чего ещё на домене есть он не в курсе?
Ну да, а откуда он это узнает, если в него даже не встроен js-движок?
странно, они пишут, что утилита - для создания зеркал, но тогда отзеркалить такие сайты не получится
Да, к сожалению AJAX и прочий Web 2.0 -- это совершенно отдельная тема и классические способы отзеркаливания тут не работают.
Пацаки, а пацаки? А вы почему не в намордниках? Приказ господина ПЖ -- всем пацакам одеть намордники! (с)

Новий лох, новий даун, все це станеться іще раз, так як на початку, хай триває далі цирк...