Языковая политика

Общие обсуждения => Компьютеры и интернет => Topic started by: Euskaldun on 22 April 2020, 18:39:44

Title: Как выкачать целый сайт?
Post by: Euskaldun on 22 April 2020, 18:39:44
Есть очень полезный блог https://www.japanesewithanime.com/

В нём практически уникальная информация о разговорном японском и слэнге, чего нет ни в одном учебнике, объяснения - точные, меткие и с юмором. Супер, одним словом, кладезь знаний.

Наученный горьким опытом, что у хорошего контента есть тенденция пропадать бесследно, а waybackmachine индексирует всё что угодно, но не то, что надо мне, хочу сохранить контент на своём диске. Графическая/ эстетическая сторона и ссылки неважны, мне нужно само содержание календарных записей.

Есть ли какой-то практичный способ это сделать, кроме как тупо тыкать в посты (их тысяча+) и сохранять отдельными страницами вручную? 
Title: Re: Как выкачать целый сайт?
Post by: Upliner on 22 April 2020, 18:58:05
Тут опять задачка, которая в Лине решается одной сточкой: "wget -r -k  https://www.japanesewithanime.com/". Буду смотреть, что ещё есть...
Title: Re: Как выкачать целый сайт?
Post by: Upliner on 22 April 2020, 19:03:31
Вспомнил, что есть ещё:
https://ru.wikipedia.org/wiki/Teleport_Pro
https://ru.wikipedia.org/wiki/HTTrack
Title: Re: Как выкачать целый сайт?
Post by: bvs on 22 April 2020, 19:08:40
Я это использовал, на рутрекере вроде есть:
https://ru.wikipedia.org/wiki/Offline_Explorer
Title: Re: Как выкачать целый сайт?
Post by: Euskaldun on 22 April 2020, 19:18:52
Заинсталлировал HTT, запустил - скажу как успехи, когда закончит
Title: Re: Как выкачать целый сайт?
Post by: Euskaldun on 23 April 2020, 02:24:00
Спасибо, всё прекрасно (и правильно) выкачалось! :up: Получился 1Г контента, я рад как слон. Только надо за этой штукой приглядывать, а то она начала мне английскую и японскую википедии выкачивать по рекурсивным ссылкам  :o
Title: Re: Как выкачать целый сайт?
Post by: Upliner on 23 April 2020, 02:28:56
а то она начала мне английскую и японскую википедии выкачивать по рекурсивным ссылкам
wget по умолчанию не выкачивает домены, отличные от изначально заданного. Видимо, где-то в этой проге тоже нужно поставить такую галочку.
Title: Re: Как выкачать целый сайт?
Post by: Euskaldun on 23 April 2020, 02:38:46
wget по умолчанию не выкачивает домены, отличные от изначально заданного. Видимо, где-то в этой проге тоже нужно поставить такую галочку.
там такая загвоздка, что вставлены картинки с кадрами из манги, которые хранились на других доменах. Я не жалуюсь. мусор стёр вручную за 2 мин. По сравнению с перспективой 2 месяца сохранять вручную ... |<
Title: Re: Как выкачать целый сайт?
Post by: Euskaldun on 24 April 2020, 02:34:10
Недолго я радовался. Попался какой-то сайт, где при попытке выгрузки - эпический фейл, грузится только пустая страница index, на которой кроме пары цветовых пятен ничего нет. Я в разметке мало что понимаю, но видно, что весь текст на скриптах и грузится откуда-то, что не связано линками, поэтому у меня в результате остаётся только пустая болванка без содержания. То, что меня интересовало сохранил вручную, но не смог одолеть эту таблицу:

https://jlptstudy.net/N5/?kanji-list

там справа все кандзи - кнопки, и при нажатии внизу, под таблицей грузится чтение и примеры конкретно нажатой кнопки. При нажатии на другую загружается другое и т.д. Как такое выкачать? Сам интерфейс не нужен, хватило бы и этого содержимого нижнего контейнера для всех кнопок.
Title: Re: Как выкачать целый сайт?
Post by: Upliner on 24 April 2020, 03:04:50
Сам интерфейс не нужен, хватило бы и этого содержимого нижнего контейнера для всех кнопок.
Ну, если реально не нужен, то всё содержимое вот:
https://jlptstudy.net/N5/lists/n5_kanji-list.json
А в html всё это дело преобразует как раз интерфейс, без него никак.
Title: Re: Как выкачать целый сайт?
Post by: Upliner on 24 April 2020, 03:13:38
В принципе можно вручную потыкать все кнопки и скопировать получившийся html. Остальные способы для такого в принципе небольшого объёма данных ещё более замороченные.
Title: Re: Как выкачать целый сайт?
Post by: Euskaldun on 24 April 2020, 03:14:32
Ну, если реально не нужен, то всё содержимое вот:
https://jlptstudy.net/N5/lists/n5_kanji-list.json
А в html всё это дело преобразует как раз интерфейс, без него никак.
Спасибо большое, мне такой формат даже удобнее так всё равно содержимое нужно слить со списками с других 2 сайтов и всё равно под себя переделать, так как самая большая работа с кандзями - это их запомнить, а для этого нужен оригинальный подход.

Глупый вопрос: а почему httrack не скачал этот файл, он же на том же домене?     
Title: Re: Как выкачать целый сайт?
Post by: Upliner on 24 April 2020, 03:15:50
Глупый вопрос: а почему httrack не скачал этот файл, он же на том же домене?
Потому что ссылка не него спрятана глубоко в скриптах, а скрипты он выполнять не умеет.

Вот так это выглядит:
Code: [Select]
$.getJSON("lists/" + this.level + "_kanji-list.json")
Title: Re: Как выкачать целый сайт?
Post by: Euskaldun on 24 April 2020, 03:19:02
Потому что ссылка не него спрятана глубоко в скриптах, а скрипты он выполнять не умеет.
т.е. он глупо тыкает на все линки со страницы index, а чего ещё на домене есть он не в курсе? странно, они пишут, что утилита - для создания зеркал, но тогда отзеркалить такие сайты не получится
Title: Re: Как выкачать целый сайт?
Post by: Upliner on 24 April 2020, 03:23:44
т.е. он глупо тыкает на все линки со страницы index, а чего ещё на домене есть он не в курсе?
Ну да, а откуда он это узнает, если в него даже не встроен js-движок?
странно, они пишут, что утилита - для создания зеркал, но тогда отзеркалить такие сайты не получится
Да, к сожалению AJAX и прочий Web 2.0 -- это совершенно отдельная тема и классические способы отзеркаливания тут не работают.
Title: Re: Как выкачать целый сайт?
Post by: Euskaldun on 24 April 2020, 03:41:46
Да, к сожалению AJAX и прочий Web 2.0 -- это совершенно отдельная тема и классические способы отзеркаливания тут не работают.
Приятно осознавать, что это не я тупой, а есть реальная проблема  :-[