Author Topic: Проблемку решить  (Read 413 times)

Offline Yougi

  • Ветеран
  • *****
  • Posts: 1317
  • Карма: +172/-61
    • View Profile
Проблемку решить
« on: 06 June 2025, 09:54:44 »
  • 0
  • 0
 Вот нарисовалась у меня такая задачка
 Есть несколько текстовых файлов ; это скан словаря;
 Каждая строка содержит словарную статью - слово, перевод, пример; комментарии могут быть, могут и не быть.
 Что нужно - нужно сделать так, чтобы все эти категории подсвечивались - ну, типа, слово - болдом, перевод - обычным шрифтом, пример - курсивом...
 Не, я понимаю, что можно построчно копировать всё в ворд, выделять там категории, менять кегль этцетера - но в словаре 20 тыс. статей - я до смерти не справлюсь ( хотел написать - до пенсии, потом вспомнил, что любимое гос-во меня с пенсией обнесло и работать я буду до поканесдохну ). 
 Пока, кроме как в экзеле прикрутить свойства столбцам и копировать туда содержание ничего не придумывается, но палец от предстоящих щелчков мышой уже начинает ныть...
 Что ещё можно придумать?
 Автоматически распарсить текст не получится.
 
« Last Edit: 06 June 2025, 10:03:59 by Yougi »

Offline Gobino

  • Говно форума
  • *
  • Posts: 1518
  • Карма: +1/-2226
    • View Profile
Re: Проблемку решить
« Reply #1 on: 06 June 2025, 10:09:20 »
  • 0
  • 0
Вот нарисовалась у меня такая задачка
 Есть несколько текстовых файлов ; это скан словаря;
 Каждая строка содержит словарную статью - слово, перевод, пример; комментарии могут быть, могут и не быть.
 Что нужно - нужно сделать так, чтобы все эти категории подсвечивались - ну, типа, слово - болдом, перевод - обычным шрифтом, пример - курсивом...
 Не, я понимаю, что можно построчно копировать всё в ворд, выделять там категории, менять кегль этцетера - но в словаре 20 тыс. статей - я до смерти не справлюсь ( хотел написать - до пенсии, потом вспомнил, что любимое гос-во меня с пенсией обнесло и работать я буду до поканесдохну ). 
 Пока, кроме как в экзеле прикрутить свойства столбцам и копировать туда содержание ничего не придумывается, но палец от предстоящих щелчков мышой уже начинает ныть...
 Что ещё можно придумать?
 Автоматически распарсить текст не получится.
Если после перевода стоит точка, после, примера -точка,  после комментариев -точка, перед каждой статьей красная строка и внутри статьи нет больше точек и красных строк,то можно запрограммировать хотябы на пайтоне.

Offline Yougi

  • Ветеран
  • *****
  • Posts: 1317
  • Карма: +172/-61
    • View Profile
Re: Проблемку решить
« Reply #2 on: 06 June 2025, 10:23:12 »
  • 0
  • 0
 Увы. Точка стоит гарантированно только в конце словарной статьи, да и то только в книжке; при сканировании процентов 30 этих точек съелось.
 Можно их и руками расставить, но процесс сведётся к предыдущему вопросу

Offline Bhudh

  • Дважды герой
  • **
  • Posts: 7721
  • Карма: +2496/-487
    • View Profile
Re: Проблемку решить
« Reply #3 on: 06 June 2025, 10:28:32 »
  • 0
  • 0
Автоматически распарсить текст не получится.
Хотелось бы подробностев, почему Вы так считаете.
Словарь секретный или можете куда-то скинуть?
И как "подсвечивались" категории в оригинальном словаре?
Jestem dokładny i dociekliwy. (Wg Pinii.)
Всё, что нужно для торжества зла — это бездействие добрых людей. Поэтому бездействовать не надо. Алексей Навальный
Ceterum censeo gebniam esse delendam.
…Когда ты чем-то не интересуешься, то после шокового события ты готов принять любую удобную интерпретацию, которую тебе предложат. Григорий Юдин

Offline Yougi

  • Ветеран
  • *****
  • Posts: 1317
  • Карма: +172/-61
    • View Profile
Re: Проблемку решить
« Reply #4 on: 06 June 2025, 10:31:51 »
  • 0
  • 0
Quote
Хотелось бы подробностев, почему Вы так считаете.
языки слишком похожи.
 Процентах в 25 пара слово-перевод совпадают.
 Не, можно, конечно, какие-то критерии придумать, но это примерно такой-же объём работы, как парсить вручную.
 
Quote
Словарь секретный или можете куда-то скинуть?
что скинуть? текстовый файл, картинку страницы, бумажную книгу?
 
Quote
И как "подсвечивались" категории в оригинальном словаре?
Я могу картинку приаттачить, но не сейчас.
« Last Edit: 06 June 2025, 10:36:10 by Yougi »

Offline pitonenko

  • Одиозный участник форума
  • *
  • Posts: 25547
  • Карма: +672/-8719
  • Gender: Male
    • View Profile
Re: Проблемку решить
« Reply #5 on: 06 June 2025, 10:32:38 »
  • 0
  • 0
ИИ пользовать пробовали?
Ждет тебя дорога к партизанам в лес густой.

Offline Bhudh

  • Дважды герой
  • **
  • Posts: 7721
  • Карма: +2496/-487
    • View Profile
Re: Проблемку решить
« Reply #6 on: 06 June 2025, 10:37:22 »
  • 0
  • 0
Хотелось бы подробностев, почему Вы так считаете.
языки слишком похожи.
 Процентах в 25 пара слово-перевод совпадают.
Ну и что? Слово и перевод всегда однословные? Или есть заглавия в два/три слова?
Запятыми там хоть что-то отделяется или тоже 30 % съелось при OCRʼе?

Не, можно, конечно, какие-то критерии придумать, но это примерно такой-же объём работы, как парсить вручную.
«Парсить вручную» это какой-то оксюморон. Парсингом должна машинка заниматься.
Jestem dokładny i dociekliwy. (Wg Pinii.)
Всё, что нужно для торжества зла — это бездействие добрых людей. Поэтому бездействовать не надо. Алексей Навальный
Ceterum censeo gebniam esse delendam.
…Когда ты чем-то не интересуешься, то после шокового события ты готов принять любую удобную интерпретацию, которую тебе предложат. Григорий Юдин

Offline Yougi

  • Ветеран
  • *****
  • Posts: 1317
  • Карма: +172/-61
    • View Profile
Re: Проблемку решить
« Reply #7 on: 06 June 2025, 10:39:05 »
  • 0
  • 0
Quote
ИИ пользовать пробовали?
он недостаточно И для такой халтуры
Quote
Или есть заглавия в два/три слова?
полно.
Честно говоря, я просто не представляю себе критериев, как отличить одно от другого.
« Last Edit: 06 June 2025, 10:40:39 by Yougi »

Offline Bhudh

  • Дважды герой
  • **
  • Posts: 7721
  • Карма: +2496/-487
    • View Profile
Re: Проблемку решить
« Reply #8 on: 06 June 2025, 10:40:00 »
  • 0
  • 0
что скинуть? текстовый файл, картинку страницы, бумажную книгу?
Файл, который Вы хотите распарсить, естественно.
Хотя если картинки качественнее, чем файл, можно и их, я постараюсь сам распознать, инструмент есть.
Jestem dokładny i dociekliwy. (Wg Pinii.)
Всё, что нужно для торжества зла — это бездействие добрых людей. Поэтому бездействовать не надо. Алексей Навальный
Ceterum censeo gebniam esse delendam.
…Когда ты чем-то не интересуешься, то после шокового события ты готов принять любую удобную интерпретацию, которую тебе предложат. Григорий Юдин

Offline Bhudh

  • Дважды герой
  • **
  • Posts: 7721
  • Карма: +2496/-487
    • View Profile
Re: Проблемку решить
« Reply #9 on: 06 June 2025, 12:25:33 »
  • 0
  • 0
Короче. Оно?

Quote from:
Jestem dokładny i dociekliwy. (Wg Pinii.)
Всё, что нужно для торжества зла — это бездействие добрых людей. Поэтому бездействовать не надо. Алексей Навальный
Ceterum censeo gebniam esse delendam.
…Когда ты чем-то не интересуешься, то после шокового события ты готов принять любую удобную интерпретацию, которую тебе предложат. Григорий Юдин

Offline Yougi

  • Ветеран
  • *****
  • Posts: 1317
  • Карма: +172/-61
    • View Profile
Re: Проблемку решить
« Reply #10 on: 06 June 2025, 12:30:13 »
  • 0
  • 0
Вот пример распознанного текста
Code: [Select]
Ka apusana; Ka miksebo muga ruavoit.
Kaalikku kerjäläinen; Kaalikku šalguu myö pajattaa.
Kaanis kaunis.
Kaarninarut tervanarun säikeet; ks. priätti.
Kabakku kapakka, viinakauppa, viinitupa, kabakas kapakassa.
Kabaleh pellon sarka, kabalehel saralla; Niidy kabalehii pidäz vie uuvvestah kerratšelleh kyndiä.
Kabalo kapalo.
Kabaloija kapaloida (lapsi), kabaloittšoo kapaloitsee.
Kabalolapsi kapalolapsi.
Kabalovyo kapalovyo.
Kabaššiekku kapakoitsija.
Kabehet morsiuskapiot.
Kabeššie kiivetä.
Kabevui nousi jaloilleen; Jo hai lopuškal tauvoin jälles kabevui kravat'iz iäres 2. aloitti tappelun.
Kabi syyhy; Meijjän hebozez on kabi, onnakko kai jouhet hännäs kuaputtaa iäres.
Kabista kahista, kabizoo kahisee (kuiva ruoho, haavan lehti).
Kabista kopistella.
Kabin kopina, kapse; Hyö ku ajua firhittih, yksi kabin vai kuului.
Kabineh kapine, esine, työkalu, kopina.
Kabju kavio, kabjah kavioon.
Kablas kaplas; kablahat kaplaat.
Kabli kuorimarauta, nahkurin terä, jolla hän kaapii nahkasta karvoja.
Kabliendu propsin kuorinta, karvojen ottaminen vuodasta terän avulla.
Kablukku kengän korko; Ei se mado ni mil meinannuh kuolla vai ku kablukal stolkonin pidh ga tervüh hengen heitti.
Kabrastua korjata astiat, siivota, kabrasti korjasi, siivosi.
Kabris kauris.
Kaburi kuiva leipä, laiha hevonen.
Kabusäkki matkalaukku.
Kadai kataja.
Kadaimarju katajan marja.
Kadaituhjo katajapensas.
Kadajikko katajikko.
Kadal katala, kovaosainen; Kadal on eliä, ku ni mi täz muailmas ei enembia auta.
Kadžmer katkera, karvas; Muite tämä olis hyvä keitto sinun keitetykse, vai on olevahkozen kadsmer.
Kadriell karjalainen lanssi.
в аттаче картинка

Offline Yougi

  • Ветеран
  • *****
  • Posts: 1317
  • Карма: +172/-61
    • View Profile
Re: Проблемку решить
« Reply #11 on: 06 June 2025, 12:31:16 »
  • 0
  • 0
 не оно, но принцип схож

Offline Gobino

  • Говно форума
  • *
  • Posts: 1518
  • Карма: +1/-2226
    • View Profile
Re: Проблемку решить
« Reply #12 on: 06 June 2025, 12:49:59 »
  • 0
  • 0
не оно, но принцип схож

Как в Вашем конкретном случае разделены между собой слово, перевод, комментарий и пример использования? Как разделены между собой статьи?
Если каждая статья начинается с новой строки, то идентифицировать статьи уже можно. И легко автоматически проставить в конце них  недостающие точки. Затем остается работа внутри статей,  возможность автоматизации которой зависит от структуры и разделительных знаков внутри между разделами.
« Last Edit: 06 June 2025, 12:53:19 by Gobino »

Offline Yougi

  • Ветеран
  • *****
  • Posts: 1317
  • Карма: +172/-61
    • View Profile
Re: Проблемку решить
« Reply #13 on: 06 June 2025, 12:54:50 »
  • 0
  • 0
 Словарная статья начинается с заглавной буквы
 Пример отделён от перевода точкой с запятой
 Если переводов несколько, они разделены запятой
 Словарная статья заканчивается точкой
 
 Проблема в том, что часть этого при сканировании пропадает; внутри примеров часто бывают переводы других слов
 как-то вот так всё это должно выглядеть
Kabevui nousi jaloilleen; Jo hai lopuškal tauvoin jälles kabevui kravat'iz vuodesta iäres  2. aloitti tappelun.
« Last Edit: 06 June 2025, 12:57:36 by Yougi »

Offline Gobino

  • Говно форума
  • *
  • Posts: 1518
  • Карма: +1/-2226
    • View Profile
Re: Проблемку решить
« Reply #14 on: 06 June 2025, 12:57:42 »
  • 0
  • 0
Проблема в том, что часть этого при сканировании пропадает; внутри примеров часто бывают переводы других слов

Более качественное распознавание попробуйте поискать.