Языковая политика

Общие обсуждения => Компьютеры и интернет => Topic started by: Yougi on 06 June 2025, 09:54:44

Title: Проблемку решить
Post by: Yougi on 06 June 2025, 09:54:44
 Вот нарисовалась у меня такая задачка
 Есть несколько текстовых файлов ; это скан словаря;
 Каждая строка содержит словарную статью - слово, перевод, пример; комментарии могут быть, могут и не быть.
 Что нужно - нужно сделать так, чтобы все эти категории подсвечивались - ну, типа, слово - болдом, перевод - обычным шрифтом, пример - курсивом...
 Не, я понимаю, что можно построчно копировать всё в ворд, выделять там категории, менять кегль этцетера - но в словаре 20 тыс. статей - я до смерти не справлюсь ( хотел написать - до пенсии, потом вспомнил, что любимое гос-во меня с пенсией обнесло и работать я буду до поканесдохну ). 
 Пока, кроме как в экзеле прикрутить свойства столбцам и копировать туда содержание ничего не придумывается, но палец от предстоящих щелчков мышой уже начинает ныть...
 Что ещё можно придумать?
 Автоматически распарсить текст не получится.
 
Title: Re: Проблемку решить
Post by: Gobino on 06 June 2025, 10:09:20
Вот нарисовалась у меня такая задачка
 Есть несколько текстовых файлов ; это скан словаря;
 Каждая строка содержит словарную статью - слово, перевод, пример; комментарии могут быть, могут и не быть.
 Что нужно - нужно сделать так, чтобы все эти категории подсвечивались - ну, типа, слово - болдом, перевод - обычным шрифтом, пример - курсивом...
 Не, я понимаю, что можно построчно копировать всё в ворд, выделять там категории, менять кегль этцетера - но в словаре 20 тыс. статей - я до смерти не справлюсь ( хотел написать - до пенсии, потом вспомнил, что любимое гос-во меня с пенсией обнесло и работать я буду до поканесдохну ). 
 Пока, кроме как в экзеле прикрутить свойства столбцам и копировать туда содержание ничего не придумывается, но палец от предстоящих щелчков мышой уже начинает ныть...
 Что ещё можно придумать?
 Автоматически распарсить текст не получится.
Если после перевода стоит точка, после, примера -точка,  после комментариев -точка, перед каждой статьей красная строка и внутри статьи нет больше точек и красных строк,то можно запрограммировать хотябы на пайтоне.
Title: Re: Проблемку решить
Post by: Yougi on 06 June 2025, 10:23:12
 Увы. Точка стоит гарантированно только в конце словарной статьи, да и то только в книжке; при сканировании процентов 30 этих точек съелось.
 Можно их и руками расставить, но процесс сведётся к предыдущему вопросу
Title: Re: Проблемку решить
Post by: Bhudh on 06 June 2025, 10:28:32
Автоматически распарсить текст не получится.
Хотелось бы подробностев, почему Вы так считаете.
Словарь секретный или можете куда-то скинуть?
И как "подсвечивались" категории в оригинальном словаре?
Title: Re: Проблемку решить
Post by: Yougi on 06 June 2025, 10:31:51
Quote
Хотелось бы подробностев, почему Вы так считаете.
языки слишком похожи.
 Процентах в 25 пара слово-перевод совпадают.
 Не, можно, конечно, какие-то критерии придумать, но это примерно такой-же объём работы, как парсить вручную.
 
Quote
Словарь секретный или можете куда-то скинуть?
что скинуть? текстовый файл, картинку страницы, бумажную книгу?
 
Quote
И как "подсвечивались" категории в оригинальном словаре?
Я могу картинку приаттачить, но не сейчас.
Title: Re: Проблемку решить
Post by: pitonenko on 06 June 2025, 10:32:38
ИИ пользовать пробовали?
Title: Re: Проблемку решить
Post by: Bhudh on 06 June 2025, 10:37:22
Хотелось бы подробностев, почему Вы так считаете.
языки слишком похожи.
 Процентах в 25 пара слово-перевод совпадают.
Ну и что? Слово и перевод всегда однословные? Или есть заглавия в два/три слова?
Запятыми там хоть что-то отделяется или тоже 30 % съелось при OCRʼе?

Не, можно, конечно, какие-то критерии придумать, но это примерно такой-же объём работы, как парсить вручную.
«Парсить вручную» это какой-то оксюморон. Парсингом должна машинка заниматься.
Title: Re: Проблемку решить
Post by: Yougi on 06 June 2025, 10:39:05
Quote
ИИ пользовать пробовали?
он недостаточно И для такой халтуры
Quote
Или есть заглавия в два/три слова?
полно.
Честно говоря, я просто не представляю себе критериев, как отличить одно от другого.
Title: Re: Проблемку решить
Post by: Bhudh on 06 June 2025, 10:40:00
что скинуть? текстовый файл, картинку страницы, бумажную книгу?
Файл, который Вы хотите распарсить, естественно.
Хотя если картинки качественнее, чем файл, можно и их, я постараюсь сам распознать, инструмент есть.
Title: Re: Проблемку решить
Post by: Bhudh on 06 June 2025, 12:25:33
Короче. Оно?

Quote from:
(http://puu.sh/KuRYw.png)
Title: Re: Проблемку решить
Post by: Yougi on 06 June 2025, 12:30:13
Вот пример распознанного текста
Code: [Select]
Ka apusana; Ka miksebo muga ruavoit.
Kaalikku kerjäläinen; Kaalikku šalguu myö pajattaa.
Kaanis kaunis.
Kaarninarut tervanarun säikeet; ks. priätti.
Kabakku kapakka, viinakauppa, viinitupa, kabakas kapakassa.
Kabaleh pellon sarka, kabalehel saralla; Niidy kabalehii pidäz vie uuvvestah kerratšelleh kyndiä.
Kabalo kapalo.
Kabaloija kapaloida (lapsi), kabaloittšoo kapaloitsee.
Kabalolapsi kapalolapsi.
Kabalovyo kapalovyo.
Kabaššiekku kapakoitsija.
Kabehet morsiuskapiot.
Kabeššie kiivetä.
Kabevui nousi jaloilleen; Jo hai lopuškal tauvoin jälles kabevui kravat'iz iäres 2. aloitti tappelun.
Kabi syyhy; Meijjän hebozez on kabi, onnakko kai jouhet hännäs kuaputtaa iäres.
Kabista kahista, kabizoo kahisee (kuiva ruoho, haavan lehti).
Kabista kopistella.
Kabin kopina, kapse; Hyö ku ajua firhittih, yksi kabin vai kuului.
Kabineh kapine, esine, työkalu, kopina.
Kabju kavio, kabjah kavioon.
Kablas kaplas; kablahat kaplaat.
Kabli kuorimarauta, nahkurin terä, jolla hän kaapii nahkasta karvoja.
Kabliendu propsin kuorinta, karvojen ottaminen vuodasta terän avulla.
Kablukku kengän korko; Ei se mado ni mil meinannuh kuolla vai ku kablukal stolkonin pidh ga tervüh hengen heitti.
Kabrastua korjata astiat, siivota, kabrasti korjasi, siivosi.
Kabris kauris.
Kaburi kuiva leipä, laiha hevonen.
Kabusäkki matkalaukku.
Kadai kataja.
Kadaimarju katajan marja.
Kadaituhjo katajapensas.
Kadajikko katajikko.
Kadal katala, kovaosainen; Kadal on eliä, ku ni mi täz muailmas ei enembia auta.
Kadžmer katkera, karvas; Muite tämä olis hyvä keitto sinun keitetykse, vai on olevahkozen kadsmer.
Kadriell karjalainen lanssi.
в аттаче картинка
Title: Re: Проблемку решить
Post by: Yougi on 06 June 2025, 12:31:16
 не оно, но принцип схож
Title: Re: Проблемку решить
Post by: Gobino on 06 June 2025, 12:49:59
не оно, но принцип схож

Как в Вашем конкретном случае разделены между собой слово, перевод, комментарий и пример использования? Как разделены между собой статьи?
Если каждая статья начинается с новой строки, то идентифицировать статьи уже можно. И легко автоматически проставить в конце них  недостающие точки. Затем остается работа внутри статей,  возможность автоматизации которой зависит от структуры и разделительных знаков внутри между разделами.
Title: Re: Проблемку решить
Post by: Yougi on 06 June 2025, 12:54:50
 Словарная статья начинается с заглавной буквы
 Пример отделён от перевода точкой с запятой
 Если переводов несколько, они разделены запятой
 Словарная статья заканчивается точкой
 
 Проблема в том, что часть этого при сканировании пропадает; внутри примеров часто бывают переводы других слов
 как-то вот так всё это должно выглядеть
Kabevui nousi jaloilleen; Jo hai lopuškal tauvoin jälles kabevui kravat'iz vuodesta iäres  2. aloitti tappelun.
Title: Re: Проблемку решить
Post by: Gobino on 06 June 2025, 12:57:42
Проблема в том, что часть этого при сканировании пропадает; внутри примеров часто бывают переводы других слов

Более качественное распознавание попробуйте поискать.
Title: Re: Проблемку решить
Post by: Yougi on 06 June 2025, 13:02:19
Quote
Более качественное распознавание попробуйте поискать.
tnx cpt
 шутку оценил
Title: Re: Проблемку решить
Post by: Bhudh on 06 June 2025, 13:11:02
Н-да… Какчество.

С распознанным текстом алгоритм в принципе понятен: сперва строка бьётся по цифрам, потом по colonʼам, потом по запятым, потом по пробелам.
Далее смотрим, сколько у нас слов получилось в первом из предпоследних разбиений. Если 2 — это и есть слово и перевод. И т. д.
Title: Re: Проблемку решить
Post by: Yougi on 06 June 2025, 13:28:40
 Всё сложнее.
 примо, слово в начале статьи может состоять из двух (или даже из трёх) форм, разделённых пробелами
 секундо, в примерах часто встречаются доп. переводы слов, которые тоже необходимо оформлять.
 см. мой пример - болдом идёт карельское слово, потом плейном финский перевод, потом италиком пример на карельском, и внутри примера слово kravatti дополнительно переводится на финский (vuodesta)

Как я себе это мыслю - в некоем редакторе я выделяю, что надо, нажимаю F1 (условно) и выделенное у меня - херак, и болдом. Выделяю другой фрагмент, нажимаю F2 - оно херак, и италиком.
Title: Re: Проблемку решить
Post by: Bhudh on 06 June 2025, 13:29:56
По предоставленному фрагменту выходит такое автоматическое разбиение:

Quote from:
[[[[Ka, apusana]], [[Ka, miksebo, muga, ruavoit.]]]]
[[[[Kaalikku, kerjäläinen]], [[Kaalikku, šalguu, myö, pajattaa.]]]]
[[[[Kaanis, kaunis.]]]]
[[[[Kaarninarut, tervanarun, säikeet]], [[ks., priätti.]]]]
[[[[Kabakku, kapakka], [viinakauppa], [viinitupa], [kabakas, kapakassa.]]]]
[[[[Kabaleh, pellon, sarka], [kabalehel, saralla]], [[Niidy, kabalehii, pidäz, vie, uuvvestah, kerratšelleh, kyndiä.]]]]
[[[[Kabalo, kapalo.]]]]
[[[[Kabaloija, kapaloida, (lapsi)], [kabaloittšoo, kapaloitsee.]]]]
[[[[Kabalolapsi, kapalolapsi.]]]]
[[[[Kabalovyo, kapalovyo.]]]]
[[[[Kabaššiekku, kapakoitsija.]]]]
[[[[Kabehet, morsiuskapiot.]]]]
[[[[Kabeššie, kiivetä.]]]]
[[[[Kabevui, nousi, jaloilleen]], [[Jo, hai, lopuškal, tauvoin, jälles, kabevui, kravat'iz, iäres]]], [[[2]]], [[[., aloitti, tappelun.]]]]
[[[[Kabi, syyhy]], [[Meijjän, hebozez, on, kabi], [onnakko, kai, jouhet, hännäs, kuaputtaa, iäres.]]]]
[[[[Kabista, kahista], [kabizoo, kahisee, (kuiva, ruoho], [haavan, lehti).]]]]
[[[[Kabista, kopistella.]]]]
[[[[Kabin, kopina], [kapse]], [[Hyö, ku, ajua, firhittih], [yksi, kabin, vai, kuului.]]]]
[[[[Kabineh, kapine], [esine], [työkalu], [kopina.]]]]
[[[[Kabju, kavio], [kabjah, kavioon.]]]]
[[[[Kablas, kaplas]], [[kablahat, kaplaat.]]]]
[[[[Kabli, kuorimarauta], [nahkurin, terä], [jolla, hän, kaapii, nahkasta, karvoja.]]]]
[[[[Kabliendu, propsin, kuorinta], [karvojen, ottaminen, vuodasta, terän, avulla.]]]]
[[[[Kablukku, kengän, korko]], [[Ei, se, mado, ni, mil, meinannuh, kuolla, vai, ku, kablukal, stolkonin, pidh, ga, tervüh, hengen, heitti.]]]]
[[[[Kabrastua, korjata, astiat], [siivota], [kabrasti, korjasi], [siivosi.]]]]
[[[[Kabris, kauris.]]]]
[[[[Kaburi, kuiva, leipä], [laiha, hevonen.]]]]
[[[[Kabusäkki, matkalaukku.]]]]
[[[[Kadai, kataja.]]]]
[[[[Kadaimarju, katajan, marja.]]]]
[[[[Kadaituhjo, katajapensas.]]]]
[[[[Kadajikko, katajikko.]]]]
[[[[Kadal, katala], [kovaosainen]], [[Kadal, on, eliä], [ku, ni, mi, täz, muailmas, ei, enembia, auta.]]]]
[[[[Kadžmer, katkera], [karvas]], [[Muite, tämä, olis, hyvä, keitto, sinun, keitetykse], [vai, on, olevahkozen, kadsmer.]]]]
[[[[Kadriell, karjalainen, lanssi.]]]]

Тут в принципе понятно, что если в массиве 2 или 3 слова, то первое скорее всего заглавное, остальные переводы.
Причём, заметьте, это работает даже посередине статьи: "[kabaloittšoo, kapaloitsee.]", "[kabrasti, korjasi]" — это промежуточные переводы однокоренных слов, поэтому первое слово можно сразу курсивить. Понятно, косяки могут быть, но скорее всего немного.
Title: Re: Проблемку решить
Post by: Yougi on 06 June 2025, 13:41:46
 да, но запятые в примерах всю малину портят.
Title: Re: Проблемку решить
Post by: Bhudh on 06 June 2025, 13:49:38
Да ничего они не портят, по запятым же текст тоже разбивается. Просто видно, что в примере есть запятые.
Дополнительно можно было бы и по заглавным буквам разбивать, но тут особого смысла нет, примеры и так точками с запятой разделяются и дальше пример с заглавной.
Проблема есть, когда после примера ещё идёт какой-то текст, как в статье Kaut'i, но там есть помета, которые можно отлавливать отдельно.
Title: Re: Проблемку решить
Post by: Bhudh on 06 June 2025, 13:54:32
и внутри примера слово kravatti дополнительно переводится на финский (vuodesta)
А вот это Вам, извините, ни один ИИ без оригинала перед глазами не выловит. Как можно понять, что в предложении в сплошном потоке текста какое-то слово ВНЕЗАПНО является переводом предыдущего⁈ Оно же даже не в скобках.
Title: Re: Проблемку решить
Post by: Yougi on 06 June 2025, 13:56:49
Quote
Проблема есть, когда после примера ещё идёт какой-то текст, как в статье Kaut'i,
там перевода нет вообще, только пример
Title: Re: Проблемку решить
Post by: Bhudh on 06 June 2025, 14:02:19
Там после примера после запятой «s.o. vartavasten».
Кстати, да, по двоеточиям тоже стоит разбивать.