Author Topic: Проблемку решить  (Read 415 times)

Offline Yougi

  • Ветеран
  • *****
  • Posts: 1317
  • Карма: +172/-61
    • View Profile
Re: Проблемку решить
« Reply #15 on: 06 June 2025, 13:02:19 »
  • 0
  • 0
Quote
Более качественное распознавание попробуйте поискать.
tnx cpt
 шутку оценил

Offline Bhudh

  • Дважды герой
  • **
  • Posts: 7723
  • Карма: +2496/-487
    • View Profile
Re: Проблемку решить
« Reply #16 on: 06 June 2025, 13:11:02 »
  • 0
  • 0
Н-да… Какчество.

С распознанным текстом алгоритм в принципе понятен: сперва строка бьётся по цифрам, потом по colonʼам, потом по запятым, потом по пробелам.
Далее смотрим, сколько у нас слов получилось в первом из предпоследних разбиений. Если 2 — это и есть слово и перевод. И т. д.
Jestem dokładny i dociekliwy. (Wg Pinii.)
Всё, что нужно для торжества зла — это бездействие добрых людей. Поэтому бездействовать не надо. Алексей Навальный
Ceterum censeo gebniam esse delendam.
…Когда ты чем-то не интересуешься, то после шокового события ты готов принять любую удобную интерпретацию, которую тебе предложат. Григорий Юдин

Offline Yougi

  • Ветеран
  • *****
  • Posts: 1317
  • Карма: +172/-61
    • View Profile
Re: Проблемку решить
« Reply #17 on: 06 June 2025, 13:28:40 »
  • 0
  • 0
 Всё сложнее.
 примо, слово в начале статьи может состоять из двух (или даже из трёх) форм, разделённых пробелами
 секундо, в примерах часто встречаются доп. переводы слов, которые тоже необходимо оформлять.
 см. мой пример - болдом идёт карельское слово, потом плейном финский перевод, потом италиком пример на карельском, и внутри примера слово kravatti дополнительно переводится на финский (vuodesta)

Как я себе это мыслю - в некоем редакторе я выделяю, что надо, нажимаю F1 (условно) и выделенное у меня - херак, и болдом. Выделяю другой фрагмент, нажимаю F2 - оно херак, и италиком.
« Last Edit: 06 June 2025, 13:32:46 by Yougi »

Offline Bhudh

  • Дважды герой
  • **
  • Posts: 7723
  • Карма: +2496/-487
    • View Profile
Re: Проблемку решить
« Reply #18 on: 06 June 2025, 13:29:56 »
  • 0
  • 0
По предоставленному фрагменту выходит такое автоматическое разбиение:

Quote from:
[[[[Ka, apusana]], [[Ka, miksebo, muga, ruavoit.]]]]
[[[[Kaalikku, kerjäläinen]], [[Kaalikku, šalguu, myö, pajattaa.]]]]
[[[[Kaanis, kaunis.]]]]
[[[[Kaarninarut, tervanarun, säikeet]], [[ks., priätti.]]]]
[[[[Kabakku, kapakka], [viinakauppa], [viinitupa], [kabakas, kapakassa.]]]]
[[[[Kabaleh, pellon, sarka], [kabalehel, saralla]], [[Niidy, kabalehii, pidäz, vie, uuvvestah, kerratšelleh, kyndiä.]]]]
[[[[Kabalo, kapalo.]]]]
[[[[Kabaloija, kapaloida, (lapsi)], [kabaloittšoo, kapaloitsee.]]]]
[[[[Kabalolapsi, kapalolapsi.]]]]
[[[[Kabalovyo, kapalovyo.]]]]
[[[[Kabaššiekku, kapakoitsija.]]]]
[[[[Kabehet, morsiuskapiot.]]]]
[[[[Kabeššie, kiivetä.]]]]
[[[[Kabevui, nousi, jaloilleen]], [[Jo, hai, lopuškal, tauvoin, jälles, kabevui, kravat'iz, iäres]]], [[[2]]], [[[., aloitti, tappelun.]]]]
[[[[Kabi, syyhy]], [[Meijjän, hebozez, on, kabi], [onnakko, kai, jouhet, hännäs, kuaputtaa, iäres.]]]]
[[[[Kabista, kahista], [kabizoo, kahisee, (kuiva, ruoho], [haavan, lehti).]]]]
[[[[Kabista, kopistella.]]]]
[[[[Kabin, kopina], [kapse]], [[Hyö, ku, ajua, firhittih], [yksi, kabin, vai, kuului.]]]]
[[[[Kabineh, kapine], [esine], [työkalu], [kopina.]]]]
[[[[Kabju, kavio], [kabjah, kavioon.]]]]
[[[[Kablas, kaplas]], [[kablahat, kaplaat.]]]]
[[[[Kabli, kuorimarauta], [nahkurin, terä], [jolla, hän, kaapii, nahkasta, karvoja.]]]]
[[[[Kabliendu, propsin, kuorinta], [karvojen, ottaminen, vuodasta, terän, avulla.]]]]
[[[[Kablukku, kengän, korko]], [[Ei, se, mado, ni, mil, meinannuh, kuolla, vai, ku, kablukal, stolkonin, pidh, ga, tervüh, hengen, heitti.]]]]
[[[[Kabrastua, korjata, astiat], [siivota], [kabrasti, korjasi], [siivosi.]]]]
[[[[Kabris, kauris.]]]]
[[[[Kaburi, kuiva, leipä], [laiha, hevonen.]]]]
[[[[Kabusäkki, matkalaukku.]]]]
[[[[Kadai, kataja.]]]]
[[[[Kadaimarju, katajan, marja.]]]]
[[[[Kadaituhjo, katajapensas.]]]]
[[[[Kadajikko, katajikko.]]]]
[[[[Kadal, katala], [kovaosainen]], [[Kadal, on, eliä], [ku, ni, mi, täz, muailmas, ei, enembia, auta.]]]]
[[[[Kadžmer, katkera], [karvas]], [[Muite, tämä, olis, hyvä, keitto, sinun, keitetykse], [vai, on, olevahkozen, kadsmer.]]]]
[[[[Kadriell, karjalainen, lanssi.]]]]

Тут в принципе понятно, что если в массиве 2 или 3 слова, то первое скорее всего заглавное, остальные переводы.
Причём, заметьте, это работает даже посередине статьи: "[kabaloittšoo, kapaloitsee.]", "[kabrasti, korjasi]" — это промежуточные переводы однокоренных слов, поэтому первое слово можно сразу курсивить. Понятно, косяки могут быть, но скорее всего немного.
Jestem dokładny i dociekliwy. (Wg Pinii.)
Всё, что нужно для торжества зла — это бездействие добрых людей. Поэтому бездействовать не надо. Алексей Навальный
Ceterum censeo gebniam esse delendam.
…Когда ты чем-то не интересуешься, то после шокового события ты готов принять любую удобную интерпретацию, которую тебе предложат. Григорий Юдин

Offline Yougi

  • Ветеран
  • *****
  • Posts: 1317
  • Карма: +172/-61
    • View Profile
Re: Проблемку решить
« Reply #19 on: 06 June 2025, 13:41:46 »
  • 0
  • 0
 да, но запятые в примерах всю малину портят.

Offline Bhudh

  • Дважды герой
  • **
  • Posts: 7723
  • Карма: +2496/-487
    • View Profile
Re: Проблемку решить
« Reply #20 on: 06 June 2025, 13:49:38 »
  • 0
  • 0
Да ничего они не портят, по запятым же текст тоже разбивается. Просто видно, что в примере есть запятые.
Дополнительно можно было бы и по заглавным буквам разбивать, но тут особого смысла нет, примеры и так точками с запятой разделяются и дальше пример с заглавной.
Проблема есть, когда после примера ещё идёт какой-то текст, как в статье Kaut'i, но там есть помета, которые можно отлавливать отдельно.
Jestem dokładny i dociekliwy. (Wg Pinii.)
Всё, что нужно для торжества зла — это бездействие добрых людей. Поэтому бездействовать не надо. Алексей Навальный
Ceterum censeo gebniam esse delendam.
…Когда ты чем-то не интересуешься, то после шокового события ты готов принять любую удобную интерпретацию, которую тебе предложат. Григорий Юдин

Offline Bhudh

  • Дважды герой
  • **
  • Posts: 7723
  • Карма: +2496/-487
    • View Profile
Re: Проблемку решить
« Reply #21 on: 06 June 2025, 13:54:32 »
  • 0
  • 0
и внутри примера слово kravatti дополнительно переводится на финский (vuodesta)
А вот это Вам, извините, ни один ИИ без оригинала перед глазами не выловит. Как можно понять, что в предложении в сплошном потоке текста какое-то слово ВНЕЗАПНО является переводом предыдущего⁈ Оно же даже не в скобках.
Jestem dokładny i dociekliwy. (Wg Pinii.)
Всё, что нужно для торжества зла — это бездействие добрых людей. Поэтому бездействовать не надо. Алексей Навальный
Ceterum censeo gebniam esse delendam.
…Когда ты чем-то не интересуешься, то после шокового события ты готов принять любую удобную интерпретацию, которую тебе предложат. Григорий Юдин

Offline Yougi

  • Ветеран
  • *****
  • Posts: 1317
  • Карма: +172/-61
    • View Profile
Re: Проблемку решить
« Reply #22 on: 06 June 2025, 13:56:49 »
  • 0
  • 0
Quote
Проблема есть, когда после примера ещё идёт какой-то текст, как в статье Kaut'i,
там перевода нет вообще, только пример

Offline Bhudh

  • Дважды герой
  • **
  • Posts: 7723
  • Карма: +2496/-487
    • View Profile
Re: Проблемку решить
« Reply #23 on: 06 June 2025, 14:02:19 »
  • 0
  • 0
Там после примера после запятой «s.o. vartavasten».
Кстати, да, по двоеточиям тоже стоит разбивать.
Jestem dokładny i dociekliwy. (Wg Pinii.)
Всё, что нужно для торжества зла — это бездействие добрых людей. Поэтому бездействовать не надо. Алексей Навальный
Ceterum censeo gebniam esse delendam.
…Когда ты чем-то не интересуешься, то после шокового события ты готов принять любую удобную интерпретацию, которую тебе предложат. Григорий Юдин