Author Topic: Новый словник для сравнения уральских языков  (Read 13192 times)

Offline Euskaldun

  • Администратор
  • Трижды герой
  • *****
  • Posts: 28980
  • Карма: +3989/-330
    • View Profile
Навеяно предыдущим обсуждением монографии Рейна Таагепера "The Finno-Ugric republics and the Russian state" (1996). Книга русофобская, но в ней есть интересная таблица по сравнению словника Сводеша нескольких фу. народов. Несмотря на его ссылку на собственную статью в Linguistica Uralica (1994), на самом деле все его данные взяты из статьи Рауна 1964 г, что как бы  неудивительно, так как seltsimees Taagepera не лингвист, а политический обозреватель.  :lol:

В любом случае 100 словный словник это не есть что-то очень удовлетворительное и достаточное, так как для центральных фу народов (т.е. без угорской ветви) схождения в произвольных парах в пределах 30-40%, так что различия между ними на грани статистической погрешности и не помогают чётко разделить финно-пермский таксон на дочерние (под)группы. Я считаю, что ответ о, например, взаимотношениях эрзя-мари-пермяне может быть найден, если будет использован принципиально более широкий словник.

Что я сделал? Так как с корпусами малых народов беда (чаще всего их просто нет), за отправную точку я использовал список слов BNC1 (British National Corpus - общий, со служебными словами). Почему его? За неимением лучшего (корпус около 10 млн слов, литература взвешена по жанрам), и что очень важно - слова сгруппированы по корням, т.е. в отличие от большинства частотных словников be, was, were, is - одно слово. Аналогичным образом одно "слово" - able, ability, inability. Учитывая богатую морфологию и гибкое словообразование в фу. языках - я считаю корневой принцип более чем оправданным. Если сферический в вакууме носитель фу. языка захочет изучить другой фу. язык он наверняка начнёт с знакомства со словообразовательным моделями целевого языка, иначе изучение лексики станет очень нерациональным. Вместо того чтобы выучить 30 корней и 10 аффиксов (= аналогов родных аффиксов) придётся заучивать 300 слов и т.д.

Кроме того, я принял решения "причесать" словник:

Во-первых, я удалил все новомодные греко-латинские корни, которые проcтым людям ни к чему, и которых нет в традиционных текстах. Чаще всего эти корни заимствованы и в русском языке и тождественны английским, например radio, video, debate, discuss, argue и т.д. В случае с фу. языками России в тех редких дискурсах, когда нужна такая лексика, эти слова почти на 100% взяты из русского, поэтому сравнивать словники с такими "вкраплениями" заведомо бессмысленно, они будут создавать ненужный статистический шум.

Во-вторых, я убрал ту абстрактную лексику, которая в английском - всё те же греко-латинские корни, а в русском она хотя и приняла славянскую одёжку, но по факту - это кальки. Например, influence - влиять, suppose - предполагать и т.д. Насчёт этих слов можно спорить, но а) их нет в традиционных текстах (медведи не "влияют" на охотников, а лисы ничего не "предполагают") б) если эти слова и есть в реальных живых фу. языках (а не русские корни с фу. окончаниями), то это скорее всего новоделы 90ых годов. Кроме того, даже если эти слова как-то калькированы, то с использованием уже существующих корней и их сравнение ничего нового не даст.

В-третьих, я расширил словник лексикой, которая отражает традиционный уклад, скажем так, 19 века, так как вполне очевидно, что BNC отражает урбанизированную культуру конца 20 века, где слабо представлены животные (есть только питомцы - собаки и кошки, но нет коров, зайцев и т.д.), деревья, явления природы, и традиционные профессии (кузнец, швея), зато есть "автобус, кофе, стресс, секс" и т.д. Кроме того, я убрал узкоспецифичные реалии вроде Иисуса, Рождества, Англия, месяца и дни недели (как и сама "неделя"). Есть времена года и части суток, как и само слово "год". Числа оставил в объёме: 1-10, 20, 100, 1000. Из страноведческого оставил Россию, Эстонию и Финляндию и национальности сравниваемых языков как культурно-значимые слова.

И в-четвёртых, я вручную верифицировал пары антонимов. Довольно удивительно, но в словнике есть слово stupid, но нет clever, есть full но нет empty и т.д.

В результате этих манипуляций словник сократился до примерно 500 корней.

И последнее - при подсчёте когнатов я буду учитывать очень частую претензию к списку Сводеша от носителей тюркских языков (а ситуация по крайней мере в прибалтийско-финских похожая): неправильно считать "непониманием", если не совпадают лишь стилистически нейтральные аналоги, но совпадают их более редко используемые синонимы. Пуристы списка Сводеша постоянно насчитывают огромные дистанции между носителями тюркских языков, которые не подтверждаются практикой и не влияют на взаимопонимание. Для примера, если в русском языке стилистически-нейтральное слово "большой", это совсем не значит, что русский человек на генетическом уровне не в состоянии сразу понять польское прилагательное wielki, которое соответствует русскому несколько возвышенному "великий". Сводешисты в таких случаях считают, что совпадения нет, так как большой <> wielki.

Во-вторых, я принимаю совпадения даже если они неточные, но мало влияют на понимание. Например, эст. valge = белый, а эрз. вальде = светлый. Формально слова не совпадают, но реально на взаимопонимание это мало влияет. Аналогично rootsi ~ рочь тоже будет считаться совпадением, хотя формально национальности не совпадают, сути того, что это слово обозначает "представитель чужого народа на севере" это не меняет.

Что вы думаете, перспективна ли работа с таким словником и интересны ли были бы результаты такого сравнения?

Offline Leo

  • Posts: 18345
  • Карма: +577/-3244
    • View Profile
не уловил: саамская группа в этом участвует?

Offline Владимир

  • Гуру форума
  • Трижды герой
  • *****
  • Posts: 28354
  • Карма: +4183/-77
    • View Profile
Навеяно предыдущим обсуждением монографии Рейна Таагепера "The Finno-Ugric republics and the Russian state" (1996). Книга русофобская, но в ней есть интересная таблица по сравнению словника Сводеша нескольких фу. народов. Несмотря на его ссылку на собственную статью в Linguistica Uralica (1994), на самом деле все его данные взяты из статьи Рауна 1964 г, что как бы  неудивительно, так как seltsimees Taagepera не лингвист, а политический обозреватель.  :lol:
У Таагепера есть ссылка на Рауна в Linguistica Uralica. Просто это первое, что мне попалось под руку с данными по схождению базисной лексики ФУ языков  :)

Offline Владимир

  • Гуру форума
  • Трижды герой
  • *****
  • Posts: 28354
  • Карма: +4183/-77
    • View Profile
Что вы думаете, перспективна ли работа с таким словником и интересны ли были бы результаты такого сравнения?
Идея составлять для каждого таксона свой список базисной лескики высказывалась с начала 60-х, емнип. Кроме того, были предложения составлять такого рода списки по частотности, напр., по отрывкам из библии, которая переведа на большинство существующих языков. В любом случае попробуйте свой метод на парах финский - коми и финский - венгерский и сравните результаты с классическими.

Offline Euskaldun

  • Администратор
  • Трижды герой
  • *****
  • Posts: 28980
  • Карма: +3989/-330
    • View Profile
Идея составлять для каждого таксона свой список базисной лескики высказывалась с начала 60-х, емнип.
Я такого не предлагаю, список будет один для всех уральских языков. Просто мне хотелось бы большей ясности о взаимодействии поволжских языков, или о «любовном треугольнике» эстонский — финский — собственно-карельский
Quote
Кроме того, были предложения составлять такого рода списки по частотности, напр., по отрывкам из библии, которая переведа на большинство существующих языков.
Непосредственно я читал только карельскую Библию, и мне совсем не понравилось то, что я там увидел, вряд ли другие Библии (кроме, возможно, финской, венгерской и эстонской) лучше.
Quote
В любом случае попробуйте свой метод на парах финский - коми и финский - венгерский и сравните результаты с классическими.
Так как словники принципиально разные, вряд ли результаты будут сравнимы. Здесь важно не абсолютное число в конце а сравнение полученных чисел между собой, наиболее интересно сравнение схождений эрзя — финский и эрзя — марийский. А потом и другое сравнить, например венгерский — манси, манси — хантыйский и прочие треугольники.

Offline Сергей

  • Дважды герой
  • **
  • Posts: 8162
  • Карма: +1046/-36
    • View Profile
А когда вы хотите его составить?

Offline Euskaldun

  • Администратор
  • Трижды герой
  • *****
  • Posts: 28980
  • Карма: +3989/-330
    • View Profile
А когда вы хотите его составить?
я вчера начал над английским списком работать, уже 2/3 сделал. Закончу надо будет заполнить финским эрзя и марийским и можно считать  :)

Offline Владимир

  • Гуру форума
  • Трижды герой
  • *****
  • Posts: 28354
  • Карма: +4183/-77
    • View Profile
о «любовном треугольнике» эстонский — финский — собственно-карельский
На мой взгляд тут результат предсказуем, учитывая какое влияние оказали северные диалекты собственно-карельского на литературный финский язык.

Offline Euskaldun

  • Администратор
  • Трижды герой
  • *****
  • Posts: 28980
  • Карма: +3989/-330
    • View Profile
На мой взгляд тут результат предсказуем, учитывая какое влияние оказали северные диалекты собственно-карельского на литературный финский язык.
в базовой лексике ли? кроме того, существует эта крамольная мысль, что финский - это и есть северный эстонский + западно-карельский, так что результат непредсказуем, как мне кажется. Но проблема в том, что посмотреть это негде, отсюда мой проект  :)

Offline Владимир

  • Гуру форума
  • Трижды герой
  • *****
  • Posts: 28354
  • Карма: +4183/-77
    • View Profile
в базовой лексике ли?
В вашем списке 500 коней.

кроме того, существует эта крамольная мысль, что финский - это и есть северный эстонский + западно-карельский, так что результат непредсказуем, как мне кажется. Но проблема в том, что посмотреть это негде, отсюда мой проект  :)
Современный литературный финский - это, грубо говоря, изменившийся за полтора века язык Калевалы, т.е. восточное наречие (диалекты Саво) + часть собственно-карельских диалектов, наложившиеся на старофинский письменный язык Агриколы + язык городского населения.

Offline Euskaldun

  • Администратор
  • Трижды герой
  • *****
  • Posts: 28980
  • Карма: +3989/-330
    • View Profile
Ну будем надеяться, что у меня не только кони получатся  :)

Offline Владимир

  • Гуру форума
  • Трижды герой
  • *****
  • Posts: 28354
  • Карма: +4183/-77
    • View Profile
Ну будем надеяться, что у меня не только кони получатся  :)
Кстати, в карельском сколько слов для «коня»?

Offline I. G.

  • Вне лингвополитики
  • Трижды герой
  • *
  • Posts: 12276
  • Карма: +321/-1386
    • View Profile
Какова научная ценность любых подобных списков?

Offline Leo

  • Posts: 18345
  • Карма: +577/-3244
    • View Profile
Какова научная ценность любых подобных списков?
соответствует цене бульона от яиц на привозе :lol:

Offline Владимир

  • Гуру форума
  • Трижды герой
  • *****
  • Posts: 28354
  • Карма: +4183/-77
    • View Profile
Какова научная ценность любых подобных списков?
В каком смысле любых? На списке Сводеша не одна диссертация была написана и защищена :)