Author Topic: Сортировка кандзей  (Read 2415 times)

Offline Euskaldun

  • Администратор
  • Трижды герой
  • *****
  • Posts: 28980
  • Карма: +3989/-330
    • View Profile
Сортировка кандзей
« on: 28 April 2020, 15:27:02 »
  • 0
  • 0
Наклюнулась новая проблема: по какой логике уомпьютеры сортируют кандзи  :( что-то читал я, читал, но так и не понял  |< кто-нибудь знает?

Offline Upliner

  • Администратор
  • Герой
  • *****
  • Posts: 4942
  • Карма: +431/-18
  • Gender: Male
  • Кис-кис-кис!
    • View Profile
    • лифчег
Re: Сортировка кандзей
« Reply #1 on: 28 April 2020, 18:28:13 »
  • 0
  • 0
Разве не по порядку их нахождения в юникоде?
https://unicode-table.com/en/#cjk-unified-ideographs
Дві найголовніші помилки українського народу -- зек і зєк.

Offline Upliner

  • Администратор
  • Герой
  • *****
  • Posts: 4942
  • Карма: +431/-18
  • Gender: Male
  • Кис-кис-кис!
    • View Profile
    • лифчег
Re: Сортировка кандзей
« Reply #2 on: 28 April 2020, 22:23:03 »
  • 0
  • 0
Или имеется в виду по какой логике их разместили в юникоде?
Дві найголовніші помилки українського народу -- зек і зєк.

Offline Euskaldun

  • Администратор
  • Трижды герой
  • *****
  • Posts: 28980
  • Карма: +3989/-330
    • View Profile
Re: Сортировка кандзей
« Reply #3 on: 29 April 2020, 00:56:25 »
  • 0
  • 0
Разве не по порядку их нахождения в юникоде?
https://unicode-table.com/en/#cjk-unified-ideographs
нет, её сортируют в зависимости от того, как она была введена, например, в Эксель. Если набирать вручную, то Эксель запоминает фонетическую последовательность и сортирует вместе с хираганой. А если взято откуда-то копи-пастом, то будет сортировать юникодом. В результате идентичный иерог сортируется в два разных места, в зависимости от того, как он попал в Эксель :o Я погуглил по теме подробнее, консенсус такой, что на сегодняшний день проблема сортировки японского принципиально не решаема. Единственное решение: создание второго поля вручную и сортировка по нему  :( 

Offline Upliner

  • Администратор
  • Герой
  • *****
  • Posts: 4942
  • Карма: +431/-18
  • Gender: Male
  • Кис-кис-кис!
    • View Profile
    • лифчег
Re: Сортировка кандзей
« Reply #4 on: 29 April 2020, 02:03:44 »
  • 0
  • 0
В результате идентичный иерог сортируется в два разных места, в зависимости от того, как он попал в Эксель
Интересно посмотреть на такой файл...
Дві найголовніші помилки українського народу -- зек і зєк.

Offline Upliner

  • Администратор
  • Герой
  • *****
  • Posts: 4942
  • Карма: +431/-18
  • Gender: Male
  • Кис-кис-кис!
    • View Profile
    • лифчег
Re: Сортировка кандзей
« Reply #5 on: 29 April 2020, 02:19:19 »
  • 0
  • 0
Ещё есть вариант, что при копи-пасте язык может ошибочно определяться как китайский.
Дві найголовніші помилки українського народу -- зек і зєк.

Offline Euskaldun

  • Администратор
  • Трижды герой
  • *****
  • Posts: 28980
  • Карма: +3989/-330
    • View Profile
Re: Сортировка кандзей
« Reply #6 on: 29 April 2020, 03:28:06 »
  • 0
  • 0
Ещё есть вариант, что при копи-пасте язык может ошибочно определяться как китайский.
нет, это - просто косяк от Майкрософта, они хотели как лучше, сделали как всегда. В идее использовать ввод самого юзера для собирания фонетической информации есть рациональное зерно, но не продумано, что у списков (которые чаще всего и надо сортировать) больше шансов быть импортированными, чем введёнными вручную.

Offline Euskaldun

  • Администратор
  • Трижды герой
  • *****
  • Posts: 28980
  • Карма: +3989/-330
    • View Profile
Re: Сортировка кандзей
« Reply #7 on: 29 April 2020, 03:29:43 »
  • 0
  • 0
Интересно посмотреть на такой файл...
там к клеткам с японскими символами крепится мета-разметка с фонетиками использованными для ввода. "Вручную" в Экселе её невидно, наверное, надо как-то хитро экспортировать, чтобы она была видна. Если информация была импортирована, то разметка пустая и в сортировке не участвует

Offline Upliner

  • Администратор
  • Герой
  • *****
  • Posts: 4942
  • Карма: +431/-18
  • Gender: Male
  • Кис-кис-кис!
    • View Profile
    • лифчег
Re: Сортировка кандзей
« Reply #8 on: 29 April 2020, 03:39:23 »
  • 0
  • 0
"Вручную" в Экселе её невидно, наверное, надо как-то хитро экспортировать, чтобы она была видна.
Можно же просто сохранить в xlsx и посмотреть все метаданные...
Дві найголовніші помилки українського народу -- зек і зєк.

Offline Upliner

  • Администратор
  • Герой
  • *****
  • Posts: 4942
  • Карма: +431/-18
  • Gender: Male
  • Кис-кис-кис!
    • View Profile
    • лифчег
Re: Сортировка кандзей
« Reply #9 on: 29 April 2020, 03:54:49 »
  • 0
  • 0
Всё, нашёл, как выглядят метки фонетиков в экселевском файле.
Дві найголовніші помилки українського народу -- зек і зєк.

Offline Upliner

  • Администратор
  • Герой
  • *****
  • Posts: 4942
  • Карма: +431/-18
  • Gender: Male
  • Кис-кис-кис!
    • View Profile
    • лифчег
Re: Сортировка кандзей
« Reply #10 on: 29 April 2020, 04:01:59 »
  • 0
  • 0
В принципе, упираемся в эту же проблему:
В принципе жить с ними можно, но личные имена - это всё-таки трабл. Например, 襄 - это и тов. Джо, и тов. Нобору (!!!). Как они читают чужие имена обменявшись визитками - для меня это мистика. Сколько я слышал, переспросить чужое имя - страшное оскорбление.
Дві найголовніші помилки українського народу -- зек і зєк.

Offline Euskaldun

  • Администратор
  • Трижды герой
  • *****
  • Posts: 28980
  • Карма: +3989/-330
    • View Profile
Re: Сортировка кандзей
« Reply #11 on: 29 April 2020, 23:26:27 »
  • 0
  • 0
Вот ещё "красавец" по теме: 愛. Как иерог - ничего особенного, чаще всего читается "ай" и значит "любовь". А вот как женское имя :o :
Quote
Azumi or Āi or Aika or Aisu or Aki or Ako or Amika or Aoi or Arisa or Aya or Ayu or Chigiri or Chika or Chikashi or Erina or Hāto or Hikari or Ito or Itoshi or Itsumi or Izumi or Kana or Kanae or Kanasa or Kizuna or Kokoro or Konomu or Madoka or Manabu or Manami or Mezuru or Mego or Megu or Megumi or Megumu or Mei or Naru or Naruko or Nozomi or Rabu or Rui or Sara or Saran or Tsugumi or Tsukumi or Ui or Yoshi or Yoshiki or Yoshimi

боюсь, что список неполный  :'(
« Last Edit: 29 April 2020, 23:31:18 by Gaeilgeoir »

Offline Euskaldun

  • Администратор
  • Трижды герой
  • *****
  • Posts: 28980
  • Карма: +3989/-330
    • View Profile
Re: Сортировка кандзей
« Reply #12 on: 29 April 2020, 23:34:51 »
  • 0
  • 0
Погуглив этот иерог в более порядочном словаре:
Quote
Names — 2371 found
:fp |<

Апдейт: в принципе всем японским девочкам можно давать "одно" имя, выраженное только этим одним иерогом, разнообразия будет больше, чем в большинстве стран мира  :fp
« Last Edit: 29 April 2020, 23:37:55 by Gaeilgeoir »