Языковая политика

Общие обсуждения => Компьютеры и интернет => Topic started by: Euskaldun on 28 April 2020, 15:27:02

Title: Сортировка кандзей
Post by: Euskaldun on 28 April 2020, 15:27:02: Наклюнулась новая проблема: по какой логике уомпьютеры сортируют кандзи :( что-то читал я, читал, но так и не понял |< кто-нибудь знает?
Title: Re: Сортировка кандзей
Post by: Upliner on 28 April 2020, 18:28:13: Разве не по порядку их нахождения в юникоде?
https://unicode-table.com/en/#cjk-unified-ideographs
Title: Re: Сортировка кандзей
Post by: Upliner on 28 April 2020, 22:23:03: Или имеется в виду по какой логике их разместили в юникоде?
Title: Re: Сортировка кандзей
Post by: Euskaldun on 29 April 2020, 00:56:25: Quote from: Upliner on 28 April 2020, 18:28:13
Разве не по порядку их нахождения в юникоде?
https://unicode-table.com/en/#cjk-unified-ideographs
нет, её сортируют в зависимости от того, как она была введена, например, в Эксель. Если набирать вручную, то Эксель запоминает фонетическую последовательность и сортирует вместе с хираганой. А если взято откуда-то копи-пастом, то будет сортировать юникодом. В результате идентичный иерог сортируется в два разных места, в зависимости от того, как он попал в Эксель :o Я погуглил по теме подробнее, консенсус такой, что на сегодняшний день проблема сортировки японского принципиально не решаема. Единственное решение: создание второго поля вручную и сортировка по нему :(
Title: Re: Сортировка кандзей
Post by: Upliner on 29 April 2020, 02:03:44: Quote from: Gaeilgeoir on 29 April 2020, 00:56:25
В результате идентичный иерог сортируется в два разных места, в зависимости от того, как он попал в Эксель
Интересно посмотреть на такой файл...
Title: Re: Сортировка кандзей
Post by: Upliner on 29 April 2020, 02:19:19: Ещё есть вариант, что при копи-пасте язык может ошибочно определяться как китайский.
Title: Re: Сортировка кандзей
Post by: Euskaldun on 29 April 2020, 03:28:06: Quote from: Upliner on 29 April 2020, 02:19:19
Ещё есть вариант, что при копи-пасте язык может ошибочно определяться как китайский.
нет, это - просто косяк от Майкрософта, они хотели как лучше, сделали как всегда. В идее использовать ввод самого юзера для собирания фонетической информации есть рациональное зерно, но не продумано, что у списков (которые чаще всего и надо сортировать) больше шансов быть импортированными, чем введёнными вручную.
Title: Re: Сортировка кандзей
Post by: Euskaldun on 29 April 2020, 03:29:43: Quote from: Upliner on 29 April 2020, 02:03:44
Интересно посмотреть на такой файл...
там к клеткам с японскими символами крепится мета-разметка с фонетиками использованными для ввода. "Вручную" в Экселе её невидно, наверное, надо как-то хитро экспортировать, чтобы она была видна. Если информация была импортирована, то разметка пустая и в сортировке не участвует
Title: Re: Сортировка кандзей
Post by: Upliner on 29 April 2020, 03:39:23: Quote from: Gaeilgeoir on 29 April 2020, 03:29:43
"Вручную" в Экселе её невидно, наверное, надо как-то хитро экспортировать, чтобы она была видна.
Можно же просто сохранить в xlsx и посмотреть все метаданные...
Title: Re: Сортировка кандзей
Post by: Upliner on 29 April 2020, 03:54:49: Всё, нашёл, как выглядят метки фонетиков в экселевском файле.
(http://www.localizingjapan.com/blog/wp-content/uploads/2011/02/Excel2003XML.png)
Title: Re: Сортировка кандзей
Post by: Upliner on 29 April 2020, 04:01:59: В принципе, упираемся в эту же проблему:
Quote from: Gaeilgeoir on 14 April 2020, 07:44:24
В принципе жить с ними можно, но личные имена - это всё-таки трабл. Например, 襄 - это и тов. Джо, и тов. Нобору (!!!). Как они читают чужие имена обменявшись визитками - для меня это мистика. Сколько я слышал, переспросить чужое имя - страшное оскорбление.
Title: Re: Сортировка кандзей
Post by: Euskaldun on 29 April 2020, 23:26:27: Вот ещё "красавец" по теме: 愛. Как иерог - ничего особенного, чаще всего читается "ай" и значит "любовь". А вот как женское имя :o :
Quote
Azumi or Āi or Aika or Aisu or Aki or Ako or Amika or Aoi or Arisa or Aya or Ayu or Chigiri or Chika or Chikashi or Erina or Hāto or Hikari or Ito or Itoshi or Itsumi or Izumi or Kana or Kanae or Kanasa or Kizuna or Kokoro or Konomu or Madoka or Manabu or Manami or Mezuru or Mego or Megu or Megumi or Megumu or Mei or Naru or Naruko or Nozomi or Rabu or Rui or Sara or Saran or Tsugumi or Tsukumi or Ui or Yoshi or Yoshiki or Yoshimi

боюсь, что список неполный :'(
Title: Re: Сортировка кандзей
Post by: Euskaldun on 29 April 2020, 23:34:51: Погуглив этот иерог в более порядочном словаре:
Quote
Names — 2371 found
:fp |<

Апдейт: в принципе всем японским девочкам можно давать "одно" имя, выраженное только этим одним иерогом, разнообразия будет больше, чем в большинстве стран мира :fp