php код символа utf 8

Символ юникода в строке PHP

этот вопрос выглядит ошеломляюще просто, но я не смог найти ответ.

что такое PHP-эквивалент следующей строки кода на C#?

в этом примере создается строка с одним символом Юникода, «числовое значение Юникода» которого равно 1000 в шестнадцатеричном формате (4096 в десятичном).

то есть, в PHP, как я могу создать строку с одним символом Юникода, чье «числовое значение Юникода» известно?

7 ответов:

потому что JSON напрямую поддерживает \uxxxx синтаксис первое, что приходит в голову-это:

или использовать прямое сопоставление между UTF-16BE (big endian) и кодовой точкой Unicode:

теперь можно легко писать символы Юникода с помощью двойные кавычки или heredoc строку, без вызова какой-либо функции.

PHP не знает этих escape-последовательностей Юникода. Но поскольку неизвестные escape-последовательности остаются незатронутыми, вы можете написать свою собственную функцию, которая преобразует такие escape-последовательности Unicode:

интересно, почему никто еще не упомянул об этом, но вы можете сделать почти эквивалентную версию, используя escape-последовательности в в двойных кавычках строки:

последовательность символов, соответствующая регулярному выражению, символ в шестнадцатеричной системе счисления.

если вы используете другую кодировку, вам нужно будет соответствующим образом изменить байты (в основном это делается с библиотекой, хотя и возможно вручную).

UTF-16 с прямым порядком байтов пример:

есть еще pack функция, но вы можете ожидать, что это будет медленно.

Это тоже работает. Однако решение json_decode () намного быстрее (примерно в 50 раз).

как уже упоминалось другими, PHP 7 вводит поддержку \u синтаксис Юникод.

Как также упоминалось другими, единственный способ получить строковое значение из любого разумного описания символов Юникода в PHP-это преобразовать его из чего-то другого (например, разбор JSON, разбор HTML или какая-то другая форма). Но это связано с затратами на производительность во время выполнения.

однако, есть еще один вариант. Вы можете кодировать символ непосредственно в PHP с помощью \x двоичный побег. Элемент \x escape синтаксис также поддерживается в PHP 5.

это особенно полезно, если вы предпочитаете не вводить символ непосредственно в строку через его естественную форму. Например, если это невидимый управляющий символ, или другой трудно обнаружить пробелы.

во-первых, доказательство пример:

обратите внимание, что, как упоминалось Пейсерье в другом ответе, этот двоичный код уникален для конкретной кодировки символов. В приведенный выше пример, \xE2\x80\x8A является двоичным кодированием для U + 200A в UTF-8.

ниже приведен PHP-скрипт для создания escape-последовательности для любого символа, основанного на строке JSON, HTML-сущности или любом другом методе, как только он будет иметь собственную строку.

Источник

Php код символа utf 8

(PHP 4, PHP 5, PHP 7, PHP 8)

ord — Конвертирует первый байт строки в число от 0 до 255

Описание

Интерпретирует бинарное значение первого байта строки character как беззнаковое целое.

Если строка создана в однобайтовой кодировке, такой как ASCII, ISO-8859 или Windows 1252, результат функции будет эквивалентен позиции символа в соответствующей таблице кодировки. В любом случае, эта функция ничего не знает про кодировки и не сможет вернуть кодовую точку первого символа строки, закодированной в многобайтовой кодировке, такой как UTF-8 или UTF-16.

Список параметров

Возвращаемые значения

Целое число от 0 до 255.

Примеры

Пример #1 Пример использования ord()

Пример #2 Просмотр индивидуальный байтов строки UTF-8

Результат выполнения данного примера:

Смотрите также

User Contributed Notes 5 notes

this function convert UTF-8 string to RTF code string. I am using code of v0rbiz at yahoo dot com, thanks.

function cadena_rtf($txt)
<
$result = null;

Regarding character sets, and whether or not this is «ASCII». Firstly, there is no such thing as «8-bit ASCII», so if it were ASCII it would only ever return integers up to 127. 8-bit ASCII-compatible encodings include the ISO 8859 family of encodings, which map various common characters to the values from 128 to 255. UTF-8 is also designed so that characters representable in 7-bit ASCII are coded the same; byte values higher than 127 in a UTF-8 string represent the beginning of a multi-byte character.

A technically correct description would be «Returns an integer representation of the first byte of a string, from 0 to 255. For single-byte encodings such as (7-bit) ASCII and the ISO 8859 family, this will correspond to the first character, and will be the position of that character in the encoding’s mapping table. For multi-byte encodings, such as UTF-8 or UTF-16, the byte may not represent a complete character.»

The link to asciitable.com should also be replaced by one which explains what character encoding it is displaying, as «Extended ASCII» is an ambiguous and misleading name.

I did not found a unicode/multibyte capable ‘ord’ function, so.

For anyone who’s looking to convert full strings to map and back it’s pretty simple but takes some getting used to. the code below saves an hour of scrounging codes for beginners like myself.

Источник

Получение определенного символа строки

Как получить определенный символ строки, способы получения символа из строки в php с примерами!

Нам нужно получить из строки определенный символ! как это сделать!?

Получим определенный символ строки в php

Самый простой способ получить символ строки в php

Для иллюстрации получения символа строки нам потребуется какая-то строка:

Результат получения и вывода определенного символа строки:

Если вы были внимательны, то должны были обратить внимание, на то, что буква выводится 6 по счету. а нам нужна была 5. дело в том, что здесь работает тоже правило, что и с массивом. счет начинается с нуля. и [0] это 1. как бы странно это не звучало! , возможно, что через несколько лет вы привыкните, а может и нет.

Получить символ строки кириллица utf-8

Как получить символ строки кириллица utf-8

Для иллюстрации получения символа строки в кириллице, нам потребуется эта самая строка на кириллице.

Если мы проделаем тоже, что было применено в выше идущем пункте.

Нам нужно перекодировать строку в windows-1251 применяем функцию substr, третьим значением ставим тот символ строки который хотим получить, и третьим шагом возвращаем кодировку строки.

Результат получения определенного символа строки:

если мы сейчас применим функцию mb_substr:

Для того, чтобы данная функция получила определенный символ строки, то нужно объявить кодировку внутри скрипта.

Результат получения символа строки с помощью mb_substr

Сообщение системы комментирования :

Форма пока доступна только админу. скоро все заработает. надеюсь.

Источник

utf8_encode

(PHP 4, PHP 5, PHP 7, PHP 8)

utf8_encode — Кодирует строку ISO-8859-1 в кодировке UTF-8

Описание

Эта функция конвертирует строку string из кодировки ISO-8859-1 в UTF-8

Список параметров

Возвращаемые значения

Список изменений

Версия	Описание
7.2.0	Функция была перенесена в ядро PHP, таким образом отменив требование модуля XML для использования этой функции.

Смотрите также

User Contributed Notes 23 notes

Please note that utf8_encode only converts a string encoded in ISO-8859-1 to UTF-8. A more appropriate name for it would be «iso88591_to_utf8». If your text is not encoded in ISO-8859-1, you do not need this function. If your text is already in UTF-8, you do not need this function. In fact, applying this function to text that is not encoded in ISO-8859-1 will most likely simply garble that text.

If you need to convert text from any encoding to any other encoding, look at iconv() instead.

Here’s some code that addresses the issue that Steven describes in the previous comment;

/* This structure encodes the difference between ISO-8859-1 and Windows-1252,
as a map from the UTF-8 encoding of some ISO-8859-1 control characters to
the UTF-8 encoding of the non-control characters that Windows-1252 places
at the equivalent code points. */

Walk through nested arrays/objects and utf8 encode all strings.

If you need a function which converts a string array into a utf8 encoded string array then this function might be useful for you:

My version of utf8_encode_deep,
In case you need one that returns a value without changing the original.

I tried a lot of things, but this seems to be the final fail save method to convert any string to proper UTF-8.

If your string to be converted to utf-8 is something other than iso-8859-1 (such as iso-8859-2 (Polish/Croatian)), you should use recode_string() or iconv() instead rather than trying to devise complex str_replace statements.

If you are looking for a function to replace special characters with the hex-utf-8 value (e.g. für Webservice-Security/WSS4J compliancy) you might use this:

$textstart = «Größe»;
$utf8 =»;
$max = strlen($txt);

I was searching for a function similar to Javascript’s unescape(). In most cases it is OK to use url_decode() function but not if you’ve got UTF characters in the strings. They are converted into %uXXXX entities that url_decode() cannot handle.
I googled the net and found a function which actualy converts these entities into HTML entities (&#xxx;) that your browser can show correctly. If you’re OK with that, the function can be found here: http://pure-essence.net/stuff/code/utf8RawUrlDecode.phps

But it was not OK with me because I needed a string in my charset to make some comparations and other stuff. So I have modified the above function and in conjuction with code2utf() function mentioned in some other note here, I have managed to achieve my goal:

// Validate Unicode UTF-8 Version 4
// This function takes as reference the table 3.6 found at http://www.unicode.org/versions/Unicode4.0.0/ch03.pdf
// It also flags overlong bytes as error

This function may be useful do encode array keys and values [and checks first to see if it’s already in UTF format]:

[NOTE BY danbrown AT php DOT net: Original function written by (cmyk777 AT gmail DOT com) on 28-JAN-09.]

Avoiding use of preg_match to detect if utf8_encode is needed:

I recommend using this alternative for every language:

Don’t forget to set all your pages to «utf-8» encoding, otherwise just use HTML entities.

This function I use convert Thai font (iso-8859-11) to UTF-8. For my case, It work properly. Please try to use this function if you have a problem to convert charset iso-8859-11 to UTF-8.

$iso8859_11 = array(
«\xa1» => «\xe0\xb8\x81»,
«\xa2» => «\xe0\xb8\x82»,
«\xa3» => «\xe0\xb8\x83»,
«\xa4» => «\xe0\xb8\x84»,
«\xa5» => «\xe0\xb8\x85»,
«\xa6» => «\xe0\xb8\x86»,
«\xa7» => «\xe0\xb8\x87»,
«\xa8» => «\xe0\xb8\x88»,
«\xa9» => «\xe0\xb8\x89»,
«\xaa» => «\xe0\xb8\x8a»,
«\xab» => «\xe0\xb8\x8b»,
«\xac» => «\xe0\xb8\x8c»,
«\xad» => «\xe0\xb8\x8d»,
«\xae» => «\xe0\xb8\x8e»,
«\xaf» => «\xe0\xb8\x8f»,
«\xb0» => «\xe0\xb8\x90»,
«\xb1» => «\xe0\xb8\x91»,
«\xb2» => «\xe0\xb8\x92»,
«\xb3» => «\xe0\xb8\x93»,
«\xb4» => «\xe0\xb8\x94»,
«\xb5» => «\xe0\xb8\x95»,
«\xb6» => «\xe0\xb8\x96»,
«\xb7» => «\xe0\xb8\x97»,
«\xb8» => «\xe0\xb8\x98»,
«\xb9» => «\xe0\xb8\x99»,
«\xba» => «\xe0\xb8\x9a»,
«\xbb» => «\xe0\xb8\x9b»,
«\xbc» => «\xe0\xb8\x9c»,
«\xbd» => «\xe0\xb8\x9d»,
«\xbe» => «\xe0\xb8\x9e»,
«\xbf» => «\xe0\xb8\x9f»,
«\xc0» => «\xe0\xb8\xa0»,
«\xc1» => «\xe0\xb8\xa1»,
«\xc2» => «\xe0\xb8\xa2»,
«\xc3» => «\xe0\xb8\xa3»,
«\xc4» => «\xe0\xb8\xa4»,
«\xc5» => «\xe0\xb8\xa5»,
«\xc6» => «\xe0\xb8\xa6»,
«\xc7» => «\xe0\xb8\xa7»,
«\xc8» => «\xe0\xb8\xa8»,
«\xc9» => «\xe0\xb8\xa9»,
«\xca» => «\xe0\xb8\xaa»,
«\xcb» => «\xe0\xb8\xab»,
«\xcc» => «\xe0\xb8\xac»,
«\xcd» => «\xe0\xb8\xad»,
«\xce» => «\xe0\xb8\xae»,
«\xcf» => «\xe0\xb8\xaf»,
«\xd0» => «\xe0\xb8\xb0»,
«\xd1» => «\xe0\xb8\xb1»,
«\xd2» => «\xe0\xb8\xb2»,
«\xd3» => «\xe0\xb8\xb3»,
«\xd4» => «\xe0\xb8\xb4»,
«\xd5» => «\xe0\xb8\xb5»,
«\xd6» => «\xe0\xb8\xb6»,
«\xd7» => «\xe0\xb8\xb7»,
«\xd8» => «\xe0\xb8\xb8»,
«\xd9» => «\xe0\xb8\xb9»,
«\xda» => «\xe0\xb8\xba»,
«\xdf» => «\xe0\xb8\xbf»,
«\xe0» => «\xe0\xb9\x80»,
«\xe1» => «\xe0\xb9\x81»,
«\xe2» => «\xe0\xb9\x82»,
«\xe3» => «\xe0\xb9\x83»,
«\xe4» => «\xe0\xb9\x84»,
«\xe5» => «\xe0\xb9\x85»,
«\xe6» => «\xe0\xb9\x86»,
«\xe7» => «\xe0\xb9\x87»,
«\xe8» => «\xe0\xb9\x88»,
«\xe9» => «\xe0\xb9\x89»,
«\xea» => «\xe0\xb9\x8a»,
«\xeb» => «\xe0\xb9\x8b»,
«\xec» => «\xe0\xb9\x8c»,
«\xed» => «\xe0\xb9\x8d»,
«\xee» => «\xe0\xb9\x8e»,
«\xef» => «\xe0\xb9\x8f»,
«\xf0» => «\xe0\xb9\x90»,
«\xf1» => «\xe0\xb9\x91»,
«\xf2» => «\xe0\xb9\x92»,
«\xf3» => «\xe0\xb9\x93»,
«\xf4» => «\xe0\xb9\x94»,
«\xf5» => «\xe0\xb9\x95»,
«\xf6» => «\xe0\xb9\x96»,
«\xf7» => «\xe0\xb9\x97»,
«\xf8» => «\xe0\xb9\x98»,
«\xf9» => «\xe0\xb9\x99»,
«\xfa» => «\xe0\xb9\x9a»,
«\xfb» => «\xe0\xb9\x9b»
);

// Reads a file story.txt ascii (as typed on keyboard)
// converts it to Georgian character using utf8 encoding
// if I am correct(?) just as it should be when typed on Georgian computer
// it outputs it as an html file
//
// http://www.comweb.nl/keys_to_georgian.html
// http://www.comweb.nl/keys_to_georgian.php
// http://www.comweb.nl/story.txt

keys to unicode code

// this meta tag is needed

// note the sylfean font seems to be standard installed on Windows XP
// It supports Georgian

Re the previous post about converting GB2312 code to Unicode code which displayed the following function:

In the original function, the first latin chacter was dropped and it was not converting the first non-latin character after the latin text (everything was shifted one character too far to the right). Reversing those two lines makes it work correctly in every example I have tried.

Also, the source of the gb2312.txt file needed for this to work has changed. You can find it a couple places:

Someday they might be hardcoded into PHP.
*/

The following Perl regular expression tests if a string is well-formed Unicode UTF-8 (Broken up after each | since long lines are not permitted here. Please join as a single line, no spaces, before use.):

Источник