Таки, доброго дня. Если коротко, то необходимо вытащить из статьи в википедии все ссылки. Чуток покопавшись, нашел AP...

четверг, 24 июля 2014

14:46

все записи пользователя в сообществе Urban knight

Успокой мой пьяный разум многоликая река. Пусть отныне вдохновляют лишь камни да вода.

Таки, доброго дня.
Если коротко, то необходимо вытащить из статьи в википедии все ссылки. Чуток покопавшись, нашел API через который можно получить необходимую статью. В получаемой статье ссылки имеют вот такй заковыристый синтаксис
[[Мещанство|мещанина]]
Две скобки, название статьи, слово для читаемого вида, две скобки.
Чтоб вытащить названия статей пробовал использовать вот такое выражение
preg_match_all('/(?<=\[\[)([^\|])+(?=(\|)?.*(\]\]))/', $input, $matches);

Как я это вижу:
начинается с двух скобок
текст, не содержащий вертикальную палку, один или более символов
заканчиваетсяя всё на вертикальную палку одну или ноль, рандомные символы и две закрывающие скобки

Если брать текст, про Ленина, то не правильно уже с второго результата =(

Ссылка на статью, про Ленина через API
ru.wikipedia.org/w/api.php?format=xml&action=qu...

@темы: PHP

URL

Поделиться

Рыба, которая не хочет быть такой, как все рыбы, выбрасыв... Cегодня "летал" на воздушном шаре. Класс! Жаль ... Что это напоминает? http://www.centroburgos.com/html/fr...

Вчера на торгах в Соммерсби (Великобритания) была продана... http://swissposters.library.cmu.edu/Swiss/ У швейцарцев... Это ва не...

Комментарии

24.07.2014 в 15:02

Скептичный циник

Миру - мир. А Вам - пломбир!

Что-то вы как-то замудрили, не?

Регексп для поиска "[[Мещанство|мещанина]]" будет выглядеть вот так (запилил туда кусок текста про Ленина):
/\[{2}([\w\s]+\|[\w\s]+)\]{2}/ui
Затем массив этих строк обходим foreach ($data as $str), делаем explode('|', $str) и далее по нужной логике.

URL