= max_position: return params["max_position"] = max_position = position class TwitterTimelineExtractor(TwitterExtractor): """Extractor for all images from a user's timeline""" subcategory = "timeline" pattern = (r"(?:https?://)?(?:www\.|mobile\.)?twitter\.com" r"/(?!search)([^/?&#]+)/?(?:$|[?#])") test = ( ("https://twitter.com/supernaturepics", { "range": "1-40", "url": "0106229d408f4111d9a52c8fd2ad687f64842aa4", "keyword": "37f4d35affd733d458d3b235b4a55f619a86f794", }), ("https://mobile.twitter.com/supernaturepics?p=i"), ) def tweets(self): url = "{}/i/profiles/show/{}/timeline/tweets".format( self.root, self.user) return self._tweets_from_api(url) class TwitterMediaExtractor(TwitterExtractor): """Extractor for all images from a user's Media Tweets""" subcategory = "media" pattern = (r"(?:https?://)?(?:www\.|mobile\.)?twitter\.com" r"/(?!search)([^/?&#]+)/media(?!\w)") test = ( ("https://twitter.com/supernaturepics/media", { "range": "1-40", "url": "0106229d408f4111d9a52c8fd2ad687f64842aa4", }), ("https://mobile.twitter.com/supernaturepics/media#t"), ) def tweets(self): url = "{}/i/profiles/show/{}/media_timeline".format( self.root, self.user) return self._tweets_from_api(url) class TwitterSearchExtractor(TwitterExtractor): """Extractor for all images from a search timeline""" subcategory = "search" directory_fmt = ("{category}", "Search", "{search}") pattern = (r"(?:https?://)?(?:www\.|mobile\.)?twitter\.com" r"/search/?\?(?:[^&#]+&)*q=([^&#]+)") test = ("https://twitter.com/search?q=nature", { "range": "1-40", "count": 40, }) def metadata(self): return {"search": self.user} def tweets(self): url = "{}/i/search/timeline?f=tweets&q={}".format( self.root, self.user) return self._tweets_from_api(url, "-1") class TwitterTweetExtractor(TwitterExtractor): """Extractor for images from individual tweets""" subcategory = "tweet" pattern = (r"(?:https?://)?(?:www\.|mobile\.)?twitter\.com" r"/([^/?&#]+|i/web)/status/(\d+)") test = ( ("https://twitter.com/supernaturepics/status/604341487988576256", { "url": "0e801d2f98142dd87c3630ded9e4be4a4d63b580", "keyword": "3fa3623e8d9a204597238e2f1f6433da19c63b4a", "content": "ab05e1d8d21f8d43496df284d31e8b362cd3bcab", }), # 4 images ("https://twitter.com/perrypumas/status/894001459754180609", { "url": "c8a262a9698cb733fb27870f5a8f75faf77d79f6", "keyword": "49165725116ac52193a3861e8f5534e47a706b62", }), # video ("https://twitter.com/perrypumas/status/1065692031626829824", { "options": (("videos", True),), "pattern": r"ytdl:https://video.twimg.com/ext_tw_video/.*.m3u8", }), # content with emoji, newlines, hashtags (#338) ("https://twitter.com/yumi_san0112/status/1151144618936823808", { "options": (("content", True),), "keyword": {"content": ( "re:晴、お誕生日おめでとう🎉！\n実は下の名前が同じなので結構親近感ある" "アイドルです✨\n今年の晴ちゃんめちゃくちゃ可愛い路線攻めてるから、そろ" "そろまたかっこいい晴が見たいですねw\n#結城晴生誕祭2019\n#結城晴生誕祭" )}, }), # Reply to another tweet (#403) ("https://twitter.com/tyson_hesse/status/1103767554424598528", { "options": (("videos", "ytdl"),), "pattern": r"ytdl:https://twitter.com/i/web.+/1103767554424598528", }), # /i/web/ URL ("https://twitter.com/i/web/status/1155074198240292865", { "pattern": r"https://pbs.twimg.com/media/EAel0vUUYAAZ4Bq.jpg:orig", }), # quoted tweet (#526) ("https://twitter.com/Pistachio/status/1222690391817932803", { "pattern": r"https://pbs\.twimg\.com/media/EPfMfDUU8AAnByO\.jpg", "keyword": { "author": {"name": "Afro_Herper", "id": 786047748508221440}, "user" : {"name": "Pistachio" , "id": 3533231}, }, }), # TwitPic embeds (#579) ("https://twitter.com/i/web/status/112900228289540096", { "options": (("twitpic", True),), "pattern": r"https://\w+.cloudfront.net/photos/large/\d+.jpg", "count": 3, }), ) def __init__(self, match): TwitterExtractor.__init__(self, match) self.tweet_id = match.group(2) def tweets(self): url = "{}/i/web/status/{}".format(self.root, self.tweet_id) cookies = {"app_shell_visited": "1"} headers = {"User-Agent": self.user_agent, "Referer": url} response = self.request(url, cookies=cookies, headers=headers) if response.history and response.url == self.root + "/": raise exception.AuthorizationError() page = response.text end = page.index('class="js-tweet-stats-container') beg = page.rindex('

= 400: raise exception.StopExtraction(response.text) data = response.json() tweets = data["globalObjects"]["tweets"] if not tweets: return for tweet_id, tweet_data in tweets.items(): tweet_url = "{}/i/web/status/{}".format(self.root, tweet_id) tweet_data["_extractor"] = TwitterTweetExtractor yield Message.Queue, tweet_url, tweet_data inst = data["timeline"]["instructions"][0] for entry in inst["addEntries"]["entries"]: if entry["entryId"].startswith("cursor-bottom-"): params["cursor"] = \ entry["content"]["operation"]["cursor"]["value"] break @memcache() def _guest_token(extr, headers): return extr.request( "https://api.twitter.com/1.1/guest/activate.json", method="POST", headers=headers, ).json().get("guest_token")